Vous êtes sur la page 1sur 4

Acerca de OCR

Que es Reconocimiento ptico de carcteres (OCR)


Digamos que Usted quiere digitalizar un artculo de una revista como un contrato imprimido. Usted puede pasar horas reescribiendo y despus corrigiendo los errores. O puede convertir todos materiales requeridos en formato digital en pocos minutos usando un escner (o cmara digital y un soft!are de "econocimiento #ptico de $aracteres.

Que exactamente significa OCR? "econocimiento #ptico de $aracteres% o O$"% es una tecnologa que le permite convertir diferentes tipos de documentos% tales como documentos en papel escaneados% &D' archivos o imgenes captadas por una cmara digital en datos con opci(n de b)squeda y funcionalidad de editar. *magina que Ud. tiene documento en papel + por e,emplo% un artculo de revista% un folleto% o un contrato en &D' cual su socio le envi( a Ud. por email. Obviamente% un escner no ser suficiente para hacer as que Ud. pueda editar esa informaci(n% digamos% en -icrosoft .ord. /odo lo que puede hacer un escner es crear una imagen o una instantnea de documento que es nada ms que una colecci(n de puntos negros y blancos o color% conocida como imagen de trama. $on fines de e0traer y reusar los datos de los documentos escaneados% imgenes de cmara o de &D's% necesita un soft!are de O$" que va a separar las letras de la imagen% ponerlas en palabras y despus las palabras en frases% lo que le permite tener acceso y editar el contenido de documento original.

Qu hay detrs de a tecno og!a OCR?


1os mecanismos e0actos que le permitan a la gente reconocer los ob,etos aun no pueden ser entendidos% pero hay 2 principios bsicos que los cientficos conocen muy bien + integridad% intencionalidad% adaptabilidad (*&34 . 5stos principios construyen la base de 36677 'ine"eader O$" y &D' /ransformer que le permitan a ella reproducir el reconocimiento natural o como el ser humano. 8amos a ver como 'ine"eader O$" reconoce el te0to. &rimero% el programa de O$" analiza la estructura de la imagen del documento. 5l divide la pgina en elementos tales como bloques de te0to% tablas% imgenes y etc. 1as lneas estn dividas en palabras y despus + en caracteres. $omo los caracteres han sido se9alados% el programa les compara con un con,unto de imgenes del patr(n. 5l avanza los numerosos hip(tesis sobre que es este carcter. 5n base de estas hip(tesis el programa analiza diferentes variantes de ruptura de lneas en palabras y palabras en caracteres. Despus de procesar un enorme n)mero de tales hip(tesis probabilsticas% el programa finalmente toma la decisi(n% presentando a Ud. el te0to reconocido.

Cmo usar e OCR "oft#are?

Usar 36677 'ine"eader O$" es fcil: el proceso generalmente consiste de 2 etapas: 3brir (;can el documento% "econocerlo y despus <uardar en un formato conveniente (DO$% "/'% =1;% &D'% >/-1% /=/ etc. o e0portar los datos directamente a una de las aplicaciones de Office tales como -icrosoft .ord% 50cel o 3dobe 3crobat. 3dems% la ultima versi(n de 36677 'ine"eader soporta el modo de /areas 3utomticas que es esencial cuando Ud. hace tareas de rutina regularmente. $on esta funci(n% las areas de reconocimiento lanzan automticamente sin tener que e,ecutar manualmente todos los pasos mencionados anteriormente. /odo el proceso de conversi(n de los datos de documento en papel original% imagen o &D' le lleva menos de un minuto% y despus el documento reconocido finalmente se ve igual que el original?

$%

OCR&

Q'$

$"

)ARA

Q'$

"$

)'$*$

'+,%,-AR.

5l OCR (Optical character recognition es un soft!are de reconocimiento de te0to que saca de una imagen el te0to que contiene y lo transforma en cadenas de caracteres para guardarlos en un formato que se pueda utilizar en programas de edici(n de te0to. $uando tenemos una imagen (ya sea una fotografa o un documento que hayamos escaneado % el te0to que contiene forma parte de esa imagen% al igual que cualquier elemento de la misma (un dibu,o o un esquema% por e,emplo . &ues bien% si necesitamos e0traer ese te0to para poder editarlo% necesitamos un programa de O$" que reconozca dicho te0to y lo transforme en una cadena de caracteres (ya sea 3;$** o Unicode y posteriormente copiar esta cadena a un programa de edici(n para ya poder traba,ar con ella% con el consiguiente ahorro de tiempo al no tener que teclear este te0to. 6sicamente% el sistema que utilizan es el siguiente: 5l sistema usado hasta no hace mucho consista en que el O$" aislaba la imagen correspondiente a un carcter y la comparaba con una base de caracteres para determinar su correspondiente c(digo 3;$** o bien Unicode. Una vez reconocido lo transformaba y lo trasladaba al documento O$" resultante. 5ste sistema tena el inconveniente de que traba,aba con un n)mero limitado de fuentes% por lo que el resultado obtenido no siempre era el deseado. 3dems% en te0tos muy largos y con inclusi(n de frases en cursiva% por e,emplo% el proceso era bastante lento. 1os programas actuales de O$" estn basados en el anlisis de caractersticas de los caracteres en vez de en la coincidencia de las matrices de estos% lo que permite una mayor velocidad en el proceso y el no tener que depender de una limitada base de fuentes. >ay en el mercado bastantes programas de O$"% entre los que cabe destacar los conocidos Omni&age% 3bbyy 'ine "eader o "53Diris. 8ersiones reducidas de estos programas suelen contarse entre el soft!are incluido en los escneres. $abe destacar entre ellos el Omni&age &rofessional por su amplia variedad de opciones y su buena presentaci(n y funcionamiento. 5stos programas son de especial utilidad cuando necesitamos hacer referencia a te0tos en un escrito (copiar literalmente un te0to dentro de otro % como puede ser el caso de redacci(n de informes o referencias bibliogrficas.

/ambin pueden ser utilizados en el mundo de la m)sica% ya que la mayora de ellos tienen tambin capacidad de leer partituras musicales. 3ctualmente estos programas son capaces de reconocer no solo el te0to en s% sino tambin el estilo y formato de este% aunque dentro de unas limitaciones% haciendo necesario que posteriormente editemos el te0to resultante y revisemos estos dos parmetros. 3hora bien% lo que s que tenemos que tener muy claro es que estos programas no hacen milagros. &ara su correcto funcionamiento es necesario que la imagen de donde provenga dicho te0to est en las me,ores condiciones posibles para que pueda reconocer correctamente los caracteres. >ay que tener en cuenta que factores tales como un te0to borroso (aunque sea solo ligeramente % papel manchado o demasiado fino% arrugas o ara9azos en el documento% falta de una parte de una letra% cualquier tipo de transparencia en el papel% etc. van a dificultar el correcto reconocimiento de este te0to. 5l promedio de efectividad de los programas O$"% en perfectas condiciones% ronda el @AB% disminuyendo de forma ostensible al disminuir la calidad del original. 3 esto hay que a9adir una correcta configuraci(n del escner tanto en su resoluci(n como en su brillo y en la limpieza de la lente y cristal. Uno de los requisitos bsicos para que un programa O$" funcione correctamente es que necesita una imagen de gran calidad. 5s cierto que tambin pueden reconocer te0tos escritos manualmente% pero en este caso siempre a condici(n de que estn escritos claramente% a ser posible con letra de molde% y que esta se aseme,e lo ms posible a un tipo de letra e0istente.

(Optical character recognition). Tipo de software que se encarga de reconocimiento ptico decaracteres. Se encarga de extraer de una imagen los caracteres de un texto y los guarda en un formatoque pueda editarse como texto. Sirve para, por e emplo, guardar en forma de texto im!genesescaneadas de un li"ro sin pasarlo a mano, o sea, tipear caracter por caracter en un editor de texto. #os softwares son relativamente fia"les aunque suelen fallar si las im!genes o las letras no son claras. $s un tipo de reconocimiento como lo son el reconocimiento de vo%, el reconocimiento de marcas (O&'), reconocimiento de escritura, etc.

Qu es un software OCR?
() de mar%o de *)+* ( Ricardo R )
inShare++

Se conoce como software OCR o simplemente OCR a toda herramienta o programa de computacin que permita reali%ar un reconocimiento ptico de caracteres (por sus siglas en ingl,s, Optical Character Recognition) y que normalmente se utili%a en las agencias de traduccin para la conversin de archivos -./ que provienen de diferentes or0genes. $sta es la herramienta ideal para convertir archivos de 1do"e 2n.esign, 3uar4, 1do"e 2llustrator, u otros formatos com5nmente utili%ados en el !rea de dise6o. 7ormalmente, los traductores no est!n muy familiari%ados con este tipo de herramientas, pero s0 lo est!n los Project Managers de las agencias, ya que son las personas que ha"itualmente est!n a cargo de la conversin de los archivos y su posterior an!lisis del conteo de pala"ras. 8n O9' es la herramienta mediante la cual un documento -./, normalmente no edita"le, se convierte en un archivo :ord edita"le que a posteriori se puede utili%ar para traducir. .ependiendo del tipo de archivo, un -& sa"e qu, tipo de O9' utili%ar. -or e emplo, el Abby Reader es una herramienta que funciona perfectamente con -./s no edita"les, como por e emplo archivos

escaneados de mediana calidad (cuidado con los escaneados de mala calidad, estos suelen ser un pro"lema siempre), archivos con im!genes o documentos que no tienen un origen espec0fico. $l Abby Reader,entonces, ;reconoce pticamente< este archivo no edita"le y lo transforma en un documento :ord edita"le. -ara convertir un -./ edita"le, en cam"io, (por e emplo, un -./ cuyo archivo de origen es un documento &s :ord, pero del cual no tenemos ese documento y a5n as0 lo tenemos que convertir para tra"a ar), la me or herramienta para utili%ar en este caso es el Solid Converter. 1tencin= todo esto parece ser muy f!cil a simple vista, pero siempre existe la posi"ilidad de optimi%ar el uso de estas herramientas. -or e emplo, un archivoescaneado y procesado con 1""y no siempre suele convertirse a la perfeccin= es pro"a"le que el archivo tenga ta"las o columnas que hagan que la conversin sea dif0cil. Otro caso es el de los enca"e%ados y pies de p!gina de un documento :ord. $stos pueden traer pro"lemas al momento de convertir un archivo. -ara estos casos, siempre existen configuraciones que se pueden a ustar en las opciones de estos programas O9' antes de utili%arlos. Se recomienda la consulta de alg5n tutorial o ayuda en l0nea por 2nternet para poder conocer me or cmo tra"a ar con estas herramientas. $tiquetas= 1""y, convertido, coti%acin, escaneado, 2nternet $sta entrada se pu"lic , el >iernes, () de mar%o de *)+* a las ++=+) horas y est! guardada "a o 9ostos de Traduccin, -ara 9ompradores de Traduccin. -uedes seguir cualquier respuesta a esta entrada mediante el canal 'SS *.). -uedes de ar un comentario o enviar un trac4"ac4 desde tu propio sitio. * comentarios para ;?3u, es un software O9'@< +. What Is an OCR Software dice= A de a"ril de *)+* a las +B=(A C...D (>ersin en espa6ol= http=EE"logFdeFtraduccion.trustedtranslations.comEqueFesFunFsoftwareFocrF*)+*F )(F().html) C...D 'esponder *. !C"#o calc$lar las palabras de doc$#entos co#plejos dice= *A de noviem"re de *)+( a las +)=+G CHD este tipo de documentos (que suelen guardarse con la extensin .pdf o . pg) es procesarlos con un software de reconocimiento de textos (O9'). $sto nos permitir! a"rir la conversin del documento en :ord, por e emplo, y tratarla m!s o CHD

Vous aimerez peut-être aussi