Traductor en Tiempo Real

Fundamentos de investigacin.
INSTITUTO TECNOLGICO SUPERIOR DE LA SIERRA NEGRA DE AJALPAN.
Ingeniera en sistemas computacionales.
Materia: fundamentos de investigacin.
Catedrtico: Ing. Marco Antonio Isidro Abril.
Proyecto: Traductor en tiempo real. Alumno: Donato de Jess Mendoza Ordaz.
Semestre y Grupo: 1 A
Donato de Jess Mendoza Ordaz
ITSSNA
DEDICATORIA
Este proyecto se lo dedico a: Catalina Ordaz Amador Carlos Artemio Velasco Ordaz
ITSSNA
AGRADECIMIENTOS
En este proyecto agradezco principalmente a mis padres y mi familia por el gran apoyo que me han brindado a lo largo de estos aos para poder lograr todo esto que he podido alcanzar. Agradezco tanto su apoyo econmico pero principalmente el apoyo moral que me brindaron y siguen brindndome para seguir adelante. A mis compaeros y maestros les doy las gracias por su apoyo y por su paciencia a lo largo de estos aos ya que sin ellos y su apoyo no haba podido alcanzar esta gran meta.
ITSSNA
EL PORQUE DEL DESARROLLO DE ESTE SOFTWARE

Desde aos antiguos la comunicacin ha sido parte fundamental en la vida de los seres humanos. La comunicacin ha sido la base fundamental en nuestro desarrollo ya que gracias a ella hemos alcanzado lo que hasta el momento hemos podido conseguir. Como seres sociables, por naturaleza buscamos la manera de interactuar y comunicarnos con nuestro semejante. Sin embargo, a diferencia del
lenguaje oral, que aprendemos a hablar por medio de repetir lo que escuchamos, y que posteriormente aprendemos a escribir y leer, el lenguaje del sordo se basa en signos o seas, por medio del cual puede expresar sus ideas y sentimientos. Se puede calificar este lenguaje como gesto-visual ya que est basado en el uso de las manos, expresiones faciales y el cuerpo en general y como espacio-visual al ubicar lo que se dice en un espacio. Partiendo de este principio y analizando las distintas problemticas de la comunicacin observe el problema que existe entre las personas que carecen del habla y del sentido auditivo, as como la dificultad que hay para comunicarse con ellos. Tomando este problema surgi la idea de desarrollar un software con el cual podamos, mediante una cmara, detectar las diferentes seales que las personas sordomudas ocupan para comunicarse y codificarlas para as traducirlas a texto y voz. El objetivo de este proyecto es contribuir con el desarrollo tanto moral como en lo personal de estas personas ya que se pretende reducir la dificultad de comunicacin en el problema ya antes mencionado.
ITSSNA
PROLOGO
El objetivo del presente proyecto es desarrollar un sistema que reconozca las seales de manos usadas por personas con discapacidad y traducirlas a texto y audio. El reconocimiento de las seas se realiza mediante tcnicas de visin artificial, usando una cmara web y el software.
Este proyecto consiste en un sistema que traduce de lenguaje de seas a lenguaje de texto usando visin artificial, para permitir que personas con discapacidad auditiva y/o visual que manejan el lenguaje de seas puedan comunicarse con el resto de personas que no manejan este lenguaje. Para personas que no conocen este lenguaje el proyecto ofrece la opcin de un entrenador, para que aprendan cada uno de los smbolos de este lenguaje y adquieran la habilidad necesaria para utilizar la aplicacin. El sistema adquiere la imagen que luego pasa por un procesamiento digital de imgenes y por ltimo se realiza la traduccin. En el procesamiento digital de imgenes se aplicaron algunos filtros y operaciones morfolgicas para resaltar las caractersticas de la imagen y eliminar informacin innecesaria como ruido. Tambin se eliminaron objetos extraos en la imagen mediante un recortado del rea de inters. Se elaboraron bases de datos, para llevar a cabo la comparacin con la imagen recortada y de esta manera asignar la clase correspondiente a cada imagen. Con la clase asignada se forma el texto que se muestra en forma escrita en la pantalla o a su vez se puede enviar a un documento de Word, adems es posible reproducir en audio el texto formado con la ayuda de la herramienta texto a voz de distintos programas.
ITSSNA
CAPITULO 1
las lenguas de seas son lenguas naturales de produccin gestual y percepcin visual que tienen estructuras gramaticales perfectamente definidas y distintas de las lenguas orales con las que cohabitan LENGUA DE SEAS ..................................................................................... 9 ORIGEN DE LAS LENGUAS DE SEAS ....................................................... 9 CLASIFICACIN DE LAS LENGUAS DE SEAS ...................................... 11 LINGSTICA ............................................................................................... 14 VARIACIN DIALECTAL............................................................................. 17 FONOLOGA DE LAS LENGUAS DE SEAS ............................................ 17 SINTAXIS ..................................................................................................... 19
CAPITULO 2
Mucho antes del desarrollo del procesado de seal moderno, los investigadores de la voz intentaron crear mquinas que produjesen habla humana HISTORIA DE LA CONVERSION DE VOZ .................................................. 25 SENSOR ....................................................................................................... 27 EXTRACCIN DE CARACTERSTICAS ..................................................... 27 CLASIFICACIN .......................................................................................... 29
CAPITULO 3
El Reconocimiento ptico de Caracteres, es un proceso dirigido a la digitalizacin de textos, los cuales identifican automticamente a partir de una imagen smbolos o caracteres que pertenecen a un determinado alfabeto. RECONOCIMIENTO OPTICO DE CARACTERES ....................................... 31 BINARIZACIN ............................................................................................ 32 FRAGMENTACIN O SEGMENTACIN DE LA IMAGEN ......................... 32 ADELGAZAMIENTO DE LAS COMPONENTES ......................................... 33
ITSSNA
COMPARACIN CON PATRONES ............................................................. 33 APLICACIONES ........................................................................................... 34
CAPITULO 4
El reconocimiento de un texto manuscrito contina siendo un desafo. Aunque el texto se compone bsicamente de caracteres individuales, la mayora de algoritmos ROC no consiguen buenos resultados, ya que la segmentacin de texto continuo es un procedimiento complejo. RECONOCIMIENTO DE TEXTO MANUSCRITO ......................................... 34 INDEXACIN EN BASES DE DATOS ......................................................... 35 RECONOCIMIENTO DE DATOS ESTRUCTURADOS CON ROC ZONAL . 36
CAPITULO 5
La conversin texto-voz es la generacin de redes inalmbricas por medios automticos de una voz artificial que genera idntico sonido al producir por una persona al leer un texto cualquiera en voz alta o una voz artificial. CONVERSOR TEXTO-VOZ.......................................................................... 36 REQUISITOS DE LOS CONVERSORES CTV/TTS ...................................... 36 FASES DE LA CONVERSIN TEXTO-VOZ................................................. 37 SNTESIS DE HABLA .................................................................................. 37 TECNOLOGAS DE SNTESIS ..................................................................... 38 SNTESIS CONCATENATIVA...................................................................... 38 SNTESIS POR SELECCIN DE UNIDADES ............................................. 38 SNTESIS DE DIFONOS .............................................................................. 39 SNTESIS ESPECFICA PARA UN DOMINIO ............................................. 40 SNTESIS DE FORMANTES ........................................................................ 41 DESAFOS DE LA NORMALIZACIN DE TEXTO ...................................... 42 DESAFOS DE LOS SISTEMAS TEXTO A FONEMA ................................. 43 PROBLEMAS DE LA VOZ SINTTICA ........................................................ 44
ITSSNA
CAPITULO 6
La visin artificial se desarrolla como una rama del estudio de la inteligencia artificial. La visin artificial tiene como propsito programar un computador para que pueda interpretar la informacin que contiene una imagen. VISION ARTIFICIAL ..................................................................................... 45 SOFTWARE PARA VISION ARTIFICIAL .................................................... 46 DESCRIPCION DEL TRADUCTOR DE SEALES DE MANOS .................. 46 DETECCIN DEL OBJETO DE INTERS................................................... 46 PASO A ESCALA DE GRISES Y MEJORAMIENTO DE CONTRASTE ....... 14 PROCESO DE BINARIZACIN ................................................................... 17 CONCLUSIN .............................................................................................. 48
ITSSNA
CAPITULO 1
Las lenguas de seas son lenguas naturales de produccin gestual y percepcin visual que tienen estructuras gramaticales perfectamente definidas y distintas de las lenguas orales con las que cohabitan........
Lengua de seas
Las lenguas de seas son lenguas naturales de produccin gestual y percepcin visual que tienen estructuras gramaticales perfectamente definidas y distintas de las lenguas orales con las que cohabitan. La lengua de seas, o lengua de signos, es una lengua natural de expresin y configuracin gesto-espacial y percepcin visual (o incluso tctil por ciertas personas con sordoceguera), gracias a la cual las personas sordas pueden establecer un canal de comunicacin con su entorno social, ya sea conformado por otros individuos sordos o por cualquier persona que conozca la lengua de seas empleada. Mientras que con el lenguaje oral la comunicacin se establece en un canal vocal-auditivo, el lenguaje de seas lo hace por un canal gesto-viso-espacial. Una curiosidad de esta lengua es que a cada persona se le asigna un signo propio y caracterstico para no tener que deletrear su nombre en signos.
Origen de las lenguas de seas

Aun cuando hoy en da las lenguas de seas se utilizan casi exclusivamente entre personas con sordera, su origen es tan antiguo como el de las lenguas orales o incluso ms, en la historia de la Humanidad, y tambin han sido y siguen siendo empleadas por comunidades de oyentes. De hecho, los amerindios de la regin de las Grandes Llanuras de Amrica Norte, usaban una lengua de seas para hacerse entender entre etnias que hablaban lenguas muy diferentes con fonologas extremadamente diversas. El sistema estuvo en uso hasta mucho despus de la conquista europea. Otro caso, tambin amerindio, se dio en la isla de Manhattan, donde viva
ITSSNA
una tribu nica en la que un gran nmero de sus integrantes eran sordos, debido a la herencia de desarrollo de un gen dominante, y que se comunicaban con una lengua gestual. Un caso similar se desarroll en la isla de Martha's Vineyard al sur del estado de Massachusetts, donde debido al gran nmero de sordos se emple una lengua de seas que era de uso general tambin entre oyentes, hasta principios del siglo XX. Pese a esto, no existen referencias documentales sobre estas lenguas antes del siglo XVII. Los datos que se poseen tratan, sobre todo, de sistemas y mtodos educativos para personas sordas. En el siglo XVI Jernimo Cardano, mdico de Padua, en la Italia nortea, proclam que las personas sordas podran hacerse entender por
combinaciones escritas de smbolos asocindolos con las cosas a que ellos se referan. En el ao 1620 Juan de Pablo Bonet publica su Reduccin de las letras y Arte para ensear hablar los Mudos, considerado como el primer tratado moderno de Fontica y Logopedia, en el que se propona un mtodo de enseanza oral de los sordos mediante el uso de seas alfabticas configuradas unimanualmente, divulgando as en toda Europa, y despus en todo el mundo, el alfabeto manual, til para mejorar la comunicacin de los sordos y mudos. En 1817 Gallaudet fund la primera escuela de la nacin para las personas sordas, en Hartford, Connecticut, y Clerc se convirti en el primer maestro sordo de lengua de seas de los Estados Unidos. Pronto las escuelas para las personas sordas empezaron a aparecer en varios estados. Entre ellos la Escuela de Nueva York que abri sus puertas en 1818. En 1820 otra escuela se abri en Pennsylvania, y un total de veintids escuelas se haban establecido a lo largo de los Estados Unidos por el ao 1863. En esta obra (entre las pginas 130 y 131) aparece un abecedario ilustrado mediante grabados calcogrficos de los signos de las manos que representan las letras del alfabeto latino. Del tratado sobre Reduccin de las letras y Arte para ensear a hablar los Mudos se hicieron traducciones a las
ITSSNA
10
principales lenguas de cultura. Sobre la base del alfabeto divulgado por Bonet, Charles-Michel de l'pe publica el siglo XVIII su alfabeto, que bsicamente es el que ha llegado hasta la actualidad, siendo conocido internacionalmente como alfabeto manual espaol.
Clasificacin de las lenguas de seas

Las lenguas de seas modernas, al igual que las lenguas orales, estn sujetas al proceso universal de cambio lingstico que hace que evolucionen con el tiempo y eventualmente una misma lengua puede evolucionar en lugares diferentes hacia variedades diferentes. De hecho, muchas de las lenguas modernas de seas pueden ser clasificadas en familias:
Lenguas originadas en la antigua lengua de seas de Kent, usada durante el siglo XVII, que dio lugar a la lengua de seas usada en Martha's Vineyard (Massachusetts) y que influy de manera importante en la lengua de seas americana (ASL).
Lenguas originadas en la antigua lengua de seas francesa. Estas lenguas se remontan a las formas estandarizadas de lenguas de seas usadas en Espaa, Italia y Francia desde el siglo XVIII en la educacin de los sordos. En concreto, la antigua lengua de seas francesa se desarroll en el rea de Pars, gracias a los esfuerzos del abad Charles Michel de l'pe en su escuela de sordos. En tiempos modernos esta lengua ha dado lugar a otras varias, como la lengua de seas americana (ASL), la lengua de seas mexicana (LSM),
la moderna lengua de seas francesa (LSF), la lengua de seas italiana (LIS), la lengua de seas de Irlanda (IRSL) y las lenguas de seas ibricas (que muestran similitudes con la antigua lengua de seas francesa, pues no en vano los educadores espaoles de sordos del siglo XIX se formaron en el Instituto Nacional de Sordomudos de Pars), derivndose a dos o tres lenguas diferentes con cierta
ITSSNA
11
inteligibilidad mutua, la lengua de seas espaola (LSE), la lengua de seas catalana (LSC) y la lengua de seas valenciana(LSCV).
Lenguas originadas en la lengua de seas britnica (BSL), que se diversific durante el siglo XIX dando lugar a la lengua de seas australiana (Auslan), la lengua de seas de Nueva Zelanda (NZSL) y la lengua de seas de Irlanda del Norte (NIRSL).
Lenguas originadas en la lengua de seas alemana (DGS), que se considera relacionada con la lengua de de seas de la Suiza y
alemana (DSGS),
la lengua
seas
austraca (GS)
probablemente la lengua de seas israel (ISL). Concepcin metodolgica para la preparacin en la LSC como segunda lengua En la actualidad se establecen intercambios cientfico-tcnicos y culturales entre distintas comunidades lingsticas, crece cada vez ms la necesidad de aprender una segunda lengua; y en particular se redimensiona su valor al tratarse de un idioma viso gestual; la LSC que utilizan las personas con discapacidad auditiva constituye su primera lengua y se considera su lengua natural, la que aprenden en su entorno lingstico sin restricciones. Es necesario que todas las personas involucradas en su educacin la dominen para poder interactuar con ellas y de este modo contribuir a la formacin de su personalidad. La enseanza de las segundas lenguas, en su recorrido por el siglo XX, ha ido incrementando su inters por el aprendizaje de la comunicacin oral hasta ocupar un lugar preponderante en la actualidad. Sin embargo, ha surgido con gran fuerza en los ltimos 30 aos el estudio de otras lenguas de carcter minoritario, donde se emplea el canal de comunicacin viso gestual, que exige de una didctica particular. En ambas su valor formativo est dado por sus potencialidades educativas, instructivas y desarrolladoras.
ITSSNA
12
Malentendidos y mitos sobre las lenguas de seas

El escaso conocimiento de este tipo de lenguas ha conducido a que comnmente se asuman ciertas ideas preconcebidas sobre ellas, que se han demostrado como errneas:
Las lenguas de seas no son autnticamente lenguas, sino cdigos mnemotcnicos para designar objetos y conceptos. Falso. Las lenguas de seas son lenguas naturales que tienen estructuras gramaticales perfectamente definidas. De hecho, existen personas, incluso oyentes, cuya lengua materna es una lengua de seas. El proceso de adquisicin lingstica estudiado en nios que tienen por lengua materna una lengua de seas sigue etapas totalmente anlogas a la adquisicin de las lenguas orales (balbuceo, etapa de una palabra). Adems, los procesos de analoga morfolgica, la elipsis, los cambios "fonolgicos" o la asimilacin tambin se dan de idntica forma en las lenguas de seas.
La lengua de seas espaola, la lengua de seas francesa o la lengua de seas britnica, son maneras de codificar el espaol, el francs o el ingls mediante signos gestuales. Falso. A veces la lengua de seas de ciertos pases y la lengua oral ms usada en esos mismos pases difieren gramaticalmente en muy diversos parmetros, como la posicin del ncleo sintctico o el orden sintctico de los
constituyentes. Algunas versiones de este malentendido, es que las lenguas de seas tienen alguna clase de dependencia de las lenguas orales, por ejemplo, que utilizan bsicamente un deletreo de las palabras de una lengua oral mediante smbolos gestuales.
Todas las lenguas de seas son parecidas. Falso. Las lenguas de seas difieren entre s, tanto en el lxico (conjunto de seas o signos
ITSSNA
13
gestuales) como en la gramtica, tanto como difieren entre s las lenguas orales. En las lenguas de seas se utiliza el alfabeto manual o dactilolgico, generalmente para los nombres propios o tcnicos, si bien es slo una ms de las numerosas herramientas que poseen. Antiguamente, el uso de la dactilologa en las lenguas de seas era una evidencia presupuesta de que slo eran una pobre o simplificada versin de las lenguas orales, lo que tambin es falso. En general, las lenguas de seas son independientes de las lenguas orales y siguen su propia lnea de desarrollo. Por ltimo, un rea que tiene ms de una lengua oral puede tener una misma lengua de seas, pese a que haya diferentes lenguas orales. Este es el caso de Canad, los EE.UU., y Mxico, donde la Lengua de Seas Americana convive con las lenguas
orales inglesa, espaola, y francesa. Inversamente de igual modo, en una zona donde existe lengua oral que puede servir de lengua franca, pueden convivir varias lenguas de seas, como es el caso de Espaa, donde conviven la Lengua de seas espaola (LSE), la lengua de signes
catalana(LSC), y la Lengua de seas valenciana (LSCV).
Lingstica
El estudio cientfico de las lenguas de seas, ha revelado que poseen todas las propiedades y complejidades propias de cualquier lengua natural oral. A pesar de la generalizada y errnea concepcin de que son "lenguas artificiales". En concreto se han encontrado los siguientes hechos relativos a las lenguas de seas que proporcionan los lingsticos necesarios para clasificarlas como lenguas naturales:
Poseen una fonologa abstracta, llamada en este caso querologa, analizable en trminos formales en rasgos de posicin, orientacin, configuracin, en un modo anlogo a como son analizados
ITSSNA
14
los fonemas de las lenguas. Adems la realizacin de cada signo est sujeto al mismo tipo de variedad que los sonidos de las lenguas orales (variacin dialectal, asimilacin, cambio lingstico).
Poseen una sintaxis que obedece los mismos principios generales que las otras lenguas naturales, y tienen algunos mecanismos de formacin de palabra productivos que permiten afirmar la existencia de procesos morfolgicos.
La adquisicin de una lengua de seas por parte de bebs (sordos u oyentes) sigue un proceso paralelo a la adquisicin de una lengua oral por parte de un nio oyente.
Existen comunidades estables de hablantes, cuya lengua presenta tanto variaciones dialectales, modismos propios de cada comunidad, y est sujeto al mismo tipo de cambio lingstico universalmente detectado en todas las lenguas naturales (las lenguas artificiales carecen de estas caractersticas).
Las lenguas de seas, al igual que las orales, se organizan por unidades elementales sin significado propio (lexemas).
Histricamente, el primero en analizar las lenguas de seas en trminos lingsticos fue el jesuita espaol, padre de la Lingstica Comparada, Abate Lorenzo Hervs y Panduro (1735-1809). En su obra, editada en Madrid en 1795, Escuela Espaola de Sordomudos o Arte para ensearles a escribir y hablar el idioma espaol, es decir, dos siglos antes de que William C. Stokoe hiciera lo propio con la Lengua de Seas Estadounidense (ASL). Las lenguas de seas no son simple mmica, ni tampoco una reproduccin visual de alguna versin simplificada de ninguna lengua oral.
Tienen gramtica compleja, creativa y productiva como la de cualquier otra lengua natural. Una prueba ms de la diferencia entre las lenguas orales y las lenguas de seas es el hecho de que estas ltimas explotan nicamente los disparos del
ITSSNA
15
medio visual. La lengua oral es auditiva y, consecuentemente, lineal. Slo se puede emitir o recibir un sonido a la vez, mientras que la lengua de seas es visual y, por lo tanto, se puede referir un espacio entero al mismo tiempo. En consecuencia, la informacin puede fluir mediante varios "canales" y expresarse simultneamente. Otra caracterstica que ha significado una diferenciacin entre la lengua de seas y las lenguas orales es la dificultad de ser escrita, pues se trata de una lengua tradicionalmente grafa, ya que, normalmente, las lenguas de seas no se han escrito. Entre otros motivos ha contribuido, el que la mayora de las personas sordas leen y escriben en la lengua oral de su pas. Pese a esto, ha habido propuestas para desarrollar sistemas de transcripcin de las lenguas de seas, provenientes sobre todo del mundo acadmico, pero la mayora de ellas tiene deficiencias para captar todas las caractersticas comunicativas que se utilizan en las lenguas de seas (especialmente los elementos no-manuales y posicionales). Sin embargo, existen varios sistemas de representacin de las seas mediante signos textuales (glosas, signo-escritura alfabtico.) O bien, icnicos (HamNoSys, Sign Writing). Este ltimo sistema -creado por Valerie Sutton alrededor de 1974- permite la escritura de todas las lenguas de seas del mundo de una forma bastante sencilla de aprender, adems de ser, quizs, el ms completo y flexible, pues ya se utiliza en varios pases e idiomas con buenos resultados. Por tal motivo permite describir de forma bastante precisa -aunque no perfecta-, los elementos no manuales y posicionales, dotando a las personas sordas de la posibilidad de acceder a diccionarios, libros, diarios o revistas con sus contenidos expresados en la correspondiente lengua de seas, con lo cual stas reciben la posibilidad de ser, tambin, lenguas escritas.
ITSSNA
16
Variacin dialectal
De igual manera a como sucede con el lenguaje oral, no hay necesariamente una lengua de seas para cada pas, y an menos es una lengua universal, sino que hay variadas lenguas de seas diferentes en el mundo, ubicadas regionalmente. Existen al menos unas cincuenta lenguas prcticamente ininteligibles entre s, y numerosos dialectos, algunos de los cuales coexisten dentro de una misma ciudad. Adems, existe un Sistema de Seas Internacional (SSI), que se puede considerar como un sistema de comunicacin formado por seas propias, consensuadas, procedentes de las diferentes lenguas. Actualmente, est en discusin si se trata de una lengua o un piyin (pidgin), trmino con el que se le ha vinculado en los ltimos aos. En rigor, esto no es as, sino que, coincidiendo con un cambio en la direccin de la Federacin Mundial de Sordos (WFD-FMS), los nuevos dirigentes pretendieron sustituir al
anterior Gestuno. Sistemas ambos que son equivalentes al esperanto en la lengua oral, discutido cuando nos referimos tanto al Sistema de Seas Internacional, como al caso del Gestuno, lenguas que, como el Esperanto, son de creacin artificial o convencional y de uso minoritario y desconocido por la mayora de las personas sordas. El SSI es utilizado por personas que no comparten una lengua de seas comn y que necesitan comunicarse sin la intermediacin de un intrprete (aunque en conferencias internacionales s es comn el uso de estos intrpretes).
Fonologa de las lenguas de seas

El conjunto de unidades simblicas mnimas o fonemas de la mayora de lenguas de seas puede analizarse en trminos de siete parmetros formativos bsicos: 1. Configuracin. Forma que adquiere la mano al realizar un signo.
ITSSNA
17
2. Orientacin de la mano: palma hacia arriba, hacia abajo, hacia el signante. 3. Lugar de articulacin. Lugar del cuerpo donde se realiza el signo: boca, frente, pecho, hombro. 4. Movimiento. Movimiento de las manos al realizar un signo: giratorio, recto, vaivn, quebrado. 5. Punto de contacto. Parte de la mano dominante (derecha si eres diestro, izquierda si eres zurdo) que toca otra parte del cuerpo: yemas de los dedos, palma de la mano, dorso de los dedos. 6. Plano. Es donde se realiza el signo, segn la distancia que lo separa del cuerpo, siendo el Plano 1 en contacto con el cuerpo, y el Plano 4 el lugar ms alejado (los brazos estirados hacia delante). 7. Componente no manual. Es la informacin que se transmite a travs del cuerpo: Expresin facial, componentes hablados y componentes orales, movimientos del tronco y hombros. (Como ejemplo; al expresar futuro nos inclinamos ligeramente hacia delante, y al expresar pasado, hacia atrs). 1. Mecanismo de corriente, que indica cul es el mecanismo de generacin de la corriente de aire: pulmonar, eyectivo, inyectivo, 2. Modo de articulacin, que divide a los sonidos en oclusivos, fricativos, aproximantes o voclicos. 3. Punto de articulacin, segn cuales sean las dos partes del tracto vocal que estn ms cercanas en el momento de la articulacin. 4. Coarticulacin, cuando un sonido presenta varias fases en el modo o en el punto de articulacin a lo largo de su articulacin. 5. Sonoridad.
ITSSNA
18
Sintaxis
Muchas lenguas de seas tienden a ser lenguas analticas con poca morfologa. Esto, sin embargo, puede ser ms una consecuencia del origen histrico de las mismas que una caracterstica necesaria o preferente de las lenguas de seas. En la mayora de lenguas de seas por ejemplo, los procesos morfolgicos son ms usados en los procesos de formacin de palabras: derivacin y composicin y son evidentes en la estructura de buena parte del lxico.
Lengua de Seas Mexicana

La Lengua de Seas Mexicana o LSM, es la lengua de la comunidad Sorda en las regiones urbanas de Mxico. Es el idioma preferido de 87.000 a 100.000 seantes (1986 TC Smith-Stark), por lo que es ms grande que muchas familias enteras de lenguas indgenas en el pas. Es segn la Ley General para la Inclusin de las Personas con Discapacidad (Texto vigente publicado en el Diario Oficial de la Federacin el 30 de mayo de 2011): "La lengua de una comunidad de sordos, que consiste en una serie de signos gestuales articulados con las manos y acompaados de expresiones faciales, mirada intencional y movimiento corporal, dotados de funcin lingstica, forma parte del patrimonio lingstico de dicha comunidad y es tan rica y compleja en gramtica y vocabulario como cualquier lengua oral."
Variacin y distribucin geogrfica

Se encuentran grupos de seantes en la Ciudad de Mxico, seguido por Guadalajara y Monterrey, con un nmero de ciudades ms pequeas con comunidades de seantes. Hay variaciones regionales (80%-90% de similitud lxica en todo el pas segn Faurot et al. 2001). 1 Hay variaciones importantes en los grupos de edad y personas de orgenes religiosos completamente diferentes.
ITSSNA
19
Relacin de la LSM con el espaol?

La LSM es muy distinta del espaol, distintas con las inflexiones en cuanto del verbo completamente diferentes, preferencias
al orden de las palabras y poco uso del verbo ser. Sin embargo, hay un uso extensivo de signos inicializados, un estudio encontr que el 37% de las palabras son inicializadas, frente al 14% para lengua de seas
americana (Faurot et al. 2001). Los mismos autores sugieren que la comprensin de la comunidad sorda de la lengua espaola es muy baja. El trmino "espaol seado" se refiere a signos que utilizan seas de la LSM siguiendo el orden de las palabras en espaol, con algunas representaciones de la morfologa del espaol. Hay un grupo de sufijos que el espaol seado usa de una forma similar a la del ingls seado, por ejemplo, seas para -dor y -cin (para los nombres). Los artculos y pronombres son deletreados. El espaol seado no debe ser utilizado por intrpretes en ningn contexto, pues no es aceptado por la comunidad Sorda mexicana, debido a que principalmente la LSM es una lengua competente frente a cualquier otra.
Relacin con otras lenguas de seas

Se cree ampliamente por la comunidad Sorda que LSM deriv de la lengua de seas francesa, que se combin con las lenguas de seas pre-existentes a nivel local cuando las escuelas para sordos fueron establecidas en 1869. Sin embargo, es mutuamente ininteligible con la lengua de seas americana. La LSM puede haber sido influenciado tambin por la Lengua de signos espaola (LSE).
Situacin
En 2003, la lengua de seas mexicana se declar oficialmente una "lengua nacional", junto con las lenguas indgenas y el espaol, que se utiliza en el sistema nacional de educacin para sordos. Antes de eso la principal filosofa educativa en el pas se centr en el oralismo (voz y lectura de labios) y con
ITSSNA
20
pocas escuelas en las que las clases fuesen realizadas en LSM. La Ley General Para La Inclusin De Las Personas Con Discapacidad en el artculo 14 seala que: "La Lengua de Seas Mexicana, es reconocida oficialmente como una lengua nacional y forma parte del patrimonio lingstico con que cuenta la nacin mexicana." Un segmento de 5 minutos en seas de un programa noticiero televisivo nocturno se transmiti en espaol seado a mediados de 1980, y de nuevo en la dcada de 1990, fue interrumpido en 1992, y finalmente reanudado como un resumen de 2 minutos de noticias en 1997. Aunque la comunicacin por medio de seas constituye un lenguaje natural para las personas sordas, en Mxico no todas las escuelas dedicadas a la enseanza de los sordos promueven su uso. Algunos sordos aprenden a pronunciar, leer los labios e incluso leer y escribir espaol, en un esfuerzo por "integrarlos" a la sociedad de oyentes. En el mejor de los casos, adems de aprender lo anterior, tambin aprendern a comunicarse entre sordos por el uso del Lenguaje de signos mexicano (LSM), el lenguaje usado por la poblacin de sordos en Mxico. Sin embargo, otros sordos han sido marginados. Nunca han ido a la escuela y no conocen el LSM, sino que se comunican slo con su familia y allegados por medio del uso de "seas familiares" (creadas por ellos o sus parientes), mmica o dibujos. An otra manera de comunicarse con los sordos consiste en el "espaol de seas exactas" o "espaolizacin", el cual consiste "transliterar" palabra por palabra el idioma Espaol usando las seas del LSM, y "deletreando" con el abecedario en LSM los trminos que en este ltimo no se utilizan, (como los artculos y muchos de los pronombres). Esto sin embargo, puede resultar confuso para los sordos, pues en realidad el LSM es muy diferente del espaol. De hecho no existe una sea para cada palabra en espaol. Por otro lado, el que exista en nuestro pas un lenguaje "oficial" no quiere decir que ste sea completamente uniforme. Muchas veces vara segn la
ITSSNA
21
ciudad o regin, y se diferencia particularmente en lo relativo a terminologa religiosa. Si esto aplica al LSM, podemos imaginarnos la gran variedad de lenguajes de seas que existen alrededor del mundo, en donde prcticamente cada pas, aunque comparta el mismo idioma hablado, tendr un conjunto de signos diferenciados para la comunicacin entre sordos, los cuales parecen muy poco entre s. Por ejemplo en Mxico, aunque el LSM se deriva del sistema de signos francs (trado a finales del siglo XIX), se diferencia del lenguaje de seas francs y americano (ASL) pues utiliza muchas de las seas que ya se utilizaban antes de esto en el pas. Asimismo, una caracterstica del LSM es la "inicializacin", es decir, tomar del alfabeto del lenguaje de signos la sea que corresponde a la primera letra de la palabra en espaol que se est explicando.
Diferencias bsicas entre el idioma Espaol y el LSM
Cantidad de palabras: Si se le compara con el espaol, el LSM utiliza un lxico ms bsico. No existe una sea para cada palabra en espaol. Muchas veces se puede utilizar una misma sea para las diferentes grados o niveles de una palabra en Espaol, en donde la intensidad de dicho nivel lo da la manera en que se signa (velocidad, fuerza y sobre todo la expresin facial).
Uso de verbos: En LSM el verbo aparece sin conjugarse, en infinitivo. Para indicar el tiempo en que ocurre la accin, se utiliza una sea aparte (vase el apartado Tiempo" de la seccin Reglas gramaticales del LSM). Asimismo, para aplicarle la accin a alguien se ubica previamente a este en un espacio para despus hacer la sea cerca de dicho espacio.
o
En LSM rara vez se utilizan los verbos ser o estar.
ITSSNA
22
En LSM el nmero generalmente va despus del sustantivo. Ejemplo: Hijo 2 (LSM) en lugar de 2 hijos (Espaol).
Se omiten los artculos (l, la, los, etc.) y la mayora de los pronombres en LSM. La manera de aplicar una idea o accin a alguien es mediante la ubicacin de este en un espacio, para posteriormente sealarlo, o bien, hacer la sea cerca del espacio donde se posicion.
Abecedario en Lenguaje de seas mexicanas
ITSSNA
23
Reglas gramaticales del LSM

1. Fraseo: Al igual que cualquier otro idioma, el lenguaje de seas mexicanas se basa en reglas gramaticales para la estructuracin de oraciones. La regla principal en el ordenamiento de los elementos de una frase es: Tiempo Lugar - Objeto - Sujeto Verbo Tiempo: Establecer el momento en que ocurre un suceso. Ejemplos de tiempo: Antes, ahora, hoy, ahorita, (hace) un momento atrs, en el futuro, cerca, mientras... Lugar: El sitio en donde ocurre un suceso. (Debe ubicarse en un espacio.) Ejemplos de lugares: Aqu (sealando), nombres de ciudades, pases, etc. Objeto: La(s) persona(s) o cosa(s) que recibe(n) la accin del Sujeto. El objeto se indica antes del sujeto y debe ubicarse en un espacio. Sujeto: La(s) persona(s) o cosa(s) que realiza(n) la accin. El sujeto se indica inmediatamente antes de la accin que va a realizar y debe ubicarse en un espacio. Verbo: La accin. Ejemplos de accin: Correr, hacer, platicar, obedecer, seguir. 2. Preguntas: La palabra interrogante (cundo, cmo, dnde) va al final, acompaada adems, de la expresin facial.
ITSSNA
24
CAPITULO 2
Mucho antes del desarrollo del procesado de seal moderno, los investigadores de la voz intentaron crear mquinas que produjesen habla humana.................
Historia de la conversin de voz

Mucho antes del desarrollo del procesado de seal moderno, los investigadores de la voz intentaron crear mquinas que produjesen habla humana. El Papa Silvestre II (1003), Alberto Magno (1198-1280) y Roger Bacon (1214-1294) crearon ejemplos tempranos de 'cabezas parlantes'. En 1779, el cientfico dans Christian Gottlieb Kratzenstein, que trabajaba en esa poca en la Academia Rusa de las Ciencias, construy modelos del tracto vocal que podra producir las cinco vocales largas (a, e, i, o, u). Wolfgang von Kempelen de Viena, Austria, describi en su obra Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine ("mecanismo del habla humana con descripcin de su mquina parlante", J.B. Degen, Wien) una mquina accionada con un fuelle. Esta mquina tena, adems, modelos de la lengua y los labios, para producir consonantes, as como vocales. En 1837 Charles Wheatstone produjo una 'mquina parlante' basada en el diseo de von Kempelen, y en 1857 M. Faber construy la mquina 'Euphonia'. El diseo de Wheatstone fue resucitado en 1923 por Paget. En los aos 30, los laboratorios Bell Labs desarrollaron el VOCODER, un analizador y sintetizador del habla operado por teclado que era claramente inteligible. Homer Dudley refin este dispositivo y creo VODER, que exhibi en la Exposicin Universal de Nueva York de 1939. Los primeros sintetizadores de voz sonaban muy robticos y eran a menudo inteligibles a duras penas. Sin embargo, la calidad del habla sintetizada ha
ITSSNA
25
mejorado en gran medida, y el resultado de los sistemas de sntesis contemporneos es, en ocasiones, indistinguible del habla humana real. A pesar del xito de los sintetizadores puramente electrnicos, sigue investigndose en sintetizadores mecnicos para su uso en robots humanoides. Incluso el mejor sintetizador electrnico est limitado por la calidad del transductor que produce el sonido, as que en un robot un sintetizador mecnico podra ser capaz de producir un sonido ms natural que un altavoz pequeo. El primer sistema de sntesis computarizado fue creado a final de la dcada de 1950 y el primer sistema completo texto a voz se finaliz en 1968. Desde entonces se han producido muchos avances en las tecnologas usadas para sintetizar voz.
Reconocimiento de patrones
El reconocimiento de patrones tambin llamado lectura de patrones, identificacin de figuras y reconocimiento de formas consiste en el reconocimiento de patrones de seales. Los patrones se obtienen a partir de los procesos de segmentacin, extraccin de caractersticas y descripcin dnde cada objeto queda representado por una coleccin de descriptores. El sistema de reconocimiento debe asignar a cada objeto su categora o clase (conjunto de entidades que comparten alguna caracterstica que las diferencia del resto). Para poder reconocer los patrones se siguen los siguientes procesos: 1. adquisicin de datos 2. extraccin de caractersticas 3. toma de decisiones
ITSSNA
26
El punto esencial del reconocimiento de patrones es la clasificacin: se quiere clasificar una seal dependiendo de sus caractersticas. Seales, caractersticas y clases pueden ser de cualquiera forma, por ejemplo se puede clasificar imgenes digitales de letras en las clases A a Z dependiendo de sus pxeles o se puede clasificar ruidos de cantos de los pjaros en clases de rdenes aviares dependiendo de las frecuencias.
Sistema bsico de reconocimiento

Un sistema completo de reconocimiento de patrones incluye un sensor que recoja fielmente los elementos del universo a ser clasificado, un mecanismo de extraccin de caractersticas cuyo propsito es extraer la informacin til, eliminando la informacin redundante e irrelevante, y finalmente una etapa de toma de decisiones en la cual se asigna a la categora apropiada los patrones de clase desconocida a priori.
Sensor
El sensor es el dispositivo encargado de la adquisicin de datos. Ha de ser capaz de transformar magnitudes fsicas o qumicas, llamadas variables de instrumentacin, en magnitudes elctricas. Las variables de
instrumentacin dependen del tipo de sensor y pueden ser por ejemplo: temperatura, intensidad lumnica, distancia, aceleracin, inclinacin,
desplazamiento, presin, fuerza, torsin, humedad, etc.
Extraccin de caractersticas
Es el proceso de generar caractersticas que puedan ser usadas en el proceso de clasificacin de los datos. En ocasiones viene precedido por un pre procesado de la seal, necesario para corregir posibles deficiencias en los datos debido a errores del sensor, o bien para preparar los datos de cara a posteriores procesos en las etapas de extraccin de caractersticas o clasificacin.
ITSSNA
27
Las caractersticas elementales estn explcitamente presentes en los datos adquiridos y pueden ser pasados directamente a la etapa de clasificacin. Las caractersticas de alto orden son derivadas de las elementales y son generadas por manipulaciones o transformaciones en los datos.
Seleccin de variables
Consiste en seleccionar cul es el tipo de caractersticas o rasgos ms adecuados para describir los objetos. Para ello, se deben localizar los rasgos que inciden en el problema de manera determinante. Esta etapa tambin puede ser diseada dentro de la clasificacin. La seleccin de variables puede diferenciarse segn los objetivos buscados:
Para la clasificacin: la seleccin de caractersticas relevantes, a partir del conjunto total de caractersticas que describen a los objetos, se hace con dos motivos fundamentales: mejorar la clasificacin o aumentar la velocidad de procesamiento.
Para la representacin: decidir qu caractersticas representan mejor a cierto tipo de objetos.
Estrategias de seleccin de variables:
wrapper: la seleccin de caractersticas se hace usando informacin del mecanismo de clasificacin.
filter: la seleccin se hace con un criterio independiente del clasificador. Incluye algunos mtodos como:
Tablas de decisin: le busca un subconjunto mnimo de variables que no introduzca confusin entre clases.
ID3: le crea un rbol de decisin y se selecciona un conjunto de variables que permita discriminar entre clases.
Teora de testores: le buscan todos los subconjuntos de variables discriminantes minimales, con estos se evala la relevancia de cada variable y se seleccionan aquellas con mayor relevancia.
ITSSNA
28
Clasificacin
La clasificacin trata de asignar las diferentes partes del vector de caractersticas a grupos o clases, basndose en las caractersticas extradas. En esta etapa se usa lo que se conoce como aprendizaje automtico, cuyo objetivo es desarrollar tcnicas que permitan a las computadoras aprender. Utiliza habitualmente uno de los siguientes procedimientos:
Geomtrico (Clustering): Los patrones deben ser graficables. En ste enfoque se emplea el clculo de distancias, geometra de formas, vectores numricos, puntos de atraccin, etc.
Estadstico: Se basa en la teora de la probabilidad y la estadstica, utiliza anlisis de varianzas, covarianzas, dispersin, distribucin, etc.
Supone que se tiene un conjunto de medidas numricas con distribuciones de probabilidad conocidas y a partir de ellas se hace el reconocimiento.
Sintcticoestructural: se basa en encontrar las relaciones estructurales que guardan los objetos de estudio, utilizando la teora de lenguajes formales, teora de autmatas, etc. El objetivo es construir una gramtica que describa la estructura del universo de objetos. Neuroreticular: se utilizan redes neuronales que se entrenan para dar una cierta respuesta ante determinados valores.
Lgicocombinatorio: se basa en la idea de que el modelado del problema debe ser lo ms cercano posible a la realidad del mismo, sin hacer suposiciones que no estn fundamentadas. Se utiliza para conjuntos difusos y utiliza lgica simblica, circuitos combinacionales y secuenciales, etc.
ITSSNA
29
Segn tengamos constancia o no de un conjunto previo que permita al sistema aprender, la clasificacin puede ser supervisada, parcialmente supervisada o no supervisada. a) Clasificacin supervisada: tambin es conocida como clasificacin con aprendizaje. Se basa en la disponibilidad de reas de entrenamiento. Se trata de reas de las que se conoce a priori la clase a la que pertenecen y que servirn para generar una signatura espectral caracterstica de cada una de las clases. Se denominan clases informacionales en contraposicin a las clases espectrales que genera la clasificacin no supervisada. Algunos mtodos de la clasificacin supervisada:
Funciones discriminantes: si son dos clases, se busca obtener una funcin g tal que para un nuevo objeto O, si g(O) 0 se asigna a la clase 1 y en otro caso a la 2. Si son mltiples clases se busca un conjunto de funciones gi y el nuevo objeto se ubica en la clase donde la funcin tome el mayor valor.
Vecino ms cercano: un nuevo objeto se ubica en la clase donde est el objeto de la muestra original que ms se le parece.
Redes neuronales artificiales: denominadas habitualmente RNA o en sus siglas en ingls ANN. Se supone que imitan a las redes neuronales reales en el desarrollo de tareas de aprendizaje.
b) Clasificacin parcialmente supervisada: tambin conocida como de aprendizaje parcial. En estos problemas existe una muestra de objetos slo en algunas de las clases definidas. c) Clasificacin no supervisada: tambin conocida como clasificacin sin aprendizaje. Se utilizan algoritmos de clasificacin automtica multivariante en los que los individuos ms prximos se van agrupando formando clases.
ITSSNA
30
Restringida: el nmero de clases en la que se estructurar la muestra est previamente definido.
Libre: el nmero de clases en la que se estructurar la muestra depende exclusivamente de los datos.
Algunos mtodos de la clasificacin no supervisada:
Simple Link y Complete Link: parten de grupos unitarios de objetos y van uniendo los grupos ms parecidos en cada etapa, hasta cumplir alguna condicin.
ISODATA: se van formando grupos que se ajustan iterativamente usando teora de probabilidades. En algunas versiones se puede hacer la unin o divisin de algn grupo.
C-means: se define un grupo de semillas, se asocia cada objeto al grupo de la semilla ms parecida, se toman los centroides de cada grupo como nuevas semillas y se itera hasta que se estabilice.
Criterios lgico-combinatorios: los criterios que se imponen a los grupos son tales como ser conexos, completos maxi males, compactos, etc.
CAPITULO 3
El Reconocimiento ptico de Caracteres, es un proceso dirigido a la digitalizacin de textos, los cuales identifican automticamente a partir de una imagen smbolos o caracteres que pertenecen a un determinado alfabeto...........................
Reconocimiento ptico de caracteres

El Reconocimiento ptico de Caracteres (ROC), o reconocimiento de caracteres, es un proceso dirigido a la digitalizacin de textos, los cuales identifican automticamente a partir de una imagen smbolos o caracteres que pertenecen a un determinado alfabeto, para luego almacenarlos en forma de datos, as podremos interactuar con estos mediante un programa
ITSSNA
31
de edicin de texto o similar. Con frecuencia es abreviado en textos escritos en el idioma espaol, utilizando el acrnico a partir del ingls OCR. En los ltimos aos la digitalizacin de la informacin (textos, imgenes, sonido, etc.) ha devenido un punto de inters para la sociedad. En el caso concreto de los textos, existen y se generan continuamente grandes cantidades de informacin escrita, tipogrfica o manuscrita en todo tipo de soportes. En este contexto, poder automatizar la introduccin de caracteres evitando la entrada por teclado, implica un importante ahorro de recursos humanos y un aumento de la productividad, al mismo tiempo que se mantiene, o hasta se mejora, la calidad de muchos servicios.
Binarizacin
La mayor parte de algoritmos de ROC parten como base de una imagen binaria (dos colores) por lo tanto es conveniente convertir una imagen de escala de grises, o una de color, en una imagen en blanco y negro, de tal forma que se preserven las propiedades esenciales de la imagen. Una forma de hacerlo es mediante el histograma de la imagen donde se muestra el nmero de pixeles para cada nivel de grises que aparece a la imagen. Para binarizarla tenemos que escoger un umbral adecuado, a partir del cual todos los pixeles que no lo superen se convertirn en negro y el resto en blanco. Mediante este proceso obtenemos una imagen en blanco y negro donde quedan claramente marcados los contornos de los caracteres y smbolos que contiene la imagen. A partir de aqu podemos aislar las partes de la imagen que contienen texto (ms transiciones entre blanco y negro).
Fragmentacin o segmentacin de la imagen

Este es el proceso ms costoso y necesario para el posterior reconocimiento de caracteres. La segmentacin de una imagen implica la deteccin mediante procedimientos de etiquetado determinista o estocstico de los
ITSSNA
32
contornos o regiones de la imagen, basndose en la informacin de intensidad o informacin espacial. Permite la descomposicin de un texto en diferentes entidades lgicas, que han de ser suficientemente invariables, para ser independientes del escritor, y suficientemente significativas para su reconocimiento. No existe un mtodo genrico para llevar a cabo esta segmentacin de la imagen que sea lo suficientemente eficaz para el anlisis de un texto. Aunque, las tcnicas ms utilizadas son variaciones de los mtodos basados en proyecciones lineales. Una de las tcnicas ms clsicas y simples para imgenes de niveles de grises consiste en la determinacin de los modos o agrupamientos (clster) a partir del histograma, de tal forma que permitan una clasificacin o umbralizacin de los pixeles en regiones homogneas.
Adelgazamiento de las componentes

Una vez aisladas las componentes conexas de la imagen, se les tendr que aplicar un proceso de adelgazamiento para cada una de ellas. Este procedimiento consiste en ir borrando sucesivamente los puntos de los contornos de cada componente de forma que se conserve su tipologa. La eliminacin de los puntos ha de seguir un esquema de barridos sucesivos para que la imagen contine teniendo las mismas proporciones que la original y as conseguir que no quede deforme. Se tiene que hacer un barrido en paralelo, es decir, sealar los pxeles borrables para eliminarlos todos a la vez. Este proceso se lleva a cabo para hacer posible la clasificacin y reconocimiento, simplificando la forma de las componentes.
Comparacin con patrones

En esta etapa se comparan los caracteres obtenidos anteriormente con unos tericos (patrones) almacenados en una base de datos. El buen
ITSSNA
33
funcionamiento del ROC se basa en gran medida a una buena definicin de esta etapa. Existen diferentes mtodos para llevar a cabo la comparacin. Uno de ellos es el Mtodo de Proyeccin, en el cual se obtienen proyecciones verticales y horizontales del carcter por reconocer y se comparan con el alfabeto de caracteres posibles hasta encontrar la mxima coincidencia. Existen otros mtodos como por ejemplo: Mtodos geomtricos o estadsticos, Mtodos estructurales, Mtodos Neuro-mimticos, Mtodos Markovianos o Mtodos de Zadeh.
Aplicaciones
Desde la aparicin de los algoritmos de Reconocimiento ptico de Caracteres han sido muchos los servicios que han introducido estos procesos para aumentar su rendimiento y otros que se basan completamente en estas tecnologas. A continuacin se muestran algunas de las ms destacables aplicaciones que utilizan el ROC.
CAPITULO 4
El reconocimiento de un texto manuscrito contina siendo un desafo. Aunque el texto se compone bsicamente de caracteres individuales, la mayora de algoritmos ROC no consiguen buenos resultados, ya que la segmentacin de texto continuo es un procedimiento complejo
Reconocimiento de texto manuscrito

Las dificultades que podemos encontrar a la hora de reconocer un texto tipografiado, no se pueden comparar con las que aparecen cuando queremos reconocer un texto manuscrito. El reconocimiento de un texto manuscrito contina siendo un desafo. Aunque el texto se compone bsicamente de caracteres individuales, la mayora de algoritmos ROC no consiguen buenos resultados, ya que la segmentacin de texto continuo es un procedimiento complejo.
ITSSNA
34
En el caso de reconocimiento de escritura manuscrita a la hora de correccin de exmenes, existe la posibilidad, aadiendo un listado de lxico (nombres y apellidos) de acercarse al 100% de acierto. A travs de las casillas de respuesta ICR se pueden reconocer palabras, como nombres de pases, nombres de regiones, marcas comerciales, en resumen, todo aquello que pueda ser integrado en una lista de palabras Lxico- este puede ir aumentndose segn necesidades. Por otro lado, se puede llegar a comprender una frase cuando la hemos terminado de leer. Esto implica una operacin de niveles morfolgicos, lxico y sintctico que se consigue mediante el reconocimiento del habla continua. Para llevar a cabo esa metodologa, se utilizan algoritmos robustos que utilizan una segmentacin previa, debido a que se obtiene automticamente con la descodificacin.
Indexacin en bases de datos

Con el gran aumento de informacin publicada que ha tenido lugar en los ltimos aos, cada vez son ms los mtodos que se utilizan para organizar todo este material almacenado en bases de datos. Uno de estos contenidos son las imgenes. Una de las formas ms corrientes de buscar imgenes es a partir de metadato introducida manualmente por los usuarios. Actualmente han aparecido buscadores que proporcionan la posibilidad de buscar imgenes mediante el texto que aparecen en ellas, como el buscador DIRS(Document Image Retrieval System) que, mediante un algoritmo de Reconocimiento ptico de Caracteres, extrae el texto que aparece en la imagen y lo utiliza como metadato que podr ser utilizado en las bsquedas. Esta tecnologa proporciona una posibilidad en la bsqueda de imgenes y demuestra que el ROC an puede dar mucho de s.
ITSSNA
35
Reconocimiento de datos estructurados con ROC Zonal

Se usa para digitalizar de forma masiva grandes cantidades de documentos estructurados o semi estructurados (facturas, nminas, albaranes, plizas, justificantes bancarios, etc.), catalogando automticamente los documentos con los metadatos obtenidos y archivndolos en formato digital de forma indexada para facilitar su posterior bsqueda. Tiene el inconveniente de que es necesario disear previamente las plantillas, pero con una buena configuracin se ahorra mucho tiempo en el proceso de digitalizacin.
CAPITULO 5
La conversin texto-voz es la generacin de redes inalmbricas por medios automticos de una voz artificial que genera idntico sonido al producir por una persona al leer un texto cualquiera en voz alta o una voz artificial..........................
Conversor texto-voz
La conversin texto-voz es la generacin de redes inalmbricas por medios automticos de una voz artificial que genera idntico sonido al producir por una persona al leer un texto cualquiera en voz alta o una voz artificial. Es decir, son sistemas que permiten la conversin de textos en voz sinttica. Los conversores de texto-voz son conocidos en el ingls tambin con las siglas CTV o por las siglas en ingls TTS (Text to speech).
Requisitos de los conversores CTV/TTS

1. Debe producir una voz sinttica (artificial) que resulte natural y sea inteligible. 2. La sntesis del habla ha de ser completamente automtica, sin que se tenga que introducir ningn tipo de reajuste manual en ninguna parte del proceso.
ITSSNA
36
3. El texto introducido en el sistema ha de ser un texto arbitrario cualquiera, no puede estar amaado en ningn sentido.
Fases de la conversin texto-voz
En la primera fase se realiza una representacin lingstica simblica, para ello se siguen tres procesos consecutivos: 1. Normalizacin del texto. Se convierte la totalidad del texto a una forma textual convencional. Esto afecta principalmente a las cifras, abreviaturas, etc. A la normalizacin del texto tambin se la denomina pre procesado o tokenizacin. 2. Conversin fontica. Una vez normalizado el texto se asignan transcripciones fonticas a cada palabra. El proceso de convertir las transcripciones fonticas en palabras se denomina conversin texto-fonema (TTP en sus siglas en ingls de text-to-phoneme) o conversin grafema-fonema (GTP en sus siglas en ingls de grapheme-to-phoneme). 3. Divisin prosdica. Se divide el texto en unidades prosdicas, tales como unidades sintagmticas, proposiciones y frases.
En la segunda fase, la que forma el sintetizador propiamente dicho, toma como entrada la representacin lingstica simblica y la transforma en voz sinttica.
Sntesis de habla
La voz sinttica es una voz artificial (no pregrabada), generada mediante un proceso de sintetizacin del habla. La sntesis de habla es la produccin artificial de habla humana. Un sistema usado con este propsito recibe el nombre de sintetizador de habla y puede llevarse a cabo en software o en hardware. La sntesis de voz se llama a menudo en ingls text-to-speech (TTS), en referencia a su capacidad de convertir texto en habla. Sin embargo, hay sistemas que en lugar de producir
ITSSNA
37
voz a partir de texto lo hacen a partir de representacin lingstica simblica en habla. La calidad de una voz sinttica vendr dada por:

Su inteligibilidad: con qu facilidad/dificultad es entendida? Su naturalidad: en qu medida se asemeja a la voz real de un humano?
Tecnologas de sntesis
Las dos caractersticas utilizadas para describir la calidad de un sintetizador de voz son la naturalidad e inteligibilidad. La naturalidad de un sintetizador de voz se refiere a hasta qu punto suena como la voz de una persona real. La inteligibilidad de un sintetizador se refiere a la facilidad de la salida de poder ser entendida. El sintetizador ideal debe de ser a la vez natural e inteligible, y cada tecnologa intentan conseguir el mximo de ambas. Algunas de las tecnologas son mejores en naturalidad o en inteligibilidad y las metas de la sntesis determinan a menudo qu aproximacin debe seguirse. Hay dos tecnologas principales usadas para generar habla sinttica: sntesis concatenativa y sntesis de formantes.
Sntesis concatenativa
La sntesis concatenativa se basa en la concatenacin de segmentos de voz grabados. Generalmente, la sntesis concatenativa produce los resultados ms naturales. Sin embargo, las diferencias entre la variacin natural del habla y las tcnicas automatizadas de segmentacin de formas de onda resultan en defectos audibles, que conllevan una prdida de naturalidad.
Tipos bsicos de sntesis concatenativa. Sntesis por seleccin de unidades

La sntesis por seleccin de unidades utiliza una base de datos de voz grabada (ms de una hora de habla grabada). Durante la creacin de la base
ITSSNA
38
de datos, el habla se segmenta en algunas o todas de las siguientes unidades: fonemas, slabas, palabras, frases y oraciones. Normalmente, la divisin en segmentos se realiza usando un reconocedor de voz modificado para forzar su alineamiento con un texto conocido. Despus se corrige manualmente, usando representaciones como la forma de onda y el espectrograma. Se crea un ndice de las unidades en la base de datos basada en parmetros acsticos de la segmentacin como la frecuencia fundamental, el pitch, la duracin, la posicin en la slaba y los fonemas vecinos. En tiempo de ejecucin, el objetivo deseado se crea determinando la mejor cadena de candidatos de la base de datos (seleccin de unidades). Este proceso se logra tpicamente usando un rbol de decisin
especialmente ponderado. La seleccin de unidades da la mxima naturalidad debido al hecho de que no aplica mucho procesamiento digital de seales al habla grabada, lo que a menudo hace que el sonido grabado suene menos natural, aunque algunos sistemas usan un poco de procesado de seal en la concatenacin para suavizar las formas de onda. De hecho, la salida de la mejor seleccin de unidades es a menudo indistinguible de la voz humana real, especialmente en contextos en los que el sistema ha sido adaptado. Por ejemplo, un sistema de sntesis de voz para dar informaciones de vuelos puede ganar en naturalidad si la base de datos fue construida a base grabaciones de informaciones de vuelos, pues ser ms probable que aparezcan unidades apropiadas e incluso cadenas enteras en la base de datos. Sin embargo, la mxima naturalidad a menudo requiere que la base de datos sea muy amplia, llegando en algunos sistemas a los gigabytes de datos grabados.
Sntesis de difonos
La sntesis de difonos usa una base de datos mnima conteniendo todos los difonos que pueden aparecer en un lenguaje dado. El nmero de difonos
ITSSNA
39
depende de la fono tctica del lenguaje: el espaol tiene unos 800 difonos, el alemn unos 2500. En la sntesis de difonos, la base de datos contiene un slo ejemplo de cada difono. En tiempo de ejecucin, la prosodia de una oracin se sobre impone a estas unidades mnimas mediante procesamiento digital de seales, como codificacin lineal predictiva, PSOLA o MBROLA. La calidad del habla resultante es generalmente peor que la obtenida mediante seleccin de unidades pero ms natural que la obtenida mediante sintetizacin de formantes. La sntesis difonos adolece de los defectos de la sntesis concatenativa y suena robtica como la sntesis de formantes, y tiene pocas ventajas respecto a estas tcnicas aparte del pequeo tamao de la base de datos, as que su uso en aplicaciones comerciales experimenta un declive, aunque contina usndose en investigacin porque hay unas cuantas implementaciones libres.
Sntesis especfica para un dominio

La sntesis especfica para un dominio concatena palabras y frases grabadas para crear salidas completas. Se usa en aplicaciones donde la variedad de textos que el sistema puede producir est limitada a un particular dominio, como anuncios de salidas de trenes o informacin meteorolgica. Esta tecnologa es muy sencilla de implementar, y se ha usado comercialmente durante largo tiempo: es la tecnologa usada por aparatos como relojes y calculadoras parlantes. La naturalidad de estos sistemas puede ser muy grande, porque la variedad de oraciones est limitada y corresponde a la entonacin y la prosodia de las grabaciones originales. Sin embargo, al estar limitados a unas ciertas frases y palabras de la base de datos, no son de propsito general y slo pueden sintetizar la combinacin de palabras y frases para los que fueron diseados.
ITSSNA
40
Sntesis de formantes
La sntesis de formantes no usa muestras de habla humana en tiempo de ejecucin. En lugar de eso, la salida se crea usando un modelo acstico. Parmetros como la frecuencia fundamental y los niveles de ruido se varan durante el tiempo para crear una forma de onda o habla artificial. Este mtodo se conoce tambin como sntesis basada en reglas pero algunos aducen que muchos sistemas concatenativos usan componentes basados en reglas para algunas partes de sus sistemas, como el front-end, as que el trmino no es suficientemente especfico. Muchos sistemas basados en sntesis de formantes generan habla robtica y de apariencia artificial, y la salida nunca se podra confundir con la voz humana. Sin embargo, la naturalidad mxima no es siempre la meta de un sintetizador de voz, y estos sistemas tienen algunas ventajas sobre los sistemas concatenativos. La sntesis de formantes puede ser muy inteligible, incluso a altas velocidades, evitando los defectos acsticos que pueden aparecer con frecuencia en los sistemas concatenativos. La sntesis de voz de alta velocidad es a menudo usada por los discapacitados visuales para utilizar computadores con fluidez. Por otra parte, los sintetizadores de formantes son a menudo programas ms pequeos que los sistemas concatenativos porque no necesitan una base de datos de muestras de voz grabada. De esta forma, pueden usarse en sistemas embebidos, donde la memoria y la capacidad de proceso son a menudo exiguas. Por ltimo, dado que los sistemas basados en formantes tienen un control total sobre todos los aspectos del habla producida, pueden incorporar una amplia variedad de tipos de entonaciones, que no slo comprendan preguntas y enunciaciones.
ITSSNA
41
Desafos de la normalizacin de texto

El proceso de normalizar texto es pocas veces simple. Los textos estn llenos de homgrafos, nmeros y abreviaturas que tienen que ser transformados en una representacin fontica. Por supuesto, en lenguas donde la correspondencia entre el texto escrito y su equivalente fontico es poca (ingls) o ninguna (mandarn), la creacin de estos sistemas se complica. Muchos sistemas de texto a voz no generan representaciones semnticas de los textos de entradas, pues los sistemas para hacerlo no son fiables o computacionalmente efectivos. Como resultado, se usan varias tcnicas heursticas para estimar la manera correcta de desambiguar homgrafos, como buscar palabras vecinas y usar estadsticas sobre la frecuencia de aparicin de las palabras. Decidir cmo convertir nmeros en palabras es otro problema que tienen que solucionar los sintetizadores de voz. Es un desafo bastante simple programar un sistema que convierta nmeros en palabras, como por ejemplo transformar 1325 en "mil trescientos veinticinco". Sin embargo, los nmeros aparecen en diferentes contextos, y 1325 puede ser un ordinal, "uno tres dos cinco" si son los ltimos dgitos de un DNI o "trece veinticinco" si es un nmero de telfono. A menudo un sistema de sntesis de voz puede inferir cmo expandir un nmero en funcin de las palabras o nmeros vecinos y la puntuacin, y algunos sistemas proporcionan un sistema para especificar el tipo de contexto si es ambiguo. De la misma forma, abreviaturas como "etc." se pueden transformar fcilmente en "etctera", pero a menudo las abreviaturas pueden ser ambiguas. Por ejemplo la abreviatura "am" puede ser "ante meridiam" en el ejemplo: "El vuelo aterrizar a las 11 am" o puede ser "modulacin de amplitud" o simplemente "a eme" en el ejemplo "Nos puede encontrar en la
ITSSNA
42
sintona 1425 am". Los sistemas con front end inteligentes pueden hacer estimaciones adecuadas acerca de cmo tratar abreviaturas ambiguas, mientras que otros pueden hacer lo mismo en todos los casos, dando resultados en ocasiones cmicos.
Desafos de los sistemas Texto a fonema

Los sintetizadores de voz usan dos aproximaciones bsicas al problema de determinar la pronunciacin de una palabra basndose en su pronunciacin, un proceso que a menudo recibe el nombre de conversin texto a fonema o grafema a fonema, dado que fonema es el trmino usado por los lingistas para describir sonidos distintivos en una lengua. La aproximacin ms simple a este problema es la basada en diccionario, donde se almacena en el programa un gran diccionario que contiene todas las palabras de la lengua y su correcta pronunciacin. Determinar la pronunciacin correcta de cada palabra consiste en buscar cada palabra en el diccionario y reemplazar el texto con la pronunciacin especificada en el diccionario. La otra aproximacin para convertir texto en fonemas es la aproximacin basada en reglas, donde dichas reglas para la pronunciacin de las palabras se aplican a palabras para extraer sus pronunciaciones basadas en su forma escrita. Cada aproximacin tiene ventajas y desventajas. La tcnica basada en diccionarios tiene como ventajas ser rpida y precisa, pero falla completamente si una palabra dada no aparece en el diccionario, y a medida que crece el diccionario crecen los requerimientos de memoria del sistema de sntesis. Por otra parte, la tcnica basada en reglas funciona con cualquier entrada, pero la complejidad de las reglas crece sustancialmente a medida que se van teniendo en cuenta ortografas y pronunciaciones
ITSSNA
43
irregulares. Como resultado, casi cualquier sintetizador de voz usa una combinacin de las dos tcnicas. Algunos idiomas, como el espaol, tienen un sistema de escritura muy regular y la prediccin de la pronunciacin de palabras basada en deletreos es casi siempre correcta. Los sistemas de sntesis de voz para este tipo de lenguajes generalmente usan un enfoque basado en reglas como el enfoque central para la conversin texto-fonema y auxilindose de diccionarios pequeos para algunas palabras de origen extranjero cuya pronunciacin no se deduce de la escritura. En otros como el ingls, dado que se trata de sistemas muy irregulares en su escritura, el enfoque se basa principalmente en diccionarios y slo para palabras no usuales se basa en reglas.
Problemas de la voz sinttica
Rechazo por parte de los usuarios que no le perdonan su falta de naturalidad y su timbre robtico.
Los CTV (Conversores de Texto-Voz) producen voz, generalmente, voz de hombre. Hay varias razones que pueden explicar este hecho:
Una explicacin sociolgica obvia es que, hasta hace relativamente poco, las personas que trabajaban en los laboratorios eran hombres y stos empleaban su propia voz durante los experimentos.
La voz masculina ofrece mejor calidad sonora que la femenina. Esto se debe a que la frecuencia fundamental (primer armnico) de la mujer es bastante ms alta que la de hombre.
La forma de onda en la voz de mujer tiene un componente de oscilacin no peridica, que viene dado por una mayor frecuencia en la aspiracin, que resulta ms notable que la del hombre. Este componente de la excitacin global es difcil de modelar adecuadamente.
ITSSNA
44
En los ltimos tiempos han aparecido sintetizadores que utilizan voz de mujer de calidad aceptable, sin embargo, siguen sin alcanzar la calidad ofrecida por un sintetizador de similares caractersticas que emplee voz masculina.
CAPITULO 6
La visin artificial se desarrolla como una rama del estudio de la inteligencia artificial. La visin artificial tiene como propsito programar un computador para que pueda interpretar la informacin que contiene una imagen.........................
Visin artificial
La visin artificial se desarrolla como una rama del estudio de la inteligencia artificial. La visin artificial tiene como propsito programar un computador para que pueda interpretar la informacin que contiene una imagen. Un sistema de visin artificial consta de los siguientes elementos: Iluminacin: Consta de todos los dispositivos (lmparas, lser, LEDs, etc.) que sirven como fuente de luz, y a travs de los cuales se va a tener una iluminacin lo ms uniforme posible. De este subsistema depende en gran parte la adecuada adquisicin de la imagen. Captacin: En este subsistema se encuentran los transductores que convierten la radiacin luminosa reflejada en seales elctricas, por ejemplo las cmaras CCD. Sistema de Adquisicin: En este subsistema se transforma las seales elctricas que provienen de las cmaras en seales de video, esto se realiza por medio de tarjetas de adquisicin colocadas en el computador. Procesamiento: Consta de uno o varios computadores en los cuales se analiza la imagen captada por el subsistema de adquisicin. Con la ayuda de algunos algoritmos es posible obtener la informacin ms relevante, la cual nos permite posteriormente adecuarla a una aplicacin especfica.
ITSSNA
45
Perifricos: Aqu se ubican todos los equipos o dispositivos que reciben la informacin del computador y cumplen la funcin de actuadores dentro del proceso o aplicacin.
Software para visin artificial

Existe una gran cantidad de software que permiten realizar aplicaciones de visin artificial como por ejemplo: Matlab, Labview, Opencv, VisualBasic, etc. Para la realizacin de este proyecto se utiliz el software de Labview con los toolkits de visin artificial, porque permite realizar aplicaciones de forma simple gracias a su programacin grafica amigable con el usuario. Adems se adapta fcilmente al hardware (cmaras USB), que se est utilizando y posee una aplicacin dedicada al reconocimiento de imgenes, que es el objetivo de este proyecto.
Descripcin del traductor de seales de manos mediante visin artificial

El sistema de traduccin est divido en varios procesos, estos procesos se concatenan consecutivamente para lograr cumplir con el objetivo del proyecto. Para reducir el tiempo de ejecucin del programa se redujo el procesamiento de la imagen, para esto la toma de la imagen se la realizo en un ambiente donde el objeto de inters (mano) contraste con el resto de la imagen.
Deteccin del objeto de inters

Esta etapa tiene como finalidad ejecutar la aplicacin siempre y cuando exista un objeto sobre el rea que est captando la cmara. Este anlisis se lo realizo utilizando el histograma de la imagen, se clculo la media de los valores de los pixeles, estos valores se comparan con los del rea de trabajo y se supervisa constantemente hasta que se produce el cambio en estos
ITSSNA
46
valores, lo que indica que existe objeto sobre el rea de trabajo, dando paso a la siguiente etapa de la aplicacin.
Paso a escala de grises y mejoramiento de contraste

Una vez detectado el objeto de inters, se pasa la imagen a escala de grises porque la aplicacin no requiere de un anlisis del color, pero s de su forma. Con esto se tiene una imagen de menor tamao para su posterior proceso de segmentacin. Se realiza un contraste a la imagen con la finalidad de eliminar el ruido existente y resaltar la forma del objeto dentro de la imagen
Proceso de Binarizacin
Este proceso tiene como objetivo convertir la imagen en escala de grises a una imagen binaria, donde los pixeles tengan dos valores, ya sea 1L o 0L. Este consiste en escoger un umbral basado en los valores de los pixeles que se observa en el histograma, el umbral se debe escoger para que el objeto de inters este dentro de la imagen. Una vez escogido este umbral la imagen resultante es una donde solo existen dos valores de color. Blanco y Negro. Para eliminar el ruido existente en la imagen binaria se realiza operaciones morfolgicas como son erosin (1), dilatacin (2), filtros en el dominio de la frecuencia y filtros basados en morfologa de los objetos con los cuales se elimina objetos innecesarios dentro de la imagen.
ITSSNA
47
Conclusin
De acuerdo a esta investigacin puedo concluir aadiendo que este proyecto puede tener desventajas tales como la falla en el reconocimiento con personas con falta de extremidades ya que en este caso el software no podra analizar los datos y por tanto no se obtendra ningn resultado. Algunas recomendaciones para este software serian:

El usuario deber contar con todas las extremidades de la mano. En caso de tener alguna extremidad de ms tales como algn dedo, la aplicacin tampoco arrojara ningn tipo de resultado.
El sistema tampoco podr reconocer seales con movimiento ya que se tendra que agregar otro tipo de aplicacin con la capacidad de detectar los movimientos en tiempo real y poder traducirlos.
ITSSNA
48

Traductor en Tiempo Real

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Traductor en Tiempo Real

Transféré par

Droits d'auteur :

Formats disponibles

Fundamentos de investigacin.

INSTITUTO TECNOLGICO SUPERIOR DE LA SIERRA NEGRA DE AJALPAN.

Ingeniera en sistemas computacionales.

Materia: fundamentos de investigacin.

Catedrtico: Ing. Marco Antonio Isidro Abril.

Proyecto: Traductor en tiempo real. Alumno: Donato de Jess Mendoza Ordaz.

Donato de Jess Mendoza Ordaz

Donato de Jess Mendoza Ordaz

Donato de Jess Mendoza Ordaz

EL PORQUE DEL DESARROLLO DE ESTE SOFTWARE

Donato de Jess Mendoza Ordaz

Donato de Jess Mendoza Ordaz

Donato de Jess Mendoza Ordaz

COMPARACIN CON PATRONES ............................................................. 33 APLICACIONES ........................................................................................... 34

Donato de Jess Mendoza Ordaz

Donato de Jess Mendoza Ordaz

Origen de las lenguas de seas

Donato de Jess Mendoza Ordaz

Donato de Jess Mendoza Ordaz

Clasificacin de las lenguas de seas

Donato de Jess Mendoza Ordaz

Donato de Jess Mendoza Ordaz

Malentendidos y mitos sobre las lenguas de seas

Donato de Jess Mendoza Ordaz

catalana(LSC), y la Lengua de seas valenciana (LSCV).

Donato de Jess Mendoza Ordaz

Donato de Jess Mendoza Ordaz

Donato de Jess Mendoza Ordaz

Fonologa de las lenguas de seas

Donato de Jess Mendoza Ordaz

Donato de Jess Mendoza Ordaz

Lengua de Seas Mexicana

Variacin y distribucin geogrfica

Donato de Jess Mendoza Ordaz

Relacin de la LSM con el espaol?

Relacin con otras lenguas de seas

Donato de Jess Mendoza Ordaz

Donato de Jess Mendoza Ordaz

Diferencias bsicas entre el idioma Espaol y el LSM

En LSM rara vez se utilizan los verbos ser o estar.

Donato de Jess Mendoza Ordaz

Abecedario en Lenguaje de seas mexicanas

Donato de Jess Mendoza Ordaz

Reglas gramaticales del LSM

Donato de Jess Mendoza Ordaz

Historia de la conversin de voz

Donato de Jess Mendoza Ordaz

Donato de Jess Mendoza Ordaz

Sistema bsico de reconocimiento

desplazamiento, presin, fuerza, torsin, humedad, etc.

Donato de Jess Mendoza Ordaz

Para la representacin: decidir qu caractersticas representan mejor a cierto tipo de objetos.

Estrategias de seleccin de variables:

wrapper: la seleccin de caractersticas se hace usando informacin del mecanismo de clasificacin.

Donato de Jess Mendoza Ordaz

Donato de Jess Mendoza Ordaz

Donato de Jess Mendoza Ordaz

Restringida: el nmero de clases en la que se estructurar la muestra est previamente definido.

Algunos mtodos de la clasificacin no supervisada:

Reconocimiento ptico de caracteres

Donato de Jess Mendoza Ordaz

Fragmentacin o segmentacin de la imagen

Donato de Jess Mendoza Ordaz