Académique Documents
Professionnel Documents
Culture Documents
Semestre y Grupo: 1 A
ITSSNA
Fundamentos de investigacin.
DEDICATORIA
Este proyecto se lo dedico a: Catalina Ordaz Amador Carlos Artemio Velasco Ordaz
ITSSNA
Fundamentos de investigacin.
AGRADECIMIENTOS
En este proyecto agradezco principalmente a mis padres y mi familia por el gran apoyo que me han brindado a lo largo de estos aos para poder lograr todo esto que he podido alcanzar. Agradezco tanto su apoyo econmico pero principalmente el apoyo moral que me brindaron y siguen brindndome para seguir adelante. A mis compaeros y maestros les doy las gracias por su apoyo y por su paciencia a lo largo de estos aos ya que sin ellos y su apoyo no haba podido alcanzar esta gran meta.
ITSSNA
Fundamentos de investigacin.
lenguaje oral, que aprendemos a hablar por medio de repetir lo que escuchamos, y que posteriormente aprendemos a escribir y leer, el lenguaje del sordo se basa en signos o seas, por medio del cual puede expresar sus ideas y sentimientos. Se puede calificar este lenguaje como gesto-visual ya que est basado en el uso de las manos, expresiones faciales y el cuerpo en general y como espacio-visual al ubicar lo que se dice en un espacio. Partiendo de este principio y analizando las distintas problemticas de la comunicacin observe el problema que existe entre las personas que carecen del habla y del sentido auditivo, as como la dificultad que hay para comunicarse con ellos. Tomando este problema surgi la idea de desarrollar un software con el cual podamos, mediante una cmara, detectar las diferentes seales que las personas sordomudas ocupan para comunicarse y codificarlas para as traducirlas a texto y voz. El objetivo de este proyecto es contribuir con el desarrollo tanto moral como en lo personal de estas personas ya que se pretende reducir la dificultad de comunicacin en el problema ya antes mencionado.
ITSSNA
Fundamentos de investigacin.
PROLOGO
El objetivo del presente proyecto es desarrollar un sistema que reconozca las seales de manos usadas por personas con discapacidad y traducirlas a texto y audio. El reconocimiento de las seas se realiza mediante tcnicas de visin artificial, usando una cmara web y el software.
Este proyecto consiste en un sistema que traduce de lenguaje de seas a lenguaje de texto usando visin artificial, para permitir que personas con discapacidad auditiva y/o visual que manejan el lenguaje de seas puedan comunicarse con el resto de personas que no manejan este lenguaje. Para personas que no conocen este lenguaje el proyecto ofrece la opcin de un entrenador, para que aprendan cada uno de los smbolos de este lenguaje y adquieran la habilidad necesaria para utilizar la aplicacin. El sistema adquiere la imagen que luego pasa por un procesamiento digital de imgenes y por ltimo se realiza la traduccin. En el procesamiento digital de imgenes se aplicaron algunos filtros y operaciones morfolgicas para resaltar las caractersticas de la imagen y eliminar informacin innecesaria como ruido. Tambin se eliminaron objetos extraos en la imagen mediante un recortado del rea de inters. Se elaboraron bases de datos, para llevar a cabo la comparacin con la imagen recortada y de esta manera asignar la clase correspondiente a cada imagen. Con la clase asignada se forma el texto que se muestra en forma escrita en la pantalla o a su vez se puede enviar a un documento de Word, adems es posible reproducir en audio el texto formado con la ayuda de la herramienta texto a voz de distintos programas.
ITSSNA
Fundamentos de investigacin.
CAPITULO 1
las lenguas de seas son lenguas naturales de produccin gestual y percepcin visual que tienen estructuras gramaticales perfectamente definidas y distintas de las lenguas orales con las que cohabitan LENGUA DE SEAS ..................................................................................... 9 ORIGEN DE LAS LENGUAS DE SEAS ....................................................... 9 CLASIFICACIN DE LAS LENGUAS DE SEAS ...................................... 11 LINGSTICA ............................................................................................... 14 VARIACIN DIALECTAL............................................................................. 17 FONOLOGA DE LAS LENGUAS DE SEAS ............................................ 17 SINTAXIS ..................................................................................................... 19
CAPITULO 2
Mucho antes del desarrollo del procesado de seal moderno, los investigadores de la voz intentaron crear mquinas que produjesen habla humana HISTORIA DE LA CONVERSION DE VOZ .................................................. 25 SENSOR ....................................................................................................... 27 EXTRACCIN DE CARACTERSTICAS ..................................................... 27 CLASIFICACIN .......................................................................................... 29
CAPITULO 3
El Reconocimiento ptico de Caracteres, es un proceso dirigido a la digitalizacin de textos, los cuales identifican automticamente a partir de una imagen smbolos o caracteres que pertenecen a un determinado alfabeto. RECONOCIMIENTO OPTICO DE CARACTERES ....................................... 31 BINARIZACIN ............................................................................................ 32 FRAGMENTACIN O SEGMENTACIN DE LA IMAGEN ......................... 32 ADELGAZAMIENTO DE LAS COMPONENTES ......................................... 33
ITSSNA
Fundamentos de investigacin.
CAPITULO 4
El reconocimiento de un texto manuscrito contina siendo un desafo. Aunque el texto se compone bsicamente de caracteres individuales, la mayora de algoritmos ROC no consiguen buenos resultados, ya que la segmentacin de texto continuo es un procedimiento complejo. RECONOCIMIENTO DE TEXTO MANUSCRITO ......................................... 34 INDEXACIN EN BASES DE DATOS ......................................................... 35 RECONOCIMIENTO DE DATOS ESTRUCTURADOS CON ROC ZONAL . 36
CAPITULO 5
La conversin texto-voz es la generacin de redes inalmbricas por medios automticos de una voz artificial que genera idntico sonido al producir por una persona al leer un texto cualquiera en voz alta o una voz artificial. CONVERSOR TEXTO-VOZ.......................................................................... 36 REQUISITOS DE LOS CONVERSORES CTV/TTS ...................................... 36 FASES DE LA CONVERSIN TEXTO-VOZ................................................. 37 SNTESIS DE HABLA .................................................................................. 37 TECNOLOGAS DE SNTESIS ..................................................................... 38 SNTESIS CONCATENATIVA...................................................................... 38 SNTESIS POR SELECCIN DE UNIDADES ............................................. 38 SNTESIS DE DIFONOS .............................................................................. 39 SNTESIS ESPECFICA PARA UN DOMINIO ............................................. 40 SNTESIS DE FORMANTES ........................................................................ 41 DESAFOS DE LA NORMALIZACIN DE TEXTO ...................................... 42 DESAFOS DE LOS SISTEMAS TEXTO A FONEMA ................................. 43 PROBLEMAS DE LA VOZ SINTTICA ........................................................ 44
ITSSNA
Fundamentos de investigacin.
CAPITULO 6
La visin artificial se desarrolla como una rama del estudio de la inteligencia artificial. La visin artificial tiene como propsito programar un computador para que pueda interpretar la informacin que contiene una imagen. VISION ARTIFICIAL ..................................................................................... 45 SOFTWARE PARA VISION ARTIFICIAL .................................................... 46 DESCRIPCION DEL TRADUCTOR DE SEALES DE MANOS .................. 46 DETECCIN DEL OBJETO DE INTERS................................................... 46 PASO A ESCALA DE GRISES Y MEJORAMIENTO DE CONTRASTE ....... 14 PROCESO DE BINARIZACIN ................................................................... 17 CONCLUSIN .............................................................................................. 48
ITSSNA
Fundamentos de investigacin.
CAPITULO 1
Las lenguas de seas son lenguas naturales de produccin gestual y percepcin visual que tienen estructuras gramaticales perfectamente definidas y distintas de las lenguas orales con las que cohabitan........
Lengua de seas
Las lenguas de seas son lenguas naturales de produccin gestual y percepcin visual que tienen estructuras gramaticales perfectamente definidas y distintas de las lenguas orales con las que cohabitan. La lengua de seas, o lengua de signos, es una lengua natural de expresin y configuracin gesto-espacial y percepcin visual (o incluso tctil por ciertas personas con sordoceguera), gracias a la cual las personas sordas pueden establecer un canal de comunicacin con su entorno social, ya sea conformado por otros individuos sordos o por cualquier persona que conozca la lengua de seas empleada. Mientras que con el lenguaje oral la comunicacin se establece en un canal vocal-auditivo, el lenguaje de seas lo hace por un canal gesto-viso-espacial. Una curiosidad de esta lengua es que a cada persona se le asigna un signo propio y caracterstico para no tener que deletrear su nombre en signos.
ITSSNA
Fundamentos de investigacin.
una tribu nica en la que un gran nmero de sus integrantes eran sordos, debido a la herencia de desarrollo de un gen dominante, y que se comunicaban con una lengua gestual. Un caso similar se desarroll en la isla de Martha's Vineyard al sur del estado de Massachusetts, donde debido al gran nmero de sordos se emple una lengua de seas que era de uso general tambin entre oyentes, hasta principios del siglo XX. Pese a esto, no existen referencias documentales sobre estas lenguas antes del siglo XVII. Los datos que se poseen tratan, sobre todo, de sistemas y mtodos educativos para personas sordas. En el siglo XVI Jernimo Cardano, mdico de Padua, en la Italia nortea, proclam que las personas sordas podran hacerse entender por
combinaciones escritas de smbolos asocindolos con las cosas a que ellos se referan. En el ao 1620 Juan de Pablo Bonet publica su Reduccin de las letras y Arte para ensear hablar los Mudos, considerado como el primer tratado moderno de Fontica y Logopedia, en el que se propona un mtodo de enseanza oral de los sordos mediante el uso de seas alfabticas configuradas unimanualmente, divulgando as en toda Europa, y despus en todo el mundo, el alfabeto manual, til para mejorar la comunicacin de los sordos y mudos. En 1817 Gallaudet fund la primera escuela de la nacin para las personas sordas, en Hartford, Connecticut, y Clerc se convirti en el primer maestro sordo de lengua de seas de los Estados Unidos. Pronto las escuelas para las personas sordas empezaron a aparecer en varios estados. Entre ellos la Escuela de Nueva York que abri sus puertas en 1818. En 1820 otra escuela se abri en Pennsylvania, y un total de veintids escuelas se haban establecido a lo largo de los Estados Unidos por el ao 1863. En esta obra (entre las pginas 130 y 131) aparece un abecedario ilustrado mediante grabados calcogrficos de los signos de las manos que representan las letras del alfabeto latino. Del tratado sobre Reduccin de las letras y Arte para ensear a hablar los Mudos se hicieron traducciones a las
ITSSNA
10
Fundamentos de investigacin.
principales lenguas de cultura. Sobre la base del alfabeto divulgado por Bonet, Charles-Michel de l'pe publica el siglo XVIII su alfabeto, que bsicamente es el que ha llegado hasta la actualidad, siendo conocido internacionalmente como alfabeto manual espaol.
Lenguas originadas en la antigua lengua de seas de Kent, usada durante el siglo XVII, que dio lugar a la lengua de seas usada en Martha's Vineyard (Massachusetts) y que influy de manera importante en la lengua de seas americana (ASL).
Lenguas originadas en la antigua lengua de seas francesa. Estas lenguas se remontan a las formas estandarizadas de lenguas de seas usadas en Espaa, Italia y Francia desde el siglo XVIII en la educacin de los sordos. En concreto, la antigua lengua de seas francesa se desarroll en el rea de Pars, gracias a los esfuerzos del abad Charles Michel de l'pe en su escuela de sordos. En tiempos modernos esta lengua ha dado lugar a otras varias, como la lengua de seas americana (ASL), la lengua de seas mexicana (LSM),
la moderna lengua de seas francesa (LSF), la lengua de seas italiana (LIS), la lengua de seas de Irlanda (IRSL) y las lenguas de seas ibricas (que muestran similitudes con la antigua lengua de seas francesa, pues no en vano los educadores espaoles de sordos del siglo XIX se formaron en el Instituto Nacional de Sordomudos de Pars), derivndose a dos o tres lenguas diferentes con cierta
ITSSNA
11
Fundamentos de investigacin.
inteligibilidad mutua, la lengua de seas espaola (LSE), la lengua de seas catalana (LSC) y la lengua de seas valenciana(LSCV).
Lenguas originadas en la lengua de seas britnica (BSL), que se diversific durante el siglo XIX dando lugar a la lengua de seas australiana (Auslan), la lengua de seas de Nueva Zelanda (NZSL) y la lengua de seas de Irlanda del Norte (NIRSL).
Lenguas originadas en la lengua de seas alemana (DGS), que se considera relacionada con la lengua de de seas de la Suiza y
alemana (DSGS),
la lengua
seas
austraca (GS)
probablemente la lengua de seas israel (ISL). Concepcin metodolgica para la preparacin en la LSC como segunda lengua En la actualidad se establecen intercambios cientfico-tcnicos y culturales entre distintas comunidades lingsticas, crece cada vez ms la necesidad de aprender una segunda lengua; y en particular se redimensiona su valor al tratarse de un idioma viso gestual; la LSC que utilizan las personas con discapacidad auditiva constituye su primera lengua y se considera su lengua natural, la que aprenden en su entorno lingstico sin restricciones. Es necesario que todas las personas involucradas en su educacin la dominen para poder interactuar con ellas y de este modo contribuir a la formacin de su personalidad. La enseanza de las segundas lenguas, en su recorrido por el siglo XX, ha ido incrementando su inters por el aprendizaje de la comunicacin oral hasta ocupar un lugar preponderante en la actualidad. Sin embargo, ha surgido con gran fuerza en los ltimos 30 aos el estudio de otras lenguas de carcter minoritario, donde se emplea el canal de comunicacin viso gestual, que exige de una didctica particular. En ambas su valor formativo est dado por sus potencialidades educativas, instructivas y desarrolladoras.
ITSSNA
12
Fundamentos de investigacin.
Las lenguas de seas no son autnticamente lenguas, sino cdigos mnemotcnicos para designar objetos y conceptos. Falso. Las lenguas de seas son lenguas naturales que tienen estructuras gramaticales perfectamente definidas. De hecho, existen personas, incluso oyentes, cuya lengua materna es una lengua de seas. El proceso de adquisicin lingstica estudiado en nios que tienen por lengua materna una lengua de seas sigue etapas totalmente anlogas a la adquisicin de las lenguas orales (balbuceo, etapa de una palabra). Adems, los procesos de analoga morfolgica, la elipsis, los cambios "fonolgicos" o la asimilacin tambin se dan de idntica forma en las lenguas de seas.
La lengua de seas espaola, la lengua de seas francesa o la lengua de seas britnica, son maneras de codificar el espaol, el francs o el ingls mediante signos gestuales. Falso. A veces la lengua de seas de ciertos pases y la lengua oral ms usada en esos mismos pases difieren gramaticalmente en muy diversos parmetros, como la posicin del ncleo sintctico o el orden sintctico de los
constituyentes. Algunas versiones de este malentendido, es que las lenguas de seas tienen alguna clase de dependencia de las lenguas orales, por ejemplo, que utilizan bsicamente un deletreo de las palabras de una lengua oral mediante smbolos gestuales.
Todas las lenguas de seas son parecidas. Falso. Las lenguas de seas difieren entre s, tanto en el lxico (conjunto de seas o signos
ITSSNA
13
Fundamentos de investigacin.
gestuales) como en la gramtica, tanto como difieren entre s las lenguas orales. En las lenguas de seas se utiliza el alfabeto manual o dactilolgico, generalmente para los nombres propios o tcnicos, si bien es slo una ms de las numerosas herramientas que poseen. Antiguamente, el uso de la dactilologa en las lenguas de seas era una evidencia presupuesta de que slo eran una pobre o simplificada versin de las lenguas orales, lo que tambin es falso. En general, las lenguas de seas son independientes de las lenguas orales y siguen su propia lnea de desarrollo. Por ltimo, un rea que tiene ms de una lengua oral puede tener una misma lengua de seas, pese a que haya diferentes lenguas orales. Este es el caso de Canad, los EE.UU., y Mxico, donde la Lengua de Seas Americana convive con las lenguas
orales inglesa, espaola, y francesa. Inversamente de igual modo, en una zona donde existe lengua oral que puede servir de lengua franca, pueden convivir varias lenguas de seas, como es el caso de Espaa, donde conviven la Lengua de seas espaola (LSE), la lengua de signes
Lingstica
El estudio cientfico de las lenguas de seas, ha revelado que poseen todas las propiedades y complejidades propias de cualquier lengua natural oral. A pesar de la generalizada y errnea concepcin de que son "lenguas artificiales". En concreto se han encontrado los siguientes hechos relativos a las lenguas de seas que proporcionan los lingsticos necesarios para clasificarlas como lenguas naturales:
Poseen una fonologa abstracta, llamada en este caso querologa, analizable en trminos formales en rasgos de posicin, orientacin, configuracin, en un modo anlogo a como son analizados
ITSSNA
14
Fundamentos de investigacin.
los fonemas de las lenguas. Adems la realizacin de cada signo est sujeto al mismo tipo de variedad que los sonidos de las lenguas orales (variacin dialectal, asimilacin, cambio lingstico).
Poseen una sintaxis que obedece los mismos principios generales que las otras lenguas naturales, y tienen algunos mecanismos de formacin de palabra productivos que permiten afirmar la existencia de procesos morfolgicos.
La adquisicin de una lengua de seas por parte de bebs (sordos u oyentes) sigue un proceso paralelo a la adquisicin de una lengua oral por parte de un nio oyente.
Existen comunidades estables de hablantes, cuya lengua presenta tanto variaciones dialectales, modismos propios de cada comunidad, y est sujeto al mismo tipo de cambio lingstico universalmente detectado en todas las lenguas naturales (las lenguas artificiales carecen de estas caractersticas).
Las lenguas de seas, al igual que las orales, se organizan por unidades elementales sin significado propio (lexemas).
Histricamente, el primero en analizar las lenguas de seas en trminos lingsticos fue el jesuita espaol, padre de la Lingstica Comparada, Abate Lorenzo Hervs y Panduro (1735-1809). En su obra, editada en Madrid en 1795, Escuela Espaola de Sordomudos o Arte para ensearles a escribir y hablar el idioma espaol, es decir, dos siglos antes de que William C. Stokoe hiciera lo propio con la Lengua de Seas Estadounidense (ASL). Las lenguas de seas no son simple mmica, ni tampoco una reproduccin visual de alguna versin simplificada de ninguna lengua oral.
Tienen gramtica compleja, creativa y productiva como la de cualquier otra lengua natural. Una prueba ms de la diferencia entre las lenguas orales y las lenguas de seas es el hecho de que estas ltimas explotan nicamente los disparos del
ITSSNA
15
Fundamentos de investigacin.
medio visual. La lengua oral es auditiva y, consecuentemente, lineal. Slo se puede emitir o recibir un sonido a la vez, mientras que la lengua de seas es visual y, por lo tanto, se puede referir un espacio entero al mismo tiempo. En consecuencia, la informacin puede fluir mediante varios "canales" y expresarse simultneamente. Otra caracterstica que ha significado una diferenciacin entre la lengua de seas y las lenguas orales es la dificultad de ser escrita, pues se trata de una lengua tradicionalmente grafa, ya que, normalmente, las lenguas de seas no se han escrito. Entre otros motivos ha contribuido, el que la mayora de las personas sordas leen y escriben en la lengua oral de su pas. Pese a esto, ha habido propuestas para desarrollar sistemas de transcripcin de las lenguas de seas, provenientes sobre todo del mundo acadmico, pero la mayora de ellas tiene deficiencias para captar todas las caractersticas comunicativas que se utilizan en las lenguas de seas (especialmente los elementos no-manuales y posicionales). Sin embargo, existen varios sistemas de representacin de las seas mediante signos textuales (glosas, signo-escritura alfabtico.) O bien, icnicos (HamNoSys, Sign Writing). Este ltimo sistema -creado por Valerie Sutton alrededor de 1974- permite la escritura de todas las lenguas de seas del mundo de una forma bastante sencilla de aprender, adems de ser, quizs, el ms completo y flexible, pues ya se utiliza en varios pases e idiomas con buenos resultados. Por tal motivo permite describir de forma bastante precisa -aunque no perfecta-, los elementos no manuales y posicionales, dotando a las personas sordas de la posibilidad de acceder a diccionarios, libros, diarios o revistas con sus contenidos expresados en la correspondiente lengua de seas, con lo cual stas reciben la posibilidad de ser, tambin, lenguas escritas.
ITSSNA
16
Fundamentos de investigacin.
Variacin dialectal
De igual manera a como sucede con el lenguaje oral, no hay necesariamente una lengua de seas para cada pas, y an menos es una lengua universal, sino que hay variadas lenguas de seas diferentes en el mundo, ubicadas regionalmente. Existen al menos unas cincuenta lenguas prcticamente ininteligibles entre s, y numerosos dialectos, algunos de los cuales coexisten dentro de una misma ciudad. Adems, existe un Sistema de Seas Internacional (SSI), que se puede considerar como un sistema de comunicacin formado por seas propias, consensuadas, procedentes de las diferentes lenguas. Actualmente, est en discusin si se trata de una lengua o un piyin (pidgin), trmino con el que se le ha vinculado en los ltimos aos. En rigor, esto no es as, sino que, coincidiendo con un cambio en la direccin de la Federacin Mundial de Sordos (WFD-FMS), los nuevos dirigentes pretendieron sustituir al
anterior Gestuno. Sistemas ambos que son equivalentes al esperanto en la lengua oral, discutido cuando nos referimos tanto al Sistema de Seas Internacional, como al caso del Gestuno, lenguas que, como el Esperanto, son de creacin artificial o convencional y de uso minoritario y desconocido por la mayora de las personas sordas. El SSI es utilizado por personas que no comparten una lengua de seas comn y que necesitan comunicarse sin la intermediacin de un intrprete (aunque en conferencias internacionales s es comn el uso de estos intrpretes).
ITSSNA
17
Fundamentos de investigacin.
2. Orientacin de la mano: palma hacia arriba, hacia abajo, hacia el signante. 3. Lugar de articulacin. Lugar del cuerpo donde se realiza el signo: boca, frente, pecho, hombro. 4. Movimiento. Movimiento de las manos al realizar un signo: giratorio, recto, vaivn, quebrado. 5. Punto de contacto. Parte de la mano dominante (derecha si eres diestro, izquierda si eres zurdo) que toca otra parte del cuerpo: yemas de los dedos, palma de la mano, dorso de los dedos. 6. Plano. Es donde se realiza el signo, segn la distancia que lo separa del cuerpo, siendo el Plano 1 en contacto con el cuerpo, y el Plano 4 el lugar ms alejado (los brazos estirados hacia delante). 7. Componente no manual. Es la informacin que se transmite a travs del cuerpo: Expresin facial, componentes hablados y componentes orales, movimientos del tronco y hombros. (Como ejemplo; al expresar futuro nos inclinamos ligeramente hacia delante, y al expresar pasado, hacia atrs). 1. Mecanismo de corriente, que indica cul es el mecanismo de generacin de la corriente de aire: pulmonar, eyectivo, inyectivo, 2. Modo de articulacin, que divide a los sonidos en oclusivos, fricativos, aproximantes o voclicos. 3. Punto de articulacin, segn cuales sean las dos partes del tracto vocal que estn ms cercanas en el momento de la articulacin. 4. Coarticulacin, cuando un sonido presenta varias fases en el modo o en el punto de articulacin a lo largo de su articulacin. 5. Sonoridad.
ITSSNA
18
Fundamentos de investigacin.
Sintaxis
Muchas lenguas de seas tienden a ser lenguas analticas con poca morfologa. Esto, sin embargo, puede ser ms una consecuencia del origen histrico de las mismas que una caracterstica necesaria o preferente de las lenguas de seas. En la mayora de lenguas de seas por ejemplo, los procesos morfolgicos son ms usados en los procesos de formacin de palabras: derivacin y composicin y son evidentes en la estructura de buena parte del lxico.
ITSSNA
19
Fundamentos de investigacin.
al orden de las palabras y poco uso del verbo ser. Sin embargo, hay un uso extensivo de signos inicializados, un estudio encontr que el 37% de las palabras son inicializadas, frente al 14% para lengua de seas
americana (Faurot et al. 2001). Los mismos autores sugieren que la comprensin de la comunidad sorda de la lengua espaola es muy baja. El trmino "espaol seado" se refiere a signos que utilizan seas de la LSM siguiendo el orden de las palabras en espaol, con algunas representaciones de la morfologa del espaol. Hay un grupo de sufijos que el espaol seado usa de una forma similar a la del ingls seado, por ejemplo, seas para -dor y -cin (para los nombres). Los artculos y pronombres son deletreados. El espaol seado no debe ser utilizado por intrpretes en ningn contexto, pues no es aceptado por la comunidad Sorda mexicana, debido a que principalmente la LSM es una lengua competente frente a cualquier otra.
Situacin
En 2003, la lengua de seas mexicana se declar oficialmente una "lengua nacional", junto con las lenguas indgenas y el espaol, que se utiliza en el sistema nacional de educacin para sordos. Antes de eso la principal filosofa educativa en el pas se centr en el oralismo (voz y lectura de labios) y con
ITSSNA
20
Fundamentos de investigacin.
pocas escuelas en las que las clases fuesen realizadas en LSM. La Ley General Para La Inclusin De Las Personas Con Discapacidad en el artculo 14 seala que: "La Lengua de Seas Mexicana, es reconocida oficialmente como una lengua nacional y forma parte del patrimonio lingstico con que cuenta la nacin mexicana." Un segmento de 5 minutos en seas de un programa noticiero televisivo nocturno se transmiti en espaol seado a mediados de 1980, y de nuevo en la dcada de 1990, fue interrumpido en 1992, y finalmente reanudado como un resumen de 2 minutos de noticias en 1997. Aunque la comunicacin por medio de seas constituye un lenguaje natural para las personas sordas, en Mxico no todas las escuelas dedicadas a la enseanza de los sordos promueven su uso. Algunos sordos aprenden a pronunciar, leer los labios e incluso leer y escribir espaol, en un esfuerzo por "integrarlos" a la sociedad de oyentes. En el mejor de los casos, adems de aprender lo anterior, tambin aprendern a comunicarse entre sordos por el uso del Lenguaje de signos mexicano (LSM), el lenguaje usado por la poblacin de sordos en Mxico. Sin embargo, otros sordos han sido marginados. Nunca han ido a la escuela y no conocen el LSM, sino que se comunican slo con su familia y allegados por medio del uso de "seas familiares" (creadas por ellos o sus parientes), mmica o dibujos. An otra manera de comunicarse con los sordos consiste en el "espaol de seas exactas" o "espaolizacin", el cual consiste "transliterar" palabra por palabra el idioma Espaol usando las seas del LSM, y "deletreando" con el abecedario en LSM los trminos que en este ltimo no se utilizan, (como los artculos y muchos de los pronombres). Esto sin embargo, puede resultar confuso para los sordos, pues en realidad el LSM es muy diferente del espaol. De hecho no existe una sea para cada palabra en espaol. Por otro lado, el que exista en nuestro pas un lenguaje "oficial" no quiere decir que ste sea completamente uniforme. Muchas veces vara segn la
ITSSNA
21
Fundamentos de investigacin.
ciudad o regin, y se diferencia particularmente en lo relativo a terminologa religiosa. Si esto aplica al LSM, podemos imaginarnos la gran variedad de lenguajes de seas que existen alrededor del mundo, en donde prcticamente cada pas, aunque comparta el mismo idioma hablado, tendr un conjunto de signos diferenciados para la comunicacin entre sordos, los cuales parecen muy poco entre s. Por ejemplo en Mxico, aunque el LSM se deriva del sistema de signos francs (trado a finales del siglo XIX), se diferencia del lenguaje de seas francs y americano (ASL) pues utiliza muchas de las seas que ya se utilizaban antes de esto en el pas. Asimismo, una caracterstica del LSM es la "inicializacin", es decir, tomar del alfabeto del lenguaje de signos la sea que corresponde a la primera letra de la palabra en espaol que se est explicando.
Cantidad de palabras: Si se le compara con el espaol, el LSM utiliza un lxico ms bsico. No existe una sea para cada palabra en espaol. Muchas veces se puede utilizar una misma sea para las diferentes grados o niveles de una palabra en Espaol, en donde la intensidad de dicho nivel lo da la manera en que se signa (velocidad, fuerza y sobre todo la expresin facial).
Uso de verbos: En LSM el verbo aparece sin conjugarse, en infinitivo. Para indicar el tiempo en que ocurre la accin, se utiliza una sea aparte (vase el apartado Tiempo" de la seccin Reglas gramaticales del LSM). Asimismo, para aplicarle la accin a alguien se ubica previamente a este en un espacio para despus hacer la sea cerca de dicho espacio.
o
ITSSNA
22
Fundamentos de investigacin.
En LSM el nmero generalmente va despus del sustantivo. Ejemplo: Hijo 2 (LSM) en lugar de 2 hijos (Espaol).
Se omiten los artculos (l, la, los, etc.) y la mayora de los pronombres en LSM. La manera de aplicar una idea o accin a alguien es mediante la ubicacin de este en un espacio, para posteriormente sealarlo, o bien, hacer la sea cerca del espacio donde se posicion.
ITSSNA
23
Fundamentos de investigacin.
ITSSNA
24
Fundamentos de investigacin.
CAPITULO 2
Mucho antes del desarrollo del procesado de seal moderno, los investigadores de la voz intentaron crear mquinas que produjesen habla humana.................
ITSSNA
25
Fundamentos de investigacin.
mejorado en gran medida, y el resultado de los sistemas de sntesis contemporneos es, en ocasiones, indistinguible del habla humana real. A pesar del xito de los sintetizadores puramente electrnicos, sigue investigndose en sintetizadores mecnicos para su uso en robots humanoides. Incluso el mejor sintetizador electrnico est limitado por la calidad del transductor que produce el sonido, as que en un robot un sintetizador mecnico podra ser capaz de producir un sonido ms natural que un altavoz pequeo. El primer sistema de sntesis computarizado fue creado a final de la dcada de 1950 y el primer sistema completo texto a voz se finaliz en 1968. Desde entonces se han producido muchos avances en las tecnologas usadas para sintetizar voz.
Reconocimiento de patrones
El reconocimiento de patrones tambin llamado lectura de patrones, identificacin de figuras y reconocimiento de formas consiste en el reconocimiento de patrones de seales. Los patrones se obtienen a partir de los procesos de segmentacin, extraccin de caractersticas y descripcin dnde cada objeto queda representado por una coleccin de descriptores. El sistema de reconocimiento debe asignar a cada objeto su categora o clase (conjunto de entidades que comparten alguna caracterstica que las diferencia del resto). Para poder reconocer los patrones se siguen los siguientes procesos: 1. adquisicin de datos 2. extraccin de caractersticas 3. toma de decisiones
ITSSNA
26
Fundamentos de investigacin.
El punto esencial del reconocimiento de patrones es la clasificacin: se quiere clasificar una seal dependiendo de sus caractersticas. Seales, caractersticas y clases pueden ser de cualquiera forma, por ejemplo se puede clasificar imgenes digitales de letras en las clases A a Z dependiendo de sus pxeles o se puede clasificar ruidos de cantos de los pjaros en clases de rdenes aviares dependiendo de las frecuencias.
Sensor
El sensor es el dispositivo encargado de la adquisicin de datos. Ha de ser capaz de transformar magnitudes fsicas o qumicas, llamadas variables de instrumentacin, en magnitudes elctricas. Las variables de
instrumentacin dependen del tipo de sensor y pueden ser por ejemplo: temperatura, intensidad lumnica, distancia, aceleracin, inclinacin,
Extraccin de caractersticas
Es el proceso de generar caractersticas que puedan ser usadas en el proceso de clasificacin de los datos. En ocasiones viene precedido por un pre procesado de la seal, necesario para corregir posibles deficiencias en los datos debido a errores del sensor, o bien para preparar los datos de cara a posteriores procesos en las etapas de extraccin de caractersticas o clasificacin.
ITSSNA
27
Fundamentos de investigacin.
Las caractersticas elementales estn explcitamente presentes en los datos adquiridos y pueden ser pasados directamente a la etapa de clasificacin. Las caractersticas de alto orden son derivadas de las elementales y son generadas por manipulaciones o transformaciones en los datos.
Seleccin de variables
Consiste en seleccionar cul es el tipo de caractersticas o rasgos ms adecuados para describir los objetos. Para ello, se deben localizar los rasgos que inciden en el problema de manera determinante. Esta etapa tambin puede ser diseada dentro de la clasificacin. La seleccin de variables puede diferenciarse segn los objetivos buscados:
Para la clasificacin: la seleccin de caractersticas relevantes, a partir del conjunto total de caractersticas que describen a los objetos, se hace con dos motivos fundamentales: mejorar la clasificacin o aumentar la velocidad de procesamiento.
filter: la seleccin se hace con un criterio independiente del clasificador. Incluye algunos mtodos como:
Tablas de decisin: le busca un subconjunto mnimo de variables que no introduzca confusin entre clases.
ID3: le crea un rbol de decisin y se selecciona un conjunto de variables que permita discriminar entre clases.
Teora de testores: le buscan todos los subconjuntos de variables discriminantes minimales, con estos se evala la relevancia de cada variable y se seleccionan aquellas con mayor relevancia.
ITSSNA
28
Fundamentos de investigacin.
Clasificacin
La clasificacin trata de asignar las diferentes partes del vector de caractersticas a grupos o clases, basndose en las caractersticas extradas. En esta etapa se usa lo que se conoce como aprendizaje automtico, cuyo objetivo es desarrollar tcnicas que permitan a las computadoras aprender. Utiliza habitualmente uno de los siguientes procedimientos:
Geomtrico (Clustering): Los patrones deben ser graficables. En ste enfoque se emplea el clculo de distancias, geometra de formas, vectores numricos, puntos de atraccin, etc.
Estadstico: Se basa en la teora de la probabilidad y la estadstica, utiliza anlisis de varianzas, covarianzas, dispersin, distribucin, etc.
Supone que se tiene un conjunto de medidas numricas con distribuciones de probabilidad conocidas y a partir de ellas se hace el reconocimiento.
Sintcticoestructural: se basa en encontrar las relaciones estructurales que guardan los objetos de estudio, utilizando la teora de lenguajes formales, teora de autmatas, etc. El objetivo es construir una gramtica que describa la estructura del universo de objetos. Neuroreticular: se utilizan redes neuronales que se entrenan para dar una cierta respuesta ante determinados valores.
Lgicocombinatorio: se basa en la idea de que el modelado del problema debe ser lo ms cercano posible a la realidad del mismo, sin hacer suposiciones que no estn fundamentadas. Se utiliza para conjuntos difusos y utiliza lgica simblica, circuitos combinacionales y secuenciales, etc.
ITSSNA
29
Fundamentos de investigacin.
Segn tengamos constancia o no de un conjunto previo que permita al sistema aprender, la clasificacin puede ser supervisada, parcialmente supervisada o no supervisada. a) Clasificacin supervisada: tambin es conocida como clasificacin con aprendizaje. Se basa en la disponibilidad de reas de entrenamiento. Se trata de reas de las que se conoce a priori la clase a la que pertenecen y que servirn para generar una signatura espectral caracterstica de cada una de las clases. Se denominan clases informacionales en contraposicin a las clases espectrales que genera la clasificacin no supervisada. Algunos mtodos de la clasificacin supervisada:
Funciones discriminantes: si son dos clases, se busca obtener una funcin g tal que para un nuevo objeto O, si g(O) 0 se asigna a la clase 1 y en otro caso a la 2. Si son mltiples clases se busca un conjunto de funciones gi y el nuevo objeto se ubica en la clase donde la funcin tome el mayor valor.
Vecino ms cercano: un nuevo objeto se ubica en la clase donde est el objeto de la muestra original que ms se le parece.
Redes neuronales artificiales: denominadas habitualmente RNA o en sus siglas en ingls ANN. Se supone que imitan a las redes neuronales reales en el desarrollo de tareas de aprendizaje.
b) Clasificacin parcialmente supervisada: tambin conocida como de aprendizaje parcial. En estos problemas existe una muestra de objetos slo en algunas de las clases definidas. c) Clasificacin no supervisada: tambin conocida como clasificacin sin aprendizaje. Se utilizan algoritmos de clasificacin automtica multivariante en los que los individuos ms prximos se van agrupando formando clases.
ITSSNA
30
Fundamentos de investigacin.
Libre: el nmero de clases en la que se estructurar la muestra depende exclusivamente de los datos.
Simple Link y Complete Link: parten de grupos unitarios de objetos y van uniendo los grupos ms parecidos en cada etapa, hasta cumplir alguna condicin.
ISODATA: se van formando grupos que se ajustan iterativamente usando teora de probabilidades. En algunas versiones se puede hacer la unin o divisin de algn grupo.
C-means: se define un grupo de semillas, se asocia cada objeto al grupo de la semilla ms parecida, se toman los centroides de cada grupo como nuevas semillas y se itera hasta que se estabilice.
Criterios lgico-combinatorios: los criterios que se imponen a los grupos son tales como ser conexos, completos maxi males, compactos, etc.
CAPITULO 3
El Reconocimiento ptico de Caracteres, es un proceso dirigido a la digitalizacin de textos, los cuales identifican automticamente a partir de una imagen smbolos o caracteres que pertenecen a un determinado alfabeto...........................
ITSSNA
31
Fundamentos de investigacin.
de edicin de texto o similar. Con frecuencia es abreviado en textos escritos en el idioma espaol, utilizando el acrnico a partir del ingls OCR. En los ltimos aos la digitalizacin de la informacin (textos, imgenes, sonido, etc.) ha devenido un punto de inters para la sociedad. En el caso concreto de los textos, existen y se generan continuamente grandes cantidades de informacin escrita, tipogrfica o manuscrita en todo tipo de soportes. En este contexto, poder automatizar la introduccin de caracteres evitando la entrada por teclado, implica un importante ahorro de recursos humanos y un aumento de la productividad, al mismo tiempo que se mantiene, o hasta se mejora, la calidad de muchos servicios.
Binarizacin
La mayor parte de algoritmos de ROC parten como base de una imagen binaria (dos colores) por lo tanto es conveniente convertir una imagen de escala de grises, o una de color, en una imagen en blanco y negro, de tal forma que se preserven las propiedades esenciales de la imagen. Una forma de hacerlo es mediante el histograma de la imagen donde se muestra el nmero de pixeles para cada nivel de grises que aparece a la imagen. Para binarizarla tenemos que escoger un umbral adecuado, a partir del cual todos los pixeles que no lo superen se convertirn en negro y el resto en blanco. Mediante este proceso obtenemos una imagen en blanco y negro donde quedan claramente marcados los contornos de los caracteres y smbolos que contiene la imagen. A partir de aqu podemos aislar las partes de la imagen que contienen texto (ms transiciones entre blanco y negro).
ITSSNA
32
Fundamentos de investigacin.
contornos o regiones de la imagen, basndose en la informacin de intensidad o informacin espacial. Permite la descomposicin de un texto en diferentes entidades lgicas, que han de ser suficientemente invariables, para ser independientes del escritor, y suficientemente significativas para su reconocimiento. No existe un mtodo genrico para llevar a cabo esta segmentacin de la imagen que sea lo suficientemente eficaz para el anlisis de un texto. Aunque, las tcnicas ms utilizadas son variaciones de los mtodos basados en proyecciones lineales. Una de las tcnicas ms clsicas y simples para imgenes de niveles de grises consiste en la determinacin de los modos o agrupamientos (clster) a partir del histograma, de tal forma que permitan una clasificacin o umbralizacin de los pixeles en regiones homogneas.
ITSSNA
33
Fundamentos de investigacin.
funcionamiento del ROC se basa en gran medida a una buena definicin de esta etapa. Existen diferentes mtodos para llevar a cabo la comparacin. Uno de ellos es el Mtodo de Proyeccin, en el cual se obtienen proyecciones verticales y horizontales del carcter por reconocer y se comparan con el alfabeto de caracteres posibles hasta encontrar la mxima coincidencia. Existen otros mtodos como por ejemplo: Mtodos geomtricos o estadsticos, Mtodos estructurales, Mtodos Neuro-mimticos, Mtodos Markovianos o Mtodos de Zadeh.
Aplicaciones
Desde la aparicin de los algoritmos de Reconocimiento ptico de Caracteres han sido muchos los servicios que han introducido estos procesos para aumentar su rendimiento y otros que se basan completamente en estas tecnologas. A continuacin se muestran algunas de las ms destacables aplicaciones que utilizan el ROC.
CAPITULO 4
El reconocimiento de un texto manuscrito contina siendo un desafo. Aunque el texto se compone bsicamente de caracteres individuales, la mayora de algoritmos ROC no consiguen buenos resultados, ya que la segmentacin de texto continuo es un procedimiento complejo
ITSSNA
34
Fundamentos de investigacin.
En el caso de reconocimiento de escritura manuscrita a la hora de correccin de exmenes, existe la posibilidad, aadiendo un listado de lxico (nombres y apellidos) de acercarse al 100% de acierto. A travs de las casillas de respuesta ICR se pueden reconocer palabras, como nombres de pases, nombres de regiones, marcas comerciales, en resumen, todo aquello que pueda ser integrado en una lista de palabras Lxico- este puede ir aumentndose segn necesidades. Por otro lado, se puede llegar a comprender una frase cuando la hemos terminado de leer. Esto implica una operacin de niveles morfolgicos, lxico y sintctico que se consigue mediante el reconocimiento del habla continua. Para llevar a cabo esa metodologa, se utilizan algoritmos robustos que utilizan una segmentacin previa, debido a que se obtiene automticamente con la descodificacin.
ITSSNA
35
Fundamentos de investigacin.
CAPITULO 5
La conversin texto-voz es la generacin de redes inalmbricas por medios automticos de una voz artificial que genera idntico sonido al producir por una persona al leer un texto cualquiera en voz alta o una voz artificial..........................
Conversor texto-voz
La conversin texto-voz es la generacin de redes inalmbricas por medios automticos de una voz artificial que genera idntico sonido al producir por una persona al leer un texto cualquiera en voz alta o una voz artificial. Es decir, son sistemas que permiten la conversin de textos en voz sinttica. Los conversores de texto-voz son conocidos en el ingls tambin con las siglas CTV o por las siglas en ingls TTS (Text to speech).
ITSSNA
36
Fundamentos de investigacin.
3. El texto introducido en el sistema ha de ser un texto arbitrario cualquiera, no puede estar amaado en ningn sentido.
En la primera fase se realiza una representacin lingstica simblica, para ello se siguen tres procesos consecutivos: 1. Normalizacin del texto. Se convierte la totalidad del texto a una forma textual convencional. Esto afecta principalmente a las cifras, abreviaturas, etc. A la normalizacin del texto tambin se la denomina pre procesado o tokenizacin. 2. Conversin fontica. Una vez normalizado el texto se asignan transcripciones fonticas a cada palabra. El proceso de convertir las transcripciones fonticas en palabras se denomina conversin texto-fonema (TTP en sus siglas en ingls de text-to-phoneme) o conversin grafema-fonema (GTP en sus siglas en ingls de grapheme-to-phoneme). 3. Divisin prosdica. Se divide el texto en unidades prosdicas, tales como unidades sintagmticas, proposiciones y frases.
En la segunda fase, la que forma el sintetizador propiamente dicho, toma como entrada la representacin lingstica simblica y la transforma en voz sinttica.
Sntesis de habla
La voz sinttica es una voz artificial (no pregrabada), generada mediante un proceso de sintetizacin del habla. La sntesis de habla es la produccin artificial de habla humana. Un sistema usado con este propsito recibe el nombre de sintetizador de habla y puede llevarse a cabo en software o en hardware. La sntesis de voz se llama a menudo en ingls text-to-speech (TTS), en referencia a su capacidad de convertir texto en habla. Sin embargo, hay sistemas que en lugar de producir
ITSSNA
37
Fundamentos de investigacin.
voz a partir de texto lo hacen a partir de representacin lingstica simblica en habla. La calidad de una voz sinttica vendr dada por:
Su inteligibilidad: con qu facilidad/dificultad es entendida? Su naturalidad: en qu medida se asemeja a la voz real de un humano?
Tecnologas de sntesis
Las dos caractersticas utilizadas para describir la calidad de un sintetizador de voz son la naturalidad e inteligibilidad. La naturalidad de un sintetizador de voz se refiere a hasta qu punto suena como la voz de una persona real. La inteligibilidad de un sintetizador se refiere a la facilidad de la salida de poder ser entendida. El sintetizador ideal debe de ser a la vez natural e inteligible, y cada tecnologa intentan conseguir el mximo de ambas. Algunas de las tecnologas son mejores en naturalidad o en inteligibilidad y las metas de la sntesis determinan a menudo qu aproximacin debe seguirse. Hay dos tecnologas principales usadas para generar habla sinttica: sntesis concatenativa y sntesis de formantes.
Sntesis concatenativa
La sntesis concatenativa se basa en la concatenacin de segmentos de voz grabados. Generalmente, la sntesis concatenativa produce los resultados ms naturales. Sin embargo, las diferencias entre la variacin natural del habla y las tcnicas automatizadas de segmentacin de formas de onda resultan en defectos audibles, que conllevan una prdida de naturalidad.
ITSSNA
38
Fundamentos de investigacin.
de datos, el habla se segmenta en algunas o todas de las siguientes unidades: fonemas, slabas, palabras, frases y oraciones. Normalmente, la divisin en segmentos se realiza usando un reconocedor de voz modificado para forzar su alineamiento con un texto conocido. Despus se corrige manualmente, usando representaciones como la forma de onda y el espectrograma. Se crea un ndice de las unidades en la base de datos basada en parmetros acsticos de la segmentacin como la frecuencia fundamental, el pitch, la duracin, la posicin en la slaba y los fonemas vecinos. En tiempo de ejecucin, el objetivo deseado se crea determinando la mejor cadena de candidatos de la base de datos (seleccin de unidades). Este proceso se logra tpicamente usando un rbol de decisin
especialmente ponderado. La seleccin de unidades da la mxima naturalidad debido al hecho de que no aplica mucho procesamiento digital de seales al habla grabada, lo que a menudo hace que el sonido grabado suene menos natural, aunque algunos sistemas usan un poco de procesado de seal en la concatenacin para suavizar las formas de onda. De hecho, la salida de la mejor seleccin de unidades es a menudo indistinguible de la voz humana real, especialmente en contextos en los que el sistema ha sido adaptado. Por ejemplo, un sistema de sntesis de voz para dar informaciones de vuelos puede ganar en naturalidad si la base de datos fue construida a base grabaciones de informaciones de vuelos, pues ser ms probable que aparezcan unidades apropiadas e incluso cadenas enteras en la base de datos. Sin embargo, la mxima naturalidad a menudo requiere que la base de datos sea muy amplia, llegando en algunos sistemas a los gigabytes de datos grabados.
Sntesis de difonos
La sntesis de difonos usa una base de datos mnima conteniendo todos los difonos que pueden aparecer en un lenguaje dado. El nmero de difonos
ITSSNA
39
Fundamentos de investigacin.
depende de la fono tctica del lenguaje: el espaol tiene unos 800 difonos, el alemn unos 2500. En la sntesis de difonos, la base de datos contiene un slo ejemplo de cada difono. En tiempo de ejecucin, la prosodia de una oracin se sobre impone a estas unidades mnimas mediante procesamiento digital de seales, como codificacin lineal predictiva, PSOLA o MBROLA. La calidad del habla resultante es generalmente peor que la obtenida mediante seleccin de unidades pero ms natural que la obtenida mediante sintetizacin de formantes. La sntesis difonos adolece de los defectos de la sntesis concatenativa y suena robtica como la sntesis de formantes, y tiene pocas ventajas respecto a estas tcnicas aparte del pequeo tamao de la base de datos, as que su uso en aplicaciones comerciales experimenta un declive, aunque contina usndose en investigacin porque hay unas cuantas implementaciones libres.
ITSSNA
40
Fundamentos de investigacin.
Sntesis de formantes
La sntesis de formantes no usa muestras de habla humana en tiempo de ejecucin. En lugar de eso, la salida se crea usando un modelo acstico. Parmetros como la frecuencia fundamental y los niveles de ruido se varan durante el tiempo para crear una forma de onda o habla artificial. Este mtodo se conoce tambin como sntesis basada en reglas pero algunos aducen que muchos sistemas concatenativos usan componentes basados en reglas para algunas partes de sus sistemas, como el front-end, as que el trmino no es suficientemente especfico. Muchos sistemas basados en sntesis de formantes generan habla robtica y de apariencia artificial, y la salida nunca se podra confundir con la voz humana. Sin embargo, la naturalidad mxima no es siempre la meta de un sintetizador de voz, y estos sistemas tienen algunas ventajas sobre los sistemas concatenativos. La sntesis de formantes puede ser muy inteligible, incluso a altas velocidades, evitando los defectos acsticos que pueden aparecer con frecuencia en los sistemas concatenativos. La sntesis de voz de alta velocidad es a menudo usada por los discapacitados visuales para utilizar computadores con fluidez. Por otra parte, los sintetizadores de formantes son a menudo programas ms pequeos que los sistemas concatenativos porque no necesitan una base de datos de muestras de voz grabada. De esta forma, pueden usarse en sistemas embebidos, donde la memoria y la capacidad de proceso son a menudo exiguas. Por ltimo, dado que los sistemas basados en formantes tienen un control total sobre todos los aspectos del habla producida, pueden incorporar una amplia variedad de tipos de entonaciones, que no slo comprendan preguntas y enunciaciones.
ITSSNA
41
Fundamentos de investigacin.
ITSSNA
42
Fundamentos de investigacin.
sintona 1425 am". Los sistemas con front end inteligentes pueden hacer estimaciones adecuadas acerca de cmo tratar abreviaturas ambiguas, mientras que otros pueden hacer lo mismo en todos los casos, dando resultados en ocasiones cmicos.
ITSSNA
43
Fundamentos de investigacin.
irregulares. Como resultado, casi cualquier sintetizador de voz usa una combinacin de las dos tcnicas. Algunos idiomas, como el espaol, tienen un sistema de escritura muy regular y la prediccin de la pronunciacin de palabras basada en deletreos es casi siempre correcta. Los sistemas de sntesis de voz para este tipo de lenguajes generalmente usan un enfoque basado en reglas como el enfoque central para la conversin texto-fonema y auxilindose de diccionarios pequeos para algunas palabras de origen extranjero cuya pronunciacin no se deduce de la escritura. En otros como el ingls, dado que se trata de sistemas muy irregulares en su escritura, el enfoque se basa principalmente en diccionarios y slo para palabras no usuales se basa en reglas.
Rechazo por parte de los usuarios que no le perdonan su falta de naturalidad y su timbre robtico.
Los CTV (Conversores de Texto-Voz) producen voz, generalmente, voz de hombre. Hay varias razones que pueden explicar este hecho:
Una explicacin sociolgica obvia es que, hasta hace relativamente poco, las personas que trabajaban en los laboratorios eran hombres y stos empleaban su propia voz durante los experimentos.
La voz masculina ofrece mejor calidad sonora que la femenina. Esto se debe a que la frecuencia fundamental (primer armnico) de la mujer es bastante ms alta que la de hombre.
La forma de onda en la voz de mujer tiene un componente de oscilacin no peridica, que viene dado por una mayor frecuencia en la aspiracin, que resulta ms notable que la del hombre. Este componente de la excitacin global es difcil de modelar adecuadamente.
ITSSNA
44
Fundamentos de investigacin.
En los ltimos tiempos han aparecido sintetizadores que utilizan voz de mujer de calidad aceptable, sin embargo, siguen sin alcanzar la calidad ofrecida por un sintetizador de similares caractersticas que emplee voz masculina.
CAPITULO 6
La visin artificial se desarrolla como una rama del estudio de la inteligencia artificial. La visin artificial tiene como propsito programar un computador para que pueda interpretar la informacin que contiene una imagen.........................
Visin artificial
La visin artificial se desarrolla como una rama del estudio de la inteligencia artificial. La visin artificial tiene como propsito programar un computador para que pueda interpretar la informacin que contiene una imagen. Un sistema de visin artificial consta de los siguientes elementos: Iluminacin: Consta de todos los dispositivos (lmparas, lser, LEDs, etc.) que sirven como fuente de luz, y a travs de los cuales se va a tener una iluminacin lo ms uniforme posible. De este subsistema depende en gran parte la adecuada adquisicin de la imagen. Captacin: En este subsistema se encuentran los transductores que convierten la radiacin luminosa reflejada en seales elctricas, por ejemplo las cmaras CCD. Sistema de Adquisicin: En este subsistema se transforma las seales elctricas que provienen de las cmaras en seales de video, esto se realiza por medio de tarjetas de adquisicin colocadas en el computador. Procesamiento: Consta de uno o varios computadores en los cuales se analiza la imagen captada por el subsistema de adquisicin. Con la ayuda de algunos algoritmos es posible obtener la informacin ms relevante, la cual nos permite posteriormente adecuarla a una aplicacin especfica.
ITSSNA
45
Fundamentos de investigacin.
Perifricos: Aqu se ubican todos los equipos o dispositivos que reciben la informacin del computador y cumplen la funcin de actuadores dentro del proceso o aplicacin.
ITSSNA
46
Fundamentos de investigacin.
valores, lo que indica que existe objeto sobre el rea de trabajo, dando paso a la siguiente etapa de la aplicacin.
Proceso de Binarizacin
Este proceso tiene como objetivo convertir la imagen en escala de grises a una imagen binaria, donde los pixeles tengan dos valores, ya sea 1L o 0L. Este consiste en escoger un umbral basado en los valores de los pixeles que se observa en el histograma, el umbral se debe escoger para que el objeto de inters este dentro de la imagen. Una vez escogido este umbral la imagen resultante es una donde solo existen dos valores de color. Blanco y Negro. Para eliminar el ruido existente en la imagen binaria se realiza operaciones morfolgicas como son erosin (1), dilatacin (2), filtros en el dominio de la frecuencia y filtros basados en morfologa de los objetos con los cuales se elimina objetos innecesarios dentro de la imagen.
ITSSNA
47
Fundamentos de investigacin.
Conclusin
De acuerdo a esta investigacin puedo concluir aadiendo que este proyecto puede tener desventajas tales como la falla en el reconocimiento con personas con falta de extremidades ya que en este caso el software no podra analizar los datos y por tanto no se obtendra ningn resultado. Algunas recomendaciones para este software serian:
El usuario deber contar con todas las extremidades de la mano. En caso de tener alguna extremidad de ms tales como algn dedo, la aplicacin tampoco arrojara ningn tipo de resultado.
El sistema tampoco podr reconocer seales con movimiento ya que se tendra que agregar otro tipo de aplicacin con la capacidad de detectar los movimientos en tiempo real y poder traducirlos.
ITSSNA
48