Vous êtes sur la page 1sur 7

Conciencia Tecnolgica

ISSN: 1405-5597
contec@mail.ita.mx
Instituto Tecnolgico de Aguascalientes
Mxico

Esparza Arellano, Mara Elena; Avalos Briseo, J. Benito


Reconocimiento de voz
Conciencia Tecnolgica, nm. 22, 2003
Instituto Tecnolgico de Aguascalientes
Aguascalientes, Mxico

Disponible en: http://www.redalyc.org/articulo.oa?id=94402206

Cmo citar el artculo


Nmero completo
Sistema de Informacin Cientfica
Ms informacin del artculo Red de Revistas Cientficas de Amrica Latina, el Caribe, Espaa y Portugal
Pgina de la revista en redalyc.org Proyecto acadmico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto
RECONOCIMIENTO DE VOZ.
Instituto Tecnolgico de Aguascalientes
Av. Adolfo Lopez Mateos 1801 Ote.
Mara Elena Esparza Arellano. Depto. de Ciencias Bsicas
J. Benito Avalos Briseo. Depto. de Elctrica y Electrnica
Tel: 01(449)9-105-002 Ext. 143/106 E-mail: jbenitomx@yahoo.com.mx

conversin anlogo digital y salida digital para


INTRODUCCION etapas de proceso posteriores.

Una interfase de lenguaje hablado a la Dentro del mismo trabajo se muestra la

computadora es un tema que ha atrado y fascinado a fortaleza del sistema de muestreo y retencin de la

ingenieros cientficos del lenguaje. seal analgica bajo anlisis, considerando el enfoque
desde un sistema de adquisicin, control y proceso de

Avances en la tecnologa del lenguaje datos , con las etapas posteriores.

humano son necesarios para el comn de los La relacin entre los principios bsicos de

ciudadanos, quienes para comunicarse con redes, relacin y soporte entre redes neuronales y lo bsico

usando las habilidades naturales, ocupan dispositivos de inteligencia artificial permite que el lector de este

de uso diario, como son el telfono y la televisin. Sin artculo se forme un a idea bsica e interesante de los

que exista un fundamental avance en las interfaces temas mencionados para que este artculo cumpla

centradas en el usuario (Computadora), gran parte de con el objetivo deseado que es el de la Divulgacin

la sociedad se preparar para participar en la era de la Cientfica de nuestro quehacer

informacin, mas sin embargo, otros no lo harn


obtenindose con esto una completa estratificacin de ANTECEDENTES HISTORICOS

la sociedad, resultando en la trgica prdida del En 1952 Davis, Bidulph y Balashek, de los
potencial humano. laboratorios Bell fabricaron el primer reconocedor
En el presente trabajo se visualiza un capaz de discriminar con cierta precisin los diez
panorama general, no as menos importante, del dgitos ingleses pronunciados de forma aislada por un
presente y futuro del Reconocimiento de Voz, para su nico lector. El dispositivo era totalmente electrnico.
uso en Aplicaciones Industriales y de Servicios , as Los primeros trabajos que hacen uso de tecnologa
como un pequeo Anlisis Matemtico bsico, como informtica, comienzan a aparecer en 1959/1960;
soporte introductorio hacia la fundamentacin Deves y Mathews introducen el concepto de
matemtica avanzada. normalizacin temporal no lineal, que permite la
En la figura 1, se muestra un diagrama comparacin de parmetros de palabras iguales
esquemtico de las etapas bsicas de un sistema de pronunciadas a distinta velocidad.
este tipo considerando, fundamentalmente :
Entradas de seales analgicas, etapa de A partir de estas fechas comienza la
comparacin seal a ruido ( S/N ), seccin de filtrado, explosin de trabajos, principalmente de
reconocimiento de palabras aisladas, con la
extrapolacin optimista, por parte de investigadores y usuario ser capaz de marcar un nmero y contestar
organismos financiadores, de llegar, en poco tiempo, las siguientes preguntas:
a sistemas capaces de reconocer de forma precisa
frases cualesquiera, pronunciadas por un lector C: Este es el sistema de informacin de vuelos. En
cualquiera, de forma continua. qu puedo ayudarle?.
U: Me gustara hacer una reservacin.
Con este objeto ms o menos en mente, se
lanzan grandes proyectos de investigacin en los que
C: Por favor especifique su plan de vuelo.
se pretende llegar a las menores restricciones
U: Quisiera ir de New York a Chicago el sbado por
gramaticales posibles de las frases a reconocer, as
la maana.
como del lxico utilizado. Son varios los pases en los
que se comienza a trabajar en proyectos de sta ndole
DEFINICIONES DEL PROBLEMA
(Japn, Francia, etc.), pero es en EE.UU. donde se
lanza, en 1971, el mayor proyecto conocido en la
Algunas definiciones del problema que
historia del reconocimiento del habla. Se trata del
existe en el reconocimiento del habla son las
<<ARPA-SUR>> (Advanced Research Projects
siguientes:
Agency Speech Understanding Research), con un
presupuesto de quince millones de dlares y una
1 Definicin. Hacer cooperar un conjunto
duracin de cinco aos.
de informaciones plagadas de ambigedades,
incertidumbres y errores inevitables, para llegar a
Aunque los ambiciosos objetivos pretendidos
una interpretacin aceptable del mensaje acstico
en ste y otros proyectos no llegaron realmente a
recibido.
alcanzarse. Las aportaciones derivadas de ellos,
contribuyeron de forma notable a un mejor
2 Definicin. Encontrar la mejor estrategia
conocimiento de los mecanismos del habla y de las
en el reconocimiento de formas que posee la seal
limitaciones de los sistemas automticos de
vocal procedente de algn locutor humano y el
reconocimiento.
algoritmo capaz de identificar qu formas especficas

APLICACIN TIPICA componen determinado fonema.

El Software DragonDictate. Este producto


VARIABLES DEL PROBLEMA
est disponible para Windows y permite al usuario
interactuar con muchas aplicaciones diferentes en su
Los obstculos con los que se lucha en el
PC. Permite la entrada de datos en Excel sin la
reconocimiento de voz se describen a continuacin:
utilizacin de las manos, un sistema de dictado en
Word, as como muchos otros programas de
Bidireccionalidad. La comunicacin oral,
aplicacin. Otro uso que est siendo desarrollado es
comporta generalmente un intercambio
para el sistema de reservaciones de las aerolneas. El
bidireccional de informacin entre dos locutores TCNICAS USADAS
auditores o ms.
Por medio de las tcnicas actuales de
reconocimiento de formas de seales acsticas como
Incomplenitud. La informacin intercambiada es
la FFT ( Fast Fourier Transform ) y a travs de
siempre mayor que la estrictamente contenida en
los mtodos que de I.A. (Inteligencia Artificial) hasta
el mensaje oral (gestos, nfasis, contexto, etc.).
la fecha conocidas, podemos resolver en parte la
mayora de las variables del problema que en el
Multiinteractividad. Existen varios niveles de Reconocimiento del habla existen.
comprensin, que interaccionan dinmicamente
entre s y en combinacin con otros sistemas En el habla, el universo fsico de los objetos
perceptivos y motores. Cada uno de estos a reconocer est constituido por las ondas de presin
niveles aplica la fuente de conocimiento sobre el producidas por el aparato fonador humano. Los
lenguaje que le es propia y extrae su parte objetos externos de este universo los constituyen las
correspondiente de la informacin total diferentes formas acsticas del habla.
necesaria para la comprensin del mensaje.

La parte inicial de todo subsistema de


Continuidad. A pesar de que se tenga la
preproceso de la seal vocal estar siempre
impresin contraria, ni los fonemas ni las
constituida por:
slabas, ni las palabras se pueden separar
fcilmente de forma automtica.
Un micrfono, que convertir la onda sonora de
presin en una seal elctrica.
Variabilidad. Es imposible que un locutor
pronuncie dos veces exactamente igual una
Un amplificador, que extender hasta nivel
misma slaba, palabra o frase.
manejable la dbil seal que proporciona el
micrfono.
Transitoriedad. Slo las variaciones de una
seal permiten transmitir informacin. El tipo de Un filtro activo pasa bajas, que eliminar la
parmetros que diferencian las transiciones no altas frecuencias indispensables segn el
teorema de muestreo de Nyquist.
es an suficientemente conocido.

MUESTREO Y CUANTIFICACIN
Incertidumbre e inexactitud. Tanto la propia
seal como las fuentes de conocimiento A partir de la seal elctrica que produce el
asociadas a los distintos niveles de percepcin, amplificador sera tericamente posible construir un
constituyen informaciones <<ruidosas>>, en el sistema de reconocimiento por medios totalmente
doble sentido de que, en general, son analgicos. Sin embargo, en el estado actual de la
incompletas y con <<artefactos>> superpuestos. tecnologa, resulta ms conveniente utilizar tcnicas
digitales; sobre todo para las partes del sistema
involucradas en la decisin.
SM(t) = S(kT) (t kT)
Bsicamente un convertidor A/D debe
realizar dos tareas: .k = -

De donde es inmediato demostrar que la


Muestrear la seal analgica; es decir, medir la
expresin del espectro SM(j) de la seal muestreada
amplitud de dicha seal, cierto intervalo de
en funcin de la seal sin muestrear S(j), adopta la
tiempo.
forma:

Cuantificar la seal muestreada; es decir,


SM(j) = 1/T S[j( + k o)];


codificar numricamente el resultado de cada
una de las medidas. .k = -

De esta manera, una funcin continua en el o = 2/T


tiempo quedar representada por una serie discreta
Expresin que representa la superposicin
de valores numricos. Al proceso combinado de
del espectro de s(t) con las sucesivas versiones del
transduccin, muestreo y cuantificacin se le llama
mismo desplazadas en el eje de las frecuencias con
adquisicin.
periodicidad 1/T.

.a. .b. .c. .d. .e. .f.


Resulta evidente que si el ancho de banda
de la seal a muestrear es excesivo con relacin a la
frecuencia de muestreo, se producir un
solapamiento irreversible de los espectros sucesivos,
haciendo imposible la reconstruccin de la seal
original. Este solapamiento (aliasing) ocurre siempre
que la mxima frecuencia (Fb) del espectro no nulo
Figura 1.- Circuito prototipo de la seal a muestrear sea superior a la mitad de la
a) Entrada analgica, b)comparacin, c) filtrado, d) entrada
analgica, e) convertidor ADC0804, f) salida digital. frecuencia de muestreo (Fm) (frecuencia Nyquist).

MUESTREO Fm > 2Fb

Una seal muestreada a intervalos de Antes de muestrear una seal ser pues
tiempo T, SM(t), puede definirse como el producto de necesario limitar la frecuencia mxima de sta a la
la seal continua s(t) y una funcin <<peine>> de mitad de la de muestreo, lo que se puede conseguir
Dirac (funcin impulso) mediante un filtro analgico de paso bajo previo al
convertidor A/D, cuya frecuencia de corte sea la de
Nyquist como mximo.

SM(t) = S(t) (t kT) La anchura de banda de la seal resultante


.k = -
deber preservar la informacin relevante necesaria
para una adecuada descripcin de los objetos En el anlisis en el dominio del tiempo
acsticos a tratar. tenemos el mtodo de energa y amplitud media y el
mtodo de densidad de cruce por cero. En el
CUANTIFICACIN anlisis frecuencial la transformada de fourier y la
prediccin lineal (LPC). Para este proyecto por
En cada impulso de muestreo, el
simplicidad se emplea el mtodo de densidad de
convertidor A/D compara la seal muestreado con
cruce por cero.
cosa dado un conjunto de entradas, podemos usar
unidades sumadoras con nivel de disparo (Threshold)
DENSIDAD DE CRUCE POR CERO
como simples compuertas AND, OR, y NOT
La densidad de cruces por cero ha sido
poniendo apropiadamente el nivel de disparo y los
objeto de numerosos estudios terico y prctico. Su
pesos de conexin entre ellas una serie de nivel de
utilidad en reconocimiento del habla radica en que
cuantificacin predefinidos. El nmero de niveles
proporciona una estimacin aproximada del
(N) determina la precisin del anlisis y, por tanto, el
contenido frecuencial de una seal, basada en la idea
nmero de bits (b) necesarios para la presentacin
de que una sinusoide pura cruza el eje de abscisas 2
digital de cada muestra:
veces por perodo. Es un parmetro de muy baja
b = log 2 N complejidad de clculo, y se le ha utilizado para
detectar segmentos fricativos (seal de pequea
Teniendo en cuenta la relacin de Nyquist
energa y elevada densidad de cruces por cero).
se puede determinar el flujo de informacin, en bits
por segundo, resultante del proceso combinado de
Despus de obtenidos los parmetros, estos
muestreo y cuantificacin:
se alimentan a la red neuronal de aprendizaje
> 2Fb . log 2 N (Tcnica de Inteligencia Artificial) que distinguir
entre uno y otro fonema.
Para seales vocales adquiridas
Redes Neuronales (Backpropagation).
directamente en el dominio del tiempo, dicho flujo
suele oscilar entre 50 Kbits/s y 300 Kbits/s.
Qu es lo que una red multicapas puede
computar? La respuesta es: cualquier.
En el prototipo que se muestra en la figura
1 el perodo de muestreo T es fijado por un retardo a
El mayor problema es el aprendizaje. La
travs del programa y la cuantificacin que
representacin del conocimiento en las redes
inicialmente puede consistir en 255 valores (8 bits)
Neuronales es un poquito opaco: Las redes deben
por necesidades del algoritmo backpropagation son
aprender su propia representacin debido que
reducidos a un valor numrico entre 0.1 y 0.9
programarlas a mano es imposible.
multiplicando el valor mximo (255) por un factor
adecuado.
Las redes Neuronales pueden aprender
ANLISIS EN EL DOMINIO DEL TIEMPO Y
LA FRECUENCIA cualquier cosa que ellas puedan computar.
Primero trataremos con una subclase de las redes de Hopfield. Las redes de propagacin hacia
redes Neuronales llamada redes en capas atrs lleva a cabo una simple serie de clculos.
completamente conectadas de propagacin hacia Debido a que la activacin fluye solo en una
delante; una de la cual se muestra a continuacin direccin, no hay necesidad de un proceso iterativo
(fig. 2) de relajacin.
Los niveles de las unidades de la capa de salida
determinan la salida de la red.
O1 O2 On
La esperanza al atacar problemas como el
reconocimiento de la escritura a mano es que las
redes Neuronales no solamente aprendern a
H1 H2 H3 H4 Hn
clasificar las entradas con que fueron entrenadas sino
que generalizarn y sern capaces de clasificar
entradas que an no han sido vistas.

CONCLUSIONES
X1 X2 X3 Xn
Fig. 2.- Ejemplo de Red Neuronal en Capas Las tcnicas usadas en el reconocimiento de

En la figura 2, Xi, Hi y Oi representan las patrones de voz como FFT (Fast Fourier Transform)

unidades de niveles de activacin de las unidades de son mucho mejor que las de cruce por cero. esta

entrada ocultas y de salida. Los pesos en conexin tcnica usada junto con la de redes Neuronales

entre las unidades de entrada y las ocultas estn logran resultados ptimos. En un futuro prximo se

denotadas aqu por las relaciones que existen entre espera tener reconocedores del lenguaje humano que

los niveles de las Os y los niveles de las Hs, al no sean slo para un locutor definido.

mismo tiempo los pesos entre las unidades ocultas


con las capas de salida estn denotadas por las BIBLIOGRAFA.
relaciones que existen entre los niveles de las Hs y
Landee, Robert W., Davis, Donovan C. &
los niveles de las Xs. Albrecht, Albert P. Electronics
designershandbook, second edition,
Estas redes tienen tres capas, aunque esto es McGraw Hill.
posible y algunas veces es til tener ms. Cada
Close, Charles M. & Frederick, Dean K.
unidad en una capa est conectada en la direccin
Modeling and Analysis of Dynamic
hacia delante con cada unidad en la capa prxima. La Systems. Rensselaer Polytechnic Institute.
activacin fluye desde la unidad de entrada hacia la Houghton Mifflin Company.
capa oculta, entonces pasa a la capa de salida. Como
Bowker, Albert H. & Lieberman, Gerald J.,
es usual, el conocimiento de la red se codifica en los
Engineering Statistics, 2nd edition, Prentice
pesos de conexin entre las unidades. En contraste Hall Inc.
con el mtodo paralelo de relajacin usado por las