Académique Documents
Professionnel Documents
Culture Documents
Trabajos relacionados:
Los diversos trabajos analizados similares al nuestro utilizan diferentes tipos de
parametrizacin para obtener valores caractersticos de la voz (Bancos de filtros y
Transformada de Fourier, Mel-Frequency Cepstrum Coefficients - MFCC, Linear
Predictive Coeficientes - LPC), y tambin diferentes tipos de estructuras de RNA
(Perceptron Multicapa Backpropagation, Recurrentes), pero la mayora coincide en el
diagrama del bloques, el cual describe la correcta secuencia para una adecuada
adquisicin, pre-procesamiento, procesamiento y reconocimiento de la voz humana,
esto se resumen y sintetiza en la Figura 1. La mayora de los trabajos revisados tienen
como objetivo reconocer palabras sin diferenciar al hablante, por lo que extraccin de
caractersticas de la voz es una tcnica fundamental, pero se analizar si todos los
mtodos utilizados para la extraccin de la voz tambin funcionan correctamente para la
diferenciacin entre voces humanas.
2. Pre-procesamiento (acondicionamiento):
En esta etapa de pre-procesamiento de la seal de audio, en varios casos llamada
tambin etapa de acondicionamiento, se utilizan diferentes mtodos y tcnicas
que ayudan a que el procesamiento sea eficaz y ms eficiente, entre los
utilizados por los autores de los trabajos revisados se pueden mencionar:
Padilla (2003) emplea una funcin ventana (Hamming o Hanning) para evitar el
problema de la distorsin que se produce cuando se procesan las muestras de
voz con el FFT.
La ventana Hamming se define como:
2
() = 0.54 0.46cos( )
1
La ventana Hanning se define como:
2
() = 0.5 0.5cos( )
1
Al final, slo utiliza la ventana Hamming para intervalos de 30 ms o 240
muestras, realizando un solape de 80 muestras.
Torres et al. (2005) utilizan un banco de filtros para separar las seales unas de
otras, el primer filtro utilizado fue el filtro de traslado de promedios (moving
average) en el dominio del tiempo que sirve para reducir el ruido aleatorio
mientras impide los cambios abruptos de la respuesta impulsional (Smith, 1999).
Este filtro se describe matemticamente como:
>1
1
[] = [ + ]
=0
De Luna et al. (2006) quitaron la parte del silencio de la entrada de todos los
archivos mediante la comparacin entre los puntos del vector de sonido e
identificando un cambio dramtico de valor.
Cruz & Acevedo (2008) utilizaron un acotamiento de la seal para eliminar los
silencios, luego un filtrado con Wavelets recomendando el uso de la wavelet
Daubechies, finalmente una normalizacin entre [-1,1] cuyo procedimiento es:
a) Clculo de la media () y la desviacin estndar () de la seal de entrada.
b) Normalizacin de los datos mediante la relacin:
[]
[] =
c) Divisin entre el mayor valor absoluto entre el mnimo y mximo de []
Mendoza et al. (2013) utilizan el anlisis de la energa de seal mediante
ventanas de 400us de duracin para ubicar la zona activa, esto se define como:
= ((1)+ )2
=1
Reig (2014), basado en los trabajos de Peralta & Cotrina, utiliza un Detector
Automtico de Extremos, el cual se basa en la evolucin del parmetro COPER
en las tramas para hallar el inicio y fin de la pronunciacin de una palabra.
Padilla (2003) utiliza los parmetros LPC, pues stos pueden proporcionar una
indicacin de los polos (y de los formantes) de la funcin de transferencia del
tracto vocal, el inconveniente que menciona es acerca de que la extraccin de
parmetros LPC, que funciona bien en sonidos sonoros pero no es demasiado
fiable en sonidos sordos, aun as utiliza entre 5 y 10 polos para aproximar a la
envolvente de la FFT.
Torres et al. (2005) usan la herramienta FFT, que es una versin ms eficiente de
la DFT, para extraer caractersticas particulares de cada seal de voz, es decir
discriminan as las frecuencias que poseen dichas seales. Posteriormente
normalizan el espectro de la seal de voz y realizan una ponderacin de las
muestras tal que los datos ms caractersticos estn incluidos en un vector de
tamao reducido.
Reig (2014), basado en los trabajos de Peralta & Cotrina, utiliza el mtodo de
Coeficientes Cepstrales en Escala de Mel (MFCC), el cual es muy eficiente para
la extraccin de caractersticas. La secuencia para el clculo de los coeficienes
MFFC es: tramas, enventanado, pre-nfasis, FFT, energa en cada banda,
cepstro, coeficientes mel Cepstrum.
Padilla (2003) implement una red recurrente (RNN) formada por 20 entradas, 5
neuronas en la capa oculta y una salida en el rango [0,1]. La RNN se entren
usando el algoritmo backpropagation.
Torres et al. (2005) entrenaron una red perceptron multicapa con retro
propagacin de error, con 80 entradas correspondiente a las 80 muestras del
espectro normalizado y promediado, 5 neuronas en la capa oculta y 3 salidas.
De Luna et al. (2006) usaron el tipo de red auto organizada (SOFM) o llamada
tambin mapas de Kohonen con 30 entradas, que son redes neuronales que
tienen la peculiaridad de tener un mapa organizado de sus pesos, mediante el
algoritmo de entrenamiento. Asimismo utilizan otros algoritmos de
reconocimiento que son el Alineamiento Dinmico del Tiempo (DTW) y
Modelos Ocultos de Markov (HMM), y finalmente un Modelo de Mayora que
realiza una decisin de mayora.
Peralta & Cotrina (2006) utilizaron una RNA tipo Perceptron Multicapa (MLP)
con aprendizaje supervisado Backpropagation, con 100 entradas, 32 neuronas en
la capa oculta y 10 salidas.
Cruz & Acevedo (2008) utilizan tambin una arquitectura Backpropagation pero
con 25 entradas, 21 neuronas en la capa oculta y 5 salidas.
Mendoza et al. (2013), al igual que los dos anteriores autores, realizan la
clasificacin con una red neuronal perceptron multicapa con aprendizaje
supervisado por retropropagacin que consta de 6 entradas, 25 neuronas en la
capa oculta y 1 salida. Un entrenamiento de la red con el 70% de la base de
datos y el 30% para el test de efectividad.
Manuel (2015) utiliza una RNA con topologa perceptron multicapa con
aprendizaje supervisado del tipo Backpropagation (Levenberg-Marquardt en el
toolbox de Matlab). El nmero de entradas est definido por el vector
caracterstico.
Metodologa:
El objetivo de este trabajo es implementar una RNA que pueda identificar a una persona
(en especfico a m) entre un grupo de personas mediante grabaciones de audio de voz,
para ello se generar una pequea base de datos de audio de voz, luego se extraern
parmetros de cada audio utilizando los diferentes mtodos vistos en los trabajos
relacionados para hacer una comparacin entre cul de ellos se obtiene un menor error
de reconocimiento. Asimismo, se probarn diferentes estructuras de redes neuronales
para obtener la prediccin ms ptima.
Normalizacin (-1,1)
Media y desviacin estndar
Filtro de pre-nfasis
3. Procesamiento, extraccin de caractersticas fundamentales:
El modelo LPC:
Para la seal de voz (), la muestra de voz predicha () es una funcin de
() y de las anteriores muestras (Furui, 1989):
() = ()( )
=1
() = () () = () ()( )
=1
Se toma la derivada del error cuadrtico medio con respecto a los coeficientes
() e igualndolo a 0 resulta:
2
[() ()( )] = 0
()
=1
[() ()( )] ( ) = 0
=1
Para 1
Por tanto:
()( ) = ()( ) ( )
=1
Para 1
Hay varios mtodos para resolver la ecuacin de coeficientes de prediccin,
entre ellos se encuentra el mtodo de autocorrelacin con el algoritmo de
Levinson-Durbin.
Mtodo de Autocorrelacin (Levinson-Durbin):
El mtodo supone que la seal es estacionaria dentro de la ventana de anlisis.
Esta suposicin se puede satisfacer con una funcin ventana ()(0
1) donde N corresponde a un nmero discreto de puntos en un intervalo de
tiempo fijo. La solucin de la autocorrelacin a la ltima ecuacin anterior se
expresa como:
() = ()(| |)
=1
Para 1
Donde () es una funcin par (() = ()) y se calcula as:
1
() = ()( + )
=0
Para 0
Una vez que el trmino de la autocorrelacin () ha sido calculado, se utiliza
un algoritmo recursivo, denominado recursin de Durbin para determinar el
valor de (). El estado inicial de la recursin comienza con un trmino de
energa.
0 = (0) 2 = 0
Para calcular los siguientes estados se realizan las siguientes ecuaciones:
1
Para 1
() = ()
() = 1 () ()1 ( )
Para 1 1
= (1 ()2 ) 1
La solucin final de () es dada por () para 1
Reig (2014)
Manuel (2015)
En la Figura 3, se muestra el esquema para la
obtencin de los MFCC.
Resultados:
Los resultados obtenidos en el test de la red neuronal diseada se muestran en la Tabla
1.
Se utiliza la tasa de reconocimiento (LDE) que mide la eficiencia del sistema planteado
en este trabajo y el cual se expresa as:
% = 100
Para comparar si nuestros resultados han sido ptimos, se har una comparacin con los
resultados que obtuvieron en los trabajos previos que se mencionaron anteriormente y
los cuales son descritos a continuacin: Padilla (2003) logr un reconocimiento de voz
en torno al 95% de acierto, Torres et al. (2005) lograron en promedio un porcentaje de
acierto del 91%, Peralta & Cotrina (2006) obtuvieron una tasa de acierto de 91.65%
cuando probaron en ambientes con ruido de fondo de baja amplitud y en entornos
ruidosos con ruido de hasta 15dB alcanzaron una tasa de acierto de 87.4%, Cruz &
Acevedo (2008) obtuvieron una efectividad del 96% cuando los archivos de voz no
pasan por la etapa de pre procesamiento, Mendoza et al. (2013) tuvieron en promedio
una efectividad del 75% en un entorno de prueba expuesto a 70dB de ruido acstico, por
ltimo, Manuel (2015) obtiene un porcentaje de acierto de 64.58% en el test de
validacin de la RNA que utiliz.
Conclusiones:
Bibliografa:
[1] Manuel, M. (2015). Sistema automtico de reconocimiento de voz para control de
acceso, XIII Congreso Argentino de Acstica - VII Jornadas de Acstica,
Electroacstica y reas Vinculadas, CADAE 2015, Buenos Aires, Argentina.
[2] Reig, D. (2014). Implementacin de algoritmos para la extraccin de patrones
caractersticos en sistemas de reconocimiento de voz en Matlab (Trabajo final de
carrera). Universidad Politcnica de Valencia, Ganda, Espaa.
[3] Mendoza, L. E., Pea, J., Muoz, L. A., Velandia, H. J. (2013). Procesamiento de
seales provenientes del habla subvocal usando Wavelet Packet y Redes
Neuronales. Tecno Lgicas, Edicin Especial, pp. 655-667.
[4] Jcome, H., Lucio, J.F., Jurado, G. & Enrquez, A.D. (2012). Identificacin de
seales de audio va redes neuronales artificiales, SONAC Revista de Sonido y
Acstica, Nm. 3, pp. 53-61.
[5] Camarena, J. A. (2011). Sntesis y Reconocimiento de Voz [diapositiva].
Universidad Michoacana de San Nicols de Hidalgo, Facultad de Ingeniera
Elctrica, 214 diapositivas.
[6] Cruz, L. & Acevedo, M. (2008). Reconocimiento de voz usando Redes
Neuronales Artificiales Backpropagation y Coeficientes LPC, 6to Congreso
Internacional de Cmputo en Optimizacin y Software (CiCos), pp. 89-99.
[7] Jean-Francois, Ch. (2008). A Tutorial on Spectral Sound Processing Using
Max/MSP and Jitter. Computer Music Journal, 32:3, pp. 87-102.
[8] Peralta, F. & Cotrina, A. (2006). Reconocedor y Analizador de voz, IBERCHIP,
San Jos, Costa Rica.
[9] De Luna, C., Martnez, J. C., Mora, M. (2006). Reconocimiento de Voz con
Redes Neuronales, DTW y Modelos Ocultos de Markov. Conciencia Tecnolgica,
nmero 32.
[10] Torres, C., Mattos, L., Perpian, G., Castro, J., & Pardo, J. (2005).
Reconocimiento automtico del habla utilizando la Transformada de Fourier y
Redes Neuronales. Revista Colombiana de Tecnologa de Avanzada, volumen 2.
[11] Padilla, V. (2003). Reconocimiento de voz por redes neuronales aplicado a un
robot LEGO, Trabajo conjunto de los cursos de doctorado de Redes neuronales y
Robtica autnoma, UNED.
[12] Peralta, F., Cotrina, A. (2002). Algoritmo COPER para la deteccin de actividad
de voz. Revista Semestral Electrnica UNMSM, nmero 8, pp. 3-12.
[13] Smith, S. W. (1999). The Scientist and Engineers Guide to Digital Signal
Processing, 2nd Edition. California Technical Publishing. San Diego, California.
[14] Normas APA 2016 Edicin 6. Disponible en: www. normasapa.net/normas-apa-
2016/