Vous êtes sur la page 1sur 10

VOICE RECOGNITION THROUGH LSP COEFFICIENTS TO

CONTROL AN ELEVATOR
RECONOCIMIENTO DE VOZ MEDIANTE COEFICIENTES LSP
PARA EL CONTROL DE UN ASCENSOR

Franklin Ivn Gualan Carchi
Estudiante de VI modulo

UNIVERSIDAD NACIONAL DE LOJ A
AREA DE LA ENERGIA, LAS INDUSTRIAS Y LOS RECURSOS NATURALES NO
RENOVABLES
Carrera de Ingeniera en Electrnica y Telecomunicaciones
samotvirus@hotmail.com
Loja-Ecuador


Abstract: The present article approaches in a concise way the main basics to identify voice
commands based on the knowledge acquired in the matter of Signals and Systems, therefore, the
problem is analyzed in the domain of the time like in that of the frequency, and their final result will
be applied to the control of an elevator of 10 levels.

Resumen: El presente artculo aborda de una manera concisa los fundamentos principales para
identificar comandos de voz en base a los conocimientos adquiridos en la materia de Seales y
Sistemas, por lo que se analiza el problema tanto en el dominio del tiempo como en el de la
frecuencia, y su resultado final ser aplicado al control de un ascensor de 10 niveles.

Keywords: Automatic Speech Recognition, Signals and Systems, Linear Prediction Coding (LPC),
Linear Spectral Pair (LSP).

Palabras Clave: Reconocimiento Automtico de Voz, Seales y Sistemas, Codificacin Predictiva
Lineal (LPC), Par Espectral Lineal (LSP)



1. INTRODUCCION
En las ltimas cinco dcadas el creciente avance
de la tecnologa digital ha permitido plasmar ideas
en las que la interaccin humano-maquina tiende
a niveles normales de interaccin entre personas,
dado por hecho que el nivel de interaccin ms
comn entre personas es la comunicacin
mediante el habla, el desarrollo de sistemas con
los que se pueda interactuar mediante la voz
resulta un rea en el cual los avances han sido
de relevante importancia por las diferentes
aplicaciones que se les puede dar, tales como :
control, seguridad, comunicaciones, salud , entre
otras.
El reconocimiento automtico de la voz, llega a tal
nivel de importancia que en la actualidad es un
campo de especializacin para reas relacionadas
con las seales y los sistemas, debido a que para
la comprensin y desarrollo de sistemas de
reconocimiento automtico de la voz se requiere el
conocimiento de conceptos relacionados con
Procesamiento de seales
Reconocimiento de patrones
Teora de la informacin y comunicacin
Programacin
Acstica
Adems de conceptos bsicos de lingstica y
fisiologa, ya que gracias a estos dos ltimos se
puede elaborar modelos matemticos tanto de la
generacin como de la percepcin de la voz.
2. TIPOS DE SISTEMAS PARA EL
RECONOCIMIENTO DE VOZ.
El problema de reconocimiento de voz de forma
general se lo puede enfocar como el
reconocimiento de patrones que se han obtenido
mediante el mismo mtodo, donde el nmero de
patrones que se consideran como referencias
estn en funcin de la necesidad de la aplicacin
como de la capacidad de memoria y
procesamiento del software y hardware de la
plataforma usada para implementar el sistema,
esto es preponderante a la hora de clasificar estos
sistemas sin embargo tambin se lo suele hacer
en funcin de la necesidad de reconocimiento de
manera continua del habla, reconocimiento de
palabras aisladas o comandos.
2.1. SISTEMA DE RECONOCIMIENTO DE
VOZ CON INDEPENDENCIA DEL
HABLANTE.
Comn en aplicaciones en la que cualquier
usuario puede acceder a la aplicacin de inters
sin ninguna implicacin de seguridad, se lo puede
implementar en aplicaciones dirigidas a personas
con deficiencias auditivas (conversin de voz a
texto), y control de sistemas industriales, juguetes
interactivos, sistemas de manos libres, sistemas
de intercomunicacin (seguridad o emergencias
mdicas).
2.2. SISTEMA DE RECONOCIMIENTO DE
VOZ CON DEPENDENCIA DEL
HABLANTE.
En este tipo de sistemas la aplicacin final est
dirigida para un usuario especfico, por ende los
patrones de referencia son obtenidos de la voz del
usuario de la aplicacin, generalmente es menos
complicado que el sistema de usuario
independiente, se lo ha implementado en sistemas
de control de automviles, mquinas de
transcripcin (en salas forenses donde el medico
necesite llevar notas del proceso).
2.3. SISTEMA DE IDENTIFICACION DEL
HABLANTE
Usado como seguridad biomtrica para
identificacin de la persona, basado en
caractersticas de la voz al pronunciar una
palabra, pudindolo personalizar para un usuario
nico o para varios usuarios, lo podemos hallar
implementado en instalaciones militares y
financieras estratgicas, sistemas de identificacin
de personas peligrosas en lugares pblicos o
aeropuertos, sistemas de encendido de vehculos
y dispositivos electrnicos porttiles.
3. CONSIDERACIONES GENERALES DE
LOS SISTEMAS DE
RECONOCIMIENTOS DE VOZ.
Para alcanzar los niveles deseados de eficiencia
en un proceso de reconocimiento de voz es
comn el uso de tcnicas de procesamiento de
seales con el fin de, muestrear la seal de forma
apropiada eliminar el ruido de fondo que se pudo
captar a la entrada del sistema, analizar las
caractersticas en tiempo y frecuencia de las
seales, descomposicin de una seal en sumas
de otras seales, extraccin y codificacin de la
informacin contenida en la seal de voz, para
posteriormente pasar a la etapa de comparacin
de patrones.
3.1. MUESTREO
Para generar una seal digital de voz se debe
muestrear una seal analgica obtenida mediante
un micrfono en intervalos de T segundos,
entonces se obtendrn un numero 1/T de
muestras por segundo, este nmero corresponde
a la frecuencia de muestreo de la seal de voz, si
esta frecuencia es demasiado lenta se presenta
un fenmeno indeseable llamado aliasing, esto se
minimiza cumpliendo con el teorema de muestreo
de Nyquist el cual dice:
La frecuencia mnima de muestreo de una seal
debe ser mayor que 2 veces la frecuencia de
cualquier componente de la seal
Dado que el espectro de una seal de voz se
aproxima a cero para valores superiores a 10KHz
entonces:


Entonces el intervalo de muestreo T es

.
3.2 FILTRADO.
Es necesario en una etapa de adquisicin de
seal usar una etapa de filtrado en la cual se
puede descartar ruidos de fondo que podran
causar demoras en el procesado de la seal o
incluso errores, para el procesamiento de seales
digitales de voz es ms comn el uso de filtros FIR
tipo 1.
3.3 SEGMENTACION Y ENVENTANADO
La segmentacin en tramos es una necesidad
bsica para la extraccin de la informacin
contenida en una seal, suponiendo que una
caracterstica de inters en una seal de voz est
contenida en un vector de muestras esta
caracterstica se la puede ubicar de manera
ptima mediante la segmentacin en tramos
traslapados es decir un nuevo tramo contiene una
parte del tramo anterior, el grado de traslape es
usualmente expresado en porcentajes y sus
valores estn entre 25% y 50%, sin embargo en
este proceso de segmentacin crea
discontinuidades entre los tramos.

Fig.1. Segmentacin de la seal, donde se puede ver
las discontinuidades provocadas por la
segmentacin.
Para minimizar el efecto de estas discontinuidades
en el anlisis en frecuencia (fenmeno de Gibbs)
se usa la tcnica de enventanado.

Fig.2. Tipos de ventanas ms comunes.

3.4. DETECCION DE ACTIVIDAD DE
VOZ (VAD)
Aunque la deteccin de actividad de voz es de uso
ms generalizado en sistemas de reconocimiento
continuo del habla, su uso en los diversos
sistemas de reconocimiento de voz reduce el
consumo de recursos de software y hardware en
la plataforma en la que se ha implementado el
sistema, su principio se basa en la deteccin de
niveles de energa a lo largo de un conjunto de
muestras de seales de voz
4. SISTEMA DE RECONOCIMINETO DE
VOZ POR EL METODO DE BANCOS
DE FILTROS.
Este sistema se basa en hacer pasar la seal de
voz s(n), por un sistema de bancos de filtros los
cuales cubren el ancho de banda de inters para
el procesamiento de la seal de voz, (entre 100 y
3500 Hz), y donde se requiere que la respuesta
individual de los filtros se encuentre traslapada en
frecuencia. El propsito del banco de filtros es la
medicin de los niveles de energa que la seal de
voz contiene en una banda de frecuencia
especfica, el tipo ms comn de banco de filtros
usados para el reconocimiento de voz es el banco
de filtro uniforme donde f-esima frecuencia central
del n-esimo filtro pasabanda est dada por:


Donde,

es la mayor frecuencia de la seal de


voz (3200-4000 Hz), es el nmero de divisiones
uniformemente espaciadas del ancho banda de la
seal de voz, el filtro en la n-esima posicin debe
cumplir con



Fig.3. Respuestas en frecuencia de los filtros del
banco.
Para la implementacin del banco de filtros
digitales se puede hacer mediante filtros de tipo
IIR o FIR, teniendo presente las ventajas y
desventajas de cada uno, por ejemplo la
implementacin de filtros tipo IIR es simple para
diferentes estructuras, sin embargo tienen la
desventaja de no tener una respuesta lineal en
fase, en cambio los filtros FIIR tienen una
respuesta lineal en fase sin comprometer su
aproximacin a una respuesta ideal, sin embargo
su implementacin es algo complicada, en
especial en sistemas embebidos.
Adems del banco de filtros con distribucin
uniforme, tambin es posible la construccin de un
banco de filtro con distribucin no uniforme, pero
este caso el criterio para elegir el espaciamiento
de la respuesta en frecuencia de cada filtro es una
escala logartmica en frecuencia.

Fig.4. Respuesta en frecuencia, individual y colectiva
para un banco de filtros con distribucin uniforme.


Fig.5. Respuesta en frecuencia de un banco de filtros
con distribucin no uniforme (logartmica).
Posteriormente, las seales

()
correspondientes a cada una de las salidas de los
filtros del banco ,son pasadas por una no
linealidad (rectificacion de onda completa), con el
proposito de concentrar el espectro de la seal

() a frecuencias bajas, obteniendo asi una


seal

(), la cual al ser pasada por un filtro


pasabajas para eliminar las imgenes creadas en
alta frecuencia obtenemos una seal

(), de la
cual mediante resampleo obtenemos un conjunto
de seales

() para que representan


un estimado de la energia contenida en cada de
las bandas de paso.

Fig.6. Diagrama general del banco de filtros.
5. SISTEMA DE RECONOCIMIENTO
DE VOZ POR CODIFICACION
LINEAL PREDICTIVA (LPC)
La prediccin lineal, ha sido por varios aos
el soporte para sistemas de comunicacin de
voz, su concepcin se basa en las
caractersticas que generan la voz en el
tracto vocal donde los msculos tienen una
velocidad mxima de movimiento para
generar los sonidos que la componen, donde
segn estudios alcanzan un estado pseudo-
estacionario en aproximadamente 30ms, el
cual implica que para una seal de voz
muestreada a 8 KHz un conjunto de 240
muestras (30ms) pueden ser parametrizadas
por un conjunto pequeo de valores,
tpicamente 8 o10, llamados, coeficientes de
prediccin lineal.
Los coeficientes de prediccin lineal son
polinomios generadores de filtros digitales,
los cuales al ser estimulados por alguna
seal de entrada, recrean las caractersticas
de las muestras originales con las que se
obtuvieron los coeficientes, esta recreacin
no tiene mucha similitud en el dominio del
tiempo, pero su respuesta en frecuencia tiene
mucha similitud con la original. Por tanto la
codificacin lineal predictiva (LPC) es un
mtodo efectivo para codificar o identificar
seales de voz
Enfocando el concepto de LPC hacia la
identificacin de voz conviene estructurar
algoritmos segn la secuencia.
Pre-nfasis
Segmentacin en bloques y
enventanado.
Anlisis de Autocorrelacin.
Anlisis LPC
Conversin de parmetros LPC
5.1 PRE-ENFASIS.
La etapa de pre-nfasis corresponde al
tratamiento previo de la seal a ser
parametrizada, comprende una etapa de
filtrado para eliminar ruido aleatorio y si
resulta conveniente la normalizacin de la
seal.
5.2. SEGMENTACION EN BLOQUES Y
ENVENTANADO.
Para la segmentacin de la seal se debe
tener en cuenta que la longitud del bloque no
afecte el estado estacionario de las
componentes de la voz.

Fig.7. Proceso de segmentacin de la seal.
Para segmentar la seal, tomamos N
muestras de la seal y a continuacin el
siguiente segmento comienza M muestras
despus del inicio del primero, es
aconsejable que se cumpla con:


Luego cada segmento deber ser
enventanado para minimizar las
discontinuidades al inicio y al fin de cada
segmento, la ventana ms usada para este
fines la ventana Hamming. La cual tiene la
forma:
() (


)
5.3. ANALISIS DE
AUTOCORREALACION.
Posteriormente a cada segmento
enventanado se realiza la autocorrelacin
segn la ecuacin:

()

()

( )




Donde p constituye el orden del anlisis LPC
que generalmente es 8 o 10.
5.4 ANALISIS LPC.
Una vez obtenida las matrices

() con
coeficientes de autocorrelacin, el
mtodo ms comn para obtener los
coeficientes LPC, es la recursin de
Levinson-Durbin, a travs del cual tambin es
posible obtener los coeficientes PARCOR
(PARtial CORrelation), tambin llamados
coeficientes de reflexin.

()

()

()

()

( )

()

()

()

()

()
(

)
()

()



Donde

son los coeficientes LPC, y

son
los coeficientes PARCOR
5.5. CONVERSION DE PARAMETROS
LPC.
Una vez obtenidos los coeficientes LPC se
puede optar por una por una representacin
en coeficientes cepstrales o LSP (lnea
espectral par).
5.5.1. CONVERSION DE LPC A
COEFICIENTES CEPSTRALES.
Los coeficientes cepstrales son
coeficientes de la representacin
logartmica de la magnitud de la
transformada de Fourier, y es posible
obtenerlos mediante la recursin:



Donde

es el termino de ganancia del


modelo LPC

Fig.8. Obtencin del formante mediante anlisis
cepstral.
5.5.2. CONVERSION DE LPC A LSP.
Las lneas espectrales pares son otra
derivacin matemtica de los coeficientes
LPC cuyo es popular debido a sus
excelentes caractersticas de
cuantizacin, y representan condiciones
de resonancia del tracto vocal
(bsicamente la boca y la cavidad nasal).
Para un polinomio LPC de orden p de la
forma:

()


Si definimos dos polinomios de orden
(p+1), relacionados con

(), llamados
() y () los cuales describen la
condicin de conexin completamente
abierta o completamente cerrada,
respectivamente, entre la glotis y el resto
del tracto vocal, adems () y ()
debido a sus coeficientes son;
inversamente simtrico y simtrico,
respectivamente. Ambas condiciones
estn contenidas en

() mediante la
siguiente relacin lineal:

()
() ()


()

()
()

)
()

()
()

)
Las races de estos polinomios
determinan el conjunto de lneas
espectrales pares, y pueden ser
calculadas mediante mtodos numricos,
evalundolos alrededor del crculo unitario
para observar cambios de signo o
mediante software. Si designamos por


el conjunto de races complejas entonces
las lneas espectrales pares

estn
dadas por:

(
{

}
{

}
)

Fig.9. Grafica de los coeficientes cepstrales, donde
se puede ver que conserva las caractersticas
principales del formante.
6. CUANTIZACION Y COMPARASION
Los resultados obtenidos mediante los
modelos de banco de filtros o LPC, pueden
ser caracterizados mediante vectores de
cuantizacin, que en el caso del banco de
filtros la dimensin del vector estar en
funcin del nmero de filtros del banco y del
nmero de muestras que se consideran en la
etapa de resampleo, mientras que para los
mtodos basados en LPC las dimensiones
del vector estarn en funcin de p y del
nmero de segmentos que se obtuvieron en
la etapa de segmentacin.
Estos vectores pueden ser comparados con
otros obtenidos mediante el mismo mtodo
de seales de voz tomadas como referencias
a fin de identificar a que patrn (vector de
cuantizacin) de referencia corresponde o se
aproxima el patrn de entrada.
El proceso de comparacin de patrones
puede efectuarse mediante mnimos
cuadrados, distancias euclidianas,
correlacin o redes neuronales.
7. IMPLEMENTACION
7.1. BANCO DE FILTROS
Con la ayuda de MATLAB se
procede a la construccin de los
filtros que se estiman necesarios
para la aplicacin, siguiendo los
lineamientos tericos tratados.
Filtro de entrada tipo FIR1:



Fig.10. Respuesta en frecuencia del filtro de entrada.

Banco de filtros con




Fig.11. Respuesta colectiva en frecuencia de los
filtros implementados.
Filtro pasa bajas con



Fig.12.Respuesta en frecuencia del filtro pasa bajas.

Fig.13. Seal de entrada (2 segundos de una seal
muestreada a 8KHz), s(n).
A continuacin se disponen los elementos
segn el diagrama de bloques de la figura 6,
entonces el flujo de la seal de voz a travs
del sistema arroja los siguientes resultados:
La seal de Fig.13 muestra la seal pasada
por el filtro principal a continuacin el VAD
da como resultado el tramo de inters
(palabra aislada) Fig.14, la Fig.15 muestra la
seal de salida del filtro 10 (Q), la cual pasa
por la no linealidad para obtener la seal de
la Fig.16 de la cual a travs de su espectro
(Fig.17) podemos ver que la mayor parte de
los componentes de la seal se han
concentrado en bajas frecuencias, por lo que
al pasarla por un filtro pasa bajas se obtiene
la seal Fig.18, la cual al no tener
componentes de frecuencia superior a los 40
Hz puede ser muestreada a 80 Hz sin tener
perdida de informacin como se puede
observar en la figura Fig.19. Si anteriormente
se registraron en una matriz las muestras
obtenidas cuando se hizo el muestreo final
en cada salida del banco entonces tenemos
como resultado el vector de cuantizacin de
Fig.20. Aqu quedan en evidencia las
regiones importantes a la hora de iniciar el
proceso de comparacin, con vectores de
cuantizacion establecidos como referencias y
creados con el mismo proceso.

Fig.14. Seal de salida del VAD.

Fig.15. Seal de salida del filtro Q del banco de
filtros.

Fig.16. Seal de decimo filtro pasada por la no
linealidad.

Fig.17. Espectro de la seal despus de aplicar la no
linealidad.

Fig.18. seal de salida del filtro pasa bajas.

Fig.19. Seal nuevamente muestreada a 80 Hz.

Fig.20. Vector de cuantizacin para una palabra.

7.2. COEFICIENTES LSP
Para la etapa de pre-nfasis se puede usar
el filtro pasa banda principal diseado para la
prueba anterior, as como el VAD, a
continuacin se hace el proceso de
segmentado con una relacin M=100 y
N=300 Fig.21, a lo que posteriormente se lo
multiplica por una ventana Hamming. De
cada segmento se obtienen los coeficientes
de autocorrelacin y posteriormente se aplica
el algoritmo recursivo de Levinson-Durbin
para obtener los coeficientes LPC. De igual
manera por cada segmento se obtienen los
coeficientes LSP, estos valores son las lneas
azules de Fig.21. En este punto una vez ms
se deben guardar los valores de los
coeficientes LSP en una matriz Fig.23, la
cual refleja una trayectoria nica para cada
palabra.

Fig.21.Segmentacion de la seal de voz.





Fig.24. Trayectoria de los coeficientes LSP para la
misma palabra usada para el banco de filtros.

Cabe indicar que al para palabras que son
dichas a distinta velocidad se hace necesario
el uso de la interpolacin para distribuir
valores de manera uniforme en el patrn de
entrada a fin de poder realizar el proceso de
comparacin



Fig.23. vector de cuantizacin de los coeficientes LSP,
el cual registra la trayectoria de estos coeficientes a
travs de cada segmento.
Fig.22. Lnea roja formante, lneas azules
coeficientes LSP.

8. RESULTADOS
Pal\Hab 1 2 3
B
F
L
S
P
B
F
L
S
P
B
F
L
S
P
primero x x x x
segundo x x x
tercero x x x x
cuarto x x x x
quinto x x x x
sexto x x x x x
sptimo x x
octavo x x x x
noveno x x x x x
decimo x x

Establecidas las palabras de inters para el
control del ascensor, se prueba el sistema
con tres personas Hab1 es la persona que
grabo los patrones,Hab2 en un hablante
masculino, y Hab3 una hablante femenina, l
proceso de comparacin de patrones es la
correlacin, los datos tabulados en la tabla
1muestran un desempeo inadecuado del
banco de filtros frente al LSP incluso para la
persona que grabo los seales de voz de
referencia, con el hablante masculino los
resultados son parecidos, sin embargo con la
hablante femenina se puede evidenciar que
la comparacin de patrones debe ser por un
mtodo ms efectivo ya que aunque los
resultados son alentadores no son los
esperados.
9. CONCLUSIONES.
El sistema de bancos de filtros
aunque obtiene caractersticas
determinsticas de la voz en un
ancho de banda especfico es
vulnerable a variaciones de velocidad
y volumen.
El mtodo del LSP ofrece
caractersticas excelentes para el
procesamiento de la voz ya que sus
fundamentos se basan en modelos
matemticos del tracto vocal.
Mediante la tcnica de LSP es
posible el desarrollo de sistemas
tanto independientes del hablante
como dependiente del hablante.
La tcnica de LSP es mas fcil de
realizar que el banco de filtros, sin
embargo requiere un software capaz
de realizar los complicados procesos
de autocorrelacin y el algoritmo de
Levinson-Durbin.
10. BIBLIOGRAFIA
RABINER-HWANG,1993, Fundamentals
of Speech Recognition, Prentice Hall-Ed,
Cap 3.
MCLOUGHLIN, 2009, Applied Speech
and Audio Processing With MATLAB
Examples, Cambridge University Press-
Ed, Cap 5.
RABINER-SCHAFER, 1978, Digital
Processing of Speech Signals, ,Prentice
Hall-Ed, Cap 7 y 8.
SINHA, 2010, Speech Processing in
Embedded Systems, Springer-Ed. Cap
10.
OPPENHEIM-SCHAFER, 2009,
Tratamiento de Seales en Tiempo
Discreto, ,Prentice Hall, 3ra Ed, Cap 11.
ETTER, 1997, Solucin de problemas de
Ingeniera con MATLAB, Prentice Hall-
Ed.Cap 5 y 10.

Vous aimerez peut-être aussi