Académique Documents
Professionnel Documents
Culture Documents
RECONOCIMIENTO DE VOZ
PRESENTADA POR:
SANCHEZ GALECIO ANDY MANUEL
PONGAN SUS NOMBRES
PROFESOR:
ING. MSC. FERNANDO MADRID GUEVARA
Piura, Per
2015
INTRODUCCIN
OBJETIVOS
Existe una comunicacin bilateral en aplicaciones, en las que la interfaz de voz est
ntimamente relacionada al resto de la aplicacin. Estas pueden guiar al
reconocedor especificando las palabras o estructuras que el sistema puede utilizar.
Otros sistemas slo tienen una comunicacin unilateral.
Los procesos de pre-procesamiento, reconocimiento y comunicacin deberan ser
invisibles al usuario de la interfaz. El usuario lo nota de manera indirecta como:
certeza en el reconocimiento y velocidad. Estas caractersticas las utiliza para
evaluar una interfaz de reconocimiento de voz.
1. Microfono
Es un transductor electroacstico, que tiene como funcin transformar o traducir
la presin acstica ejercida sobre su capsula por las ondas sonoras en energa
elctrica.
Caractersticas:
Sensibilidad: es la eficiencia del micrfono, la relacin entre la presin sonora
que incide (expresada en Pascales) y la tensin elctrica de salida (expresada
en voltios). La sensibilidad puede ser representada en un voltmetro de la
siguiente manera: a mayor voltaje, mayor sensibilidad.
Fidelidad: indica la variacin de sensibilidad con respecto a la frecuencia.
Adems, la fidelidad, viene definida como la respuesta en frecuencia del
micrfono, cuanto mas lineal sea la respuesta en frecuencia mayor fidelidad
tendr el micrfono. La fidelidad se expresa en dB.
Ruido de fondo: es la tensin que entrega el micrfono sin que exista ningn
sonido incidiendo sobre l. Este ruido se produce por el movimiento trmico de
los electrones en la carcasa que no tiene masa.
2. Matlab
MATLAB es el nombre abreviado de MATrix LABoratory. Es un lenguaje de alto
nivel y de ambiente interactivo que permite realizar tareas intensas y con una
mayor velocidad que los lenguajes de programacin comnmente usados.
MATLAB se especializa en clculos numricos con vectores y matrices, como
casos particulares puede trabajar tambin con otras estructuras de informacin.
Aunque cada objeto es considerado como un arreglo.
El lenguaje est construido por cdigo llamado M-code que puede ser fcilmente
ejecutado en la ventana de comandos. Con lo cual se pueden crear funciones,
etc. Pero la razn principal para la eleccin de este lenguaje de programacin
son las herramientas que proporciona para el procesamiento de seales, y el
conjunto de funciones para el procesamiento digital.
3. Seal de voz
Un reconocedor no puede analizar los movimientos en la boca. En su lugar, la
fuente de informacin es la seal de voz misma. El Habla es una seal analgica,
es decir, un flujo continuo de ondas sonoras y silencios.
que incluyen ondas cclicas y aciclicas. Las ondas acclicas no tienen patrones
repetitivos generalmente llamados ruido forman parte de todos los fonemas
sonoros, consonantes y semivocales. Las frecuencias y caractersticas de los
patrones acclicos proveen informacin importante sobre la identidad de los
fonemas. La identidad de las consonantes tambin se revela por el cambio en
las formantes que resultan cuando los articuladores se mueven de un fonema
anterior a la consonante y de ella al siguiente fonema llamadas transiciones de
formantes. Estas se analizan utilizando tcnicas como la transformada rpida de
Fourier (FFT) generando espectrogramas. La complejidad de las formas de onda
de los fonemas y las constantes transiciones de un patrn a otro dificultan el
anlisis de los patrones utilizando las representaciones complejas de las ondas.
Los patrones armnicos y de ruido se muestran con ms claridad utilizando los
espectrogramas de banda ancha. La localizacin (la distancia entre ellas) y
cambio en las formantes ayudan a identificar fonemas y palabras.
PROCESAMIENTO Y RECONOCIMIENTO
Muestreo y cuantificacin
Muestreo: consiste en el proceso de conversin de seales continuas a seales
discretas en el tiempo, es un paso para digitalizar una seal analgica. Este
proceso se realiza midiendo la seal en momentos peridicos del tiempo, para
esto usamos el Teorema de Nyquist.
Si x[n] es una secuencia de muestras obtenida a partir de una seal continua en
el tiempo x(t), por medio de la relacin
x[n] = x(nT), para n
donde T es el perodo de muestreo, y su reciproco es la frecuencia de muestreo,
en muestras por segundo. Tambin podemos expresar la frecuencia de
muestreo como = 2 / en radianes por segundo.
Entonces el teorema de muestreo de nyquist esta definido como: sea x(t) una
seal limitada en banda por:
X ( j) 0 para N
Entonces x(t) esta nicamente determinada por sus muestras
x[n] = x(nT), n = 0, 1, 2, si = 2 / 2 .
La frecuencia es comnmente referida como la frecuencia de Nyquist, y la
frecuencia 2 que tiene que ser excedida por la frecuencia de muestreo es
llamada la razn de Nyquist.
Filtro de Pre-nfasis
Se aplica un filtro digital pasa altas de primer orden a la seal, para enfatizar las
frecuencias altas de los formantes por dos razones, primero para que no se
pierda informacin durante la segmentacin, ya que la mayora de la informacin
est contenida en las frecuencias bajas, en segundo remueve la componente
DC de la seal, aplanando espectralmente la seal.
Segmentacin
La segmentacin consiste en cortar la seal en segmentos de anlisis. La seal
de voz es asumida como estacionaria en estos segmentos. Durante la
segmentacin los segmentos son guardados cada uno como la columna de una
matriz, para el posterior procesamiento de la seal de voz.
Para el proceso una ventana de Hamming de 30ms es aplicada a la seal de
voz, enfatizada previamente con el filtro de pre-nfasis. Con un desplazamiento
tpico 10ms entre cada ventaneo.
Extraccin de caractersticas
En el reconocimiento del habla, la seal de voz pre-procesada se ingresa a un
nuevo procesamiento para producir una representacin de la voz en forma de
secuencia de vectores o agrupaciones de valores que se denominan
parmetros, que deben representar la informacin contenida en la envolvente
del espectro.
Existen distintos mtodos de anlisis para la extraccin de caractersticas, y se
concentran en diferentes aspectos representativos. En este caso analizaremos
los dos de mayor importancia para el anlisis de la voz:
Anlisis de prediccin lineal (LPC)
Se trata de una de las tcnicas ms potentes de anlisis de voz, y uno de los
mtodos ms tiles para codificar voz con buena calidad.
Cepstrum
Como se sabe los sonidos de la voz se pueden representar mediante un
espectrograma, que indica las componentes frecuenciales de la seal de voz.
Es as entonces como el espectro nos proporciona informacin acerca de los
parmetros del modelo de produccin de voz, tanto de la excitacin como del
filtro que representa el tracto vocal.
Desde el principio de la dcada de los 70 los sistemas homo mrficos han
tenido una gran importancia en los sistemas de reconocimiento de voz. Estos
sistemas homo mrficos son una clase de sistemas no lineales que obedecen
a un principio de superposicin. De estos los sistemas lineales son un caso
especial.
CONCLUSIONES
BIBLIOGRAFIA
PROCESAMIENTO DE VOZ
http://www.ugr.es/~atv/PVL/transpa_proc_voz_2007.pdf