Vous êtes sur la page 1sur 51

Procesamiento de seales de voz

CURSO: Procesamiento Digital de Seales I


Integrantes:
ABIA ARRIETA AUGUSTO
CADENILLAS CABANILLAS SEGUNDO
REYMUNDO GASPAR MICHAEL

La comunicacin oral

Qu es la voz?
Onda de sonido (onda de presin)
Producida por el aparato fonador
Utilizada para comunicacin (para
transmisin de mensajes)

Procesamiento de voz
Anlisis de voz
Codificacin y comprensin de voz
Sntesis de voz
Reconocimiento automtico de voz
Reconocimiento y verificacin de
locutores
Deteccin de patologas
Diseo de ayudas para la audicin

Problemas del procesamiento de voz


Variabilidad
Intra-locutor (estado salud / nimo, velocidad)
Inter-locutor
Adquisicin

Continuidad: concatenacin y coarticulacin


Informacin contenida en la seal de voz
muy redundante
Multi-interactividad entre niveles:
Nivel fontico
Caractersticas suprasegmentales
Nivel semntico: contexto suplencia mental

Ruido: perturbacin + efecto Lombard


5

Variabilidad de las
seales de voz
40 ms correspondientes
al fonema /a/

Modelo acstico de produccin de voz


Onda acstica: onda de presin en el aire
con c = 350 m/s
Longitud de onda = c / f
Para 100 Hz, = 3.5 m
Para 4 kHz, = 8.75 cm

Produccin de sonido:
Fonemas sonoros: vibracin cuerdas vocales
Fonemas sordos: flujo turbulento
Fonemas oclusivos: obstruccin + apertura

Formantes
Formantes: resonancias del tracto vocal
Por las dimensiones y la velocidad de
propagacin del sonido, aparece en
promedio 1 formante por cada kHz
El tracto vocal filtra la onda glotal: amplifica
cada componente de frecuencia con una
determinada ganancia
8

Prdidas por radiacin de onda


p(L) = 0 no es cierto
Impedancia acstica Z
Impedancia para abertura circular
de radio a en plano infinito
El filtrado del tracto vocal
considerando las perdidas por
radiacin es distinto:
Cada para altas frecuencias
6 dB / dcada

u(L,f) / uG(f)

10

Solucin numrica para funcin de


rea correspondiente a fonema /a/

11

Acoplamiento del tracto nasal

12

Modelo acstico de
produccin de voz
Excitacin
Fonemas sonoros
Fonemas sordos
Fonemas oclusivos

Filtrado por tracto vocal / nasal


Formantes (1 por kHz)
Cada 6 dB/dcada

13

Modelo digital de produccin


de voz

14

Caractersticas de la voz
Excitacin:

Sonoro (freq. fundamental o pitch)


Sordo
Oclusivo
Combinacin

Formantes:
Cavidad buco-nasal
Envolvente espectral

Energa: presin de aire


Evolucin en el tiempo de los parmetros
15

Caractersticas de la voz
Excitacin:

TONO

Sonoro (freq. fundamental o pitch)


Sordo
Oclusivo
Combinacin

Formantes:TIMBRE

Cavidad buco-nasal
INTENSIDAD
Envolvente espectral

Energa: presin de aire


DURACIN
Evolucin en el tiempo de los parmetros
16

Clasificacin de los fonemas


(desde el punto de vista de la produccin)

Actividad de cuerdas vocales


Vocales
Consonantes sonoras
Consonantes sordas

Modo de articulacin
Vocales
Consonantes

Lugar de articulacin
Vocales
Consonantes
17

Clasificacin de vocales
Modo de articulacin (formante 1)
Cerradas (i,u)
Medias (e,o)
Abiertas (a)

Lugar de articulacin (formante 2)


Anteriores (i,e)
Centrales (a)
Posteriores (o,u)
18

Formantes 1 y 2 en vocales
3000

freq. 2o formante (Hz)

2500

2000

/e/

/i/

1500

1000

500
200

/a/

/u/
300

/o/
400

500

600

700

800

900

1000

freq. 1er formante (Hz)


19

Fonemas del espaol

20

Anlisis de seales de voz


Conceptos de procesado de seales
Transformada de Fourier
Componentes de frecuencia
Espectro de potencia
Filtrado
Ventanas
Muestreo
Espectrogramas
21

Transformada de Fourier
Transformada (FT):
Cambio de representacin
Misma informacin (otra representacin)
Existe transformada inversa (FT-1)
Transforma seal compleja en seal
compleja:
Im(z)

r
y

Re(z)
22

Espectro de potencia (1)

23

Espectro de potencia (2)

24

Descomposicin en componentes freq.

25

Linealidad de la Transformada de Fourier

26

Linealidad de la Transformada de Fourier

27

Filtrado
excitacin

seal filtrada
filtro

Caracterizacin del filtro:


Tiempo: respuesta impulsiva
Frecuencia: funcin de transferencia (o
respuesta en frecuencia)
28

Filtrado en el tiempo: convolucin

29

Filtrado en frecuencia: multiplicacin

30

Ventanas (multiplicacin en tiempo)

31

Ventanas (multiplicacin en tiempo)

32

Transformada de un tren de pulsos

33

Transformada de seal peridica

34

Muestreo de seales: T. de muestreo

35

Transformada Fourier:
Resumen

36

DFT y FFT
Transformada discreta de Fourier (DFT)
Transformada rpida de Fourier (FFT)

Seales discretas (muestreadas)


Ventana (resolucin espectral)
N muestras en t => N muestras en f
FFT: Muy utilizada en procesamiento
digital de seales
37

La seal de voz
/sal/

38

La seal de voz
/s/

/a/

/l/

39

Estacionariedad de la voz
La seal de voz es estacionaria a trozos
Durante la pronunciacin de un fonema es quasiestacionaria
Velocidad cambios tracto vocal
Velocidad cambios cuerdas vocales
Estacionaria durante 20 40 ms
Velocidad de pronunciacin: 5-20 fonemas / seg
Anlisis de trozos de voz estacionarios:
ventanas
40

Anlisis con ventanas

41

Anlisis con ventanas

42

Espectro de las vocales


/i/
/a/
/o/
/a/ cerrada
/u/
/e/
43

Espectro de las vocales


/i/
/a/
/o/
/a/ cerrada
/u/
/e/
44

Espectro de consonantes
sonoras
/m/
/l/
/n/
/y/
//
/R/
45

Espectro de consonantes
fricativas
/s/

/z/

/sh/

/f/

/ss/

/j/
46

Fonemas no estacionarios
Fonemas estacionarios:
vocales: /a/ /e/ /i/ /o/ /u/
consonantes sonoras: /l/ /y/ /R/ /m/ /n/ //
consonantes fricativas: /s/ /sh/ /ss/ /z/ /f/ /j/

Fonemas no estacionarios:
Plosivas sordas: /p/ /t/ /k/
Plosivas sonoras: /b/ /d/ /g/
Otras consonantes: /ch/ /r/
47

Espectrograma
(representacin tiempo - frecuencia)

48

Espectrograma
(representacin tiempo - frecuencia)

m b o i a kom p r a R

pa n

49

Ventana en el espectrograma: 64ms / 8 ms

50

Informacin relevante
de la seal de voz:
Para reconocimiento de voz:
Envolvente espectral (formantes)
Evolucin temporal de los formantes
Informacin espectral de tiempo corto

Informacin complementaria:
Tono fundamental
Estructura fina del espectro

51

Vous aimerez peut-être aussi