Académique Documents
Professionnel Documents
Culture Documents
MULTIMEDIA
Dr. Juan Carlos Gutirrez Cceres
jcgutierrezc@gmail.com
Qu es el Procesamiento
Multimedia?
Procesamiento Multimedia: conjunto de mtodos,
tcnicas y herramientas destinadas a la manipulacin
y anlisis de imgenes, sonido y vdeo digital.
Finalidades del procesamiento:
Compresin y transmisin
PROCESAMIENTO
MULTIMEDIA
1. Adquisicin y representacin de imgenes.
Mundo 3D
http://webvision.med.utah.edu/anatomy.html
Eje ptico
Mundo 3D
Distancia focal
Eje ptico
Mundo 3D
P
Apertura
Plano de imagen
(fotodetector)
Crculos de
confusin
Conclusiones:
El proceso de formacin est en la parte analgica
del mbito de procesamiento de imgenes.
Para nosotros las imgenes sern simples matrices
de nmeros, pero...
Es importante conocer los elementos, factores y
parmetros que intervienen en los dispositivos de
captura.
Por suerte (o por desgracia), muchas cmaras no
permiten ajustar los parmetros, lo hacen
automticamente.
Un pxel
90
67
68
75
78
98
185
180
153
139
132
106
70
80
81
69
69
67
35
34
92
87
73
78
82
132
180
152
134
120
102
106
95
75
72
63
75
42
19
29
63
102
89
76
98
163
166
164
175
159
120
103
132
96
68
42
49
46
17
22
45
83
109
80
130
158
166
174
158
134
105
71
82
121
80
51
12
50
31
17
39
69
92
115
154
122
144
173
155
105
98
86
82
106
83
76
17
29
41
19
34
80
73
132
144
110
142
181
173
122
100
88
141
142
111
87
33
18
46
36
37
93
88
136
171
164
137
171
190
149
110
137
168
161
132
96
56
23
48
49
66
117
106
147
188
202
198
187
187
159
124
151
167
158
138
105
80
55
59
54
127
136
107
144
188
197
188
184
192
172
124
151
138
108
116
114
84
46
67
54
143
134
99
143
188
172
129
127
179
167
106
118
111
54
70
95
90
46
69
52
141
137
96
146
167
123
91
90
151
156
121
93
78
82
97
91
87
45
66
39
139
137
80
131
162
145
131
129
154
161
158
149
134
122
115
99
84
35
52
30
137
133
56
104
165
167
174
181
175
169
165
162
158
142
124
103
67
19
31
23
135
132
65
86
173
186
200
198
181
171
162
153
145
135
121
104
53
14
15
33
132
132
88
50
149
182
189
191
186
178
166
157
148
131
106
78
28
10
15
44
Un pxel
Vecindad a 4
Vecindad a 8
+
Imagen en color:
1 pxel = 3 bytes
Cada pxel consta de 3 valores:
(Rojo, Verde, Azul)
Un byte por color
16,7 millones de colores posibles
Canal R
Canal G
Canal B
http://www.rit.edu/~andpph/
Resumen
Parmetros de una imagen digital:
Ancho y alto.
Nmero de canales y significado de cada uno.
Nmero de bits por pxel y canal (depth).
Origen de coordenadas y modo de almacenamiento
multicanal.
Seal
analgica
Escena
Cmara
Seal
digital
Digitalizador
Ordenador
http://micro.magnet.fsu.edu/primer/digitalimaging/
Imagen de
ultrasonidos
(ecografa)
TAC (Tomografa
axial computerizada)
Imgenes de profundidad
Tipo de compresin:
Sin prdida: RLE, LZW, Huffman
Con prdida: mediante FFT, DCT, wavelets
Otras caractersticas:
Posibilidad de definir de transparencias
Diferentes imgenes en un mismo archivo (animaciones)
R= 51
G= 153
B= 255
Sin paleta
En imgenes fotogrficas,
con RGB, difcilmente se
repetir un valor.
La compresin ser escasa
o nula.
Mucha
prdida
7
1
6
6
Imagen de entrada
8
7
1
6
1
8
2
2
2
7
6
2
2
2
7
7
Imagen comprimida
Sin comprimir
Ratio 1:4
Ratio 1:10
Ratio 1:26
Ventajas:
No hay prdida de calidad en las imgenes.
La lectura y escritura son muy rpidas.
Formato muy sencillo: cabecera + datos.
Aplicaciones:
Aplicaciones que requieran una rpida salida por pantalla.
Aplicaciones donde no deba haber prdida de calidad, aun a
costa del tamao.
Resolucin: 512x384
Profundidad: 24 bits/pxel
Tamao: 576 Kbytes
Resolucin: 400x308
Profundidad: 24 bits/pxel
Tamao: 167 Kbytes
Inconvenientes:
Poco adecuado para imgenes fotogrficas: prdida de color y
tamaos muy grandes.
Formato poco flexible.
Problemas de patentes hicieron que apareciera el formato
PNG como alternativa al GIF. Hoy da, las patentes existentes
sobre GIF han expirado.
Aplicaciones:
Compresin y almacenamiento de dibujos e imgenes
esquemticas con un nmero reducido de colores distintos.
Transmisin de imgenes por red: imgenes de tamao
reducido (iconos, smbolos, etc.), animaciones sencillas.
http://en.wikipedia.org/wiki/Portable_Network_Graphics
Tamao: 86 Kbytes
Efecto de cuadriculado
Aparicin de artefactos, en
imgenes con bordes abruptos
Desaparicin de estrellas
Inconvenientes:
Conclusiones:
Una imagen digital no es ms que una matriz de
nmeros.
Las imgenes digitales son muestreos discretos de
seales continuas bidimensionales.
Discretizacin en el espacio: ancho y alto.
Discretizacin en el valor: profundidad de pxel.
Tema 2. Procesamiento
global de imgenes.
67
68
75
78
92
87
73
78
82
63
102
89
76
98
45
83
109
80
130
39
69
92
115
154
Imagen
R
Comparar con:
Filtros y convoluciones: el valor de un pxel depende
de la vecindad local de ese pxel:
R(x,y):= f(A(x-k,y-k), ..., A(x,y), ..., A(x+k,y+k))
Transformaciones geomtricas: el valor de un pxel
depende de pxeles situados en otras posiciones:
R(x,y):= A(f1(x,y), f2(x,y))
Transformaciones lineales: el valor de un pxel puede
depender de todos los pxeles de la imagen:
R(x,y):= f(A, x, y)
Frecuencia
(nmero de pxeles)
Para comprender el significado de muchas transformaciones y saber cul conviene aplicar se usan histogramas.
Qu es un histograma? Repasar estadstica...
Un histograma representa grficamente una distribucin
de frecuencias.
Histograma de una imagen: representa las frecuencias
de los diferentes valores de gris en la imagen.
127
Nivel de gris
255
Frecuencia
127
Nivel de gris
255
Frecuencia
127
255
Frecuencia
127
255
Frecuencia
127
255
Frecuencia
127
255
Canal Rojo
127
Canal Verde
255
127
Canal Azul
255
127
255
Canales G y B
Canales R y B
Solucin.
Aplicar un
operador
que estire
el histograma.
A: imagen de entrada.
R: imagen resultante (del mismo tamao que A).
Operaciones unarias:
a
+
Ejemplo de imagen
muy saturada
Suma
0+a
0*b
192
64
128
f: curva
tonal
Valor de salida
255
64
128
192
255
Valor de entrada
192
64
128
64
128
192
255
64
128
192
255
64
128
192
255
Por 3: f(v):= 3v
128
64
0
64
64
128
128
192
192
Multiplicar 2: f(v):=2v
0
0
255
255
192
192
128
255
64
Resta: f(v):= v - a
255
255
128
64
192
128
64
0
255
Suma: f(v):= v + a
192
255
Identidad: f(v):= v
64
128
192
255
64
128
192
255
128
192
255
64
64
128
192
255
Para imgenes en
color, se aplica la
misma funcin a los
tres canales (R,G,B)
Ojo: no
necesariamente el
mximo
192
128
64
0
Histograma de R
255
Histograma de A
64
128
192
255
5%
5%
128
64
128
64
0
0
64
128
192
255
Valor de entrada
Resultado: oscurecer
los medios tonos.
255
192
255
Raz: c1v0.5 + c2
192
255
192
128
64
0
Valor de salida
64
128
192
255
64
128
192
255
Valor de entrada
Valor de entrada
Resultado: aclarar
los medios tonos.
Resultado: aclarar
tonos oscuros y
oscurecer los claros.
192
128
64
0
255
Gama 0,5
Gama 0,75
Gama 1
64
Gama 2
128
192
255
Gama 4
Negro
192
255
64 128
?
0
127
255
64
128
192
255
127
255
20%
20%
20%
127
64
128
192
255
Histograma de A
Funcin f
Histograma de R
192
255
0
64
128
192
255
Umbral
superior
64
Umbral
inferior
64
64
128
128
128
192
255
192
Umbral
Valor de salida
255
64
128
192
255
Valor de entrada
Valor de entrada
Umbralizar la
imagen con valor cte.
Cortar un rango y
mantener el resto
64
128
192
255
Valor de entrada
Seleccionar un
rango
Imagen de entrada
(256 grises)
Umbral = 160
Umbral = 215
Imagen de entrada
Umbralizar, u = 42
Umbralizar, u = 180
Operadores booleanos:
R(x, y):= A(x,y) AND B(x,y)
R(x, y):= A(x,y) OR B(x,y)
R(x, y):= A(x,y) XOR B(x,y)
R(x, y):= NOT A(x,y) AND B(x,y)
R(x, y):= A(x,y) OR NOT B(x,y)
...
Estos operadores tienen sentido cuando al menos
una de las imgenes es binaria.
Negro (0) = FALSE
Blanco (1 255) = TRUE
A AND B
Imagen de
entrada
B
A OR B
A XOR B
En imgenes
no binarias no
tienen mucho
sentido...
Cmo se
interpretan?
NOT C
2. T2:= A AND C
A
T2
C
3. R:= T1 OR T2
T1
T1
R
T2
!?
Cuestiones:
Cmo crear la mscara de forma automtica?
La zona del pelo no se mezcla bien con el fondo.
Cmo evitar este problema?
Operaciones aritmticas:
a = 0,5
a = 0,75
Imgenes
capturadas
de TV
Imagen
acumulada
Modelo de
Imgenes de
fondo
Quickcam
B
[0..255] - [0..255] =
[-255..255] La mitad
de los pxeles se
saturan a 0
A-B
B-A
(A-B)*
(B-A)*
? Son muy
distintas...
Pxel negro: las dos imgenes son
iguales en ese pxel.
Cuando ms clara es una zona, ms
se diferencian las imgenes.
Dif.
x16
Frame 2
Frame 1
Idea: esto se
puede usar para
crear la mscara...
Cmo?
x2
x2
Proceso.
M
A
D
U
F
Cmo
arreglar eso?
Frame 2
Diferencia x2
AB
A/B
B1
B2
A*B1
A*B2
Resultado:
R:= (A AND NOT M)
OR (B AND M)
R
No me convence...
mejor un reborde
suave (difuminado)
Resultado:
R:= A(255-N)/255 + BN/255
Producto de
imgenes
Fondo mximo
La mscara ya
est binarizada
Frame 1
Frame 2
Conclusiones:
Operaciones de combinacin: a partir de dos o ms
imgenes obtener una nueva imagen.
La operacin a aplicar depende de lo que queramos
conseguir.
Operaciones booleanas: tiles para trabajar con
mscaras de objetos.
Operaciones aritmticas: tiles en vdeo, modelos
acumulados, deteccin de movimiento, transparencias
difusas, etc.
En general, cualquier tipo de operacin es posible, ya
sean lineales o no lineales.
Imagen de entrada
Grises (media)
Grises (precisa)
R
(0,0,0)
(vr,vg,vb)
(255,255,255)
Imagen de entrada
Escala de grises
Escala de sepias
Cmo conseguir
que el punto
intermedio sea un
valor cualquiera
(distinto de 128)?
Escala de (30,255,0) Escala de (0,255,255)
R=
G=
B=
255
255
0
0
255
255
0
255
255
0
Imagen de entrada
Imagen de entrada
R.R= A.B
R.G= A.R
R.B= A.G
R.R= A.G
R.G= A.B
R.B= A.R
R.R=
(A.R+A.B)/2
R.G=
(A.G+A.R)/2
R.B=
(A.G+A.B)/2
Imagen de entrada
Ajuste conjunto
Ajuste separado
Tema 4. Transformaciones
geomtricas.
67
75
78
Transf. global
62
68
78
81
92
87
78
82
Transf. local
102
89
76
85
45
83
80
130
83
90
80
111
39
69
115
154
69
92
69
121
Tr. geomtrica
Entrada
Salida
0 1 2
0
1
3 4 5
0
R 1
2
3
ndices no definidos
en el array. Qu
hacer ah?
0
Cunto vale la
imagen ah?
1
Y
1
Y
Implementacin:
f1(x,y) f1(x,y) + 0,5
f2(x,y) f2(x,y) + 0,5
Imagen
original
25x26
Imagen
ampliada
250x260
Ventajas:
Es muy sencilla y rpida de calcular.
Inconvenientes:
El efecto de cuadriculado es evidente, y da lugar
imgenes de poca calidad.
A(x)
1-a
p
Media ponderada,
de los valores de
i y d segn la
X
distancia a
1 interpolar
horizontalmt.
2 interpolar
verticalmt.
1
Y
(px,py)
1-b
r
Y
1-a
Media ponderada
de los 4 pxeles
circundantes
Esto recuerda a
A(px, s) = (1-a)A(i, s) + aA(d, s)
una convolucin,
A(px, r) = (1-a)A(i, r) + aA(d, r)
no?
A(px, py) = (1-b)A(px, s) + bA(px, r)
A(px, py) = (1-a)(1-b)A(i, s) + a(1-b)A(d, s) +
(1-a)bA(i, r) + abA(d, r)
Imagen
original
25x26
Vecino ms prximo
Interpolacin bilineal
Valores
interpolados
A(x)
i-1
i+1
i+2 X
i-1
i+2
i+1
j-1
j
Y
b
(px,py)
j+1
a
j+2
P(k) = 1/6(C(k+2)3-4C(k+1)3+6C(k)3-4C(k-1)3)
C(k) = max(0, k)
Imagen
original
25x26
Vecino ms prximo
Interpolacin bilineal
Interpolacin bicbica
Rotacin
Inclinacin
tX
tY
Aplicaciones:
Seleccionar y recortar una regin rectangular.
Aunque, como ya hemos visto, no suele aparecer de
forma explcita, sino al manejar ROI.
Tambin suele aparecer en combinacin con las otras
operaciones, para centrar la imagen resultante.
Ejemplo. Recordar la operacin de rotacin de 180:
R(x, y):= A(mX-x, mY-y)
Reducir al 80%
Aumentar el doble
en X y reducir a la
mitad en Y
Punto en R
(0,y)
Y
(x,0)
Punto en R
Punto en A
Ejemplos.
sen
-sen cos
Rotar 10
x
y
Rotar -10
Se ha utilizado
interpolacin
bicbica.
Recordar la
importancia de la
interpolacin.
Vecino ms prximo
Interpolacin bilineal
b
b
Inclinacin en Y de b/a Inclinacin en Y de -b/a Inclinacin en X e Y
b
b
a
a
-iy 1
y
Ejemplos.
Inclinacin iy=0,2
Inclinacin ix=0,1;iy=0,3
R(x,y):= A(
Traslacin
c11
c12
c13
c21
c22
c23
dx
Escala
ex 0 0
dy
ey
y )
1
Inclinacin
Rotacin
cos
sen
-ix
-sen cos
-iy
c11
c12
c13
c21
c22
c23
x
y )
c12
c13
c21
c22
c23
d11
d12
d13
d21
d22
d23
r11
r12
r13
r21
r22
r23
cos e
sen e 0
x -sen e cos e 0 x
0
x 0
ccos e
dsen e
accos e+f+bdsen e
-csen e
dcos e
bdcos e+g-acsen e
Texto rectificado
Normalizar cada
carcter a un
tamao estndar
Segmentar los
caracteres
Tomar el
mximo
Es
una
a!!
Imagen original
Transf. afn
Transf.
perspectiva
Transform.
afn
Transform.
bilineal
Transform.
perspectiva
Transformac.
perspectivas
Transformac.
bilineales
I.P.M.
Aqu se pueden
tomar distancias y ngulos.
En la original no
capturada (vista
TOP)
http://www.argo.ce.unipr.it/ARGO/
El
proyecto
es un
poco
antiguo,
pero
bueno...
Una vez
localizado el
campo, colocar
los elementos
en unos sitios
predefinidos
Imagen transformada
f1(x,y)
f2(x,y)
(x,y)
(x,y)
g1(x,y)
g2(x,y)
Mapeo inverso: el mapeo puede venir dado al revs:
R(g1(x,y), g2(x,y)):= A(x,y)
Significado: el pxel (x,y) en la imagen original se mueve a
la posicin (g1(x,y), g2(x,y)).
Normalmente trabajaremos con mapeo directo.
R2
R3
a = 20
a=5
a=1
R
Aplicado
slo en la
ROI.
La coordenada Y no se
modifica: f2(x, y):= y
Qu pasa con la X?
La X de R es el coseno del
ngulo correspondiente en A.
Interpretacin de
la transformacin
cilndrica
Tr. cilndrica en X
Tr. cilndrica en Y
mx 0
a 1
mx
mx 0
a=4
a=2
a=1
a=1/2
a=1/4
xA
En X
En Y
a=2
Estirar: simula un
panel abombado
hacia afuera
Pinchar: simula
apretar la superficie
del panel
Ondulacin: simula
una deformacin por
ondas de agua
5 Procesamiento de Video
Procesamiento de video
Estructura de un video
Transiciones de un video
Transiciones abruptas
Transiciones graduales
cromticas
Transiciones graduales
Fades
Los fades son un tipo de transicin gradual y se clasifican en dos:
fade-out: Consiste en la disminucin progresiva de luminosidad entre
frames obteniendo cuadros totalmente negros.
fade-in: Inverso al anterior, en esta transicin se da un aumento
progresivo de luminosidad a partir de cuadros negros.
Transiciones graduales
Mtodos de deteccin de
transiciones
Histogramas
Escala de grises y color
Proyecciones
Mtodos de deteccin de
transiciones
Resta de pixeles
Mtodos de deteccin de
transiciones
Deteccin de bordes
Cany
Sobel
Laplaciano
Mtodos de deteccin de
transiciones
Mtodos basados en binarizacin
Thresholding
Otsu
6. Anlisis de imgenes.
Anlisis de imgenes: procesamiento inteligente de las
imgenes orientado a la extraccin de informacin de tipo
cualitativo (qu hay en las imgenes) o cuantitativo
(posiciones, tamaos, distancias, tonos, etc.).
Objetivos del anlisis:
Deteccin de objetos: encontrar en la imagen las instancias
de cierto tipo o clase de objetos.
Reconocimiento de objetos: distinguir la identidad especfica
de un objeto que se conoce que pertenece a cierta clase.
Segmentacin: separar los objetos de inters del fondo.
Seguimiento y correspondencia: encontrar la equivalencia
de puntos entre dos imgenes (por ejemplo, imgenes en una
secuencia de vdeo o en un par estreo).
Reconstruccin 3D: extraer informacin 3D de la escena,
posiciones, ngulos, velocidades, etc.
Ejemplo. Buscar el
patrn:
en la imagen dada.
Resultado: n de apariciones, localizacin de cada
una y verosimilitud
M(x, y):=
(P(a, b) - A(x+a,
a= 0..w-1 b= 0..h-1
y+b))2
Es parecido a una
convolucin (pasar
una mscara por
toda la imagen)
Mapa de
matching
M
6,58106
125,3106
Mapa superpuesto
Resultados:
Posicin (97, 87) con: 0.947
Posicin (93, 10) con: 0.941
Posicin (161, 47) con: 0.939
Posicin (12, 24) con: 0.906
Posicin (20, 121) con: 0.899
Posicin (165, 9) con: 0.332
Patrn
ampliado
Funcin: producto
vectorial.
Umbral usado: 0,5
Falsos
positivos
Falsos
negativos
143%
Mapa de matching, M
20
10
15
0,640
25
0,507
Imagen B (derecha)
Mapa de matching
Patrn 1
Imagen B (derecha)
Localizacin resultante
Localizaciones resultantes
Imagen en t = 0
Imagen en t = 1
Localizacin resultante
Mapa de matching
R1
Conclusiones:
Desventajas:
Es muy sensible a rotaciones, escala, etc.
Adems, en la vida real encontramos objetos 3D flexibles, lo
que supone ms variabilidad.
La aplicacin de la tcnica es muy costosa, O(WHwh).
Cuando la resolucin aumenta al doble, el tiempo se multiplica
por 16.
Imagen en t
VelX,
VelY
Vdeo de
entrada
Resolucin:
408x240
Flujo ptico
resultante
Tamao de
bloque: 21x21
Radio de
bsqueda:
21x21
Panormica resultante
Vdeo de entrada
Imagen en t=1
Ojo: descartar
los bloques de
los exteriores
VelX, VelY
(vx, vy)
Tira1
Acum0
Acum1
Inconvenientes:
La tcnica es muy lenta. Es inviable aplicarla en tiempo real.
Difcil ajustar los parmetros para un funcionamiento ptimo:
tamao de bloques y radio de bsqueda.
Imagen de entrada
Imagen de entrada
Proyeccin horizontal
Proyeccin horizontal
Aplicable en
grises o en
color
x
= 2
PVA(y)
Imagen A
= 0
y
= -2
Criterio plausible: mayor
diferencia entre mximo y mnimo,
o mayor varianza de la proyeccin
= -4
PA(y)
PVA(y)
Umbral, prefijado o
calculado
automticamente
Lneas detectadas
PHS(x)
Umbral, aqu
ya no est tan
claro...
Caracteres
detectados
Segmentacin
incorrecta...
Modelo de
PH,OJOS
Modelo de
PH,BOCA
Reproyeccin
del modelo
http://dis.um.es/~ginesgm/fip
Inconvenientes:
En algunas aplicaciones, la proyeccin puede suponer perder
informacin relevante.
Difcil establecer umbrales mximos y mnimos adecuados.
Recortes de
csped, B
Histograma, H R
Histograma, H R
R
Blanco (255)
color de
csped
Negro (0)
color de no
csped
Imagen de
entrada C
M, reproyeccin del
histograma sobre C
Csped
segmentado
Histograma R-B
Histograma R-G
Imagen
compuesta, R
Binarizada y
erosionada
convenientemente
(3 iteraciones)
solap(H1, H2) =
min(H1, H2) =
0.608
60.8%
G
f2
f3
f4
s1
s2
s3
s4
b1
b2
b3
b4
t1
t2
t3
t4
Imagen
de
entrada
A
Respuestas:
f4
Respuesta 1
Similitud: 33%
f2
Respuesta 2
Similitud: 32%
f3
Respuesta 3
Similitud: 29%
Imagen
de
entrada
A
Respuestas:
b1
s2
Respuesta 1
Similitud: 36%
Respuesta 2
Similitud: 35%
b4
Respuesta 3
Similitud: 34%
Imagen
de
entrada
A
Respuestas:
b1
Respuesta 1
Similitud: 64%
b4
Respuesta 2
Similitud: 63%
b2
Respuesta 3
Similitud: 62%
Imagen
de
entrada
A
Respuestas:
b2
t2
Respuesta 1
Similitud: 36%
Respuesta 2
Similitud: 33%
t3
Respuesta 3
Similitud: 32%
6. Anlisis de imgenes.
Conclusiones:
Existen otras muchas tcnicas de anlisis de imgenes,
muchas de ellas diseadas para problemas especficos.
Simplemente hemos dado una breve perspectiva de los
principales objetivos (deteccin, seguimiento,
reconocimiento, etc.) y algunas tcnicas para conseguirlos
(template matching, integrales proyectivas, etc.).
Disyuntiva: tcnicas genricas soluciones ad hoc.
El anlisis de imgenes es la base de la visin artificial,
cuyo objetivo es la comprensin de la informacin visual.
Adems, la visin artificial incorpora tcnicas ms propias
de la inteligencia artificial: reconocimiento de patrones,
clasificacin supervisada y no supervisada, toma de
decisiones, representacin del conocimiento, etc.
Procesamiento multimedia
Tratamiento de sonido
El concepto de voz
Sistema fonador humano
Onda de presin acstica originada
voluntariamente a partir de los
movimientos de la estructura
anatmica del sistema fonador.
Los distintos sonidos se producen al
pasar el aire emitido por los pulmones,
a travs de todo el sistema de
produccin, en una determinada
posicin de cada parmetro
articulatorio.
Este sistema puede modelarse como un
filtro, cuya funcin de transferencia depende
del sonido articulado. La entrada al filtro se
puede modelar mediante una seal de
excitacin, que se corresponde con el paso
del aire generado por los pulmones a travs
de la trquea y las cuerdas vocales, y
tambin ser dependiente del sonido
generado.
El concepto de voz
Clasificacin de sonidos
Sonidos sonoros En ellos las cuerdas
vocales vibran y el aire pasa a travs
del tracto vocal sin impedimentos
importantes.
Sonidos sordos En ellos las cuerdas
vocales no vibran y existen
restricciones importantes al paso del
aire que proviene de los pulmones, por
lo que son de amplitud menor y
normalmente de naturaleza ms
ruidosa que los sonoros.
El concepto de voz
Anlisis frecuencial
(I)
La seal de voz es limitada
en banda, a unos 8 kHz. Sin
embargo, la mayor parte de
la informacin se encuentra
en los primeros 4 kHz, que
es aproximadamente el
ancho de banda utilizado en
las comunicaciones por va
telefnica.
La frecuencia fundamental o
tambin denominada pitch,
brinda informacin sobre la
velocidad a la que vibran las
cuerdas vocales al producir un
sonido, el cual es generado por
la rpida apertura y cierre de las
cuerdas vocales con pequeos
soplidos de aire
Sonido sordo
Sonido sonoro
Espectrograma
(representacin tiempo - frecuencia)
278
Espectrograma
(representacin tiempo - frecuencia)
m b o i a kom p r a R
279
pa n
El concepto de voz
Anlisis frecuencial (II)
De las figuras de antes se pueden sacar varias conclusiones:
La periodicidad del fonema /u/. (Hay que recordar que la
presencia de armnicos en el espectro indica cierta periodicidad de
la seal).
El margen habitual del valor del pitch para locutores
masculinos adultos del valor del pitch es de 50 a 250 Hz, mientras
que para locutoras se encuentra entre 120 y 500 Hz.
La seal de voz
/sal/
282
La seal de voz
/s/
283
/a/
/l/
El concepto de voz
Anlisis frecuencial (II)
Tringulo voclico castellano
Vocal\Formante
(Hz)
/i/
/e/
/a/
/o/
/u/
F1
F2
284
527
689
608
243
2430
2025
1458
1215
770
288
/s/
/z/
/sh/
/f/
/ss/
/j/
Reconocimiento de voz
El reconocimiento de la voz constituye una parte importante del
tratamiento del habla.
Las tcnicas de reconocimiento ms desarrolladas son aquellas
comnmente usadas para el idioma ingls, las cuales incluyen el
Anlisis de Prediccin Lineal (LPC) y el Alineamiento Temporal (DTW)
Tipos de enfoque en el reconocimiento:
Reconocer palabras aislados: las palabras se pronuncian entre pausas
pequeas de tal forma que el procesamiento se realiza teniendo como
unidades lingsticas las palabras de un vocabulario especfico.
Reconocer palabras conectadas: las palabras se pronuncian sin pausas
(habla normal) de tal forma que el reconocimiento se lleva a cabo basndose
en la coincidencia de palabras aisladas de referencia.
Reconocimiento de voz
Ventajas/Desventajas de los diferentes tipos de reconocedores
La complejidad de los reconocedores mediante fonemas es bastante
mayor en comparacin con los de palabras aisladas.
Los reconocedores de palabras aisladas no permiten vocabularios
extensos (<50 palabras), debido principalmente al alto coste de
memoria, que esta tcnica requiere. Mientras que los
reconocedores de fonemas permiten una mayor extensin del
vocabulario a reconocer.
Palabras del vocabulario castellano: 300 000 palabras
Fonemas existentes en el castellano: 37 fonemas
Una limitacin del reconocedor de palabras aisladas es tener que
dictar, de forma aislada, cada palabra del texto a reconocer.
Reconocimiento de voz
Modelado del tracto vocal (I)
Como ya se vio, existen dos tipos de
seales, que pueden describir el
proceso del habla:
Sonidos sonoros
Alta energa
300-4000 Hz
Cierta periodicidad
Matemticamente modelables como
un tren de impulsos
Sonidos sordos
Baja energa
Componente frecuencial uniforme
Cierta aleatoriedad
Matemticamente modelables como
un ruido blanco
Reconocimiento de voz
Modelado del tracto vocal (II)
Teniendo presente la clasificacin anterior y que el tracto vocal
modelado se manifiesta como un filtro variable en el tiempo, en el
que nicamente existen dos posibles seales de entrada (sonoras o
sordas), se puede hacer el siguiente sistema:
Reconocimiento de voz
Preprocesado de la seal de voz
1- Prenfasis
La etapa de prenfasis se realiza con el propsito de suavizar el espectro y
reducir las inestabilidades del clculo asociadas con las operaciones
aritmticas de precisin finita.
Bsicamente esta etapa consiste en un filtro digital de primer orden, cuya
ecuacin y repuesta en frecuencia corresponde a:
Reconocimiento de voz
Preprocesado de la seal de voz
2- Segmentacin y enventanado
La siguiente etapa del preprocesado, consiste en la segmentacin de la seal
de voz en tramas de 20 30 mseg, con un desplazamiento tpico de 10
mseg.
Reconocimiento de voz
Preprocesado de la seal de voz
2- Segmentacin y enventanado
Por ltimo a cada trama generada se le aplica una ventana de Hamming, que
elimina los problemas causados por los cambios rpidos de la seal en los
extremos de cada trama de voz.
Reconocimiento de voz
Anlisis de prediccin lineal (LPC)
Una de las tcnicas ms usadas en el procesamiento de seales de voz
viene a ser el anlisis de prediccin lineal. Esta tcnica permite
parametrizar una seal con un nmero pequeo de patrones, adems
de no requerir demasiado tiempo de procesamiento, con lo que hace de
este anlisis una herramienta bastante potente.
Donde:
x[n] corresponde a la seal de entrada del filtro, que podr ser un tren de impulsos
o ruido.
G ganancia del filtro
y[n] salida del filtro.
Reconocimiento de voz
Anlisis de prediccin lineal (LPC)
Ecuacin del filtro FIR (II)
Observaciones de importancia:
El modelo matemtico expuesto establece que el tracto vocal puede modelarse
mediante un filtro digital siendo los parmetros los que determinan la funcin de
transferencia. El problema consiste en, dado un segmento de palabra, extraerle sus
parmetros que en este caso vienen a ser los coeficientes del filtro.
Tambin hay que tener en cuenta que un tren de impulsos a la entrada, producir
seales sonoras mientras que un ruido aleatorio producir seales no sonoras a la
salida del filtro.
El filtro viene a representar el modelo del tracto vocal.
Reconocimiento de voz
Anlisis de prediccin lineal (LPC)
Autocorrelacin
Reconocimiento de voz
Alineamiento temporal (DTW)
La siguiente etapa del anlisis viene a ser la que se encarga de realizar
la comparacin de patrones acsticos. Esta tcnica tiene en cuenta la
variacin en la escala de tiempo de dos palabras a comparar.
Que problema se intenta resolver con el DTW?
El problema que se presenta cuando se pronuncia una palabra es que esta no
siempre se realiza a la misma velocidad, lo que produce importantes distorsiones.
Como resolverlo?
La forma de resolver este problema se realiza mediante algoritmos de programacin
dinmica.
i
time
i+2
time
Reconocimiento de voz
Cuantificacin vectorial
Particionar el espacio vectorial en sectores, cada uno de los cuales ser
representado por un solo vector que puede ser el centroide. El conjunto de
centroides viene a ser el libro ndice (codebook) que conforman los niveles de
cuantificacin y a cada una se le asignar una etiqueta o una direccin.
Decisin:
El funcionamiento bsico de esta tcnica se basa en la comparacin de un vector de
entrada, con los vectores del codebook, intentando minimizar la distancia entre ambos
vectores. La decisin se toma segn un umbral de distorsin. Si resulta mayor se
vuelve a comparar hasta que la de distancia total sea inferior al umbral.
Reconocimiento de voz
Esquema de un reconocedor de cuantificacin
vectorial