Académique Documents
Professionnel Documents
Culture Documents
Sonido Espacial y 3D
Introducción
n Mecanismos de localización
¨ localización en el plano horizontal
¨ percepción de la elevación
¨ percepción de la distancia
n Esta diferencia se
denomina diferencia de
tiempo interaural (ITD)
r = radio de la cabeza
c = velocidad del sonido
Diferencia de tiempos
onda plana
r sen θ
rθ
r θ
Confusión delante-detrás
n Para fuentes simétricas se produce una ITD
igual
Fuente 1
θL θR
θL
θR
Fuente 2
Cono de confusión
n Cualquier punto en el cono tiene una ITD igual
Efecto de difracción
Mecanismo combinado
n La percepción del azimut es por tanto un
mecanismo combinado.
□ f < 1.5 KHz à ITD
□ f > 1.5 KHz à IID
n La transición entre ambos mecanismos se produce de
manera gradual.
n Es el cerebro el que procesa ambas medidas y
extrapola dirección de llegada.
n A mayor frecuencia mayor atenuación por difracción.
n A 20 kHz es superior a 30 dB para fuentes a 90º.
Percepción de la
elevación
Percepción de la elevación
desde
arriba
desde
delante
Pliegues de la oreja
Percepción de la elevación
Desde arriba Desde delante
15 15
10 10
5 5
0 0
-5 -5
-10 -10
-15 -15
-20 -20
-25 -25
-30 -30
2 3 4 2 3 4
10 10 10 10 10 10
Intensidad
n Los sonidos más lejanos llegan más atenuados, a
más atenuación más distancia
□ At = Pt / Pr
θ
Exceso de diferencia de intensidad
interaural
n Este mecanismo se emplea para objetos que
están muy cerca del oyente.
Función de transferencia
relacionada con la cabeza (HRTF)
n Sistemas Binaurales
□ Están basados en la HRTF
□ Grabación Binaural ó Síntesis Binaural
L R
Listener
Oyente
Funcionamiento
n Es posible emplazar una fuente “fantasma” entre los dos
altavoces variando el el nivel y/o el retardo entre altavoces.
n Dos tipos:
□ X-Y: intensity stereophony (Basado en la IID)
□ A-B: time-of-arrival stereophony (Basado en la ITD)
Ley de Panning
n Es la ecuación que establece los niveles de señal para los
canales L y R en función del ángulo de la fuente virtual.
□ Lineal
□ No lineal (tangente, seno, perceptuales, …)
1
L R
Ganancia
0
Lineal No Lineal
El Punto Dulce (Sweet Spot)
La técnica del Pan-pot sólo funciona en una zona de escucha
llamada punto dulce.
Fuera de esta área la fuente no se percibe en el lugar correcto
entre los dos altavoces. Fuente Virtual
sala
Evolución del sonido envolvente (III)
n Se añadió tambien un cuarto canal de sonido
envolvente, limitado en ancho de banda y rango
dinámico, que se reproducía con dos altavoces
situados detrás del oyente
9.1 en el hogar
11.1 en el sala de cine
10.2 n
n
Left
Center
n
n
Right Surround Direct
Right Surround Diffuse
de n
n
Right
Left Wide
n
n
Left Surround Diffuse
Left Surround Direct
Back Surround
THX Right Wide
n n
n Left Height n LFE Left
n Right Height n LFE Right
22.2 de NHK
n Tres capas de altavoces a diferentes alturas
El 5.1
5.1
n El 5.1 es la distribución de sonido envolvente
multicanal más extendido tanto en cines como
en el hogar.
n Se estrenó en cines en 1992.
n Generalmente se utiliza asociado a vídeo
□ Cine
□ Series TV, documentales
□ Conciertos
□ Juegos
Disposición estándar del 5.1
C[n]
L[n] R[n]
Norma:
ITU-R BS 775 0º
-30º +30º
-110º +110º
LS[n]
RS[n]
Datos técnicos
n Disposición y orden en ficheros
¨ WAV: L – R – C – LFE – Ls – Rs
Ls Rs
-110º +110º
LS[n]
RS[n]
El 5.1:
Ejemplo de cálculo
Ejemplo
x2[n]
x1[n]
C[n]
n Calcula la señal de cada L[n] R[n]
altavoz en función de las
fuentes de sonido. -15º
+10º
(con ley de panning lineal) 0º
-30º +30º
1
L R
+90º
Ganancia
-160º
LS[n]
RS[n]
x4[n]
Señal x1
x1[n]
C[n]
L[n] R[n]
n x1 afecta a C y R
n C-R separados 30º +10º
0º
n x1-C separados 10º
n x1-R separados 20º -30º +30º
n C[n]=20/30·x1[n]
n R[n]=10/30·x1[n]
-110º +110º
n C[n]=0,667·x1[n]
n R[n]=0,333·x1[n] LS[n]
RS[n]
Señal x2 x2[n]
C[n]
L[n] R[n]
n x2 afecta a C y L
-15º
n C-L separados 30º
0º
n x2-C separados 15º
n x2-L separados 15º -30º +30º
n C[n]=15/30·x2[n]
n L[n]=15/30·x2[n]
-110º +110º
n C[n]=0,5·x2[n]
n L[n]=0,5·x2[n] LS[n]
RS[n]
Señal x3
C[n]
L[n] R[n]
n x3 afecta a R y Rs
n R-Rs separados 80º
0º
n x3-R separados 60º
n x3-Rs separados 20º -30º +30º
n R[n]=20/80·x3[n]
+90º
n Rs[n]=60/80·x3[n]
-110º x3[n]
+110º
n R[n]=0,25·x3[n]
n Rs[n]=0,75·x3[n] LS[n]
RS[n]
Señal x4
C[n]
L[n] R[n]
n x4 afecta a Ls y Rs
n Ls-Rs separados 140º
0º
n x4-Ls separados 50º
n x4-Rs separados 90º -30º +30º
n Ls[n]=90/140·x4[n]
n Rs[n]=50/140·x4[n]
-110º +110º
n Ls[n]=0,643·x4[n]
n Rs[n]=0,357·x4[n] LS[n] -160º
RS[n]
x4[n]
Mezcla total
x2[n]
x1[n]
C[n]
L[n] R[n]
n L[n]=0.5·x2[n]
-15º
n R[n]=0.333·x1[n] +0.25·x3[n] +10º
0º
n C[n]=0.667·x1[n] +0.5·x2[n]
-30º +30º
n Ls[n]=0,643·x4[n]
+90º
n Rs[n]=0.75·x3[n] +0,357·x4[n]
-110º x3[n]
+110º
-160º
LS[n]
RS[n]
x4[n]
Mezcla en forma matricial
L 0 0.5 0 0 x1
R 0.333 0 0.25 0 x2
C = 0.667 0.5 0 0 x3
Ls 0 0 0 0.643 x4
Rs 0 0 0.75 0.357
Sistemas Binaurales
(i)
Grabación/Reproducción Binaural
micrófonos auriculares
fuente de
sonido
Oyente
Maniquí
acústico
Maniquís acústicos
Micrófonos binaurales
Síntesis Binaural
fuente de
sonido
HRTF
base de
datos
HRIRL(θ)
x(n)
sonido fuente
HRIRR(θ)
Síntesis para N fuentes
x2 x1
x3
n Ventajas
¨ Gran realismo
¨ Concepto sencillo
¨ Admiten tracking
n Desventajas
¨ Particularidad de la forma de la oreja
¨ Auriculares generan efecto-dentro-cabeza
Sistemas Binaurales
(ii)
Sistemas Binaurales (ii)
n Personalización de la HRTF
n Virtual Surround
Variaciones
en la oreja
humana
Variaciones en la HRTF
n La HRTF depende de cada individuo:
□ De la forma de la oreja
□ De la forma de la cabeza
□ De la distancia entre oidos
□ De los hombros (torso)
Antropometría
de la cabeza
n A partir de unas medidas
básicas de la oreja, cabeza y
torso en posible ajustar o
escalar una HRTF genérica.
Sistemas Binaurales
(iii)
Virtual Surround
n El sonido de la mayor parte de películas está producido
en sistemas envolventes 5.1, 6.1, 7.1, etc.
n El Virtual Surround es un método para reproducir estas
grabaciones surround mediante auriculares.
n Es útil para:
□ Escuchar películas en casa sin molestar
□ Utilizar dispositivos móviles para ver películas
Virtual Surround
n Cálculo de la señal yL[n] yR[n] C[n]
para los auriculares L[n] R[n]
xR
yR
yL
xL
Cancelador de cross-talk
n Si medimos las 4 respuestas al impulso de los canales acústicos
entre altavoces y oidos del oyente Cij(z) es posible encontrar un
grupo de 4 filtros inversos Hij(z) que compensen el cross-talk.
H11( z ) C11( z )
+
u1 (t) v1 (t) w1 (t)
H21( z ) C12( z )
H12( z ) C21( z )
u2 (t) v 2(t) w2 (t)
H22( z ) +
C22( z )
H = (CTC)-1CTA
Reproducción transaural
n Mediante los filtros inversos es posible reproducir sonido
binaural en 3D con un par de altavoces.
n La zona de escucha es muy reducida, ya que si nos movemos
del punto donde se calcularon los Cij(z), éstos cambian y los
filtros inversos se vuelven inútiles.
n Sólo sirve para corregir el cross-talk, anular las reflexiones es
más complicado y reduce todavía más la zona de escucha.
n Sólo es apto para entornos muy específicos donde el oyente
está centrado y quieto:
□ delante de pantallas de ordenador
□ sistema de sonido HiFi muy centrado
Mezcla
M = 2 altavoces
N = 3 instrumentos
En el reproductor
n El reproductor recibe la señal de cada fuente y
sintetiza la señal para cada uno de los altavoces.
n La señal se adapta perfectamente a cualquier sistema
y es válida para todos.
Síntesis
Interface de posicionamiento
VBAP
Concepto de VBAP
n La técnica de panning se emplea tanto en el estéreo
como en los sistemas surround.
n La ecuación de panning no está normalizada,
existen variaciones sobre la misma.
n La ecuaciones de panning clásicas son
únicamente entre 2 altavoces.
n El VBAP (Vector Base Amplitude Panning)
□ Normaliza la ecuación de panning al dominio vectorial
□ Extiende el panning a 3D haciéndolo entre 3 altavoces
□ Práctico para edición orientada a objetos.
VBAP
canal 2
canal 1
(0,0,0)
Sub
Listener
LS RS
250° 110°
Principio de Huygens
Principio de la WFS
El frente de ondas de la
fuente de sonido se reconstruye
fielmente al otro lado del array de
altavoces.
Wave-Field Synthesis
n Técnica de síntesis y reconstrucción del campo acústico basada
en una simplificación 2D del principio de Huygens.
Versión discreta
Simplificación a 2D
Ecuación de síntesis para N fuentes
Fuente virtual
Configuraciones abiertas
4.92 m
5.76 m
Configuraciones cerradas
Prototipo UPV
Aplicaciones de la WFS
n Indicado para edición orientada a objetos
n Telepresencia
n Realidad virtual
n Reproducción de música de alto realismo
□ Sintetizando el espacio acústico ó
□ Captada en un auditorio y reproducida en otro
n Planetarios, cines IMAX
n Salas de cine convencional (largo plazo)
n Cine en casa (muy largo plazo)
Estándares de Sonido
Envolvente
Matrización
n Los canales L y R van directos
n El canal central se multiplica por 0.707 y se suma a Lt y Rt
n El canal surround se filtra paso banda desde 100 Hz
hasta 7 KHz, se le aplica una reducción de ruido y se
suma desfasado +90º y -90º a los canales Lt y Rt
respectivamente
Matriz pasiva de decodificación
n La resta L-R elimina el canal central y todos los
términos iguales entre L y R, dejando intacta la
información de surround, que va desfasa 180º entre los
dos canales
C CENTER
L+R
n Normalización de diálogos.
□ 32 Kbps ( monocanal )
□ 192 Kbps ( estéreo )
□ 384 Kbps ( 5.1 canales ) à tipic. cine en DVD
□ 448 Kbps ( 5.1 canales ) à tipic. música en DVD
□ 640 Kbps ( máxima ) à tipic. cine en 35 mm
n DVB-S-T-C (optativo)
n DVB-HD (obligatorio)
n DVD. (obligatorio)
n CINE. Es el sistema surround más usado.
Empleo en el Cine
n La banda sonora Dolby Digital se graba entre los
agujeros de arrastre de la película
Lectura
en el
fotograma
Cabezal y procesador en cine
n Introducido en el 2000
n Añade un tercer canal trasero Bs, 6.1
n Mejor emplazamiento de los sonidos por detrás
n Compatible hacia atrás con Dolby Digital
n Este tercer canal surround (Bs) se matriza
entre los canales Ls y Rs
Características Principales
n Configuraciones de canales de audio:
• 5.1 canales: L, R, C, Ls, Rs, LFE
• 6.1 canales: dividiendo el canal C en dos: CR y CL
DTS-ES
Características Técnicas
n Gama dinámica de 105 dB
n Respuesta en frecuencia de 5 Hz a 20 KHz
n Nivel de compresión de 5 a 1
n Configuraciones de canales de audio:
• 5.1 canales: L, R, C, Ls, Rs, LFE
• 7.1 canales: L, Lc, R, Rc, C, Ls, Rs, LFE
• Posibilidad de empleo: 4, 4.1, 5, 5.1, 6, 7.1 canales
de audio por medio de interpolaciones de la posición
sonora
• Tipo de codificación: ATRAC (la misma del MiniDisc)
• Resolución de la señal digital: 20 bit
Posición del sonido SDDS en el
celuloide
n En el cine el sonido va grabado en una pista situada en los
extremos del celuloide, al otro lado de los agujeros de arrastre
Sala de cine
Rendering
n En reproducción se sintetiza el sonido de cada altavoz en función
de las posiciones de los objetos sonoros
n Para ello se utilizan un panning 3D
n De esta forma cambios en el tamaño o relación de aspecto de la
sala no afectan al resultado
n Hay un ordenador que realiza el proceso en tiempo real
n Puede manejar hasta 64 altavoces