Apuntes MOOC Sonido3D

MOOC
Sonido Espacial y 3D
José Javier López Monfort

Sonido Espacial:
Introducción
TRATAMIENTO DIGITAL DE AUDIO
Introducción
n Oímos en 3 dimensiones porque es necesario

para nuestra supervivencia.
n La combinación de oídos, cuerpo y cerebro
decodifica un conjunto de complejos estímulos
simultáneos y extrapola una posición en el espacio
para las fuentes.
n Además el cerebro lo hace con rapidez y a veces

con increíble precisión.
n La ingeniería de sonido trata de reproducir de forma

artificial estas sensaciones para diversas aplicaciones.
Objetivo de un sistema de
reproducción de sonido espacial
n Trasladar las sensaciones acústicas

que tendríamos en
à un entorno original de escucha a
à un entorno destino o de reproducción
Aplicaciones del sonido espacial

Índice
n Introducción
n Percepción Espacial del Sonido
□  Localización en el plano horizontal
□  Percepción de la elevación
□  Percepción de la distancia
□  HRTF
n Clasificación de los sistemas de sonido espacial
n Estéreo
n Sonido Binaural
n Sistemas de sonido Envolvente: Evolución
n Vector Base Amplitude Panning (VBAP)
n Wave-Field Synthesis (WFS)
n Estándares de Sonido Envolvente
□  Dolby Digital (AC3) SDDS
□  DTS Dolby ATMOS
Percepción Espacial de
Sonido: Mecanismos
¿Qué partes del cuerpo utilizamos para

localizar los sonidos en el espacio?
n Los dos oídos.

n La cabeza (la esfera)
n Las orejas
n Los hombros
n La vista
n El cerebro
¿Cómo localizamos los sonidos en 3D?
n Mecanismos de localización
¨ localización en el plano horizontal
¨ percepción de la elevación
¨ percepción de la distancia
¨ percepción del tamaño de la fuente

Localización en el plano
horizontal
(i)
Localización en el plano horizontal

n Una onda que llega a la onda
plana
cabeza con un ángulo θ,
θ
tarda más en llegar a un
oído que a otro.
n Esta diferencia se
denomina diferencia de
tiempo interaural (ITD)
r = radio de la cabeza
c = velocidad del sonido
Diferencia de tiempos
onda plana
r sen θ
rθ
r θ
Confusión delante-detrás
n Para fuentes simétricas se produce una ITD
igual
Fuente 1
θL θR
θL
θR
Fuente 2
Cono de confusión
n Cualquier punto en el cono tiene una ITD igual
Ambigüedad de fases a altas frec.

n La ITD es interpretada por el sistema auditivo como una
diferencia de fases.
n Para una distancia interaural de 12 cm.
¨ f = c / λ = 344 / 0.12 ≈ 2900 Hz
n A 2900 Hz para una onda que incida en el eje interaural

la fase ha girado 360º.
n Pero para 180º ya empieza a haber ambigüedad, y
eso sucede cerca de 1500 Hz.
n Por encima de 1.5 KHz el mecanismo de ITD no
es operativo.
Localización en el plano
horizontal
(ii)

Diferencia de intensidades
n A la frecuencia que la ITD deja de funcionar aparece
otro efecto.
n Por encima de 1.5 kHz aparece el efecto de sombra

de la cabeza al oído opuesto a la dirección de llegada.
n Es un fenómeno típico de difracción de las ondas en un

obstáculo.
n Da lugar a una diferencia de intensidad interaural (IID)
Efecto de difracción
Mecanismo combinado
n La percepción del azimut es por tanto un
mecanismo combinado.
□  f < 1.5 KHz à ITD
□  f > 1.5 KHz à IID
n La transición entre ambos mecanismos se produce de
manera gradual.
n Es el cerebro el que procesa ambas medidas y
extrapola dirección de llegada.
n A mayor frecuencia mayor atenuación por difracción.
n A 20 kHz es superior a 30 dB para fuentes a 90º.
Percepción de la
elevación

Percepción de la elevación
n Ambos oídos están en el mismo plano
(no existe un tercer receptor con elevación)
n No existe por tanto posibilidad de detectar desfases en

una tercera dimensión
n La oreja produce un efecto de filtrado en altas
frecuencias dependiente de la dirección de llegada.
n La reflexión en el hombro también produce una
alteración a frecuencias más bajas (alrededor de 500 Hz)
desde
arriba
desde
delante
Pliegues de la oreja
Desde arriba Desde delante
15 15
10 10
5 5
0 0
-5 -5
-10 -10
-15 -15
-20 -20
-25 -25
-30 -30
2 3 4 2 3 4
10 10 10 10 10 10
Frecuencia (Hz) Frecuencia (Hz)

Percepción de la distancia

Percepción de la distancia
1.  Intensidad
2.  Atenuación de altas frecuencias
3.  Paralaje por movimiento
4.  Exceso de diferencia de intensidad interaural (IID)
5.  Relación sonido directo a sonido de reverberación
Intensidad
n Los sonidos más lejanos llegan más atenuados, a
más atenuación más distancia
□  At = Pt / Pr
n Percibimos Pr pero, ¿cuál fue la Pt?
n Según el tipo de sonido (voz humana, canto de un

pájaro, ruido de motor, ...) nuestro cerebro estima la Pt
para después calcular la At
n Es una combinación de física y de conocimiento a priori

Atenuación de altas frecuencias
n En la transmisión por el aire, las altas frecuencias
sufren una atenuación superior a las bajas
n A priori, según el tipo de sonido, nosotros

conocemos la composición frecuencial aproximada
del mismo.
n Cuanto más atenuadas percibamos las altas

frecuencias de ese sonido, más lejos estará.
Paralaje por movimiento

n Se realiza un pequeño desplazamiento lateral de la cabeza
n Cuanto más alejado esté el objeto, menor será el ángulo en
el desplazamiento del paralaje
θ
Exceso de diferencia de intensidad
interaural
n Este mecanismo se emplea para objetos que
están muy cerca del oyente.
n Cuanto más cerca esta un objeto de la cabeza del

oyente, mayor es la diferencia de intensidad
interaural.
n Para objetos próximos a los oídos, puede ser muy

elevada, por ejemplo cuando se nos introduce un
insecto en el oído.
Relación sonido directo a sonido

de reverberación
n Este mecanismo se aplica en espacios
interiores, donde existe reverberación
n El campo reverberado de carácter difuso, tiene un

valor similar en todos los puntos de la sala
n Sin embargo la señal directa de la fuente se atenúa

con la distancia
n El cerebro interpreta la relación entre ambas para

estimar la distancia a la fuente
Función de Transferencia
Relacionada con la Cabeza
(HRTF)

¿Es posible modelar los efectos de
localización de sonidos?
Función de transferencia
relacionada con la cabeza (HRTF)
n Engloba todos los aspectos direccionales en

la percepción del sonido
n HRTF(φ,θ,f)
n HRIR(φ,θ,t)
n ¿una para cada oído ? ¿simétricas?
n ¿una para cada persona?
Medida de la HRTF (i)
Medida de la HRTF (ii)

Medidas de HRTF
Plano horizontal Plano medio
Bases de datos de HRTF

n Media Lab - MIT (Maniquí KEMAR)
□  http://sound.media.mit.edu/resources/KEMAR.html
n TH Köln (Maniquí KU100)

□  http://audiogroup.web.th-koeln.de/ku100hrir.html
n CIPIC – U.C. Davis (45 Personas)
□  http://interface.cipic.ucdavis.edu/sound/hrtf.html
n LISTEN – IRCAM (51 personas)
□  http://recherche.ircam.fr/equipes/salles/listen/
Clasificación de los
sistemas de sonido espacial
Clasificación de Sistemas de Sonido Espacial
n Existen diferentes formas de lograr una inmersión acústica.
n A lo largo de los últimos años se han propuesto varios métodos
con infinidad de variantes.
n Existen diferentes condicionantes a la hora de elegir un método:
□  El objetivo o aplicación para el que vayan dirigidos
n Cine
n Música
n Realidad Virtual
□  La complejidad y coste que podamos asumir
n Hardware necesario (computadores, DSP)
n Número de canales digitales de audio independientes
n Número de altavoces
□  El tamaño de la audiencia
n Escucha individual
n Hogar, Cines, Conciertos
□  La precisión deseada
n Sistemas realistas (alta precisión)
n Sistemas de espectáculo (baja precisión pero gran sensación / impresión)
n Sistemas Binaurales
□  Están basados en la HRTF
□  Grabación Binaural ó Síntesis Binaural
n Sistemas basados en Panning

□  Estéreo
□  Sistemas de Sonido Envolvente (Surround)
□  Vector Base Amplitude Panning (VBAP)
n Sistemas de Síntesis del Campo Acústico

□  Ambisonics
□  Wave-Field Synthesis (WFS)
Sistemas Binaurales Sistemas basados en Panning Sistemas de Síntesis

(Sistemas Surround) del Campo Acústico
(Sistemas Multicanal)
El Estéreo
Esquema de altavoces del Estéreo

330° 30°
L R
Listener
Oyente
Funcionamiento
n Es posible emplazar una fuente “fantasma” entre los dos
altavoces variando el el nivel y/o el retardo entre altavoces.
n Dos tipos:
□  X-Y: intensity stereophony (Basado en la IID)
□  A-B: time-of-arrival stereophony (Basado en la ITD)
n La estereofonía de intensidad es la más común.

n También se conoce como Pan-Pot por el nombre del
potenciómetro que ajusta el balance izquierda/derecha.
n Según el balance de volumen izda/derecha se va desplazando
la fuente entre la línea entre los dos altavoces.
Ley de Panning
n Es la ecuación que establece los niveles de señal para los
canales L y R en función del ángulo de la fuente virtual.
□  Lineal
□  No lineal (tangente, seno, perceptuales, …)
1
L R
Ganancia
0
Lineal No Lineal
El Punto Dulce (Sweet Spot)
La técnica del Pan-pot sólo funciona en una zona de escucha
llamada punto dulce.
Fuera de esta área la fuente no se percibe en el lugar correcto
entre los dos altavoces. Fuente Virtual
Al salirse de esta zona la señal del

altavoz más cercano llega antes y
más fuerte de lo previsto.
Entonces, se rompe el balance y el
oyente identifica la posición de los
altavoces en vez de la de la fuente.
Técnicas de grabación estéreo con micrófonos
n Para grabar sonido estéreo en vivo existen 3

disposiciones principales de micrófonos.
A/B X/Y ORTF

Evolución de los
Sistemas de Sonido
Envolvente (i)

Evolución del sonido envolvente (I)
n El primer sistema, ampliamente conocido fue el sistema
estéreo, el cual usa para la recreación sonora dos
canales: derecho (R) e izquierdo (L)
Evolución del sonido envolvente (II)

n Pronto se apreció, que para algunas señales (por ej.
diálogos en películas), la adición de un canal central
mejoraba la localización de las fuentes sonoras
sala
Evolución del sonido envolvente (III)
n Se añadió tambien un cuarto canal de sonido
envolvente, limitado en ancho de banda y rango
dinámico, que se reproducía con dos altavoces
situados detrás del oyente
Disposición de altavoces en las

salas de cine 3/1
Evolución del sonido envolvente (IV)
n Aunque este sistema ya lograba cierta sensación de
sonido envolvente, se conseguían mejores efectos si
se usaban dos canales separados para el surround:
Left surround (Ls) y Right surround (Rs)
Evolución del sonido envolvente (V)

n Además para mejorar el realismo de la señal en bajas
frecuencias se añade un sexto canal dedicado a reforzar
las señales de baja frecuencia ( LFE: Low Frequency
Enhancement).
n Se denomina sistema de 5.1 canales.
El subwoofer usado para

reproducir el canal LFE no
necesita una ubicación
determinada, ya que el oído
humano esta bastante limitado a
la hora de localizar los sonidos
de baja frecuencia (20..120 hz)
Posición ITU para 5.1

salas de cine 3/2
Evolución del sonido envolvente (VI)
n Por otro lado, para películas en gran pantalla o grandes
escenarios, se incluye en ocasiones 2 canales más, para
compensar el gran ángulo de visión que se tiene y acomodar
el sonido a lo que se esta viendo de una manera más fiel.
(7.1 , 5/2)
Evolución del sonido envolvente (VII)

n El DTS admite una configuración con 4 altavoces
frontales. (Sistema 6.1 , 4/2)
Evolución de los
Sistemas de Sonido
Envolvente (ii)

Evolución del sonido envolvente (VIII)
n Una de las últimas tendencias es añadir un tercer canal
de surround entre el Ls y Rs denominado Back surround
(Bs). (Sistema 6.1 , 3/3)

salas de cine 3/3
Evolución del sonido envolvente (IX)
n Como último nivel están los sistemas 7.1 (3/4), donde
se colocan 2 altavoces laterales Ls y Rs y 2 surround
traseros LR y RR .

salas de cine 3/4
Evolución del sonido envolvente (X)
n El último paso en estos sistemas ha sido añadirles
altavoces elevados por encima del plano de escucha:
□  9.1 (5.1 + 4 altavoces elevados sobre L,R,Ls,Rs)
□  10.1 (9.1 + altavoz cenital Ts)
□  11.1 (10.1 + altavoz elevado sobre C)
□  12.1 (11.1 + surround central Bs)
□  13.1 (12.1 + altavoz elevado sobre Bs)
n Támbién hay una propuesta para añadir altavoces

en la parte baja de la pantalla formando en total 3
capas de altavoces.
□  22.2 de la NHK
9.1 en el hogar
11.1 en el sala de cine
10.2 n
n
Left
Center
n
n
Right Surround Direct
Right Surround Diffuse
de n
n
Right
Left Wide
n
n
Left Surround Diffuse
Left Surround Direct
Back Surround
THX Right Wide
n n
n Left Height n LFE Left
n Right Height n LFE Right
22.2 de NHK
n Tres capas de altavoces a diferentes alturas
El 5.1
5.1
n El 5.1 es la distribución de sonido envolvente
multicanal más extendido tanto en cines como
en el hogar.
n Se estrenó en cines en 1992.
n Generalmente se utiliza asociado a vídeo
□  Cine
□  Series TV, documentales
□  Conciertos
□  Juegos
Disposición estándar del 5.1
C[n]
L[n] R[n]
Norma:
ITU-R BS 775 0º
-30º +30º
-110º +110º
LS[n]
RS[n]
Datos técnicos
n Disposición y orden en ficheros
¨ WAV: L – R – C – LFE – Ls – Rs
n Ancho de banda del canal LFE:

¨ Típico: 120 Hz
n Logo identificativo en DVD, BR, etc

Tamaños de altavoces en el hogar
n Ideal: los 5 iguales.
n Bueno: L y R grandes, Ls y Rs más pequeños, C
con configuración Horizontal
n Peor: los 5 pequeños y enviar al woofer las frec. más bajas
Altavoces 5.1 en salas de cine

n Frontales: grandes altavoces situados detrás de la pantalla.
Tela perforada para dejar pasar el sonido.
Altavoces 5.1 en salas de cine
n Surround:
□  Pequeños altavoces alrededor de la la sala con cierta inclinación
del altavoz hacia la audiencia.
□  Se crea un campo de sonido no direccional (salvo Ls, Rs)
□  Se crea una zona de escucha amplia
□  Resultado perceptual diferente a home cinema
Ls Rs
Producción de material 5.1

n Grabación en directo con distribuciones
de micrófonos 5.1
□  Los cinco micrófonos proporcional la señal para los
5 altavoces uno a uno
n Síntesis en estudio por panning.
□  Se generan los 5 canales asignando las pistas de
cada instrumento a los altavoces con algoritmo de
panning
n Mixto
□  Combinando señales de ambos tipos
Micrófonos 5.1
Emplazamiento de fuentes en 5.1 por panning

n En la producción se tienen las pistas
de cada instrumento independientes.
n Cada pista mono se sitúa en C[n]

L[n] R[n]
una posición en los 360º con
una interfaz o joystick.
+20º
n Se buscan los dos altavoces 0º
más próximos y se hace un
-30º +30º
panning entre ellos
-110º +110º
LS[n]
RS[n]
El 5.1:
Ejemplo de cálculo
Ejemplo
x2[n]
x1[n]
C[n]
n Calcula la señal de cada L[n] R[n]
altavoz en función de las
fuentes de sonido. -15º
+10º
(con ley de panning lineal) 0º
-30º +30º
1
L R
+90º
Ganancia
-110º +110º x3[n]

0
-160º
LS[n]
RS[n]
x4[n]
Señal x1
x1[n]
C[n]
L[n] R[n]
n x1 afecta a C y R
n C-R separados 30º +10º
0º
n x1-C separados 10º
n x1-R separados 20º -30º +30º
n C[n]=20/30·x1[n]
n R[n]=10/30·x1[n]
-110º +110º
n C[n]=0,667·x1[n]
n R[n]=0,333·x1[n] LS[n]
RS[n]
Señal x2 x2[n]
C[n]
L[n] R[n]
n x2 afecta a C y L
-15º
n C-L separados 30º
0º
n x2-C separados 15º
n x2-L separados 15º -30º +30º
n C[n]=15/30·x2[n]
n L[n]=15/30·x2[n]
-110º +110º
n C[n]=0,5·x2[n]
n L[n]=0,5·x2[n] LS[n]
RS[n]
Señal x3
C[n]
L[n] R[n]
n x3 afecta a R y Rs
n R-Rs separados 80º
0º
n x3-R separados 60º
n x3-Rs separados 20º -30º +30º
n R[n]=20/80·x3[n]
+90º
n Rs[n]=60/80·x3[n]
-110º x3[n]
+110º
n R[n]=0,25·x3[n]
n Rs[n]=0,75·x3[n] LS[n]
RS[n]
Señal x4
C[n]
L[n] R[n]
n x4 afecta a Ls y Rs
n Ls-Rs separados 140º
0º
n x4-Ls separados 50º
n x4-Rs separados 90º -30º +30º
n Ls[n]=90/140·x4[n]
n Rs[n]=50/140·x4[n]
-110º +110º
n Ls[n]=0,643·x4[n]
n Rs[n]=0,357·x4[n] LS[n] -160º
RS[n]
x4[n]
Mezcla total
x2[n]
x1[n]
C[n]
L[n] R[n]
n L[n]=0.5·x2[n]
-15º
n R[n]=0.333·x1[n] +0.25·x3[n] +10º
0º
n C[n]=0.667·x1[n] +0.5·x2[n]
-30º +30º
n Ls[n]=0,643·x4[n]
+90º
n Rs[n]=0.75·x3[n] +0,357·x4[n]
-110º x3[n]
+110º
-160º
LS[n]
RS[n]
x4[n]
Mezcla en forma matricial
L 0 0.5 0 0 x1
R 0.333 0 0.25 0 x2
C = 0.667 0.5 0 0 x3
Ls 0 0 0 0.643 x4
Rs 0 0 0.75 0.357
Sistemas Binaurales
(i)
Grabación/Reproducción Binaural
micrófonos auriculares
fuente de
sonido
Oyente
Maniquí
acústico
Maniquís acústicos
Brüel & Kjaer Head Acoustics G.R.A.S. Neumann

4100 HMS II KEMAR KU100
Micrófonos binaurales
n Se introducen a la entrada del canal

auditivo o al final del mismo
Métodos de generación de
señales binaurales
n Grabación binaural
□  Se utiliza un maniquí acústico
□  Método estático (no admite movimiento)
□  No admite producción
n Síntesis binaural
□  Se utilida una base de datos de HRTF
□  Dinámico (admite movimiento)
□  Admite producción
□  Se puede usar en tiempo real
□  Admite tracking de la cabeza del sujeto
Síntesis Binaural
fuente de
sonido
HRTF
base de
datos
HRIRL(θ)
x(n)
sonido fuente
HRIRR(θ)
Síntesis para N fuentes
x2 x1
x3
Ventajas y desventajas S. Binaurales
n Ventajas
¨ Gran realismo
¨ Concepto sencillo
¨ Admiten tracking
n Desventajas
¨ Particularidad de la forma de la oreja
¨ Auriculares generan efecto-dentro-cabeza
Sistemas Binaurales
(ii)
Sistemas Binaurales (ii)
n Personalización de la HRTF
n Virtual Surround
n Transaural (Binaural con altavoces)
Variaciones
en la oreja
humana
Variaciones en la HRTF
n La HRTF depende de cada individuo:
□  De la forma de la oreja
□  De la forma de la cabeza
□  De la distancia entre oidos
□  De los hombros (torso)
n Si se usa una grabación binaural o una HRTF diferente

a la de una persona:
□  Empeora la precisión en la localización de sonidos
□  Los efectos de elevación se ven muy afectados
□  Se produce internalización de los sonidos
n Una personalización de la HRTF es deseable.
Métodos de personalización de la HRTF
n Medir de forma exacta la HRTF de la persona

□  Requiere cámara anecoica, equipamiento y tiempo
n Hacer un modelo acústico computacional de la cabeza
□  Requiere un escaner 3D de la oreja/cabeza
□  Computadores potentes para solucionar por métodos numéricos
n Vecino más cercano
□  Selección por prueba y error de una base de datos de HRTF
□  Puede estar apoyado por antropometría de la oreja/cabeza/torno
n Escalar una HRTF estándar
□  Se parte de una HRTF separa en componentes (oreja/cabeza/torso)
□  Se escala cada parte acorde a las medidas del individuo
Modelos numéricos
n Se utilizan elementos finitos
□  FEM (válido a una frecuencia)
□  FDTD (modelado en el tiempo)
Fuente: ISVR – Univ. Southampton
Antropometría
de la cabeza
n A partir de unas medidas
básicas de la oreja, cabeza y
torso en posible ajustar o
escalar una HRTF genérica.
Sistemas Binaurales
(iii)
Virtual Surround
n El sonido de la mayor parte de películas está producido
en sistemas envolventes 5.1, 6.1, 7.1, etc.
n El Virtual Surround es un método para reproducir estas
grabaciones surround mediante auriculares.
n Es útil para:
□  Escuchar películas en casa sin molestar
□  Utilizar dispositivos móviles para ver películas
n Para ello se procesan los canales surround a través

de una HRTF genérica como si los 5 altavoces fueran
5 fuentes situadas en las direcciones estándar.
Virtual Surround
n Cálculo de la señal yL[n] yR[n] C[n]
para los auriculares L[n] R[n]
𝑦" 𝑛 = 𝑅 𝑛 ∗ 𝐻𝑅𝐼𝑅𝐿(+30º, 0º, 𝑛)+ 0º

𝐶 𝑛 ∗ 𝐻𝑅𝐼𝑅𝐿(0º, 0º, 𝑛)+
𝐿 𝑛 ∗ 𝐻𝑅𝐼𝑅𝐿(−30º, 0º, 𝑛)+
-30º +30º
𝑅𝑠 𝑛 ∗ 𝐻𝑅𝐼𝑅𝐿(+110º,
0º, 𝑛)+
𝐿𝑠 𝑛 ∗ 𝐻𝑅𝐼𝑅𝐿(−110º, 0º, 𝑛)
-110º +110º
𝑦6 𝑛 = 𝑅 𝑛 ∗ 𝐻𝑅𝐼𝑅𝑅(+30º, 0º, 𝑛)+
𝐶 𝑛 ∗ 𝐻𝑅𝐼𝑅𝑅(0º, 0º, 𝑛)+
𝐿 𝑛 ∗ 𝐻𝑅𝐼𝑅𝑅(−30º, 0º, 𝑛)+ LS[n]
𝑅𝑠 𝑛 ∗ 𝐻𝑅𝐼𝑅𝑅(+110º, 0º, 𝑛) RS[n]
+
𝐿𝑠 𝑛 ∗ 𝐻𝑅𝐼𝑅𝑅(−110º, 0º, 𝑛)
¿Qué ocurre si reproducimos una señal
binaural con altavoces ?
xR
yR
yL
xL
Problemas ⇒ Cross-talk + reflexiones
Cancelador de cross-talk
n Si medimos las 4 respuestas al impulso de los canales acústicos
entre altavoces y oidos del oyente Cij(z) es posible encontrar un
grupo de 4 filtros inversos Hij(z) que compensen el cross-talk.
H11( z ) C11( z )
+
u1 (t) v1 (t) w1 (t)
H21( z ) C12( z )
H12( z ) C21( z )
u2 (t) v 2(t) w2 (t)
H22( z ) +
C22( z )
H = (CTC)-1CTA
Reproducción transaural
n Mediante los filtros inversos es posible reproducir sonido
binaural en 3D con un par de altavoces.
n La zona de escucha es muy reducida, ya que si nos movemos
del punto donde se calcularon los Cij(z), éstos cambian y los
filtros inversos se vuelven inútiles.
n Sólo sirve para corregir el cross-talk, anular las reflexiones es
más complicado y reduce todavía más la zona de escucha.
n Sólo es apto para entornos muy específicos donde el oyente
está centrado y quieto:
□  delante de pantallas de ordenador
□  sistema de sonido HiFi muy centrado
Combinar Virtual Surround y

Reproducción Transaural
n Se utilizaría para reproducir sonido envolvente 5.1, 6.1,
7.1, mediante sólo 2 altavoces.
n Primero se convertiría el 5.1 a binaural usando la HRTF
n Segundo se pasaría esta señal binaural resultante, por los
filtros inversos para reproducirla por 2 altavoces.
n Lo ofrecen algunos sistemas de barras de sonido para TV.
n Su eficacia es muy limitada porque se combinan los
problemas asociados a cada una de las dos
aproximaciones.
Edición de sonido espacial
orientada a objetos
La edición actual (i)
n Producto final à Master
n Master orientado a un soporte/formato
concreto (estéreo, 5.1, 6.1, 7.1, 10.2,…)
n En la actualidad el proceso de realiza en
una DAW, por medio de un software de
edición
n Un producción (tema musical, spot, película)
se comienza creando un proyecto en la DAW
La edición actual (ii)

n En el proyecto cada instrumento o cada toma
microfónica se tiene almacenada en una pista.
n Según el formato final, se crea un
proyecto específico con un número de
canales.
n La producción consiste en asignar cada pista
a uno o varios canales usando panning.
n Básicamente hacemos un downmix.
□  De N instrumentos a M altavoces.
La edición actual (iii)
Mezcla
M = 2 altavoces
N = 3 instrumentos
La edición actual (iv)

n Dificultades / Problemas:
□  Si queremos hacer una producción en
varios formatos (St, 5.1), tenemos que crear
varios proyectos y hacer diferentes mezclas.
□  Los downmix automáticos 5.1 à estéreo, no

son siempre aceptables.
□  Otros downmix/upmix entre sistemas de

sonido envolvente tampoco son perfectos.
Mezcla estéreo y 5.1
Se calculan: 2 canales Se calculan: 5 canales
Complejidad de Formatos Surround

Concepto de edición de sonido espacial
orientada a objetos
n ¿Por qué hacer la mezcla final de canales en

la producción?
n ¿Por qué no hacerla en el momento de la reproducción?
n De esta forma se adaptaría al sistema ó formato de
altavoces instalado.
n ¿Qué se necesitaría en el reproductor?

▪  Las pistas de cada fuente de sonido
▪  Datos sobre su posición espacial
▪  Otros detalles
En el reproductor
n El reproductor recibe la señal de cada fuente y
sintetiza la señal para cada uno de los altavoces.
n La señal se adapta perfectamente a cualquier sistema
y es válida para todos.
n Se pueden variar el número y posición de los

altavoces a la sala
n Además se abre la posibilidad de utilizar el material
sonoro en el futuro con nuevos sistemas de sonido
envolvente sin problemas de compatibilidad.
Síntesis en el receptor
Síntesis
¿Cómo adaptar la edición?

n En el software de edición se tienen las diferentes
pistas asociadas a fuentes reales de sonido.
n Se disponen las fuentes alrededor del oyente
mediante una interfaz añadida al programa de
edición.
n Junto a la señal de sonido de cada fuente se
añade metainformación con su posición en el
espacio.
n El fichero de Master final incluye estos metadatos de
posición que se envían junto con el audio.
Mezcla 5.1 vs Edición orient. objetos
Se envían: 3 fuentes y 3 ángulos Se envían: 5 canales (altavoces)
Interface de posicionamiento
VBAP
Concepto de VBAP
n La técnica de panning se emplea tanto en el estéreo
como en los sistemas surround.
n La ecuación de panning no está normalizada,
existen variaciones sobre la misma.
n La ecuaciones de panning clásicas son
únicamente entre 2 altavoces.
n El VBAP (Vector Base Amplitude Panning)
□  Normaliza la ecuación de panning al dominio vectorial
□  Extiende el panning a 3D haciéndolo entre 3 altavoces
□  Práctico para edición orientada a objetos.
VBAP
Panning por tríos de altavoces en 3D
V. Pulkki "Spatial Sound Generation and Perception by Amplitude Panning Techniques"

VBAP formulación
Señal combinación de los 3 altavoces
canal 3
triangulo
activo
fuente
virtual
Obtención de las ganancias de cada uno
canal 2
canal 1
(0,0,0)
V. Pulkki "Spatial Sound Generation and Perception by Amplitude Panning Techniques"
Problemas del VBAP

n Al igual que el panning las señales de baja frecuencia y
alta frecuencia no se suman de igual forma en la cabeza.
n Existen versiones de VBAP corregidos en frecuencia.
n El panning en elevación funciona muy deficientemente ya
que la percepción de elevación no se basa en la IID ó ITD
n Es dificil situar una fuente fantasma entre dos altavoces
separados una cierta distancia en vertical.
n En vertical VBAP es poco útil para VR, sólo a nivel de
efectos en el cine o añadir efecto de sala en elevación.
Wave-Field Synthesis
Limitaciones de los sistemas de
sonido envolvente
0°
Area de escucha
330° 30°
limitada
C
L R
Sub
Listener
LS RS
250° 110°
Principio de Huygens
Principio de la WFS
El frente de ondas de la
fuente de sonido se reconstruye
fielmente al otro lado del array de
altavoces.
Las contribuciones de cada

altavoz sintetizan el frente de
onda de formas precisa, como si
el instrumento estuviese al otro
lado del array.
Amplia área de escucha

Amplia área de escucha
Wave-Field Synthesis
n Técnica de síntesis y reconstrucción del campo acústico basada
en una simplificación 2D del principio de Huygens.
n El campo se puede sintetizar por una distribución de fuentes que

están en el frente de onda llamadas fuentes secundarias.
n La principal ventaja de estos sistemas es la gran extensión del
área útil de escucha.
n A diferencia de los sistemas de sonido estéreo o surround 5.1, en

la WFS todos los oyentes de la sala perciben con realismo y
fidelidad la posición de las fuentes.
n La síntesis del campo acústico se realiza con arrays de altavoces.

Teoría de la WFS
Rayleigh Integral equation
La superficie se reemplaza por un plano

infinito que separa la zona de síntesis de
la de escucha.
Versión discreta
Simplificación a 2D
Ecuación de síntesis para N fuentes
Ecuación de excitación para N fuentes

Ejemplo de reconstrucción
El punto dulce no existe

Toda el área es útil para la escucha
Fuente virtual
Configuraciones abiertas
4.92 m
5.76 m
Configuraciones cerradas
Prototipo UPV
Aplicaciones de la WFS
n Indicado para edición orientada a objetos
n Telepresencia
n Realidad virtual
n Reproducción de música de alto realismo
□  Sintetizando el espacio acústico ó
□  Captada en un auditorio y reproducida en otro
n Planetarios, cines IMAX
n Salas de cine convencional (largo plazo)
n Cine en casa (muy largo plazo)
Estándares de Sonido
Envolvente
Logotipos de los sistemas de

sonido envolvente
Clasificación de los sistemas
de sonido envolvente
n Analógicos
q Dolby Stéreo
q Dolby Surround
q Dolby Surround Pro-Logic / II / IIz
n Digitales
q Dolby Digital
q DTS
q SDDS
q Auro 11.1
q Dolby ATMOS
Cronología de los sistemas de los

laboratorios Dolby
q Dolby A (‘60) (reduc. ruido)
q Dolby B (‘60) (reduc. ruido)
q Dolby Stereo (‘70) (salas de cine)
q Dolby Surround (‘80) (doméstico)
q Dolby Pro-Logic (‘80) (doméstico)
q Dolby Digital (‘90) (cine + domest.)
Características comunes de los
sistemas analógicos
n 4 canales:
¨ izquierdo – derecho
¨ central – surround
n matrización de los 4 canales en 2
n se codifica para ser usado en sistemas de
grabación estéreo
n creados con el objetivo de realzar la
reproducción del sonido en el cine
Matrización
n Los canales L y R van directos
n El canal central se multiplica por 0.707 y se suma a Lt y Rt
n El canal surround se filtra paso banda desde 100 Hz
hasta 7 KHz, se le aplica una reducción de ruido y se
suma desfasado +90º y -90º a los canales Lt y Rt
respectivamente
Matriz pasiva de decodificación
n La resta L-R elimina el canal central y todos los
términos iguales entre L y R, dejando intacta la
información de surround, que va desfasa 180º entre los
dos canales
C CENTER
L+R
Matriz activa de decodificación

n Unos amplificadores controlados por tensión,
amplifican o disminuyen la ganancia de cada canal,
según las condiciones de la señal, logrando mejorar la
separación entre canales
Dolby Digital
Características principales
n Sistema de hasta 5.1 canales
n Utiliza compresión con pérdidas basada en el codificador

AC3.
n Velocidad de transmisión variable.
n Rango dinámico variable.
n Normalización de diálogos.
Características del algoritmo de

codificación AC3 (I)
n Codificación sub-banda.
n Codificación de las componentes frecuenciales de la

señal teniendo en cuenta el enmascaramiento
frecuencial y temporal.
n Distribución de los bits entre las diferentes bandas.
n Variación de la resolución temporal y frecuencial del

codificador. (3 anchos de ventana)
Características del algoritmo de
codificación AC3 (II)
n Los seis canales se tratan como una entidad
única.
n Diferentes tasas de bits:
□  32 Kbps ( monocanal )
□  192 Kbps ( estéreo )
□  384 Kbps ( 5.1 canales ) à tipic. cine en DVD
□  448 Kbps ( 5.1 canales ) à tipic. música en DVD
□  640 Kbps ( máxima ) à tipic. cine en 35 mm
Medios de TX que usan Dolby Digital
n HDTV-USA. Estándar Grand Alliance (USA)

n Televisión Digital por Cable (USA)
n DVB-S-T-C (optativo)
n DVB-HD (obligatorio)
n DVD. (obligatorio)
n CINE. Es el sistema surround más usado.
Empleo en el Cine
n La banda sonora Dolby Digital se graba entre los
agujeros de arrastre de la película
Lectura
en el
fotograma
Cabezal y procesador en cine
Equipo descodificador doméstico

n La mayor parte de compañías de electrónica de
consumo ofrecen amplificadores multicanal capaces de
decodificar Dolby Digital.
n Incluyen opciones de multiplexado de Video y Audio,
denominándose equipos receptores A/V.
Dolby Digital Surround EX
n Introducido en el 2000
n Añade un tercer canal trasero Bs, 6.1
n Mejor emplazamiento de los sonidos por detrás
n Compatible hacia atrás con Dolby Digital
n Este tercer canal surround (Bs) se matriza
entre los canales Ls y Rs
Dolby Digital en el coche

Conclusión
n Sistema de codificación multicanal, que consigue altas
tasas de compresión con una calidad aceptable.
n Equipos domésticos de bajo coste para home-cinema.
n Más utilizado en salas de cine
n El estándar de sonido envolvente más popular.
n Es obligatorio en el DVD
n Se puede usar en TV digital
Digital Theater
System (DTS)
Características Principales
n Configuraciones de canales de audio:
•  5.1 canales: L, R, C, Ls, Rs, LFE
•  6.1 canales: dividiendo el canal C en dos: CR y CL
n Rango dinámico de 145 dB

n Utiliza compresión CAC (Coherent Acoustics Coding)
n Es competencia del Dolby Digital y proporciona un
sonido ligeramente mejor.
Características del codificador CAC
n Codificador subbanda seguido de un ADPCM.
n Basados en principios psicoacústicos.
n fs desde 8 KHz a 192 KHz.
n Resoluciones de muestreo entre 16 y 24 bits (138 dB)
n Diferentes tasas de bits:
□  1,4 Mbps (cine 35mm 6.1 canales) (comp 3 a 1)
□  768 Kbps (DVD 5.1 canales) (comp 5 a 1)
Posición del sincronismo DTS

en el celuloide
n En el cine el sonido va grabado en un CD que se sincroniza con el
film a través de un código de tiempos (SMPTE) grabado en una
pista junto a las de audio.
n SMPTE: "HH:MM:SS;FF"
Procesdores DTS para salas de cine
Se pueden apreciar las 3 bandejas para CD’s, que proporcionan el sonido

para películas de hasta 3 x 80 = 240 minutos (4 horas).
DTS-ES
n Añade un tercer canal trasero Bs, 6.1

n Primera película en utilizarlo: Star Wars:Episode I
n Dos modalidades
□  DTS-ES 6.1-Matrix (similar al Dolby EX)
□  DTS-ES 6.1-Discrete (se añade un tercer canal trasero no matrizado)
n Ambos sistemas son retrocompatibles con reproductores anteriores

a la versión ES.
Sony Dynamic
Digital Sound
(SDDS)
Caraterísticas Generales
n Creado por Sony a partir de la codificación ATRAC
del MiniDisc de la que era propietaria.
n Tiene una resolución equivalente de 20 bits
n Intentó competir con el Dolby Digital ofreciendo 7.1
canales con 5 frontales.
n La introducción de Sony en la producción de cine le
permitió entrar en competencia con el resto de
sistemas para salas de cine.
n Al contrario que el Dolby Digital y el DTS, no ofrece
una versión doméstica.
n Hoy en día está ya en desuso.
Características Técnicas
n Gama dinámica de 105 dB
n Respuesta en frecuencia de 5 Hz a 20 KHz
n Nivel de compresión de 5 a 1
n Configuraciones de canales de audio:
•  5.1 canales: L, R, C, Ls, Rs, LFE
•  7.1 canales: L, Lc, R, Rc, C, Ls, Rs, LFE
•  Posibilidad de empleo: 4, 4.1, 5, 5.1, 6, 7.1 canales
de audio por medio de interpolaciones de la posición
sonora
•  Tipo de codificación: ATRAC (la misma del MiniDisc)
•  Resolución de la señal digital: 20 bit
Posición del sonido SDDS en el
celuloide
n En el cine el sonido va grabado en una pista situada en los
extremos del celuloide, al otro lado de los agujeros de arrastre
Cabezal y procesador en cine

Posición del sonido en el celuloide en
los 4 sistemas
Dolby ATMOS
Características del Dolby ATMOS
n Sistema orientado a objetos

□  Se codifican objetos sonoros en vez de canales
□  Cada objeto sonoro tiene una pista y
metainformación sobre su posición
□  Permite hasta 128 objetos simultáneos
□  El número de altavoces se adapta al tamaño de la sala
□  Utiliza altavoces elevados.
n Permite además añadir los 7.1

canales tradicionales del surround
(sist. mixto)
Disposición
de altavoces
en la sala
Sala de cine
Rendering
n En reproducción se sintetiza el sonido de cada altavoz en función
de las posiciones de los objetos sonoros
n Para ello se utilizan un panning 3D
n De esta forma cambios en el tamaño o relación de aspecto de la
sala no afectan al resultado
n Hay un ordenador que realiza el proceso en tiempo real
n Puede manejar hasta 64 altavoces

Apuntes MOOC Sonido3D

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Apuntes MOOC Sonido3D

Transféré par

Droits d'auteur :

Formats disponibles

MOOC

José Javier López Monfort

TRATAMIENTO DIGITAL DE AUDIO

n Oímos en 3 dimensiones porque es necesario

n Además el cerebro lo hace con rapidez y a veces

n La ingeniería de sonido trata de reproducir de forma

n Trasladar las sensaciones acústicas

à un entorno original de escucha a

à un entorno destino o de reproducción

Aplicaciones del sonido espacial

TRATAMIENTO DIGITAL DE AUDIO

¿Qué partes del cuerpo utilizamos para

n Los dos oídos.

¨ percepción del tamaño de la fuente

TRATAMIENTO DIGITAL DE AUDIO

Localización en el plano horizontal

Ambigüedad de fases a altas frec.

n A 2900 Hz para una onda que incida en el eje interaural

TRATAMIENTO DIGITAL DE AUDIO

n Por encima de 1.5 kHz aparece el efecto de sombra

n Es un fenómeno típico de difracción de las ondas en un

n Da lugar a una diferencia de intensidad interaural (IID)

TRATAMIENTO DIGITAL DE AUDIO

n No existe por tanto posibilidad de detectar desfases en

Frecuencia (Hz) Frecuencia (Hz)

TRATAMIENTO DIGITAL DE AUDIO

2. Atenuación de altas frecuencias

3. Paralaje por movimiento

4. Exceso de diferencia de intensidad interaural (IID)

5. Relación sonido directo a sonido de reverberación

n Percibimos Pr pero, ¿cuál fue la Pt?

n Según el tipo de sonido (voz humana, canto de un

n Es una combinación de física y de conocimiento a priori

n A priori, según el tipo de sonido, nosotros

n Cuanto más atenuadas percibamos las altas

Paralaje por movimiento

n Cuanto más cerca esta un objeto de la cabeza del

n Para objetos próximos a los oídos, puede ser muy

Relación sonido directo a sonido

n El campo reverberado de carácter difuso, tiene un

n Sin embargo la señal directa de la fuente se atenúa

n El cerebro interpreta la relación entre ambas para

TRATAMIENTO DIGITAL DE AUDIO

n Engloba todos los aspectos direccionales en

Medida de la HRTF (ii)

Plano horizontal Plano medio

Bases de datos de HRTF

n TH Köln (Maniquí KU100)

Clasificación de Sistemas de Sonido Espacial

n Sistemas basados en Panning

n Sistemas de Síntesis del Campo Acústico

Sistemas Binaurales Sistemas basados en Panning Sistemas de Síntesis

Esquema de altavoces del Estéreo

n La estereofonía de intensidad es la más común.

Al salirse de esta zona la señal del

Técnicas de grabación estéreo con micrófonos

n Para grabar sonido estéreo en vivo existen 3

A/B X/Y ORTF

TRATAMIENTO DIGITAL DE AUDIO

Evolución del sonido envolvente (II)

Disposición de altavoces en las

Evolución del sonido envolvente (V)

El subwoofer usado para

2.  Atenuación de altas frecuencias

3.  Paralaje por movimiento

4.  Exceso de diferencia de intensidad interaural (IID)

5.  Relación sonido directo a sonido de reverberación

□  Los downmix automáticos 5.1 à estéreo, no

□  Otros downmix/upmix entre sistemas de