Vous êtes sur la page 1sur 52

Análisis y Procesado

de Audio
Índice
1. Introducción
2. Generación del sonido
3. Características del sonido
4. Hardware básico para sonido
5. Digitalización del sonido
6. Formatos archivos de audio
7. Comparativa Sistemas de Audio
8. Procesado de la voz mediante DSP’s
9. LTP
10.Streaming
11.Agradecimientos
12.Bibliografía
1. Introducción (I)
• ¿Qué es una señal de audio?
- Es una onda acústica, es decir, variaciones de presión del
aire
- La señal de audio es unidimensional (tiempo)
- Fenómeno físico -->señal eléctrica--> señal digital
El micrófono transforma las ondas acústicas que lo

golpean, en señales electricas -->niveles de voltaje


• El oído es muy sensible a las variaciones de sonido de corta
duración (ms) al contrarío que el ojo humano.
• Forma de capturarlo:
Grabación y conversión
1. Introducción (II)
• El sonido se produce por la interacción de un objeto que
vibra, un medio de transmisión y un receptor.
• Atenuación con la distancia y obstáculos
• Una onda de presión se transmite a través de un medio,
como el aire, y produce una sensación llamada auditiva, al
perturbar el estado de reposo de las estructuras del oído.
• Vibraciones --> impulsos eléctricos
1. Introducción (III)
• La velocidad del sonido varía con el medio
transmisor. El aire es el principal medio
transmisor del sonido, y la velocidad en él
es de 340 m/s
• En el agua, la velocidad del sonido es de
1450 m/s ya que las partículas están más
juntas y propagan antes sus vibraciones
1. Introducción (IV)

La relación de dos sonidos A y B se mide en decibelios:

dB=20 log10 (A/B)


La intensidad de un sonido A se mide en decibelios tomando
como referencia el menor sonido audible.

- 0 dB: Menor sonido audible

- La señal de referencia (B) es una onda senoidal a 1kHz que


provoca una presión de 0.0003 dinas/cm2
- A y B son amplitudes (si fueran potencias sería 10 log10 (A/B))

- 50 dB: Conversación normal.


- 120dB: Umbral del dolor.
1. Introducción (V)

El rango de frecuencias audibles por los humanos está
entre 20Hz y 20KHz.
2. Generación del sonido

• El tímpano vibra las partículas de aire que la rodean y


provocará la vibración de los huesos del oído interno.

• Vibraciones -> señales neuronales (acción de la


membrana basilar)

• Grado de intensidad dependiente de la frecuencia


– frecuencia -> profundidad de penetración (cada parte del caracol
está especializada en cada una de las frecuencias)
3. Características del
sonido (I)
• INTENSIDAD: AMPLITUD DE LA ONDA
SONORA. Muchos sonidos presentan un patrón
claro de intensidad que varía con el tiempo. A
este patrón se le llama ENVOLVENTE.

– Ejemplo1: Un piano presenta un fuerte golpe de gran


intensidad inicial, que decae más o menos rápidamente
hasta desaparecer.

– Medida de la intensidad: decibelios (referencia umbral)


3. Características del
sonido (II)
• LA FRECUENCIA de una onda sonora es el número de
pulsaciones (ciclos) que tiene por unidad de tiempo

Frecuencia Sonido Vibración


Baja Grave Lenta
Alta Agudo Rápida

• EL TONO o ALTURA de un sonido depende de su


frecuencia, es decir, del número de oscilaciones por
segundo
3. Características del
sonido (III)

TIMBRE: Conjunto de frecuencias que


se pueden encontrar en un sonido en
mayor o menor proporción.
3. Características del
sonido (IV)
• En la siguiente tabla podemos ver la
intensidad en dB de algunos sonidos
representativos:
3. Características del
sonido (V)
• En acústica el decibelio se utiliza para comparar
la presión sonora, en el aire, con una de
referencia (nivel de presión mínimo que percibe
oído)

• El nivel de referencia varía según el tipo de


medida que estemos realizando:
– presión acústica
– intensidad acústica
– potencia acústica
3. Características del
sonido (VI)
¿Cómo se mide el nivel sonoro?
• Sonómetros
– permiten conocer
• el Nivel de Presión sonora o SPL
• valor rms de la presión
• los picos máximos
• niveles mínimos
– No dan la medida en dB lineales si no que
dan la ponderación
– Mide las diferentes presiones que se
generan durante un intervalo de tiempo
(habitualmente 1 minuto)
3. Características del
sonido (VII)
• Oído humano
– no tiene igual comportamiento para todas las
frecuencias
– Lo que mas oímos son las frecuencias medias, y
las que menos las graves, seguidas de las mas
agudas.

• dBA → dB lineal ponderado mediante una tabla


– Ejemplo: un nivel de 80 dB a 100 Hz es oído por
nuestro oído como si tuviese 60’9 dBA
3.1 Intensidad Acústica
• Se define como la cantidad de energía sonora
transmitida en una dirección determinada por unidad de
área.

• El nivel de intensidad sonora se mide en w/m2.

• Rango de audición entre:


0.000000000001 w/m2 , hasta 1 w/m2

• La medida de intensidades no es posible realizarla con


un sonómetro. Se utilizan analizadores de doble canal
con posibilidad de espectro cruzado y una sonda que
consiste en dos micrófonos separados a corta distancia.
3.2 Potencia Acústica
• La potencia acústica es la
cantidad de energía radiada por
una fuente determinada.

• El nivel de Potencia Acústica es


la cantidad de energía total
radiada en un segundo y se
mide en watios.

• La potencia acústica es un valor


intrínseco de la fuente y no
depende del local donde se
halle.
3.3 Velocidad de
Propagación
• La velocidad de propagación
es proporcional a la
temperatura absoluta
• La velocidad es siempre
independiente de la presión
atmosférica.
• La velocidad de propagación
del sonido en el aire es de
unos 334 m/s. A 0º es de
331,6 m/s. A 20º es de 344,2
m/s.
• En el agua, la velocidad de
propagación es de 1500 m/s.
• Es posible obtener medidas
de temperatura de los
océanos midiendo la
diferencia de velocidad sobre
grandes distancias.
3.4 Tiempo de
Reverberación
• El Tiempo de Reverberación (RT), es el tiempo que tarda una señal, desde
que ésta deja de sonar hasta que se atenúa a un nivel de 60 dB.
• El Tiempo de Reverberación se mide de forma frecuencial. (un local no
tiene el mismo RT en 200 Hz que en 4 kHz.)
• Dicho tiempo viene determinado por el Volumen de la sala y por los
coeficientes de absorción de sus superficies.
• Las reflexiones generadas en el interior del local serán diferentes para cada
frecuencia.
• Fórmula de Sabine: RT = 0,163 * (V/A)
V = Volumen de la sala en m3
A = Superficie de Absorción de Sabine (m2)
• Cuanto mayor es el local mayor es el RT. Si los materiales que
lo componen internamente son poco absorbentes el RT también
aumentará.
• Existen elementos como el Acoustilyzer AL1 para medir el RT.
Actúa según ISO3382 en bandas de octava.
• El valor de RT es muy importante si se quiere conseguir
buenos niveles de inteligibilidad dentro de los locales.
3.5 Coeficiente de
absorción de un Material
• El coeficiente de absorción de un material es la
relación entre la energía absorbida por el material y la
energía reflejada por el mismo.
• Su valor siempre está comprendido entre 0 y 1.
• El máximo coeficiente de absorción está determinado
por un valor de 1 donde toda la energía que incide en el
material es absorbida por el mismo.
• El mínimo es 0 donde toda la energía es reflejada.
• El coeficiente de absorción varía con la frecuencia y por
tanto los fabricantes de materiales acústicos dan los
coeficientes de absorción por lo menos en resolución de
una octava.
3.6 Eco, Reverberación y
Resonancia (I)
• Eco, reverberación y resonancia:

– Al generarse un sonido  en las superficies colindantes se


ocasionan una serie de efectos
– Las ondas sonoras inciden en las diferentes superficies y éstas las
reflejan de diferente forma según su coeficiente de reflexión
acústica.
1) En primer lugar, percibimos el sonido directo

2) Después llegará a nuestros oídos, con un retraso de tiempo


con respecto al sonido directo, el sonido reflejado por las superficies
del local.

3) Si el retraso entre el sonido directo y el reflejado es mayor de


1/10 de segundo, nuestro sistema de audición será capaz de separar
las dos señales y percibirlas como tales, primero una y después la
otra, esto es lo que se entiende por eco.
3.6 Eco, Reverberación y
Resonancia (II)
– Si el sonido reflejado llega con un tiempo inferior a 1/10 de seg,
nuestro sistema de audición no es capaz de separar ambas
señales  las toma como una misma pero con una duración
superior de ésta. Esto se entiende como reverberación.

– Conociendo el tiempo de reverberación de un local podemos


saber cómo se comportará el sonido en él.

– En ocasiones, se puede perder la capacidad de entender la


información contenida en el mensaje que se percibe.

– La resonancia se ocasiona cuando un cuerpo entra en


vibración por simpatía con una onda sonora que incide sobre el
y coincide su frecuencia con la frecuencia de oscilación del
cuerpo o esta es múltiplo entero de la frecuencia de la onda
que le incide.
3.7 Principio de Huygens-
Fresnel
– Todo punto alcanzado por una onda puede ser
considerado como centro de ondas
secundarias.

– Éstas sólo son activas en el punto de contacto


con la envolvente.

– Difracción: si una onda atraviesa una ranura de


dimensiones comparables a la longitud de la
onda, ésta no sigue la dirección de la onda
incidente, sino que vuelve a “abrirse”
propagándose de forma esférica al otro lado de la
superficie
3.8 El Tono (I)

• Grave --> Baja frecuencia | Agudo --> Alta frecuencia


– El tono no aumenta de forma lineal con la frecuencia
– También puede verse afectado por la intensidad:
• Si f < 1000 Hz el tono disminuye al aumentar la intensidad
• Si f > 5000Hz, el tono aumenta con la intensidad

• Musicalmente, los tonos se definen por las notas, aunque es algo


subjetivo y no todos los sonidos se corresponden a una (un tambor,
p.e.)

• Otras unidades para el tono son el Mel y el Bark (100 Mel)


3.9 Tono (II)
• Tradicionalmente los tonos se han definido por notas
– La,Si,Do,Re,Mi,Fa,Sol y de nuevo La...etc (o A,B,C,D,E,F y G en
el sistema anglosajón). Actualmente, el “La” base estándard está
en f= 440Hz. De Mi a Fa y de Si a Do hay medio tono, en vez de
uno.
– Octava --> intervalo entre una nota y la equivalente de su escala
superior: por ejemplo de un “La” al siguiente “La”. Subir una
octava es equivalente a doblar en frecuencia.

Nota Frecuencia fundamental en [Hz]


do4 fdo4 = 260.74
re4 fre4 = 9 / 8 * fdo4
mi4 fmi4 = 9 / 8 * fre4
fa4 ffa4 = 256 / 243 * fmi4
sol4 fsol4 = 9 / 8 * ffa4
la4 fla4 = 9 / 8 * fsol4
si4 fsi4 = 9 / 8 * fla4
do5 fdo5 = 256 / 243 * fsi4
3.9 Tono (III)
• El timbre es lo que diferencia sonidos del mismo tono e intensidad,
provenientes de diversas fuentes. Se puede decir que es el identificador de
cada fuente sonora
• Los factores que influyen en el timbre son:
– La envolvente espectral (Amplitudes de los armónicos)
– La envolvente dinámica (Las envolventes de la evolución temporal de
cada armónico en un sonido), porque el timbre es un fenómeno
dinámico.
– Los transitorios, que aparecen en el “ataque” y en la caida del sonido

Figura:
Análisis tiempo/frecuencia/intensidad
del sonido de “madera” en un tambor
3.10 Efecto Doppler
• Es un efecto que sucede cuando hay una velocidad relativa entre
un generador de ondas y el receptor.

• Si algo se aleja a cierta velocidad, aumenta la distancia


constantemente y las ondas tardan cada vez más en llegar, creando
la sensación de que la longitud de onda aumenta. (Y viceversa)

• faparente = ((vonda-vreceptor)/(vonda-vemisor)).freal
3.11 El Ruido
• Ruido: Componentes no deseadas (aleatorias, pseudoaleatorias o
simplemente ignotas) que se mezclan con la onda

• Ruido blanco: Su densidad espectral es plana para todo el rango,


y está presente de forma ineludible en la naturaleza. Es
completamente aleatorio, y por tanto, imposible de eliminar.

• Ruido rosa: ruido pseudoaleatorio cuya característica es que su


potencia espectral es constante para cada porcentaje de espectro.
Su intensidad cae 3dB por octava.

• Ruido Marrón: no es un ruido muy común pero existente en la


naturaleza, compuesto principalmente por ondas graves y medias.
3.12 Disminución espacial
del nivel sonoro
• Disminución espacial del nivel sonoro:
– Mientras se propaga el sonido pierde intensidad.

• Pérdidas por las condiciones del medio (rozamiento...etc)


• Al avanzar, el frente de onda suele hacerse mayor, y por
tanto, la potencia debe repartirse entre más superfice.
• Cálculo de la intensidad en función de la distancia:
» Lp = Lw + 10 log (Q/4*Pi*r*2)

Lp = Nivel de presión sonora.


Lw = Nivel de potencia de la fuente sonora en dB.
Q = Directividad de la fuente sonora.
r = distancia entre la fuente y el punto de medida en metros.
4. Hardware básico para sonido

• Tarjeta de sonido
• Micrófono
• Altavoces
4.1 Elementos de una tarjeta de
sonido
4.2 Micrófono
• Energía acústica (sonido)-> energía eléctrica (audio)

• Amplifica la señal original para ser copiada en forma


eléctrica.

• Calidad de la copia:

– Perfección del micro


– Ruido
– Localización
– Acústica de la sala
4.3 Altavoces
• Cubrimiento del espectro audible. Mínimo 2 altavoces
(altas y bajas frecuencias)
• Dependen del número y tipo de altavoces que se
empleen
• Sonido estéreo: 2 altavoces.
• Sonido envolvente/3D:
– 4 altavoces (2 delanteros y 2 traseros).
– Mayor realismo.
• Virtual Surround:
– Sonido envolvente 3D con 2 altavoces.
5. Digitalización del sonido
(I)
5. Digitalización del sonido
(II)
• El procesamiento se hace en forma digital porque éste
normalmente es más simple de realizar que el procesamiento
analógico
• Además, las señales digitales requieren menos ancho de banda y
pueden ser comprimidas
• La precisión con la que el ADC codifica los valores de la señal
(número de bits de la representación digital o tamaño de la palabra
del convertidor), tiene una repercusión directa en la calidad de la
misma.
5.1 Digitalización: Interfaz
MIDI
• Utilizado para codificar música (instrumentos).
• Codifica los elementos básicos (notas, silencios, ritmos, etc.) en
mensajes MIDI
• Cada instrumento tiene su propio código (hasta 127)
• Un sintetizador interpreta los mensajes MIDI y produce la señal de
audio correspondiente.
• Ventaja:
- Reduce mucho el ancho de banda necesario
(factor de 1000 !!)
• Inconvenientes:
- Necesidad de un sintetizador en ambos extremos
(calidad de sonido diferente)
• Aplicable sólo a música.
6. Formatos archivos de
audio

Historia:
Cada modelo de ordenador o programa definió su propio formato de fichero
para almacenar la información de sonido. Algunos de estos formatos han
perdurado y se han convertido en los mas usados actualmente


Podemos distinguir dos estilos de formato:
– Contienen una cabecera que indica los parámetros empleados en la
codificación (frecuencia de muestreo, número de bits, stereo/mono, etc ) ( ej: au,
aif, wav)

– De tipo “raw” o crudo que no contienen más información que los propios
datos (ej: snd)
6.1 Formato MP3

Significado:
MP3 significa MPEG 1 Layer 3, tercer nivel de compresión del MPEG 1.

Proceso de codificación utilizado en MP3:


Es denominado “codificación perceptual” y se basa en las pequeñas
imperfecciones del oído humano. Eliminando aquellos datos que no serán
percibidos por el oyente , podemos reducir la cantidad de datos a
almacenar.

La fundamentación matemática es muy compleja y es un proceso lento.

Según el cálculo anterior, reducimos el espacio necesario para almacenar


1 minuto de música estéreo de alta calidad de 10MB a 1 MB.

Almacenamiento MP3 en CD-ROM, más de ¡11 horas! con “calidad casi


de CD”.
6.2 VQF
CARACTERÍSTICAS:

Menos popular que MP3,


Menor tamaño,
Más calidad,
Más recursos

VENTAJAS:
– Los archivos VQF son aproximadamente un 30- 35% más
pequeños que los archivos MP3.

– La calidad del sonido es mucho mejor que MP3, ya que tiene un


99% de la calidad del CD original.

INCONVENIENTES:
– Los archivos MP3 ocupan un 15- 20% de la capacidad de
procesamiento del ordenador y un archivo VQF ocupa un
30%.
– Difícil de encontrar aún.
6.3 OGG Vorbis

GNU

Mayor calidad que MP3 para un mismo tamaño de fichero

Usa principios matemáticos diferentes a MP3

Genera archivos más pequeños que MP3 para VBR

No tiene límite de muestreo teórico

Múltiples canales (MP3 -> 2)


7. Comparativa Sistemas de
Audio
8. Procesado de la voz
mediante DSP’s (I)
• Primera fase : digitalizalización
• Bloque básico

• Al valor en un instante concreto se le asigna un valor en


bits
8. Procesado de la voz
mediante DSP’s (II)
• Se trabaja actualmente con DSP’s o dsPIC’s

• La digitalización permite que la señal sea


procesada por microprocesadores, actualmente
muy avanzados
8. Procesado de la voz
mediante DSP’s (III)

• Los DSP son microprocesadores


diseñados para procesamiento digital de
señales

• Sin embargo, la voz sintetizada/generada


provoca rechazo por ser robótica
8. Procesado de la voz
mediante DSP’s (IV)
• Esquema típico de un modulador de voz
9. LTP (I)
• LTP (Long Term Prediction) o predicción a
largo plazo
• Herramienta eficiente para reducir la
redundancia de una señal
• Empleada en la codificación de audio AAC
(Advanced Audio Coding)
• Algoritmo que reemplazará a MPEG-3
9. LTP (II)
• Especialmente eficaz para las partes de
una señal que tienen un pitch claramente
diferenciable

• También se emplea en AMR (Adaptative


Multi Rate) codec de habla estándar para
comunicaciones móviles
9. LTP (III)
• Menor complejidad de implementación que
la empleada en MPEG-2, la Predicción en
el Dominio de la Frecuencia (FDP)
• LPC es un algoritmo predictivo y adaptativo
(sus coeficientes se envían como
información de control)
• Menos sensible a los errores de bit en
estos coeficientes espectrales transmitidos
y en errores de redondeo
9. LTP (IV)
• Gráfica de ejemplo
10. Streaming
DEFINICIÓN:

Tecnología de transmisión y emisión de audio/vídeo a través de Internet

PROCESO DE STREAMING:
Compresión (con/sin pérdida)
Troceado
envío por Internet

PROTOCOLOS DE STREAMING:

RTSP/UDP
HTTP
10.1 Formatos de
Streaming

RealMedia/Real Audio:

– UNIX/Windows
– Múltiples tipos de medios como ficheros separados de forma simultánea
– Velocidad adaptada a la conexión del usuario
– Buffering, detección y compensación de errores
– Multicast
– Inicio por petición del usuario
– Requiere tiempo de espera
– No muy adecuado para sonidos interactivos y bucles de sonido

Netshow:

– Windows NT/2000, no soporta SMIL


– Todos los medios en un fichero ASF.
– Integración con herramientas de Microsoft (Media Player, Media Server …)
10.2 Formatos de
Streaming II
QuickTime:

– Mac/Windows
– RTSP con Mac OS X Server, HTTP; RTP
– Arquitectura de códecs básicos + Adicionales
– Acepta MP3, Flash, MIDI y casi cualquier formato de audio.

Flash:

– Streaming Audio MP3, alta integración con Real Media.


– Animaciones combinando ambas tecnologías

Beatnik Rich Music Format:


– Basado HTML
– Bandas sonoras y composiciones que cambian por acciones del usuario
– Usa MIDI (menos tamaño que Flash)

Vous aimerez peut-être aussi