Análisis y Procesado de Audio Digital - Grupo PAS

Análisis y Procesado
de Audio
Índice
1. Introducción
2. Generación del sonido
3. Características del sonido
4. Hardware básico para sonido
5. Digitalización del sonido
6. Formatos archivos de audio
7. Comparativa Sistemas de Audio
8. Procesado de la voz mediante DSP’s
9. LTP
10.Streaming
11.Agradecimientos
12.Bibliografía
1. Introducción (I)
• ¿Qué es una señal de audio?
- Es una onda acústica, es decir, variaciones de presión del
aire
- La señal de audio es unidimensional (tiempo)
- Fenómeno físico -->señal eléctrica--> señal digital
El micrófono transforma las ondas acústicas que lo
golpean, en señales electricas -->niveles de voltaje

• El oído es muy sensible a las variaciones de sonido de corta
duración (ms) al contrarío que el ojo humano.
• Forma de capturarlo:
Grabación y conversión
1. Introducción (II)
• El sonido se produce por la interacción de un objeto que
vibra, un medio de transmisión y un receptor.
• Atenuación con la distancia y obstáculos
• Una onda de presión se transmite a través de un medio,
como el aire, y produce una sensación llamada auditiva, al
perturbar el estado de reposo de las estructuras del oído.
• Vibraciones --> impulsos eléctricos
1. Introducción (III)
• La velocidad del sonido varía con el medio
transmisor. El aire es el principal medio
transmisor del sonido, y la velocidad en él
es de 340 m/s
• En el agua, la velocidad del sonido es de
1450 m/s ya que las partículas están más
juntas y propagan antes sus vibraciones
1. Introducción (IV)
●
La relación de dos sonidos A y B se mide en decibelios:
dB=20 log10 (A/B)
●
La intensidad de un sonido A se mide en decibelios tomando
como referencia el menor sonido audible.
●
- 0 dB: Menor sonido audible
- La señal de referencia (B) es una onda senoidal a 1kHz que

provoca una presión de 0.0003 dinas/cm2
- A y B son amplitudes (si fueran potencias sería 10 log10 (A/B))
- 50 dB: Conversación normal.

- 120dB: Umbral del dolor.
1. Introducción (V)
➔
El rango de frecuencias audibles por los humanos está
entre 20Hz y 20KHz.
2. Generación del sonido
• El tímpano vibra las partículas de aire que la rodean y

provocará la vibración de los huesos del oído interno.
• Vibraciones -> señales neuronales (acción de la

membrana basilar)
• Grado de intensidad dependiente de la frecuencia

– frecuencia -> profundidad de penetración (cada parte del caracol
está especializada en cada una de las frecuencias)
3. Características del
sonido (I)
• INTENSIDAD: AMPLITUD DE LA ONDA
SONORA. Muchos sonidos presentan un patrón
claro de intensidad que varía con el tiempo. A
este patrón se le llama ENVOLVENTE.
– Ejemplo1: Un piano presenta un fuerte golpe de gran

intensidad inicial, que decae más o menos rápidamente
hasta desaparecer.
– Medida de la intensidad: decibelios (referencia umbral)

sonido (II)
• LA FRECUENCIA de una onda sonora es el número de
pulsaciones (ciclos) que tiene por unidad de tiempo
Frecuencia Sonido Vibración

Baja Grave Lenta
Alta Agudo Rápida
• EL TONO o ALTURA de un sonido depende de su

frecuencia, es decir, del número de oscilaciones por
segundo
sonido (III)
TIMBRE: Conjunto de frecuencias que

se pueden encontrar en un sonido en
mayor o menor proporción.
sonido (IV)
• En la siguiente tabla podemos ver la
intensidad en dB de algunos sonidos
representativos:
sonido (V)
• En acústica el decibelio se utiliza para comparar
la presión sonora, en el aire, con una de
referencia (nivel de presión mínimo que percibe
oído)
• El nivel de referencia varía según el tipo de

medida que estemos realizando:
– presión acústica
– intensidad acústica
– potencia acústica
sonido (VI)
¿Cómo se mide el nivel sonoro?
• Sonómetros
– permiten conocer
• el Nivel de Presión sonora o SPL
• valor rms de la presión
• los picos máximos
• niveles mínimos
– No dan la medida en dB lineales si no que
dan la ponderación
– Mide las diferentes presiones que se
generan durante un intervalo de tiempo
(habitualmente 1 minuto)
sonido (VII)
• Oído humano
– no tiene igual comportamiento para todas las
frecuencias
– Lo que mas oímos son las frecuencias medias, y
las que menos las graves, seguidas de las mas
agudas.
• dBA → dB lineal ponderado mediante una tabla

– Ejemplo: un nivel de 80 dB a 100 Hz es oído por
nuestro oído como si tuviese 60’9 dBA
3.1 Intensidad Acústica
• Se define como la cantidad de energía sonora
transmitida en una dirección determinada por unidad de
área.
• El nivel de intensidad sonora se mide en w/m2.
• Rango de audición entre:

0.000000000001 w/m2 , hasta 1 w/m2
• La medida de intensidades no es posible realizarla con

un sonómetro. Se utilizan analizadores de doble canal
con posibilidad de espectro cruzado y una sonda que
consiste en dos micrófonos separados a corta distancia.
3.2 Potencia Acústica
• La potencia acústica es la
cantidad de energía radiada por
una fuente determinada.
• El nivel de Potencia Acústica es

la cantidad de energía total
radiada en un segundo y se
mide en watios.
• La potencia acústica es un valor

intrínseco de la fuente y no
depende del local donde se
halle.
3.3 Velocidad de
Propagación
• La velocidad de propagación
es proporcional a la
temperatura absoluta
• La velocidad es siempre
independiente de la presión
atmosférica.
• La velocidad de propagación
del sonido en el aire es de
unos 334 m/s. A 0º es de
331,6 m/s. A 20º es de 344,2
m/s.
• En el agua, la velocidad de
propagación es de 1500 m/s.
• Es posible obtener medidas
de temperatura de los
océanos midiendo la
diferencia de velocidad sobre
grandes distancias.
3.4 Tiempo de
Reverberación
• El Tiempo de Reverberación (RT), es el tiempo que tarda una señal, desde
que ésta deja de sonar hasta que se atenúa a un nivel de 60 dB.
• El Tiempo de Reverberación se mide de forma frecuencial. (un local no
tiene el mismo RT en 200 Hz que en 4 kHz.)
• Dicho tiempo viene determinado por el Volumen de la sala y por los
coeficientes de absorción de sus superficies.
• Las reflexiones generadas en el interior del local serán diferentes para cada
frecuencia.
• Fórmula de Sabine: RT = 0,163 * (V/A)
V = Volumen de la sala en m3
A = Superficie de Absorción de Sabine (m2)
• Cuanto mayor es el local mayor es el RT. Si los materiales que
lo componen internamente son poco absorbentes el RT también
aumentará.
• Existen elementos como el Acoustilyzer AL1 para medir el RT.
Actúa según ISO3382 en bandas de octava.
• El valor de RT es muy importante si se quiere conseguir
buenos niveles de inteligibilidad dentro de los locales.
3.5 Coeficiente de
absorción de un Material
• El coeficiente de absorción de un material es la
relación entre la energía absorbida por el material y la
energía reflejada por el mismo.
• Su valor siempre está comprendido entre 0 y 1.
• El máximo coeficiente de absorción está determinado
por un valor de 1 donde toda la energía que incide en el
material es absorbida por el mismo.
• El mínimo es 0 donde toda la energía es reflejada.
• El coeficiente de absorción varía con la frecuencia y por
tanto los fabricantes de materiales acústicos dan los
coeficientes de absorción por lo menos en resolución de
una octava.
3.6 Eco, Reverberación y
Resonancia (I)
• Eco, reverberación y resonancia:
– Al generarse un sonido  en las superficies colindantes se

ocasionan una serie de efectos
– Las ondas sonoras inciden en las diferentes superficies y éstas las
reflejan de diferente forma según su coeficiente de reflexión
acústica.
1) En primer lugar, percibimos el sonido directo
2) Después llegará a nuestros oídos, con un retraso de tiempo

con respecto al sonido directo, el sonido reflejado por las superficies
del local.
3) Si el retraso entre el sonido directo y el reflejado es mayor de

1/10 de segundo, nuestro sistema de audición será capaz de separar
las dos señales y percibirlas como tales, primero una y después la
otra, esto es lo que se entiende por eco.
3.6 Eco, Reverberación y
Resonancia (II)
– Si el sonido reflejado llega con un tiempo inferior a 1/10 de seg,
nuestro sistema de audición no es capaz de separar ambas
señales  las toma como una misma pero con una duración
superior de ésta. Esto se entiende como reverberación.
– Conociendo el tiempo de reverberación de un local podemos

saber cómo se comportará el sonido en él.
– En ocasiones, se puede perder la capacidad de entender la

información contenida en el mensaje que se percibe.
– La resonancia se ocasiona cuando un cuerpo entra en

vibración por simpatía con una onda sonora que incide sobre el
y coincide su frecuencia con la frecuencia de oscilación del
cuerpo o esta es múltiplo entero de la frecuencia de la onda
que le incide.
3.7 Principio de Huygens-
Fresnel
– Todo punto alcanzado por una onda puede ser
considerado como centro de ondas
secundarias.
– Éstas sólo son activas en el punto de contacto

con la envolvente.
– Difracción: si una onda atraviesa una ranura de

dimensiones comparables a la longitud de la
onda, ésta no sigue la dirección de la onda
incidente, sino que vuelve a “abrirse”
propagándose de forma esférica al otro lado de la
superficie
3.8 El Tono (I)
• Grave --> Baja frecuencia | Agudo --> Alta frecuencia

– El tono no aumenta de forma lineal con la frecuencia
– También puede verse afectado por la intensidad:
• Si f < 1000 Hz el tono disminuye al aumentar la intensidad
• Si f > 5000Hz, el tono aumenta con la intensidad
• Musicalmente, los tonos se definen por las notas, aunque es algo

subjetivo y no todos los sonidos se corresponden a una (un tambor,
p.e.)
• Otras unidades para el tono son el Mel y el Bark (100 Mel)

3.9 Tono (II)
• Tradicionalmente los tonos se han definido por notas
– La,Si,Do,Re,Mi,Fa,Sol y de nuevo La...etc (o A,B,C,D,E,F y G en
el sistema anglosajón). Actualmente, el “La” base estándard está
en f= 440Hz. De Mi a Fa y de Si a Do hay medio tono, en vez de
uno.
– Octava --> intervalo entre una nota y la equivalente de su escala
superior: por ejemplo de un “La” al siguiente “La”. Subir una
octava es equivalente a doblar en frecuencia.
Nota Frecuencia fundamental en [Hz]

do4 fdo4 = 260.74
re4 fre4 = 9 / 8 * fdo4
mi4 fmi4 = 9 / 8 * fre4
fa4 ffa4 = 256 / 243 * fmi4
sol4 fsol4 = 9 / 8 * ffa4
la4 fla4 = 9 / 8 * fsol4
si4 fsi4 = 9 / 8 * fla4
do5 fdo5 = 256 / 243 * fsi4
3.9 Tono (III)
• El timbre es lo que diferencia sonidos del mismo tono e intensidad,
provenientes de diversas fuentes. Se puede decir que es el identificador de
cada fuente sonora
• Los factores que influyen en el timbre son:
– La envolvente espectral (Amplitudes de los armónicos)
– La envolvente dinámica (Las envolventes de la evolución temporal de
cada armónico en un sonido), porque el timbre es un fenómeno
dinámico.
– Los transitorios, que aparecen en el “ataque” y en la caida del sonido
Figura:
Análisis tiempo/frecuencia/intensidad
del sonido de “madera” en un tambor
3.10 Efecto Doppler
• Es un efecto que sucede cuando hay una velocidad relativa entre
un generador de ondas y el receptor.
• Si algo se aleja a cierta velocidad, aumenta la distancia

constantemente y las ondas tardan cada vez más en llegar, creando
la sensación de que la longitud de onda aumenta. (Y viceversa)
• faparente = ((vonda-vreceptor)/(vonda-vemisor)).freal
3.11 El Ruido
• Ruido: Componentes no deseadas (aleatorias, pseudoaleatorias o
simplemente ignotas) que se mezclan con la onda
• Ruido blanco: Su densidad espectral es plana para todo el rango,

y está presente de forma ineludible en la naturaleza. Es
completamente aleatorio, y por tanto, imposible de eliminar.
• Ruido rosa: ruido pseudoaleatorio cuya característica es que su

potencia espectral es constante para cada porcentaje de espectro.
Su intensidad cae 3dB por octava.
• Ruido Marrón: no es un ruido muy común pero existente en la

naturaleza, compuesto principalmente por ondas graves y medias.
3.12 Disminución espacial
del nivel sonoro
• Disminución espacial del nivel sonoro:
– Mientras se propaga el sonido pierde intensidad.
• Pérdidas por las condiciones del medio (rozamiento...etc)

• Al avanzar, el frente de onda suele hacerse mayor, y por
tanto, la potencia debe repartirse entre más superfice.
• Cálculo de la intensidad en función de la distancia:
» Lp = Lw + 10 log (Q/4*Pi*r*2)
Lp = Nivel de presión sonora.

Lw = Nivel de potencia de la fuente sonora en dB.
Q = Directividad de la fuente sonora.
r = distancia entre la fuente y el punto de medida en metros.
4. Hardware básico para sonido
• Tarjeta de sonido
• Micrófono
• Altavoces
4.1 Elementos de una tarjeta de
sonido
4.2 Micrófono
• Energía acústica (sonido)-> energía eléctrica (audio)
• Amplifica la señal original para ser copiada en forma

eléctrica.
• Calidad de la copia:
– Perfección del micro

– Ruido
– Localización
– Acústica de la sala
4.3 Altavoces
• Cubrimiento del espectro audible. Mínimo 2 altavoces
(altas y bajas frecuencias)
• Dependen del número y tipo de altavoces que se
empleen
• Sonido estéreo: 2 altavoces.
• Sonido envolvente/3D:
– 4 altavoces (2 delanteros y 2 traseros).
– Mayor realismo.
• Virtual Surround:
– Sonido envolvente 3D con 2 altavoces.
(I)
(II)
• El procesamiento se hace en forma digital porque éste
normalmente es más simple de realizar que el procesamiento
analógico
• Además, las señales digitales requieren menos ancho de banda y
pueden ser comprimidas
• La precisión con la que el ADC codifica los valores de la señal
(número de bits de la representación digital o tamaño de la palabra
del convertidor), tiene una repercusión directa en la calidad de la
misma.
5.1 Digitalización: Interfaz
MIDI
• Utilizado para codificar música (instrumentos).
• Codifica los elementos básicos (notas, silencios, ritmos, etc.) en
mensajes MIDI
• Cada instrumento tiene su propio código (hasta 127)
• Un sintetizador interpreta los mensajes MIDI y produce la señal de
audio correspondiente.
• Ventaja:
- Reduce mucho el ancho de banda necesario
(factor de 1000 !!)
• Inconvenientes:
- Necesidad de un sintetizador en ambos extremos
(calidad de sonido diferente)
• Aplicable sólo a música.
6. Formatos archivos de
audio
●
Historia:
Cada modelo de ordenador o programa definió su propio formato de fichero
para almacenar la información de sonido. Algunos de estos formatos han
perdurado y se han convertido en los mas usados actualmente
●
Podemos distinguir dos estilos de formato:
– Contienen una cabecera que indica los parámetros empleados en la
codificación (frecuencia de muestreo, número de bits, stereo/mono, etc ) ( ej: au,
aif, wav)
– De tipo “raw” o crudo que no contienen más información que los propios
datos (ej: snd)
6.1 Formato MP3
Significado:
MP3 significa MPEG 1 Layer 3, tercer nivel de compresión del MPEG 1.
Proceso de codificación utilizado en MP3:

Es denominado “codificación perceptual” y se basa en las pequeñas
imperfecciones del oído humano. Eliminando aquellos datos que no serán
percibidos por el oyente , podemos reducir la cantidad de datos a
almacenar.
La fundamentación matemática es muy compleja y es un proceso lento.
Según el cálculo anterior, reducimos el espacio necesario para almacenar

1 minuto de música estéreo de alta calidad de 10MB a 1 MB.
Almacenamiento MP3 en CD-ROM, más de ¡11 horas! con “calidad casi

de CD”.
6.2 VQF
CARACTERÍSTICAS:
Menos popular que MP3,

Menor tamaño,
Más calidad,
Más recursos
VENTAJAS:
– Los archivos VQF son aproximadamente un 30- 35% más
pequeños que los archivos MP3.
– La calidad del sonido es mucho mejor que MP3, ya que tiene un

99% de la calidad del CD original.
INCONVENIENTES:
– Los archivos MP3 ocupan un 15- 20% de la capacidad de
procesamiento del ordenador y un archivo VQF ocupa un
30%.
– Difícil de encontrar aún.
6.3 OGG Vorbis
GNU
Mayor calidad que MP3 para un mismo tamaño de fichero
Usa principios matemáticos diferentes a MP3
Genera archivos más pequeños que MP3 para VBR
No tiene límite de muestreo teórico
Múltiples canales (MP3 -> 2)

7. Comparativa Sistemas de
Audio
8. Procesado de la voz
mediante DSP’s (I)
• Primera fase : digitalizalización
• Bloque básico
• Al valor en un instante concreto se le asigna un valor en

bits
mediante DSP’s (II)
• Se trabaja actualmente con DSP’s o dsPIC’s
• La digitalización permite que la señal sea

procesada por microprocesadores, actualmente
muy avanzados
mediante DSP’s (III)
• Los DSP son microprocesadores

diseñados para procesamiento digital de
señales
• Sin embargo, la voz sintetizada/generada

provoca rechazo por ser robótica
mediante DSP’s (IV)
• Esquema típico de un modulador de voz
9. LTP (I)
• LTP (Long Term Prediction) o predicción a
largo plazo
• Herramienta eficiente para reducir la
redundancia de una señal
• Empleada en la codificación de audio AAC
(Advanced Audio Coding)
• Algoritmo que reemplazará a MPEG-3
9. LTP (II)
• Especialmente eficaz para las partes de
una señal que tienen un pitch claramente
diferenciable
• También se emplea en AMR (Adaptative

Multi Rate) codec de habla estándar para
comunicaciones móviles
9. LTP (III)
• Menor complejidad de implementación que
la empleada en MPEG-2, la Predicción en
el Dominio de la Frecuencia (FDP)
• LPC es un algoritmo predictivo y adaptativo
(sus coeficientes se envían como
información de control)
• Menos sensible a los errores de bit en
estos coeficientes espectrales transmitidos
y en errores de redondeo
9. LTP (IV)
• Gráfica de ejemplo
10. Streaming
DEFINICIÓN:
Tecnología de transmisión y emisión de audio/vídeo a través de Internet
PROCESO DE STREAMING:
Compresión (con/sin pérdida)
Troceado
envío por Internet
PROTOCOLOS DE STREAMING:
RTSP/UDP
HTTP
10.1 Formatos de
Streaming
●
RealMedia/Real Audio:
– UNIX/Windows
– Múltiples tipos de medios como ficheros separados de forma simultánea
– Velocidad adaptada a la conexión del usuario
– Buffering, detección y compensación de errores
– Multicast
– Inicio por petición del usuario
– Requiere tiempo de espera
– No muy adecuado para sonidos interactivos y bucles de sonido
●
Netshow:
– Windows NT/2000, no soporta SMIL

– Todos los medios en un fichero ASF.
– Integración con herramientas de Microsoft (Media Player, Media Server …)
10.2 Formatos de
Streaming II
QuickTime:
– Mac/Windows
– RTSP con Mac OS X Server, HTTP; RTP
– Arquitectura de códecs básicos + Adicionales
– Acepta MP3, Flash, MIDI y casi cualquier formato de audio.
Flash:
– Streaming Audio MP3, alta integración con Real Media.

– Animaciones combinando ambas tecnologías
Beatnik Rich Music Format:

●
– Basado HTML
– Bandas sonoras y composiciones que cambian por acciones del usuario
– Usa MIDI (menos tamaño que Flash)

Análisis y Procesado de Audio Digital - Grupo PAS

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Análisis y Procesado de Audio Digital - Grupo PAS

Transféré par

Droits d'auteur :

Formats disponibles

Análisis y Procesado

golpean, en señales electricas -->niveles de voltaje

dB=20 log10 (A/B)

- La señal de referencia (B) es una onda senoidal a 1kHz que

- 50 dB: Conversación normal.

• El tímpano vibra las partículas de aire que la rodean y

• Vibraciones -> señales neuronales (acción de la

• Grado de intensidad dependiente de la frecuencia

– Ejemplo1: Un piano presenta un fuerte golpe de gran

– Medida de la intensidad: decibelios (referencia umbral)

Frecuencia Sonido Vibración

• EL TONO o ALTURA de un sonido depende de su

TIMBRE: Conjunto de frecuencias que

• El nivel de referencia varía según el tipo de

• dBA → dB lineal ponderado mediante una tabla

• El nivel de intensidad sonora se mide en w/m2.

• Rango de audición entre:

• La medida de intensidades no es posible realizarla con

• El nivel de Potencia Acústica es

• La potencia acústica es un valor

– Al generarse un sonido  en las superficies colindantes se

2) Después llegará a nuestros oídos, con un retraso de tiempo

3) Si el retraso entre el sonido directo y el reflejado es mayor de

– Conociendo el tiempo de reverberación de un local podemos

– En ocasiones, se puede perder la capacidad de entender la

– La resonancia se ocasiona cuando un cuerpo entra en

– Éstas sólo son activas en el punto de contacto

– Difracción: si una onda atraviesa una ranura de

• Grave --> Baja frecuencia | Agudo --> Alta frecuencia

• Musicalmente, los tonos se definen por las notas, aunque es algo

• Otras unidades para el tono son el Mel y el Bark (100 Mel)

Nota Frecuencia fundamental en [Hz]

• Si algo se aleja a cierta velocidad, aumenta la distancia

• Ruido blanco: Su densidad espectral es plana para todo el rango,

• Ruido rosa: ruido pseudoaleatorio cuya característica es que su

• Ruido Marrón: no es un ruido muy común pero existente en la

• Pérdidas por las condiciones del medio (rozamiento...etc)

Lp = Nivel de presión sonora.

• Amplifica la señal original para ser copiada en forma

– Perfección del micro

Proceso de codificación utilizado en MP3:

La fundamentación matemática es muy compleja y es un proceso lento.

Según el cálculo anterior, reducimos el espacio necesario para almacenar

Almacenamiento MP3 en CD-ROM, más de ¡11 horas! con “calidad casi

Menos popular que MP3,

– La calidad del sonido es mucho mejor que MP3, ya que tiene un

Mayor calidad que MP3 para un mismo tamaño de fichero

Usa principios matemáticos diferentes a MP3

Genera archivos más pequeños que MP3 para VBR

No tiene límite de muestreo teórico

Múltiples canales (MP3 -> 2)

• Al valor en un instante concreto se le asigna un valor en

• La digitalización permite que la señal sea

• Los DSP son microprocesadores

• Sin embargo, la voz sintetizada/generada

• También se emplea en AMR (Adaptative

Tecnología de transmisión y emisión de audio/vídeo a través de Internet

– Windows NT/2000, no soporta SMIL

– Streaming Audio MP3, alta integración con Real Media.

Beatnik Rich Music Format:

Vous aimerez peut-être aussi