CD 3269

ESCUELA POLITCNICA NACIONAL
FACULTAD DE INGENIERA ELCTRICA Y

ELECTRNICA

ESTUDIO, ANLISIS E IMPLEMENTACIN EN SOFTWARE DE
SIMULACIN MATLAB DEL ALGORITMO MP3 PARA
COMPRESIN DE AUDIO A TRAVS DEL USO DE TCNICAS
DIGITALES PARA EL PROCESAMIENTO DE SEALES

PROYECTO PREVIO A LA OBTENCIN DEL TTULO DE INGENIERO EN
ELECTRNICA Y TELECOMUNICACIONES

BYRON PATRICIO DUQUE PILATAXI
bpdp4986@hotmail.com

CHRISTIAN JOS TIPANTUA TENELEMA
ctipantunia@hotmail.com

DIRECTOR: DR. GUALBERTO HIDALGO HIDROVO
ghidalgo@mailfie.epn.edu.ec

Quito, Noviembre 2010

DECLARACIN

Nosotros, Byron Patricio Duque Pilataxi y Christian Jos Tipantua Tenelema,
declaramos bajo juramento que el trabajo aqu descrito es de nuestra autora;
que no ha sido previamente presentada para ningn grado o calificacin
profesional; y, que hemos consultado las referencias bibliogrficas que se
incluyen en este documento.

A travs de la presente declaracin cedemos nuestros derechos de propiedad
intelectual correspondientes a este trabajo, a la Escuela Politcnica Nacional,
segn lo establecido por la Ley de Propiedad Intelectual, por su Reglamento y por
la normatividad institucional vigente.

___________________________ _________________________________
Byron Patricio Duque Pilataxi Christian Jos Tipantua Tenelema

CERTIFICACIN

Certifico que el presente trabajo fue desarrollado por Byron Patricio Duque Pilataxi
y Christian Jos Tipantua Tenelema, bajo mi supervisin.

__________________________________
DR. GUALBERTO HIDALGO HIDROVO
DIRECTOR DEL PROYECTO

AGRADECIMIENTO

A Dios, por darme la vida y permitirme volver a la vida, guiarme e iluminarme,
permitindome dar un paso tan importante.

A mi madre, de todo corazn, por ser la persona que ha estado junto a m compartiendo
mis alegras y tristezas y quien con su sacrificio y apoyo incondicional ha hecho de m
una buena persona. Gracias mamita, por darme todo tu amor, estar conmigo en todo
momento y brindarme la fortaleza necesaria para aferrarme a la vida.

A mi hermano, por ser mi mejor amigo, por apoyarme en todo momento, brindarme los
mejores consejos, soportar mi carcter y permitirme compartir su vida y ser en ella
alguien tan especial.

A mi familia y a las personas que me consideran como parte de su familia, les quiero dar
las gracias por siempre estar pendiente de m, por darme su apoyo constante en todo
momento. A quien ha sido para m como un padre, por brindarme su apoyo.

A mi amigo y compaero de tesis, con quien hemos pasado duros momentos durante la
realizacin del proyecto, hasta ahora poder ver realizado nuestro proyecto.

A la universidad, por permitirme conocer a tantas personas valiosas y a todos mis
profesores durante la carrera por transmitirme sus conocimientos, en especial, al Dr.
Gualberto Hidalgo, con quien ha sido un honor haber trabajado durante todo el proyecto.

A mis amigos y compaeros, les doy las gracias infinitamente, por su apoyo y por estar
junto a m durante todo este tiempo y hacer de mi paso por la universidad algo
inolvidable.

Son tantas personas a las que tengo que agradecer por estar conmigo en los momentos
ms difciles de mi vida

A todos, les doy las gracias de todo corazn.

Byron P. Duque P.

AGRADECIMIENTO

A Dios
Por absolutamente todo lo que me ha dado.

A mis padres
Con los que siempre he contado y espero seguir contando el resto de mi vida; por darme
su amor, su apoyo y ayuda incondicional en todo momento, procurando lo mejor para m
y facilitndome las cosas en la medida de lo posible; por sus sacrificios y esfuerzos, por
tratar de hacer de m un hombre de bien y darme una educacin de calidad. Por su
nimo, paciencia, por haber soportado mi desorden y en varias ocasiones mi mal
carcter.

A mis hermanos
Quienes siempre me han dado su amor y apoyo incluso cuando hemos estado peleados,
por hacerme pensar que soy capaz de lograr mucho ms de lo que yo realmente pienso,
por creer que soy mucho ms de que lo realmente soy, por ser tolerantes, por soportar
mis bromas y hasta mi mal genio.

A todo el resto de mi familia, a mis tos, primos y a mi abuelita quienes han estado con
migo en la buenas y malas, se han preocupado por m y me han deseado siempre lo
mejor.

A mi amigo y compaero de tesis por su ayuda en la elaboracin del proyecto. A los
profesores de mi facultad quienes han sido una inspiracin profesional y quienes me han
transmitido sus conocimientos, en especial al Dr. Gualberto Hidalgo por su apoyo y ayuda
incondicional durante la realizacin del proyecto, tambin al Ing. Marcelo Lazzati por su
pronta y desinteresada ayuda.

A todos mis amigos y compaeros.
A todos los mencionados anteriormente, de corazn.
Muchas gracias.
Christian J. Tipantua T.

DEDICATORIA

Este trabajo va dedicado con todo el amor a mi madre Graciela y a
mi hermano Andrs, por ser una parte fundamental en mi vida y
apoyarme en todo momento.
Los quiero mucho.

Byron P. Duque P.

DEDICATORIA

Dedicado con mucho amor y cario a mis padres Marina y Jos
y a mis hermanos Viviana y Sal quienes son un pilar
fundamental en mi vida.

Christian J. Tipantua T.

CONTENIDO

RESUMEN. ....................................................................................................................... XXII
PRESENTACIN. ........................................................................................................... XXIV

CAPTULO 1. ........................................................................................................................ 1
ESTUDIO DEL SONIDO ....................................................................................................... 1
1.1 EL SONIDO ............................................................................................................. 1
1.1.1 INTRODUCCIN ................................................................................................ 1
1.1.2 DEFINICIN ........................................................................................................ 2
1.1.3 FSICA DEL SONIDO ......................................................................................... 3
1.1.3.1 Ondas de sonido .......................................................................................... 4
1.1.3.2 Medicin del sonido ..................................................................................... 4
1.1.3.3 Velocidad del sonido .................................................................................... 5
1.1.3.4 Longitud de onda del sonido ....................................................................... 5
1.1.3.5 Amplitud ....................................................................................................... 6
1.1.3.5.1 Intensidad ................................................................................................ 8
1.1.3.6 Frecuencia ................................................................................................... 9
1.1.3.6.1 Tono ...................................................................................................... 11
1.1.3.6.2 Armnicas ............................................................................................. 12
1.1.3.7 Fase ........................................................................................................... 12
1.1.3.8 Forma de onda ........................................................................................... 13
1.1.3.8.1 Representacin grfica ......................................................................... 14
1.1.4 FUENTES SONORAS ...................................................................................... 15
1.2 EL SISTEMA FONATORIO HUMANO ................................................................. 16
1.2.1 PROPIEDADES DEL HABLA ........................................................................... 16
1.2.2 CLASIFICACIN DE LAS VOCES ................................................................... 18
1.2.2.1 Clasificacin sexual ................................................................................... 18
1.2.2.1.1 Clasificacin segn tesitura .................................................................. 19
1.3 PSICOACSTICA ................................................................................................. 20
1.3.1 DEFINICIN ...................................................................................................... 20
1.3.2 EL SISTEMA AUDITIVO HUMANO .................................................................. 20
1.3.2.1 El odo humano .......................................................................................... 21
1.3.2.1.1 Odo externo ......................................................................................... 22
1.3.2.1.2 Odo medio ............................................................................................ 23
1.3.2.1.3 Odo interno .......................................................................................... 25
1.3.2.2 Bandas crticas del sistema auditivo humano ........................................... 26
1.3.2.2.1 Escala de Barks .................................................................................... 27
1.3.2.3 Enmascaramiento ...................................................................................... 28
1.3.2.3.1 Enmascaramiento en frecuencia .......................................................... 29
1.3.2.3.2 Enmascaramiento temporal .................................................................. 30
1.4 AUDIO DIGITAL .................................................................................................... 31

1.4.1 INTRODUCCIN .............................................................................................. 31
1.4.2 AUDIO ANALGICO ........................................................................................ 32
1.4.2.1 Seales analgicas .................................................................................... 32
1.4.2.2 Audio analgico ......................................................................................... 33
1.4.2.2.1 Historia .................................................................................................. 33
1.4.2.2.2 Definicin............................................................................................... 33
1.4.3 DIGITALIZACIN DE SEALES ANALGICAS ............................................. 34
1.4.3.1 Muestreo .................................................................................................... 34
1.4.3.1.1 Teorema del muestreo .......................................................................... 35
1.4.3.1.2 Aliasing .................................................................................................. 36
1.4.3.1.3 Jitter ....................................................................................................... 37
1.4.3.1.4 Cuantizacin ......................................................................................... 38
1.4.3.1.5 Ruido de cuantizacin ........................................................................... 38
1.4.3.1.6 Dithering ................................................................................................ 40
1.4.3.1.7 Cuantizacin uniforme .......................................................................... 40
1.4.3.1.8 Cuantizacin no uniforme ..................................................................... 41
1.4.3.1.9 Cuantizacin Ley A ............................................................................... 42
1.4.3.1.10 Cuantizacin Ley ............................................................................ 43
1.4.3.2 Codificacin................................................................................................ 43
1.4.3.3 Ventajas y desventajas de seales y sistemas digitales .......................... 44
1.4.3.3.1 Ventajas ................................................................................................ 44
1.4.3.3.2 Desventajas .......................................................................................... 45
1.4.4 CARACTERSTICAS DEL AUDIO DIGITAL .................................................... 45
1.4.4.1 La computadora en sistemas de audio digital ........................................... 46
1.4.4.2 Hardware para audio digital ....................................................................... 47
1.4.4.2.1 Funcionamiento de la tarjeta de sonido ............................................... 48
1.4.4.3 Parmetros de audio digital ....................................................................... 49
1.4.4.4 Calidad del audio digital ............................................................................. 50
1.4.5 FORMATOS DE FICHERO .............................................................................. 51
1.4.5.1 Formatos de fichero autodescriptivos ....................................................... 51
1.4.5.2 Formatos de fichero sin cabecera o tipo raw .......................................... 52
REFERENCIAS BIBLIOGRFICAS ................................................................................ 53

CAPTULO 2. ...................................................................................................................... 54
COMPRESIN DE AUDIO ................................................................................................. 54
2.1 COMPRESIN DE LA INFORMACIN ............................................................... 54
2.1.1 INTRODUCCIN .............................................................................................. 54
2.1.2 NECESIDAD PARA LA COMPRESIN ........................................................... 55
2.1.3 COMPRESIN DE DATOS .............................................................................. 56
2.1.3.1 Utilizacin de la compresin ...................................................................... 57
2.1.3.2 Tcnicas de compresin ............................................................................ 58
2.1.3.2.1 Compresin fsica y lgica .................................................................... 58
2.1.3.2.2 Compresin simtrica y asimtrica ....................................................... 59
2.1.3.2.3 Codificacin de fuente y de entropa .................................................... 59
2.1.3.2.4 Compresin con y sin prdida de informacin ..................................... 60

2.1.3.2.5 Codificacin no adaptativa, semiadaptativa y adaptativa .................... 60
2.2 COMPRESIN LOSSY Y LOSSLESS ................................................................. 61
2.2.1 COMPRESIN CON PRDIDA DE INFORMACIN (LOSSY) ...................... 61
2.2.1.1 Codificacin diferencial .............................................................................. 62
2.2.1.2 Codificacin por transformada ................................................................... 62
2.2.1.3 Cuantizacin vectorial ................................................................................ 63
2.2.2 COMPRESIN SIN PRDIDA DE INFORMACIN (LOSSLESS).................. 63
2.2.2.1 Codificacin estadstica ............................................................................. 64
2.2.2.1.1 Codificacin Huffman ............................................................................ 65
2.2.2.2 Basados en diccionario .............................................................................. 66
2.3 COMPRESIN DE AUDIO ................................................................................... 67
2.3.1 INTRODUCCIN .............................................................................................. 67
2.3.1.1 Caractersticas de la compresin de audio ............................................... 68
2.3.1.2 Cdec de audio .......................................................................................... 68
2.3.1.2.1 Codificadores perceptuales .................................................................. 68
2.3.1.2.2 Codificadores paramtricos .................................................................. 69
2.3.1.2.3 Vocoders ............................................................................................... 69
2.3.1.2.4 Codificadores de forma de onda .......................................................... 69
2.3.1.2.5 Codificadores hbridos .......................................................................... 70
2.3.1.3 Parmetros de los cdecs de audio .......................................................... 70
2.3.2 COMPRESIN DE MSICA ............................................................................ 72
2.3.2.1 Mnimo umbral auditivo .............................................................................. 72
2.4 ALGORITMOS DE COMPRESIN DE AUDIO .................................................... 73
2.4.1 INTRODUCCIN .............................................................................................. 73
2.4.2 CODIFICACIN PERCEPTUAL DE AUDIO .................................................... 73
2.4.3 CODIFICACIN DE SUB-BANDAS ................................................................. 75
2.4.4 COMPRESIN DE AUDIO ADPCM ................................................................. 77
2.4.5 FORMATO DE AUDIO WAV ............................................................................ 78
2.4.5.1 Caractersticas de un archivo WAV ........................................................... 79
2.4.6 FLAC ................................................................................................................. 80
2.4.7 CODIFICACIN DE AUDIO EN EL ESTNDAR MPEG ................................. 81
2.4.7.1 Estndar MPEG-1 ...................................................................................... 84
2.4.7.2 Estndar MPEG-2 ...................................................................................... 85
2.4.7.3 Estndar MPEG-4 ...................................................................................... 87
2.4.7.4 AAC ............................................................................................................ 88
2.4.8 ESTUDIO COMPARATIVO DE LAS CARACTERSTICAS DE LOS
ALGORITMOS DE COMPRESIN DE AUDIO .......................................................... 89
REFERENCIAS BIBLIOGRFICAS ................................................................................ 91

CAPTULO 3. ...................................................................................................................... 92
SISTEMAS DE ALTA FIDELIDAD ..................................................................................... 92
3.1 INTRODUCCIN .................................................................................................. 92
3.2 ALTA FIDELIDAD ................................................................................................. 92
3.2.1 PREMBULO .................................................................................................... 92
3.2.2 HISTORIA.......................................................................................................... 93

3.2.3 GENERALIDADES ............................................................................................ 94
3.2.3.1 Hi-Fi y apariencia de realismo ................................................................... 95
3.2.3.2 Modularidad ............................................................................................... 96
3.2.4 ASPECTOS DE LA ALTA FIDELIDAD ............................................................. 97
3.2.5 ALTA FIDELIDAD COMO NORMA DE CALIDAD ........................................... 98
3.2.6 EQUIPOS DE ALTA FIDELIDAD ...................................................................... 99
3.2.6.1 Equipos modernos ..................................................................................... 99
3.3 COMPARATIVA CON EL FORMATO MP3 ........................................................ 100
REFERENCIAS BIBLIOGRFICAS .............................................................................. 103

CAPTULO 4. .................................................................................................................... 104
FORMATO MP3 ................................................................................................................ 104
4.1 INTRODUCCIN ................................................................................................ 104
4.1.1 HISTORIA........................................................................................................ 104
4.1.1.1 Cronologa del mp3.................................................................................. 105
4.1.2 DEFINICIN .................................................................................................... 106
4.2 ASPECTOS PRINCIPALES DEL ESTNDAR ISO/IEC 11172-3 (MPEG-1 CAPA
DE AUDIO III) ................................................................................................................. 108
4.2.1 CODIFICACIN .............................................................................................. 109
4.2.1.1 Codificacin MPEG-1 para la capa 3 ...................................................... 110
4.2.1.2 Anlisis psicoacstico .............................................................................. 112
4.2.1.2.1 Alineacin en tiempo ........................................................................... 113
4.2.1.2.2 Representacin espectral ................................................................... 113
4.2.1.2.3 Componentes tonales y no tonales .................................................... 114
4.2.1.2.4 Estimacin del ndice de tonalidad ..................................................... 114
4.2.1.2.5 Funcin de dispersin ......................................................................... 115
4.2.1.2.6 Umbral de enmascaramiento individual ............................................. 115
4.2.1.2.7 Umbral de enmascaramiento global ................................................... 116
4.2.1.2.8 Pre - eco .............................................................................................. 117
4.2.1.2.9 Umbral de enmascaramiento mnimo................................................. 118
4.2.1.2.10 Relaciones seal a mscara ........................................................... 118
4.2.1.3 Banco de filtros hbridos conmutados ..................................................... 119
4.2.1.3.1 Filtro pasa-altos ................................................................................... 120
4.2.1.3.2 Banco de filtros polifsicos ................................................................. 120
4.2.1.3.3 Transformada discreta del coseno modificada (MDCT) .................... 124
4.2.1.4 Reparticin de ruido ................................................................................. 126
4.2.1.4.1 Ciclo interno (rate control loop)........................................................... 127
4.2.1.4.2 Ciclo externo (distortion control loop). ................................................ 127
4.2.1.5 Flujo de bits MP3 vlido ........................................................................... 128
4.2.1.6 Cuantizacin no uniforme ........................................................................ 129
4.2.1.7 Codificacin Huffman (codificacin entrpica) ........................................ 129
4.2.1.8 Reserva de bits ........................................................................................ 131
4.2.1.9 Modos de funcionamiento........................................................................ 133
4.2.1.9.1 Codificacin joint stereo ...................................................................... 133
4.2.2 DECODIFICACIN ......................................................................................... 134

4.3 FORMATO DE LAS TRAMAS MP3 .................................................................... 134
4.3.1 ENCABEZADO DE TRAMAS ......................................................................... 136
4.3.2 CHEQUEO DE ERRORES ............................................................................. 140
4.3.3 INFORMACIN SECUNDARIA ...................................................................... 142
4.3.4 DATOS PRINCIPALES ................................................................................... 146
4.4 CURIOSIDADES DEL FORMATO MP3 ............................................................. 149
4.5 INNOVACIONES EN EL FORMATO MP3 .......................................................... 151
4.5.1 FORMATO MP3 DE ALTA CALIDAD ............................................................. 151
4.5.2 MP3PRO ......................................................................................................... 152
4.5.3 FORMATO MT9 .............................................................................................. 153

CAPTULO 5. .................................................................................................................... 156
DISEO E IMPLEMENTACIN EN MATLAB DEL ALGORITMO MP3 PARA
COMPRESIN DE AUDIO ............................................................................................... 156
5.1 INTRODUCCIN ................................................................................................ 156
5.2 SOFTWARE DE SIMULACIN MATLAB ........................................................... 157
5.2.1 DESCRIPCIN GENERAL ............................................................................. 157
5.2.2 CARACTERSTICAS ...................................................................................... 157
5.2.3 GUIDE (GRAPHICAL USER INTERFACE DEVELOPMENT ENVIROMENT) ...
......................................................................................................................... 158
5.3 CRITERIOS DE DISEO .................................................................................... 158
5.4 IMPLEMENTACIN DEL ALGORITMO DE CODIFICACIN MP3 EN MATLAB ...
............................................................................................................................. 159
5.4.1 DIAGRAMAS DE FLUJO ................................................................................ 160
5.4.1.1 Proceso de adquisicin de la seal de audio de Microsoft *.wav ........... 160
5.4.1.2 Codificacin del archivo *.wav a un archivo de audio en formato
comprimido *.mp3 ................................................................................................... 161
5.4.1.2.1 Seleccin de parmetros necesarios para la codificacin ................. 161
5.4.1.2.2 Codificacin ......................................................................................... 161
5.4.1.2.3 Banco de filtros polifsico ................................................................... 163
5.4.1.2.4 Anlisis FFT ........................................................................................ 163
5.4.1.2.5 Transformada discreta del coseno modificada (MDCT) .................... 164
5.4.1.2.6 Cuantizacin y codificacin ................................................................ 164
5.4.1.2.7 Formato del flujo de bits MP3 vlido .................................................. 167
5.4.1.3 Proceso de adquisicin de la seal de audio en formato comprimido
*.mp3 .................................................................................................................. 168
5.4.1.4 Comparacin entre archivo de audio original *.wav y archivo en formato
de audio comprimido *.mp3.................................................................................... 169
5.4.2 IMPLEMENTACIN DEL BANCO DE FILTROS ........................................... 170
5.4.2.1 Filtro subbanda polifsico ........................................................................ 170
5.4.3 IMPLEMENTACIN DEL MODELO PSICOACSTICO ............................... 176
5.4.3.1 Anlisis FFT ............................................................................................. 176
5.4.3.2 Componentes tonales y no tonales ......................................................... 177
5.4.3.3 Reduccin de componentes enmascarantes .......................................... 180

5.4.3.4 Umbral de enmascaramiento individual .................................................. 181
5.4.3.5 Umbral de enmascaramiento global ........................................................ 181
5.4.4 IMPLEMENTACIN DE LA TRANSFORMADA DISCRETA DEL COSENO
MODIFICADA (MDCT) ............................................................................................... 181
5.4.5 IMPLEMENTACIN DE LA ETAPA DE CUANTIZACIN Y CODIFICACIN ...
......................................................................................................................... 182
5.4.6 IMPLEMENTACIN DEL FORMATO DE LA TRAMA MP3 .......................... 184

CAPTULO 6. .................................................................................................................... 187
PRUEBAS DE FUNCIONAMIENTO Y RESULTADOS ................................................... 187
6.1 INTRODUCCIN ................................................................................................ 187
6.2 PRUEBAS DE FUNCIONAMIENTO DEL CODIFICADOR ................................ 188
6.2.1 INTRODUCCIN ............................................................................................ 188
6.2.1.1 Especificaciones de hardware ................................................................. 188
6.2.1.2 Requerimientos de software .................................................................... 188
6.2.2 FUNCIONAMIENTO DEL CODIFICADOR ..................................................... 189
6.2.3 CARACTERSTICAS DE LOS ARCHIVOS CODIFICADOS ......................... 198
6.2.3.1 Archivos de audio .................................................................................... 198
6.2.3.1.1 Ritmo Folklore ..................................................................................... 198
6.2.3.1.2 Ritmo Ranchera .................................................................................. 199
6.2.3.1.3 Ritmo Rock .......................................................................................... 200
6.2.3.1.4 Ritmo Balada ....................................................................................... 200
6.2.3.1.5 Ritmo Instrumental .............................................................................. 201
6.2.3.2 Anlisis de las caractersticas del codificador ......................................... 202
6.2.4 COMPORTAMIENTO DEL CODIFICADOR ................................................... 204
6.2.4.1 Tiempo del proceso de codificacin vs. Tasa de bits ........................... 205
6.2.4.2 Tamao del archivo codificado vs. Tasa de bits ................................... 205
6.2.4.3 Radio de compresin vs. Tasa de bits ................................................... 206
6.2.4.4 Tamao del archivo comprimido vs. Duracin del archivo sin comprimir ....
.................................................................................................................. 207
6.2.4.5 Tamao del archivo comprimido vs. Tamao del archivo sin comprimir 208
6.3 ANLISIS DE RESULTADOS DE LOS ARCHIVOS CODIFICADOS ................ 208
6.3.1 PROGRAMAS UTILIZADOS .......................................................................... 208
6.3.1.1 Cool Edit Pro 2.0 ...................................................................................... 209
6.3.1.2 GoldWave 5.2 .......................................................................................... 210
6.3.2 PROPIEDADES Y REPRODUCCIN DE LOS ARCHIVOS CODIFICADOS .....
......................................................................................................................... 211
6.3.2.1 Propiedades de los archivos codificados ................................................ 211
6.3.2.2 Reproduccin de los archivos codificados .............................................. 213
6.3.3 ANLISIS DE LAS CARACTERSTICAS DE LOS ARCHIVOS CODIFICADOS
......................................................................................................................... 214
6.3.3.1 Anlisis de los archivos sin comprimir ..................................................... 215
6.3.3.1.1 Anlisis del archivo original en el dominio del tiempo ........................ 215
6.3.3.1.2 Anlisis del archivo original en el dominio de la frecuencia ............... 215

6.3.3.2 Anlisis de los archivos comprimidos ...................................................... 218
6.3.3.2.1 Anlisis del archivo codificado en el dominio del tiempo ................... 218
6.3.3.2.2 Anlisis del archivo codificado en el dominio de la frecuencia .......... 218

CAPTULO 7. .................................................................................................................... 221
CONCLUSIONES Y RECOMENDACIONES ................................................................... 221
7.1 CONCLUSIONES ............................................................................................... 221
7.2 RECOMENDACIONES ....................................................................................... 224

ANEXOS
ANEXO A .......................................................................................................................... A-1
MANUAL DE USUARIO ................................................................................................... A-1
A.1 DESCRIPCIN DEL PROGRAMA ..................................................................... A-1
A.2.1 REQUERIMIENTO DE SOFTWARE Y DE HARWARE ................................. A-2
A.1.1.1 Especificaciones de hardware ................................................................. A-2
A.1.1.2 Especificaciones de software .................................................................. A-2
A.2.2 ACCESO AL PROGRAMA ............................................................................. A-3
A.2 EJECUCIN DEL PROGRAMA ....................................................................... A-11
A.2.1 VENTANA MPEG1_LayerIII ......................................................................... A-11
A.2.2 VENTANA Codificador_MP3 ........................................................................ A-12
A.2.3 VENTANA Archivo_MP3 ............................................................................... A-19
A.2.4 VENTANA Comparacin_Wav_Mp3 ............................................................ A-23
A.3 MENS DEL CODIFICADOR ........................................................................... A-24
A.4 RESOLUCIN DE PROBLEMAS ..................................................................... A-33
A.5 RECOMENDACIONES ..................................................................................... A-35

ANEXO B .......................................................................................................................... B-1
INSTALACIN DEL TOOLBOX MP3 EN MATLAB........................................................ B-1
B.1 DESCRIPCIN DE LA INSTALACIN............................................................... B-1
B.2 INSTALACIN DEL TOOLBOX MP3 ................................................................. B-2
B.2.1 ALMACENAMIENTO DEL TOOLBOX............................................................ B-2
B.2.2 ADICIN DE LA RUTA DE ACCESO AL TOOLBOX .................................... B-2
B.2.3 COMPROBACIN DE LA INSTALACIN DEL TOOLBOX .......................... B-5

LISTA DE FIGURAS

Figura 1. 1 Rarefaccin y compresin en una onda sonora ................................................. 4
Figura 1. 2 Rangos y umbrales de audicin ......................................................................... 7
Figura 1. 3 Intensidad vs. Distancia ...................................................................................... 8
Figura 1. 4 Frecuencia del sonido ....................................................................................... 10
Figura 1. 5 Comparacin de la gama de frecuencias que escuchan ................................. 11
Figura 1. 6 Frecuencia fundamental (f) y armnicas (2f, 3f) .............................................. 12
Figura 1. 7 Dos ondas sinusoidales en diferente relacin de fase ..................................... 13
Figura 1. 8 Representacin grfica del espectro del sonido .............................................. 14
Figura 1. 9 Onda de sonido emitida por un diapasn ......................................................... 15
Figura 1. 10 Clasificacin de la voz por tesitura ................................................................. 19
Figura 1. 11 El odo humano ............................................................................................... 21
Figura 1. 12 Respuesta de frecuencia del canal auditivo ................................................... 22
Figura 1. 13 Izquierda, los tres huesitos del odo medio. Derecha, su mecnica ............. 24
Figura 1. 14 Onda viajera en la membrana basilar ............................................................ 25
Figura 1. 15 Esquema de las bandas crticas del sistema auditivo humano ..................... 26
Figura 1. 16 Enmascaramiento ........................................................................................... 29
Figura 1. 17 Enmascaramiento por un tono de 1 KHz ....................................................... 29
Figura 1. 18 Enmascaramiento temporal ............................................................................ 30
Figura 1. 19 Diferencia entre sonido y audio ...................................................................... 32
Figura 1. 20 Representacin de una seal analgica (seal elctrica) ............................. 32
Figura 1. 21 Audio analgico............................................................................................... 33
Figura 1. 22 Muestreo de una seal analgica ................................................................... 35
Figura 1. 23 Aliasing en el dominio de la frecuencia .......................................................... 37
Figura 1. 24 Aliasing en el dominio del tiempo ................................................................... 37
Figura 1. 25 Cuantizacin con tres bits ............................................................................... 38
Figura 1. 26 Cuantizacin y ruido de cuantizacin ............................................................. 39
Figura 1. 27 Izquierda, seal sin dither. Derecha, seal con dither ................................... 40
Figura 1. 28 Cuantizacin uniforme .................................................................................... 40
Figura 1. 29 Cuantizacin no uniforme ............................................................................... 41
Figura 1. 30 Cuantizador ley A ........................................................................................... 42
Figura 1. 31 Ejemplo de codificacin de una seal ............................................................ 44
Figura 1. 32 La computadora en sistemas de audio digital ................................................ 46
Figura 1. 33 Tarjeta de sonido ............................................................................................ 48

Figura 2. 1: Compresin utilizada en transmisin............................................................... 57
Figura 2. 2: Compresin utilizada en almacenamiento ...................................................... 58
Figura 2. 3: Ejemplo de codificacin Huffman .................................................................... 66
Figura 2. 4: Mnimo umbral auditivo (ambiente silencioso) ................................................ 73
Figura 2. 5: Esquema de un codificador perceptual de audio ............................................ 74
Figura 2. 6: Diagrama de bloques de un codificador de sub-bandas................................. 76
Figura 2. 7: Diagrama de bloques de un codificador ADPCM ............................................ 77

Figura 3. 1: iPod Hibrido .................................................................................................... 101
Figura 3. 2: iPod Shuffle de 2 GB ..................................................................................... 102

Figura 4. 1: Creadores del formato MP3, .......................................................................... 104
Figura 4. 2: Codificador segn la norma ISO/IEC 11172-3 .............................................. 109
Figura 4. 3: Diagrama de bloques de un codificador MP3 ............................................... 111
Figura 4. 4: Banco de filtros polifsicos ............................................................................ 120
Figura 4. 5: Divisin en subbandas de las muestras de audio ......................................... 123
Figura 4. 6: Diagrama de bloques de las operaciones de la MDCT ................................ 124
Figura 4. 7: Ventanas de datos usadas durante el proceso MP3 .................................... 126
Figura 4. 8: Codificacin Huffman ..................................................................................... 130
Figura 4. 9: Algoritmo Huffman ......................................................................................... 131
Figura 4. 10: Ejemplo de uso de la reserva de bits (bit reservoir) .................................... 131
Figura 4. 11: Decodificador segn la norma ISO 11172-3 ............................................... 134
Figura 4. 12: Formato de la trama MP3 ............................................................................ 135
Figura 4. 13: Encabezado de la trama MP3 ..................................................................... 136
Figura 4. 14: Formato de la informacin secundaria ........................................................ 142
Figura 4. 15: Informacin secundaria para cada grnulo ................................................. 143
Figura 4. 16: Campos incluidos en los datos principales ................................................. 146
Figura 4. 17: Ejemplo ilustrativo ........................................................................................ 148
Figura 4. 18: Curiosos reproductores mp3 ....................................................................... 151

Figura 5. 1: Diagrama de flujo para la adquisicin de la seal de audio de Microsoft *.wav
........................................................................................................................................... 160
Figura 5. 2: Diagrama de flujo para la seleccin de los parmetros necesarios para la
codificacin ........................................................................................................................ 161
Figura 5. 3: Diagrama de flujo para la codificacin del archivo *.wav a un archivo de audio
en formato comprimido *.mp3 ........................................................................................... 162
Figura 5. 4: Diagrama de flujo para la etapa correspondiente al banco de filtros ........... 163
Figura 5. 5: Diagrama de flujo para el anlisis FFT del Modelo psicoacstico I .............. 163
Figura 5. 6: Diagrama de flujo para la transformada discreta del coseno modificada
MDCT ................................................................................................................................. 164
Figura 5. 7: Diagrama de flujo del lazo de iteracin para la cuantizacin no uniforme ... 165
Figura 5. 8: Diagrama de flujo del lazo de iteracin para el ciclo externo ....................... 166
Figura 5. 9: Diagrama de flujo del lazo de iteracin para el ciclo interno ........................ 166
Figura 5. 10: Diagrama de flujo para el formato de la trama MP3 y obtencin del flujo de
bits MP3 vlido bajo el estndar internacional ISO/IEC 11172-3 .................................... 167
Figura 5. 11: Diagrama de flujo para la lectura del archivo de audio comprimido *.mp3 ......
........................................................................................................................................... 168
Figura 5. 12: Diagrama de flujo para la comparacin del archivo .wav y el archivo de
audio comprimido .mp3 ..................................................................................................... 169
Figura 5. 13: Artefactos de audio presentes en la seal de audio codificada a 160 Kbps
........................................................................................................................................... 173

........................................................................................................................................... 173
Figura 5. 15: a) Ventana de anlisis recomendada en el estndar b) Ventana modificada
en el diseo e implementada para velocidades superiores a 128 Kbps .......................... 174
Figura 5. 16: Eliminacin de los artefactos de audio presentes en la seal de audio
codificada a 160 Kbps ....................................................................................................... 175
codificada a 320 Kbps ....................................................................................................... 175

Figura 6. 1: Primera ventana del codificador (Ventana de la cartula) ............................ 189
Figura 6. 2: Segunda ventana del codificador, ventana Codificador_MP3.................... 190
Figura 6. 3: Opcin para abrir archivo sin comprimir *.wav .............................................. 190
Figura 6. 4: Seleccin y apertura del archivo *.wav ......................................................... 190
Figura 6. 5: Seales de archivo de audio de entrada, indicaciones y parmetros de
codificacin ........................................................................................................................ 191
Figura 6. 6: Eleccin de la tasa de bits ............................................................................. 191
Figura 6. 7: Parmetros mostrados despus de seleccionar la tasa de bits ................... 192
Figura 6. 8: Ingreso del tiempo que se desea codificar del archivo original (no codificado)
........................................................................................................................................... 192
Figura 6. 9: Ejecucin de la codificacin ........................................................................... 193
Figura 6. 10: Finalizacin del proceso de codificacin ..................................................... 193
Figura 6. 11: Activacin del botn Ver MP3 para activar la ventana Archivo_MP3 .... 194
Figura 6. 12: Ventana Archivo_MP3 .............................................................................. 195
Figura 6. 13: Opcin para abrir archivo codificado *.MP3 ................................................ 195
Figura 6. 14: Seleccin y apertura del archivo del archivo codificado (*.mp3) ................ 195
Figura 6. 15: Caractersticas del archivo codificado ......................................................... 196
Figura 6. 16: Resumen de la codificacin ......................................................................... 196
Figura 6. 17: Comparacin de las caractersticas de los archivos
sin codificacin (izquierda) y con codificacin (derecha) ................................................. 197
Figura 6. 18: Tiempo del proceso de codificacin vs. Tasa de bits ............................... 205
Figura 6. 19: Tiempo del archivo codificado vs. Tasa de bits ........................................ 205
Figura 6. 20: Radio de compresin vs. Tasa de bits ....................................................... 206
Figura 6. 21: Tamao del archivo comprimido vs. Duracin del archivo sin comprimir... 207
Figura 6. 22: Tamao del archivo comprimido vs. Tamao del archivo sin comprimir .... 208
Figura 6. 23: Ventana principal de Cool Edit Pro 2.0 ....................................................... 209
Figura 6. 24: Ventana principal de GoldWave 5.2 ............................................................ 210
Figura 6. 25: Caractersticas de archivo de audio codificado (Explorador de Windows) 211
Figura 6. 26: Ventana principal de Cool Edit Pro 2.0 y venta de propiedades del audio 212
Figura 6. 27: Caractersticas del archivo de audio codificado (Programa: Cool Edit Pro
2.0) ..................................................................................................................................... 212
Figura 6. 28: Reproduccin del archivo de comprimido (Programa: Cool Edit Pro 2.0) .. 213
Figura 6. 29: Reproduccin del archivo de comprimido (Programa: GoldWave 5.2) ...... 214
Figura 6. 30: Archivo de audio original en el dominio del tiempo ..................................... 215
Figura 6. 31: Opcin para activar la ventana del anlisis de frecuencia .......................... 215
Figura 6. 32: Anlisis en frecuencia del archivo audio original (en 2,199 segundos) ...... 216

Figura 6. 33: Anlisis en frecuencia del archivo audio en varios instantes de tiempo .... 216
Figura 6. 34: Anlisis de frecuencia del archivo audio obtenido con el codificador y
comparando con el anlisis de frecuencia obtenido con Cool Edit Pro 2.0 ..................... 217
Figura 6. 35: Archivo de audio codificado en el dominio del tiempo ................................ 218
Figura 6. 36: Anlisis en frecuencia del archivo de audio codificado obtenido con el
codificador y comparando con el anlisis de frecuencia obtenido con Cool Edit Pro 2.0..
.............................................................................. ..219

Figura A. 1: Archivos del Codificador MPEG-1 Layer III .................................................. A-1
Figura A. 2: Procesador de la computadora utilizada para correr el programa ............... A-2
Figura A. 3: Especificaciones de software para el codificador MPEG-1 Layer III ............ A-3
Figura A. 4: Archivos *.fig y *.m de MatLab ...................................................................... A-3
Figura A. 5: Ventana principal de Matlab y comando para acceder a las herramientas de
la interfaz grfica de usuario ............................................................................................. A-4
Figura A. 6: Ventana de inicio rpido de la interfaz grfica de usuario ............................ A-5
Figura A. 7: Bsqueda de la interfaz grfica de inters.................................................... A-5
Figura A. 8: Archivos *.fig correspondientes a las interfaces grficas ............................. A-6
Figura A. 9: Archivo *.fig correspondiente a la interfaz grfica ........................................ A-6
Figura A. 10: Actualizacin del directorio y ruta de acceso al archivo ............................. A-7
Figura A. 11: Acceso a la ventana de cartula del codificador mediante la utilizacin del
ambiente grfico ................................................................................................................ A-7
Figura A. 12: Apertura de archivos ................................................................................... A-8
Figura A. 13: Bsqueda y seleccin del archivo *.m perteneciente al codificador .......... A-8
Figura A. 14: Apertura del archivo MPEG1_LayerIII.m .................................................... A-9
Figura A. 15: Actualizacin del directorio y ruta de acceso al archivo ............................. A-9
Figura A. 16: Acceso a la ventana de cartula del codificador mediante la utilizacin del
editor de archivos .m ....................................................................................................... A-10
Figura A. 17: Archivo MPEG1_LayerIII.m ....................................................................... A-10
Figura A. 18: Cartula del codificador ............................................................................. A-11
Figura A. 19: Mensaje al seleccionar el botn SALIR .................................................. A-12
Figura A. 20: Segunda ventana del codificador, ventana Codificador_MP3 .............. A-12
Figura A. 21: Opcin para abrir archivo sin comprimir *.wav ......................................... A-13
Figura A. 22: Seleccin y apertura del archivo *.wav ..................................................... A-13
Figura A. 23: Procesamiento de archivo de audio de entrada ....................................... A-14
Figura A. 24: Botones de reproduccin multimedia ........................................................ A-14
Figura A. 25: Seales de archivo de audio de entrada, indicaciones y parmetros de
codificacin ...................................................................................................................... A-15
Figura A. 26: Eleccin de la tasa de bits ......................................................................... A-16
Figura A. 27: Parmetros mostrados despus de seleccionar la tasa de bits ............... A-16
Figura A. 28: Ingreso del tiempo de codificacin ............................................................ A-17
Figura A. 29: Ejecucin de la codificacin ...................................................................... A-17
Figura A. 30: Finalizacin del proceso de codificacin ................................................... A-18
Figura A. 31: Activacin del botn Ver MP3 para activar la ventana Archivo_MP3 . A-19
Figura A. 32: Tercera ventana del codificador, ventana Archivo_MP3 ...................... A-20
Figura A. 33: Opcin para abrir archivo codificado *.MP3 ............................................. A-20

Figura A. 34: Seleccin y apertura del archivo del archivo codificado (*.mp3) .............. A-21
Figura A. 35: Caractersticas del archivo codificado ...................................................... A-21
Figura A. 36: Caractersticas del archivo codificado ...................................................... A-22
Figura A. 37: Resumen de la codificacin ...................................................................... A-22
Figura A. 38: Comparacin de las caractersticas de los archivos sin codificacin
(izquierda) y con codificacin (derecha) ......................................................................... A-23
Figura A. 39: Men Abrir y opcin Archivos .WAV .................................................... A-24
Figura A. 40: Men Abrir y opcin Archivos .MP3 ..................................................... A-24
Figura A. 41: Men Estndar ISO/IEC 11172-3 y opciones correspondientes ........... A-25
Figura A. 42: Men Guardar Imgenes y opciones correspondientes ........................ A-25
Figura A. 43: Almacenamiento de la imagen de la seal correspondiente .................... A-26
Figura A. 44: Men Crditos y submen Autores ...................................................... A-26
Figura A. 45: Men Crditos y submen Autores ...................................................... A-27
Figura A. 46: Biografa resumida de autores .................................................................. A-27
Figura A. 47: Men ADICIONAL* y opcin Efectos de audio .................................... A-28
Figura A. 48: Ventana principal de los efectos de audio ................................................ A-28
Figura A. 49: Apertura de archivos *.WAV o *.MP3 para aplicar efectos de audio ....... A-28
Figura A. 50: Apertura del archivo de audio para aplicar el efecto deseado ................. A-29
Figura A. 51: Procesamiento del archivo original (archivo sin efectos) ......................... A-29
Figura A. 52: Efectos de audio disponibles .................................................................... A-30
Figura A. 53: Archivos de audio con efectos .................................................................. A-31
Figura A. 54: Efectos: eco, inversin temporal y variacin de la velocidad (de izquierda a
derecha) ........................................................................................................................... A-31
Figura A. 55: Efectos: ...................................................................................................... A-32
Figura A. 56: Utilizacin del ecualizador ......................................................................... A-32
Figura A. 57: Grabacin del archivo de audio con efectos ............................................. A-33
Figura A. 58: Error en la frecuencia de muestreo ........................................................... A-34
Figura A. 59: Error al ingresar un tiempo muy pequeo................................................. A-34
Figura A. 60: Error al ingresar un tiempo muy grande ................................................... A-34
Figura A. 61: Mensaje de error al introducir un valor no numrico (Ejemplo: letra A) A-35
Figura A. 62: Uso de recursos (CPU y memoria RAM) .................................................. A-35

Figura B. 1: Almacenamiento del toolbox en el directorio correspondiente ..................... B-2
Figura B. 2: Direccionamiento de la ruta donde se encuentra el toolbox ........................ B-3
Figura B. 3: Adicin de carpetas y subcarpetas pertenecientes al toolbox ..................... B-3
Figura B. 4: Direccionamiento del toolbox requerido ........................................................ B-4
Figura B. 5: Almacenamiento y actualizacin de cambios ............................................... B-4
Figura B. 6: Comprobacin del funcionamiento del toolbox ............................................. B-5

LISTA DE TABLAS
Tabla 1. 1 Niveles de presin sonora en decibeles e intensidad sonora en watts .............. 7
Tabla 1. 2 Niveles de intensidad de la voz humana ........................................................... 18
Tabla 1. 3 Frecuencias de la voz por tesitura ..................................................................... 19
Tabla 1. 4 Escala de Barks, para estimacin de las bandas crticas ................................. 28
Tabla 1. 5 Espacio en disco para la grabacin de audio digital ......................................... 50
Tabla 1. 6 Formatos de fichero autodescriptivos ................................................................ 52

Tabla 2. 1: Smbolos y sus respectivas frecuencias (Codificacin Huffman) .................... 65
Tabla 2. 2: Caractersticas tcnicas de cdecs de audio ................................................... 71
Tabla 2. 3: Ejemplos de cdecs de audio con y sin prdida .............................................. 72
Tabla 2. 4: Tamaos del archivo WAV ............................................................................... 79
Tabla 2. 5: Caractersticas de los estndares MPEG ......................................................... 82
Tabla 2. 6: Partes del estndar MPEG-1 ............................................................................ 84
Tabla 2. 7: Partes del estndar MPEG-2 ............................................................................ 85
Tabla 2. 8: Cuadro comparativo de las caractersticas de los algoritmos de compresin de
audio .................................................................................................................................... 89

Tabla 3. 1: Deformacin de un sistema de audio ............................................................... 97
Tabla 3. 2: Caractersticas del iPod Shuffle de 2 GB ....................................................... 102

Tabla 4. 1: Razn de compresin de acuerdo al ancho de banda, modo, bitrate y radio de
compresin ........................................................................................................................ 119
Tabla 4. 2: Valores posibles para los bits 18 y 17 para indicar cul capa de MPEG-1 se
utiliza .................................................................................................................................. 136
Tabla 4. 3: Codificacin para la tasa de bits ..................................................................... 137
Tabla 4. 4: Codificacin para la frecuencia de muestreo ................................................. 137
Tabla 4. 5: Codificacin para el modo de canal ................................................................ 138
Tabla 4. 6: Codificacin de la extensin al modo ............................................................. 140
Tabla 4. 7: Codificacin de la informacin de nfasis ...................................................... 140

Tabla 5. 1: Coeficientes Ci de la ventana de anlisis segn el estndar ......................... 172
Tabla 5. 2: Frecuencias, Tasas de Bandas Crticas y Umbral Absoluto .......................... 179
Tabla 5. 3: Lmites de las bandas crticas......................................................................... 180

Tabla 6. 1: Caractersticas del archivo monofnico sin codificacin, ritmo Folklore........ 198
Tabla 6. 2: Caractersticas de los archivos codificados, ritmo Folklore ........................... 199
Tabla 6. 3: Caractersticas del archivo monofnico sin codificacin, ritmo Ranchera ..... 199
Tabla 6. 4: Caractersticas de los archivos codificados, ritmo Ranchera ........................ 199

Tabla 6. 5: Caractersticas del archivo monofnico sin codificacin, ritmo Rock ............ 200
Tabla 6. 6: Caractersticas de los archivos codificados, ritmo Rock ................................ 200
Tabla 6. 7: Caractersticas del archivo monofnico sin codificacin, ritmo Balada ......... 200
Tabla 6. 8: Caractersticas de los archivos codificados, ritmo Balada ............................. 201
Tabla 6. 9: Caractersticas del archivo monofnico sin codificacin, ritmo Instrumental 201
Tabla 6. 10: Caractersticas de los archivos codificados, ritmo Instrumental .................. 201
Tabla 6. 11: Caractersticas del archivo original (no codificado), ritmo balada ............... 204
Tabla 6. 12: Caractersticas de los archivos codificados (comprimidos), ritmo balada ... 204
Tabla 6. 13: Caractersticas del archivo original (no codificado). ..................................... 206
Tabla 6. 14: Caractersticas de los archivos codificados a 128 [Kbps] ............................ 207

XXII

RESUMEN

El presente proyecto de titulacin se constituye como un referente tcnico para el
desarrollo de temas orientados al procesamiento digital de seales y
especialmente a la compresin de audio, ya que, en la actualidad casi todos los
sistemas emplean formatos de audio comprimidos, sin prdidas significativas en
la calidad.

El enfoque de este proyecto es el siguiente: en los primeros 4 captulos se
presenta una descripcin terica de los temas directamente involucrados con el
proyecto.

En el primer captulo se realiza un estudio del sonido, donde se incluyen aspectos
como su definicin, fsica y las fuentes que lo generan. Se presentan tambin
aspectos relacionados con el sistema fonatorio, la psicoacstica y el
funcionamiento del sistema auditivo humano.

Adems, este captulo contiene un anlisis del audio digital y la digitalizacin de
seales analgicas, diferenciando el sonido del audio y presentando
caractersticas tanto del audio analgico como del audio digital.

En el segundo captulo se describe el proceso de compresin de audio,
justificando la necesidad para la compresin, su utilidad y las tcnicas
desarrolladas para comprimir, de las cuales, se detallan la compresin con y sin
prdida de informacin. Dentro de la compresin con prdida de informacin
(lossy) se presenta la codificacin por transformada, mientras tanto, en la
compresin sin prdida de informacin (lossless) se presenta la codificacin
estadstica con la codificacin Huffman.

Adems, este captulo presenta un anlisis de la codificacin perceptual, la
codificacin de sub-bandas y de los algoritmos de compresin de audio ms
utilizados como: WAVE Audio Format, ADPCM Audio Compression, FLAC,
MPEG-4 Audio Lossless Coding (ALS) y Advanced Audio Coding (AAC).
XXIII

En el tercer captulo se hace referencia a los sistemas de alta fidelidad y su
relacin con los formatos de audio comprimidos, haciendo nfasis a la relacin
con el formato de audio MP3.

En el cuarto captulo se muestra al detalle el formato MP3 basado en los aspectos
principales del estndar ISO/IEC 11172-3 (MPEG-1 Capa 3), donde se incluyen
aspectos como la codificacin y el formato de las tramas MP3. Se presentan
tambin curiosidades e innovaciones que ha tenido el formato de audio en la
actualidad.

En el captulo cinco se discuten los parmetros de diseo y se describe de
manera especfica como fueron implementados los diferentes bloques que
componen el codificador MP3 segn la norma ISO/IEC 11172-3 para compresin
de audio en software de simulacin Matlab, mediante el uso de tcnicas digitales
para el procesamiento de seales y la utilizacin de la interfaz grfica GUI
(Graphical User Interface) de Matlab para crear un ambiente amigable al usuario.

En el captulo seis se indican las pruebas realizadas al codificador MP3
implementado en Matlab para demostrar la funcionalidad del software
desarrollado, as como, las pruebas mediante la comparacin de archivos
comprimidos con archivos originales en relacin al tamao del archivo y sus
caractersticas en tiempo y frecuencia, con la ayuda de software comerciales,
como el Cool Edit Pro 2.0 y Gold Wave v5.52.

En el captulo siete se presentan las conclusiones y recomendaciones del
proyecto de titulacin.

Finalmente como complemento se anexan materiales de apoyo relacionados con
la implementacin del codificador MP3 basados en la norma ISO/IEC 11172-3 y
un manual de usuario del codificador MP3 implementado en Matlab.

XXIV

PRESENTACIN

En la actualidad los sistemas multimedia estn teniendo una gran importancia y
una amplia variedad de dispositivos incluyen entre sus caractersticas la
reproduccin de audio. Cada vez ms, estos dispositivos admiten una mayor
variedad de formatos y soportes de almacenamiento como discos duros, CDs,
DVDs, memorias Flash, etc.

Muchos de los dispositivos poseen una capacidad de almacenamiento limitado lo
que hace necesario la utilizacin de formatos comprimidos que permitan
almacenar estos elementos multimedia con una calidad aceptable y en muchos
casos sin prdida aparente de sta.

De la necesidad de obtener un formato de audio comprimido de alta calidad surgi
el algoritmo MP3 para compresin de audio.

El presente proyecto de titulacin tiene como objetivo principal desarrollar e
implementar un codificador MP3 en software de simulacin Matlab,
completamente detallado y considerando los aspectos tcnicos del formato de
audio comprimido MP3, bajo el estndar ISO/IEC 11172-3, que sea capaz de
comprimir un archivo de audio en formato WAV de Microsoft, en un archivo de
audio en formato MP3 (MPEG-1 Capa III), con tasas de transferencia entre 96 a
320 Kbps y una frecuencia de muestreo de 44.100 Hz, pretendiendo lograr con
esto una reduccin significativa de la cantidad de bits para obtener la mxima
transferencia (almacenamiento) de la informacin con un mnimo nmero de bits
posible, lo que se traduce en un ahorro en el ancho de banda y la optimizacin del
uso del espectro; considerando que al reproducir el archivo de audio comprimido,
la diferencia en comparacin con el archivo de audio original sea mnima. La
implementacin del modelo se lo hace en un ambiente amigable al usuario
utilizando la interfaz grfica GUI (Graphical User Interface) de Matlab, permitiendo
crear una interaccin entre el usuario y el codificador MP3 implementado en
Matlab.

CAPTULO 1.
ESTUDIO DEL SONIDO

1.1 EL SONIDO

1.1.1 INTRODUCCIN

Mucho de lo que aprendemos de nuestro mundo nos llega a travs de nuestro
sentido del odo. El or es importante no solamente para aprender del mundo, sino
tambin para comunicarse con otros humanos, y con los animales. Podemos
identificar a personas por el sonido nico de su voz o por el sonido de sus
pisadas. Podemos identificar a los animales por sus sonidos: el canto de los
pjaros, el rugido de los leones, el zumbido de los insectos, etc.

El sonido es una parte importante de nuestra vida. Es uno de los primeros
estmulos a que reaccionan los recin nacidos, y su presencia o ausencia nos
forma y afecta durante nuestra vida.

Los sonidos son creados por vibraciones. Cuando un objeto vibra, se ponen en
movimiento molculas de aire. Este movimiento se parece a ondas. Las ondas se
alejan de la fuente de vibracin como las pequeas olas en una laguna cuando se
tira una piedra al agua. Las vibraciones que se producen en el aire se captan por
nuestro odo y se escuchan como sonidos. Cuando hablamos, las cuerdas
vocales vibran, creando as ondas sonoras que, al llegar a nuestro odo, se
escuchan como habla.

El hombre, as como la gran mayora de las especies animales (y probablemente
algunas vegetales), ha desarrollado la capacidad de usar el sonido para recibir y
transmitir informacin. El sentido del odo ofrece ventajas con respecto a los otros
sentidos. No necesita conexin directa como la vista, ni contacto fsico como el
2

tacto o el gusto, permanece activo durante el sueo y es mucho ms rpido que el
olfato a los fines de detectar situaciones de riesgo. Por otra parte, es el nico
sentido que acta de una forma analtica, es decir, es capaz de descomponer el
sonido en sus componentes (frecuencias) individuales, lo cual le permite distinguir
unos sonidos en presencia de otros. Adems, la voz humana es nica en su
habilidad de expresar ideas abstractas.

El silencio tambin es un medio expresivo. No es slo la ausencia de sonido.
Desde el punto de vista comunicativo, es una forma del sonido.

1.1.2 DEFINICIN

Para la mayora de nosotros, el sonido es un fenmeno muy familiar, porque lo
omos todo el tiempo. No obstante, cuando nosotros intentamos definir el sonido,
nos encontramos que podemos acercarnos a ste concepto desde dos puntos de
vista diferentes, y terminamos con dos definiciones [2], como sigue:

Una definicin cientfica: El sonido es una perturbacin fsica en un medio elstico
(gaseoso, lquido o slido). Se propaga en el medio como una onda de presin
por el movimiento de tomos o molculas.

Una definicin psicoacstica: El sonido es la sensacin detectada por nuestros
odos e interpretada por nuestro cerebro de una cierta manera.

Como vemos, los rasgos comunes en las definiciones refieren a:
1. Un elemento que vibra (fuente generadora del sonido)
2. Un medio transmisor de las ondas
3. Un estmulo sobre el sentido auditivo (receptor u oyente del sonido)

Los dos primeros elementos se refieren al sonido como fenmeno fsico. El sonido
como fenmeno fsico nos interesa en nuestro proyecto para comprender lo que
hacemos cuando manipulamos sonido digital. El tercero podemos analizarlo
3

desde el punto de vista fisiolgico, psicolgico y comunicacional, y es el que nos
interesa particularmente en el proceso de elaborar comunicacin multimedia.

De las definiciones tambin se desprende que no toda vibracin del aire puede
ser considerada sonido: slo aquella capaz de estimular el sentido auditivo.
Existen umbrales superiores e inferiores de frecuencia, por arriba y por abajo de
los cuales las vibraciones no pueden ser registradas por el odo.

Nosotros normalmente omos el sonido cuando se propaga a travs del aire y
golpea el diafragma en nuestros odos. Sin embargo, el sonido puede propagarse
en muchos medios de comunicacin diferentes. Los buenos aisladores de sonido
son raros, y el mejor aislador es el vaco, donde no hay ninguna partcula para
vibrar y propagar la perturbacin, es decir, no existe un medio cuya presin
cambie.

1.1.3 FSICA DEL SONIDO

Para que haya sonido es preciso que un cuerpo material vibre, que haya un
soporte material que propague esas vibraciones y, por ltimo, que las mismas
sean capaces de impresionar los nervios auditivos del odo. Por lo tanto, el sonido
tambin puede ser considerado una onda, aunque su frecuencia puede cambiar
todo el tiempo.

Las ondas de sonido son longitudinales, el desplazamiento de las partculas es
paralelo a la direccin de propagacin de la onda y tiene un carcter similar al de
las perturbaciones longitudinales en un resorte. Cuando esta onda alcanza alguna
superficie (como el tmpano del odo humano o la membrana de un micrfono),
produce una vibracin en dicha superficie por resonancia. De esta forma, la
energa acstica es transferida desde la fuente al receptor manteniendo las
caractersticas de la vibracin original. En contraste, las ondas electromagnticas
y ondas del ocano son ondas transversales, sus ondulaciones son
perpendiculares a la direccin de la onda.
4

1.1.3.1 Ondas de sonido

El sonido es una seal producida por una fuente en vibracin. Esta vibracin
perturba las molculas de aire adyacentes a la fuente en sincronismo con la
vibracin, creando zonas donde la presin del aire es menor a la presin
atmosfrica (rarefaccin o enrarecimiento) y zonas donde la presin del aire es
mayor a la presin atmosfrica (compresin). Estas zonas de rarefaccin y
compresin, generan una onda de sonido la cual viaja a travs del aire.

Las ondas en general poseen ciertas propiedades comunes. Las ondas
transportan informacin de un lugar a otro y tambin transportan energa. Las
ondas son parametrizables, lo que quiere decir que pueden describirse de
acuerdo a algunos pocos parmetros.

Los cuatro parmetros ms comunes son: amplitud, periodo, fase y forma de
onda. Existen algunos otros parmetros tales como frecuencia, espectro o
intensidad que pueden derivarse de los parmetros mencionados anteriormente
[6]. En la figura 1.1 se muestran algunos de ellos.

COMPRESIN
RAREFACCIN
TIEMPO
PERIODO
AMPLITUD

Figura 1. 1 Rarefaccin y compresin en una onda sonora

1.1.3.2 Medicin del sonido

El sonido en su dimensin fsica es medible o cuantificable. Existen parmetros
que pueden ser medidos en forma precisa como su intensidad y otros pueden ser
estimados con mayor o menor precisin como la frecuencia o su forma de onda.
5

El sonido fundamentalmente es una onda de presin, y la presin (P) puede
medirse de la siguiente forma:

P = F o / (Ec. 1.1)

Donde, F es una fuerza ejercida y o es una unidad de rea determinada. La
presin corresponde a la fuerza ejercida en forma perpendicular a una superficie
dividida por el rea de sta superficie.

Las ondas de sonido transportan energa. La energa es una medida abstracta de
mucha utilidad en la fsica, dado que se define de tal forma que en un sistema
cerrado la energa siempre es constante, principio que se conoce como la
conservacin de la energa. La energa se mide en unidades de masa por
velocidad al cuadrado y usualmente se mide en [Joules]. Una importante medida
del sonido es su potencia, la cual corresponde a la energa total por unidad de
tiempo y se mide en [Joules/seg].

1.1.3.3 Velocidad del sonido

El sonido necesita de un medio para propagarse. El sonido puede viajar a travs
de objetos slidos, lquidos o gases. Su velocidad es proporcional a la densidad
del medio por el cual viaja. En aire, al nivel del mar y a 20 Celsius (68
Fahrenheit), la velocidad del sonido es 343,8 m/s (metros por segundo), y en
agua, es de 1.500 m/s. La velocidad del sonido es independiente de su intensidad
y su intensidad decae con la distancia en forma inversamente proporcional. Las
frecuencias altas se propagan ms rpidamente que las bajas frecuencias.

1.1.3.4 Longitud de onda del sonido

La longitud de onda (z) es la distancia recorrida por la onda sonora. El rango
perceptible por la audicin humana vara entre menos de 2 cm (una pulgada) y
6

aproximadamente los 17 metros (56 pies). La longitud de onda es inversamente
proporcional a la frecuencia del sonido.

z = c / (Ec. 1.2)

Donde, c es la velocidad del sonido (343,8 m/s) y es la frecuencia.

1.1.3.5 Amplitud

La amplitud de un sonido corresponde a la magnitud del cambio, sea este positivo
o negativo, de la presin atmosfrica causado por la compresin y rarefaccin de
las ondas acsticas. Esta cantidad es un indicador de la magnitud de energa
acstica de un sonido y es el factor que determina que tan fuerte se percibe un
sonido. Por lo tanto, la amplitud refiere a la altura de la onda sonora y significa la
intensidad o volumen del sonido. Amplitud cero equivale a silencio, amplitudes
pequeas a sonidos leves y amplitudes grandes a sonidos fuertes o intensos.

La amplitud es la magnitud de la presin de aire medida en Pascales (Pa), y el
volumen es la percepcin de esa amplitud por el odo humano, algunas veces es
llamado tambin sonoridad. El volumen del sonido depende de la amplitud de
onda y sta vara segn el valor de la presin que lo genera.

El odo de una persona sana puede detectar una presin sonora cuya amplitud
sea 20 millonsimas de Pascal (20 Pa), lo que representa unas 5.000 millones
de veces menor que la presin atmosfrica normal [2]. Sorprendentemente el odo
humano puede tolerar presiones sonoras superiores a un milln de veces ms
altas. Si midiramos el sonido en Pa utilizaramos unas cantidades enormes e
inimaginables. Para evitar esto se utiliza otra escala como es el decibelio (dB). El
decibelio no es una unidad de medida absoluta (no tiene unidades fsicas). Es una
relacin logartmica entre una cantidad medida y un nivel de referencia acordado
(20 Pa). Esto permite que la escala de decibelios se aproxime mucho mejor a la
percepcin humana de sonoridad relativa que la escala en Pa, ya que, el odo
reacciona a un cambio logartmico de nivel de presin sonora.
7

En trminos de nivel de presin sonora, los sonidos audibles van desde el umbral
de audicin de 0 dB hasta el umbral del dolor que est alrededor de 130 dB. El
cambio ms pequeo que podemos percibir corresponde a 3 dB y cada 10 dB el
sonido parece, subjetivamente, que se dobla (fsicamente se dobla cada 6dB).
Los sonidos superiores a 110 dB producen sensacin dolorosa y la exposicin
permanente a esos niveles provoca la disminucin de la capacidad auditiva. En la
figura 1.2 se pueden apreciar los rangos y umbrales de audicin.

Figura 1. 2 Rangos y umbrales de audicin

Nivel de presin
sonora (dB)
Intensidad sonora
(W/m
2
)
Sonido
195 25x10
6
a 40x10
6
Cohete Saturno
170 10
5
Jet
160 10
4
Disparo de arma de fuego
150 10
3
Perforacin instantnea del tmpano
140 10
2
Avin a reaccin (a 30m de distancia)
130 10 Orquesta de 75 instrumentos
120 1

Taladro neumtico, avin despegando
110 10
-1
Remachadora
100 10
-2
Automvil de carrera
90 10
-3
Tren subterrneo
80 10
-4
Trfico pesado
70 10
-5
Canto
60 10
-6
Trfico normal
50 10
-7
Conversacin normal
40 10
-8
Canto de pjaros
30 10
-9
Casa tranquila
20 10
-10
Conversacin en voz baja
10 10
-11
Ruido de hojas
0 10
-12
Estudio de grabacin en silencio
Tabla 1. 1 Niveles de presin sonora en decibeles e intensidad sonora en watts [4]
8

1.1.3.5.1 Intensidad

La intensidad del sonido caracteriza la razn a la cual la energa es entregada en
la sensacin audible asociada con la amplitud. Suponiendo una fuente puntual
que irradia energa uniforme en todas las direcciones, entonces la presin sonora
vara en forma inversamente proporcional a la distancia medida desde la fuente y
la intensidad cambia en forma inversamente proporcional al cuadrado de la
distancia, como se puede apreciar en la figura 1.3. Si esta distancia es r, entonces
se tiene que:

I = J 4nr
2
/ (Ec. 1.3)

Donde, J es la potencia sonora.

Figura 1. 3 Intensidad vs. Distancia

La intensidad se mide en [W/m
2
]. La prdida de intensidad al incrementarse la
distancia es de dB = 20log(r
1
/r
2
). Al doblarse la distancia, se experimenta una
prdida en intensidad de 6 dB.

La presin e intensidad se relacionan a travs de la siguiente ecuacin:

P = I[c (Ec. 1.4)

Donde [ equivale a densidad del medio y c es la velocidad del sonido en el aire.

9

El sistema auditivo humano puede detectar un inmenso rango de intensidades
desde 10
-12
[W/m
2
] a 1 [W/m
2
]. En trminos prcticos, medir la intensidad de
sonido en [W/m
2
] resulta inmanejable debido a su enorme rango, por lo que una
escala logartmica de medicin de intensidad resulta mucho ms apropiada. La
intensidad (sound level) del sonido se mide en decibeles o decibelios (dB).

1JB = 1u log
10
(I
1
I
0
/ ) (Ec. 1.5)

I
0
se escoge tpicamente como 10
-12
[W/m
2
]. Un incremento de 10 dB equivale a
un incremento de la intensidad del sonido de un orden de magnitud. Un
incremento de 3dB equivale a doblar la intensidad y un incremento de 1dB
representa un 25% de incremento en la intensidad. La intensidad es proporcional
al cuadrado de la presin.

1JB = 2u log
10
(P
1
P
0
/ ) (Ec. 1.6)

Donde, P
0
= 2x10
-5
[Pa].

Esta medida se conoce como dBSPL (sound pressure level). 0 dB se escoge para
el umbral de audicin, el sonido ms tenue que puede ser detectado. En los
equipos de audio suele usarse el dBVU (volume unit), donde 0 dB corresponde al
mximo nivel de audio posible sin tener distorsin (clipping). El rea sobre los 0
dB en este caso se conoce como headroom.

1.1.3.6 Frecuencia

En el caso de una onda peridica, el patrn que se repite corresponde a un ciclo.
La duracin de cada uno de los ciclos de una onda se conoce como periodo. La
tasa a la cual los ciclos de una onda peridica se repiten se conoce como
frecuencia y por lo general se mide en ciclos por segundo o Hertz (Hz). Por lo
tanto, la frecuencia es igual al nmero de ciclos de la onda sonora en la unidad de
tiempo. Matemticamente, la frecuencia es el inverso del periodo, por lo tanto un
periodo de 1 ms (milisegundos) tiene una frecuencia de 1.000 Hz.
10

= 1 I / (Ec. 1.7)

Donde, es la frecuencia y I es el perodo.

En trminos de su contenido de frecuencia, un sonido puede poseer lo que se
denomina una frecuencia fundamental, comnmente denotada por f
0
, que
usualmente corresponde a la frecuencia ms baja y de mayor amplitud presente
en el espectro. Es la frecuencia fundamental de una onda la que determina en
gran medida su altura musical, la cual es una medida perceptual. Las seales
aperidicas no poseen una frecuencia fundamental fcilmente determinable, dado
que nada se repite en forma peridica. La estimacin de la f
0
para seales
complejas es en s un problema bastante complicado, adems, la ausencia de
una fundamental hace que este tipo de ondas se perciba musicalmente como
ruido.

Los sonidos comprendidos entre 20 Hz a 20.000 Hz son los percibidos por el odo
humano y se denominan frecuencias audibles. Los sonidos inferiores a 20 Hz se
denominan infrasonidos y los superiores a 20.000 Hz ultrasonidos. Se distinguen
tres gamas de frecuencias en funcin del odo humano [7], como se puede
apreciar en la figura 1.4.

ULTRASONIDOS
20.000 Hz
2.000 Hz
3.000 Hz
400 Hz
200 Hz
100 Hz
20 Hz
INFRASONIDOS
C
O
N
V
E
R
S
A
C
I
N
N
O
R
M
A
L
ZONA NO
RECOMENDADA
PARA EMITIR
ESTMULOS
AUDITIVOS
G
R
A
V
E
S
M
E
D
I
O
S
A
G
U
D
O
S
V
O
Z
H
U
M
A
N
A
S
O
N
I
D
O
S
A
U
D
I
B
L
E
S
8.000 Hz
1. Graves (20 a 400 Hz)
2. Medios ( 400 a 1.600 Hz)
3. Agudos (1.600 a 20.000 Hz)

Figura 1. 4 Frecuencia del sonido
11

Muchos animales oyen una gama de frecuencias ms amplia que los seres
humanos. Por ejemplo, los silbatos para perros vibran a una frecuencia alta, que
los seres humanos no son capaces de detectar; mientras que ciertas evidencias
sugieren que los delfines y las ballenas se comunican con frecuencias fuera del
alcance del odo humano, como se observa en la figura 1.5.

Figura 1. 5 Comparacin de la gama de frecuencias que escuchan
los animales, y el ser humano

1.1.3.6.1 Tono

Llamado tambin nota; el tono est relacionado con la percepcin y depende de la
frecuencia de la onda. La frecuencia y el tono estn relacionados, pero no de
manera lineal. La frecuencia es una entidad fsica y por tanto puede ser medida
de forma objetiva por diferentes medios; por el contrario el tono de un sonido es
un fenmeno totalmente subjetivo y por tanto no es posible medirlo de forma
objetiva. Normalmente cuando se aumenta la frecuencia de un sonido, su tono
tambin sube, sin embargo esto no se da de forma lineal, o sea no se
corresponde la subida del valor de la frecuencia con la percepcin de la subida de
tono.

El odo humano puede diferenciar entre un sonido entre los 100 y los 300 Hz, pero
no entre un sonido entre 10 KHz y los 10,2 KHz.
12

1.1.3.6.2 Armnicas

La frecuencia principal a la que vibra un instrumento es llamada frecuencia
fundamental y la reconocemos por el tono. Los instrumentos musicales y la voz
producen frecuencias fundamentales y sobretonos de las frecuencias
fundamentales. Estos sobretonos son denominados armnicas [7].

Una nota musical tocada en un violn no suena igual a la misma nota tocada en un
piano. Esto se debe a que sus ondas no tienen una nica forma de onda senoidal
pura sino que pueden verse como la suma de muchas ondas senoidales de
distintas frecuencias. Esto se conoce en fsica como sntesis (obtencin del
sonido) por transformada de Fourier (FFT) que descompone una forma de onda
en la suma de mltiples ondas senoidales, como se muestra en la figura 1.6.

Figura 1. 6 Frecuencia fundamental (f) y armnicas (2f, 3f)

1.1.3.7 Fase

La fase es simplemente el desfase o corrimiento de una seal respecto a un punto
de referencia, el que se determina en forma arbitraria.

La fase se mide en radianes, en el rango [0; 2n] o en grados, en el rango [0; 360].

13

La fase de un sonido aislado no altera en nada su percepcin. La fase adquiere
importancia cuando dos o ms sonidos se mezclan entre s. Dos sonidos pueden
ser idnticos, pero estar desfasados entre s, lo que implica que un sonido
comenz antes que el otro. Al interactuar, el resultado percibido puede cambiar
radicalmente dependiente del grado de desfase entre ellos. Si el desfase es 0, o
bien 2n, los sonidos al mezclarse se suman, y como las zonas de rarefaccin y
compresin de ambos sonidos coinciden, como resultado se obtiene el mismo
sonido pero amplificado. Si el desfase es de n o 180 grados, significa que las
zonas de rarefaccin de un sonido coinciden con las zonas de compresin del
otro, y al mezclarse, los sonidos se anulan completamente. El resultado es que no
se percibe nada. Esto no es un problema perceptual, es un fenmeno puramente
fsico.

En la figura 1.7 se muestran dos ondas sinusoidales en diferente relacin de fase.

Figura 1. 7 Dos ondas sinusoidales en diferente relacin de fase

1.1.3.8 Forma de onda

El patrn de variaciones de presin producido por una fuente de acuerdo al
tiempo se conoce como la forma de onda. La forma de onda determina en gran
medida la cualidad del sonido. Un factor importante de considerar en un sonido es
su periodicidad. La forma de onda de un sonido determina y est determinada por
su contenido de frecuencias o espectro. La forma de onda se asocia comnmente
con lo que se denomina timbre, cualidad perceptual que le otorga identidad al
sonido. Es la forma de onda la que permite diferenciar, por ejemplo, el sonido de
una trompeta del de un violn.
14

1.1.3.8.1 Representacin grfica

Existen diversas formas de representar el sonido en forma grfica. La forma de
representacin ms utilizada se basa en un diagrama de amplitud versus tiempo.
Un sonido tambin puede ser representado por su espectro, mediante un grfico
amplitud versus frecuencia. Este grfico muestra las amplitudes de cada
componente de frecuencia contenida en el sonido. Por lo general, siempre es
posible pasar de una representacin en el tiempo a una representacin en la
frecuencia y viceversa, mediante la transformada de Fourier. No obstante, es
importante destacar que el diagrama de tiempo no contiene informacin alguna
sobre el contenido de frecuencias del sonido y el espectro no contiene
informacin de tipo temporal.

Una representacin intermedia es lo que se llama el sonograma. Un sonograma
consiste bsicamente en un eje tridimensional donde se grafica la magnitud del
espectro de un sonido versus tiempo. Esto se logra mediante la subdivisin de la
seal de audio en varias pequeas ventanas de tiempo, usualmente traslapadas
entre s. En cada una de stas ventanas temporales, se estima el espectro
mediante lo que se denomina la transformada de Fourier de tiempo corto. De esta
forma es posible determinar cmo va cambiando el contenido de frecuencias del
sonido en el tiempo. Si bien el sonograma es muy til, la informacin que entrega
es altamente dependiente de los parmetros que se utilicen para su clculo, como
el tipo de ventana, el tamao de cada ventana y el porcentaje de traslape, entre
otros. En la figura 1.8 se muestra representado el sonograma.

Figura 1. 8 Representacin grfica del espectro del sonido
15

1.1.4 FUENTES SONORAS

El sonido puede ser producido por distintos tipos de fuentes y procesos [6]:

a) Cuerpos en vibracin. Un ejemplo de este tipo de fuentes es un diapasn, el
cual al ponerse en vibracin genera un cierto tipo de onda sonora, como se
muestra en la figura 1.9. Al estar la fuente vibrando, causa un desplazamiento
en el aire cercano, lo que produce cambios locales en la presin de aire.
Estas fluctuaciones de presin viajan en forma de una onda. Los cuerpos en
vibracin son las fuentes sonoras ms comunes.

COMPRESIONES
RAREFACCIONES

Figura 1. 9 Onda de sonido emitida por un diapasn

b) Cambios en flujos de aire. Un ejemplo de este tipo de fuentes es lo que
sucede cuando hablamos. Las cuerdas vocales se abren y cierran en forma
alternada, produciendo cambios en la tasa del flujo de aire, lo que a su vez se
traduce en una onda sonora. Este mismo principio se aplica a los
instrumentos de viento como el clarinete u oboe. Otro ejemplo de este tipo de
fuentes es una sirena, la cual produce sonido a travs de una placa rotatoria
la cual bloquea en forma alternada el flujo proveniente de un compresor de
aire.

c) Fuentes de calor. Una chispa elctrica produce un sonido, tal como lo produce
un trueno. En estos casos, el sonido se produce por un brusco cambio en la
temperatura, el cual produce una veloz expansin del aire circundante.

d) Flujo supersnico. En el caso de un avin supersnico se producen ondas de
choque que fuerzan al aire a viajar ms rpido que la velocidad del sonido.
16

1.2 EL SISTEMA FONATORIO HUMANO

La voz humana fue definida por Platn como un impacto del aire que llega por los
odos al alma. La voz es el sustrato en el que se apoya el mtodo de
comunicacin habitual del ser humano, con el que se transmite la cultura, con el
que se expresan los sentimientos y las emociones.

Para que la comunicacin tenga lugar, el hablante debe producir una seal de voz
en forma de una onda de presin sonora, la cual viaja desde su boca hasta el
odo del oyente. Aunque la mayora de ondas de presin sonora son originadas
desde la boca, el sonido tambin puede proceder de los orificios nasales, la
garganta y las mejillas.

Las seales del habla estn compuestas de una secuencia de sonidos, los cuales
sirven como una representacin simblica de los pensamientos que el hablante
desea transmitir al oyente. As el orden de estos sonidos es gobernado por reglas
asociadas al lenguaje. El estudio cientfico del lenguaje y la manera en la cual
estas reglas son utilizadas en la comunicacin humana se denomina lingstica.
En cambio la ciencia que estudia las caractersticas de la produccin de sonidos
humanos sobretodo en aspectos como descripcin, clasificacin y transcripcin es
llamada fontica.

1.2.1 PROPIEDADES DEL HABLA

El habla humana es una forma de onda continua con una frecuencia fundamental
en el rango de 100 a 400 Hz. (El promedio est cerca de los 100 Hz para los
hombres y 200 Hz para las mujeres.) A distancias de mltiplos enteros de la
frecuencia fundamental, se encuentran una serie de armnicos cambiantes a los
que podemos llamar "formantes" y que estn determinados por las caractersticas
de resonancia de la regin vocal. Los "formantes" crean los variados sonidos
vocales y las transiciones entre ellos. Los sonidos consonantes, que son
impulsivos y/o ruidosos, tienen lugar en el rango de los 2 KHz a los 9 KHz.

17

La potencia sonora del habla es llevada por las vocales, cuya duracin promedio
es de 30 a 300 milisegundos. La inteligibilidad es dada por las consonantes, cuya
duracin promedio es de 10 a 100 milisegundos de duracin y pueden ser unos
27 dB ms dbiles en amplitud que las vocales.

El tono del sonido es controlado variando la forma del tracto vocal (en la mayora
moviendo la lengua) y por el movimiento de los labios. La intensidad (volumen) es
controlada por la variacin de la cantidad de aire enviado desde los pulmones.
Los pulmones operan lentamente y el tracto vocal cambia su forma lentamente,
por eso, el tono y el volumen del habla varan de manera lenta.

El movimiento de la glotis y el tracto vocal dan lugar a diferentes tipos de sonido
los tres principales tipos de sonido son los siguientes:

x Sonidos sonoros: estos son sonidos que nosotros realizamos cuando
hablamos. Las cuerdas vocales vibran, las cuales abren y cierran la glotis,
enviando as los pulsos de aire a variadas presiones al tracto, donde son
transformadas en ondas de sonido. Las frecuencias de la voz humana estn
generalmente en el rango de 500 Hz hasta alrededor de 2 KHz. Esto es
equivalente a periodos de tiempo de 2 ms a 20 ms, y para una computadora
tales perodos son muy largos. As, los sonidos sonoros tienen una
periodicidad larga y esta es la llave para una buena compresin del habla.

x Sonidos sordos: estos son sonidos emitidos y pueden ser escuchados, pero no
son parte del habla. Tal sonido es el resultado de sostener la glotis, abrirla y
forzar al aire a travs de la contraccin en el tracto vocal. Cuando un sonido
sordo es muestreado las muestras manifiestan poca correlacin y son
aleatorias o casi aleatorias.

x Sonidos explosivos: estos sonidos se originan cuando la glotis se cierra, los
pulmones transmiten aire a presin sobre la glotis produciendo que la misma
se abra inesperadamente y el resultado es un sonido de chasquido.

18

1.2.2 CLASIFICACIN DE LAS VOCES

1.2.2.1 Clasificacin sexual

En base a esta clasificacin, se puede enumerar cuatro tipos de voces:

Voz de mujer: laringe y cuerdas vocales ms reducidas que en el hombre, por lo
que el sonido es aproximadamente una octava
1
superior que en voces
masculinas.

Voz de hombre: laringe mayor, por lo que el sonido es ms grave.

En la tabla 1.2 se puede observar los diferentes niveles sonoros y de intensidad
de voces masculinas y femeninas en diversas circunstancias.

Emisin Intensidad (w/m2) Nivel sonoro (dB)
Nivel mnimo de la voz humana 10
-10
20
Mujer conversando en voz baja 3,16x10
-10
25
Hombre conversando en voz baja 10
-9
30
Mujer conversando en voz normal 10
-7
50
Hombre conversando en voz normal 3,16x10
-7
55
Mujer hablando en pblico 10
-6
60
Hombre hablando en pblico 3,16x10
-6
65
Mujer hablando esforzndose 10
-5
70
Hombre hablando esforzndose 3,16x10
-5
75
Mujer cantando 10
-4
80
Hombre cantando 3,16x10
-4
85
Nivel mximo de la voz humana 10
-3
90
Tabla 1. 2 Niveles de intensidad de la voz humana

Voz infantil: laringe ms corta que en hombres y mujeres, por lo que el sonido es
muy agudo.
Voz asexual: voz del nio castrado antes de la pubertad. Dicha castracin de los
rganos sexuales evita el crecimiento y desarrollo de la laringe. En el siglo XVI, al

1
En msica, una octava es el intervalo que separa dos sonidos cuyas frecuencias fundamentales
tienen una relacin de dos a uno.
19

no estar admitidas las mujeres en las iglesias como cantantes, son sustituidas por
nios o castrados. En los siglos subsiguientes estas voces, que en general
poseen mayor extensin y potencia que las de las cantantes, obtienen un xito
enorme sobre todo en Italia entre el pblico de teatro de pera, pues las mujeres
tampoco solan cantar en la escena. En 1770, el Papa Clemente XIV autoriza el
canto de las mujeres en la iglesia y se prohbe la castracin. Los castrados
desaparecen a principios del siglo XX.

1.2.2.1.1 Clasificacin segn tesitura

La clasificacin de la voz por tesitura se define, como aquella, que clasifica la voz
por su amplitud tonal. Constituye el conjunto de notas que puede emitir una
determinada persona. Un sentido de interpretar la tesitura, es el que sita el
conjunto de sonidos, en los que la voz se adapta mejor, la parte de la gama vocal,
en que el cantante se siente cmodo, sin ningn tipo de fatiga. En base a la
clasificacin de la voz por tesitura se definen algunos trminos tanto para
hombres y mujeres como se observa en la figura 1.10.

Figura 1. 10 Clasificacin de la voz por tesitura

Voz Extensin (Hz) Tesitura
Soprano 247-1056 SI
3
- DO
6

Mezzosoprano 220-900 LA
3
- SIb
5

Contralto 176-840 FA
3
- LAb
5

Tenor 132-528 DO
3
- DO
5

Bartono 110-440 LA
2
- LA
4

Bajo 82-396 MI
2
- SOL
4

Tabla 1. 3 Frecuencias de la voz por tesitura
Voces
masculinas
Tenores
Voces
femeninas
Bartonos
Bajos
Sopranos
Mezzosopranos
Contraltos
AGUDO
GRAVE
AGUDO
GRAVE
20

1.3 PSICOACSTICA

1.3.1 DEFINICIN

La psicoacstica es la ciencia que estudia la percepcin de los sonidos [6].
Estudia la relacin entre las propiedades fsicas del sonido y la interpretacin que
hace de ellas el cerebro.

Una vez que una onda sonora proveniente del mundo fsico ingresa al sistema
auditivo humano, se suceden una serie de reacciones en forma casi instantnea
que producen como resultado una representacin mental de lo escuchado, que no
corresponde exactamente a lo que sucede en el mundo fsico. Las variables
fsicas del sonido no constituyen una representacin fidedigna de lo que ocurre en
el mundo perceptual. Por ejemplo, en ciertas situaciones hay sonidos que
bloquean a otros sonidos, incluso si stos ocurren en forma asincrnica
2
. Este
fenmeno se conoce como enmascaramiento. En estos casos, si bien todas las
ondas sonoras en juego existen en el mundo fsico, al presentarse todas juntas
algunas de ellas simplemente no se perciben, a pesar de que si cada uno de
estos sonidos se presentaran por separado, si se percibiran.

1.3.2 EL SISTEMA AUDITIVO HUMANO

La generacin de sensaciones auditivas en el ser humano es un proceso
extraordinariamente complejo, el cual se desarrolla en tres etapas bsicas:

a) Captacin y procesamiento mecnico de las ondas sonoras.
b) Conversin de la seal acstica (mecnica) en impulsos nerviosos, y
transmisin de dichos impulsos hasta los centros sensoriales del cerebro.
c) Procesamiento neural de la informacin codificada en forma de impulsos
nerviosos.

2
Forma asincrnica, cuando no existe coincidencia temporal.
21

La captacin, procesamiento y transduccin de los estmulos sonoros se llevan a
cabo en el odo propiamente dicho, mientras que la etapa de procesamiento
neural, en la cual se producen las diversas sensaciones auditivas, se encuentra
ubicada en el cerebro. As pues, se pueden distinguir dos regiones o partes del
sistema auditivo: la regin perifrica, en la cual los estmulos sonoros conservan
su carcter original de ondas mecnicas hasta el momento de su conversin en
seales electroqumicas, y la regin central, en la cual se transforman dichas
seales en sensaciones. En la regin central tambin intervienen procesos
cognitivos, mediante los cuales se asigna un contexto y un significado a los
sonidos; es decir, permiten reconocer una palabra o determinar que un sonido
dado corresponde a un violn o a un piano.

1.3.2.1 El odo humano

Sin duda uno de los componentes ms importantes del sistema auditivo humano
es el odo. El odo se encarga de convertir las ondas de presin acstica en
impulsos nerviosos que le permiten al cerebro crear una representacin mental de
la sensacin auditiva. El odo humano est dividido en tres partes principales:
odo externo, odo medio y odo interno, como se muestra a continuacin en la
figura 1.11.

Figura 1. 11 El odo humano
22

El funcionamiento general del odo es el siguiente: cuando una onda sonora llega
al odo viaja desde el pabelln auricular o pinna hasta el tmpano, a travs del
canal auditivo. El sonido es modificado en trminos de su contenido de
frecuencias por el odo externo. El tmpano se encarga de traspasar el patrn de
vibraciones de presin hacia el odo medio al hacer contacto con tres diminutos
huesecillos, que a su vez traspasan la vibracin hacia la ventana oval, lo que
causa una onda de propagacin del lquido contenido al interior de la cclea,
estimulando las clulas ciliares de la membrana basilar, la que est conectada a
un gran nmero de terminales nerviosos que envan a su vez seales elctricas al
cerebro. De esta manera, el cerebro puede recibir la informacin proveniente de la
onda sonora para su posterior procesamiento.

1.3.2.1.1 Odo externo

El odo externo est constituido por el pabelln auricular o pinna, el canal auditivo
y el tmpano. El pabelln recoge las ondas sonoras y las conduce hacia el canal
auditivo mediante reflexiones y difracciones. El efecto del pabelln es atenuar y
enfatizar cierto contenido de frecuencias y juega un rol fundamental en la
localizacin de sonidos. El canal auditivo mide alrededor de 2,5 cm y acta como
un resonador para el rango de frecuencias entre 1.000 y 4.000 Hz, siendo el
mximo alrededor de 3.000 Hz. El tmpano vibra en respuesta al sonido y
transmite esta vibracin de presin en forma de vibracin mecnica hacia el odo
medio.

Figura 1. 12 Respuesta de frecuencia del canal auditivo
23

En la figura 1.12, claramente se puede observar que el canal auditivo enfatiza el
rango desde 1 a 4.000 Hz. Esto corresponde al rango de la voz humana hablada.
El rol que cumple el canal auditivo, por lo tanto, es el de optimizar la seal
acstica del tal forma de resaltar la voz humana.

1.3.2.1.2 Odo medio

Est ubicado en la caja timpnica, y lo integran el tmpano, los huesecillos u
osculos, y la trompa de Eustaquio. El tmpano es una membrana elstica,
semitransparente y algo cnica, que comunica el canal auditivo externo con la
caja timpnica.

El odo medio acta como un transductor de vibracin. Su rol es amplificar la
vibracin de presin mediante un sistema mecnico. El tmpano recibe las
vibraciones del aire y las comunica a los huesecillos. Esto se hace mediante tres
huesitos llamados martillo, yunque y estribo que se pueden apreciar en la figura
1.13. Estn sostenidos en su lugar por una serie de pequeos ligamentos y
msculos. La finalidad de esta cadena es convertir vibraciones de gran amplitud y
poca presin, como las hay en el tmpano, en vibraciones de pequea amplitud y
mayor presin, requeridas en el lquido que llena el odo interno. Esta funcin es
asimilable, por consiguiente, a una palanca mecnica. A causa del efecto palanca,
las vibraciones del estribo son de menor amplitud pero de mayor fuerza. La
ganancia mecnica de esta palanca es de 1,3, lo que significa que la fuerza que el
estribo ejerce sobre la ventana oval es 1,3 veces mayor que la que ejerce el
tmpano sobre el martillo. A este efecto de palanca se agrega la gran diferencia de
reas entre el tmpano (0,6 cm
2
) y la ventana oval (0,04 cm
2
), lo cual implica que
la relacin entre las presiones en el tmpano y en la ventana oval es del orden de:

P
cntcnc ccl
P
timpcnc
=
1,3 x 0,6
0,04
2u (Ec. 1.8)

Esta diferencia de presiones es necesaria ya que en el tmpano existe una
impedancia acstica mucho menor que en el odo interno, ya que ste ltimo
24

contiene agua. El conjunto acta, por consiguiente, como un ingenioso adaptador
de impedancias acsticas.

Figura 1. 13 Izquierda, los tres huesitos del odo medio. Derecha, su mecnica

Los msculos, adems de la funcin de sostn de la cadena osicular, sirven de
proteccin del odo interno frente a sonidos intensos. Cuando penetra en el odo
un ruido muy intenso, se produce la contraccin refleja de estos msculos,
rigidizando la cadena, que pierde entonces su eficiencia mecnica, y la energa es
disipada antes de alcanzar el odo interno. Esta proteccin slo es efectiva, sin
embargo, para sonidos de ms de 500 ms de duracin.

La trompa de Eustaquio es un pequeo conducto que comunica la caja timpnica
con la laringe. Su funcin es la de igualar la presin del odo medio con la presin
atmosfrica. Normalmente, permanece cerrada, abrindose en forma refleja
durante la accin de tragar o de bostezar. Si permaneciera siempre abierta, el
tmpano vibrara con una amplitud muy pequea, ya que el movimiento del
tmpano es el resultado de una diferencia de presin a uno y otro lado de ste.

Por consiguiente, para vibrar en concordancia con las variaciones de presin
sonora es preciso que la presin dentro de la caja timpnica se mantenga
constante. Si, en cambio, la trompa de Eustaquio estuviera cerrada
permanentemente (o no existiera), al variar la presin atmosfrica se producira
una diferencia de presiones medias que curvara el tmpano hacia afuera o hacia
adentro, reduciendo notablemente la respuesta auditiva, particularmente para los
sonidos agudos (altas frecuencias).

25

1.3.2.1.3 Odo interno

El odo interno representa el final de la cadena de procesamiento mecnico del
sonido, y en l se llevan a cabo tres funciones primordiales: filtraje de la seal
sonora, transduccin y generacin probabilstica de impulsos nerviosos.

El odo interno consiste bsicamente de la cclea [1], ya que los canales
semicirculares, si bien se encuentran all, no tienen rol alguno en la audicin. La
cclea es un pasaje angosto, con forma de caracol, lleno de un lquido llamado
perilinfa, largo y enrollado 3,5 veces sobre s mismo. El dimetro de este pasaje
es de 2 mm y su largo es 35 mm. En este lugar se encuentran las clulas pilosas
que por respuesta a las vibraciones venidas desde un estmulo externo,
transmiten las sensaciones de sonido al cerebro. El interior del conducto est
dividido en sentido longitudinal por la membrana basilar y la membrana de
Reissner, las cuales forman tres compartimientos o escalas.

Canal semicircular
Vestbulo
Ventana
oval
Escala vestibular
Vestbulo
Ventana
redonda
Escala timpnica
Cclea
desenrollada
Helicotrema
Frecuencias
altas
Frecuencias
medias
Frecuencias
bajas

Figura 1. 14 Onda viajera en la membrana basilar [5]

La membrana basilar es una estructura cuyo espesor y rigidez no es constante,
est cerca de la ventana oval, la membrana es gruesa y rgida, pero a medida que
se acerca hacia el vrtice de la cclea se vuelve ms delgada y flexible. La rigidez
decae casi exponencialmente con la distancia a la ventana oval; esta variacin de
la rigidez en funcin de la posicin afecta la velocidad de propagacin de las
26

ondas sonoras a lo largo de ella, y es responsable en gran medida de un
fenmeno muy importante: la selectividad en frecuencia del odo interno. Esto
confiere al odo interno una cualidad analtica que es de fundamental importancia
en la discriminacin tonal del sonido, especialmente para los sonidos de
frecuencias superiores a los 1.000 Hz.

1.3.2.2 Bandas crticas del sistema auditivo humano

Una caracterstica fundamental del sistema auditivo humano es su capacidad de
resolucin de frecuencia e intensidad [6]. Al momento de estudiar ste aspecto de
nuestra audicin es fundamental el concepto de banda crtica. Una forma de
entender el funcionamiento del sistema auditivo es suponer que contiene una
serie o banco de filtros pasa banda sobrelapados conocidos como filtros
auditivos
3
. Estos filtros se producen a lo largo de la membrana basilar y tienen
como funcin aumentar la resolucin de frecuencia de la cclea y as incrementar
la habilidad de discriminar entre distintos sonidos. Este banco de filtros no sigue
una configuracin lineal, y el ancho de banda y morfologa de cada filtro depende
de su frecuencia central. El ancho de banda de cada filtro auditivo se denomina
banda crtica
4
.

Intensidad
(dB)
f

Figura 1. 15 Esquema de las bandas crticas del sistema auditivo humano

Las bandas crticas, esquematizadas en la figura 1.15, son rangos de frecuencia
dentro de los cuales un sonido bloquea o enmascara la percepcin de otro sonido.

3
Fletcher (1940) citado en Moore, 1998
4
Fletcher (1940) citado en Gelfand, 2004
27

Las bandas crticas conceptualmente estn ligadas a lo que sucede en la
membrana basilar, ya que una onda que estimula la membrana basilar perturba la
membrana dentro de una pequea rea ms all del punto de primer contacto,
excitando a los nervios de toda el rea vecina. Por lo tanto, las frecuencias
cercanas a la frecuencia original tienen mucho efecto sobre la sensacin de
intensidad del sonido. La intensidad percibida no es afectada, en cambio, en la
presencia de sonidos fuera de la banda crtica. Es importante destacar aqu que el
concepto de banda crtica es una construccin terica y no algo fsicamente
comprobado.

1.3.2.2.1 Escala de Barks

Existe una escala de medicin de las bandas crticas llamada la escala de Barks
5
,
la cual se detalla en la tabla 1.4. La escala tiene un rango del 1 al 24 y
corresponde a las primeras veinticuatro bandas crticas del sistema auditivo [6].
Esta escala tiene relacin con la escala mel
6
.

El Bark es la unidad de frecuencia perceptual; especficamente, un Bark mide la
tasa de banda crtica, o sea, una banda crtica tiene un ancho de un Bark. La
escala de Barks relaciona la frecuencia absoluta (en Hz) con las frecuencias
medidas perceptualmente (el caso de las bandas crticas).

Usando el Bark, un sonido en el dominio de la frecuencia puede ser convertido a
sonido en el dominio psicoacstico. De esta manera, un tono puro (representado
por una componente en el dominio de la frecuencia) puede ser representado
como una curva de enmascaramiento psicoacstico. La relacin entre un Bark y
un Hz est dada por:

Bork = 1S aictan(u.uuu76) +S,S orcton _[
]
7500
2
] (Ec. 1.9)

5
En honor al fsico alemn Georg Heinrich Barkhausen.
6
El nombre mel deriva de meloda, como una forma de explicitar que se trata de una escala
basada en comparaciones entre alturas.
28

Banda
crtica
(Bark)
Frecuencia
central
(Hz)
Ancho de
banda
(Hz)
Frecuencia
mnima
(Hz)
Frecuencia
mxima
(Hz)
1 50 - - 100
2 150 100 100 200
3 250 100 200 300
4 350 100 300 400
5 450 110 400 510
6 570 120 510 630
7 700 140 630 770
8 840 150 770 920
9 1000 160 920 1080
10 1170 190 1080 1270
11 1370 210 1270 1480
12 1600 240 1480 1720
13 1850 280 1720 2000
14 2150 320 2000 2320
15 2500 380 2320 2700
16 2900 450 2700 3150
17 3400 550 3150 3700
18 4000 700 3700 4400
19 4800 900 4400 5300
20 5800 1100 5300 6400
21 7000 1300 6400 7700
22 8500 1800 7700 9500
23 10500 2500 9500 12000
24 13500 3500 12000 15500
25 18775 6550 15500 22050

Tabla 1. 4 Escala de Barks, para estimacin de las bandas crticas
del sistema auditivo [6]

1.3.2.3 Enmascaramiento

El enmascaramiento ocurre cuando la presencia de un sonido, llamado mscara,
hace inaudible otro sonido que sera perfectamente audible en la ausencia de la
mscara. El sistema auditivo no es capaz de diferenciar dos sonidos al interior de
una banda crtica. Basta con que exista algo de energa al interior de una banda
crtica para que sta se active y el sistema auditivo perciba actividad en esa
banda. Si existe ms de un sonido o se incrementa la energa al interior del filtro,
esto no cambia la informacin desde el punto de vista del sistema auditivo.

Entonces, si un sonido se encuentra al interior de una banda crtica de otro sonido
y si su amplitud no es lo suficientemente grande como para traspasar el umbral de
29

dicha banda y activar otra banda crtica cercana, se produce el fenmeno
denominado enmascaramiento, que se muestra en la figura 1.16. La codificacin
perceptual de audio, se basa fuertemente en ste fenmeno para reducir la
cantidad de informacin necesaria para almacenar y reproducir una seal sonora.

Intensidad
(dB)
f
Enmascador
Banda crtica o
filtro auditivo
Seal
Cantidad de enmascaramiento en la
misma banda crtica que la seal

Figura 1. 16 Enmascaramiento

Las bandas crticas pueden medirse en funcin del enmascaramiento que
producen. El ancho de banda de una mscara constituida por ruido blanco se
ensancha continuamente y se mide el nivel de enmascaramiento que produce
respecto a una seal de prueba. Una vez que se alcanza el punto sobre el cual el
enmascaramiento no cambia significativamente al agrandarse el ancho de banda,
se est en la presencia de los lmites de la banda crtica en medicin.

1.3.2.3.1 Enmascaramiento en frecuencia

El enmascaramiento en frecuencia est relacionado con la sensibilidad tonal del
odo. Su estructura interna, divide el rango de frecuencias audibles en 24 bandas
crticas. En la figura 1.17 se muestra el enmascaramiento producido por un tono
de 1 KHz.

Frecuencia (KHz)
0 2 4 6 8 10 12 14 16
0
20
40
60
80
d
B
mbral de
enmascaramiento
Umbral de
enmascaramiento
Umbral de audicin
Umbral de audicin

Figura 1. 17 Enmascaramiento por un tono de 1 KHz
30

Funciona de manera que un sonido en determinada frecuencia puede enmascarar
o disminuir el nivel de otro sonido en las frecuencias adyacentes, siempre y
cuando el nivel del sonido enmascarante sea ms alto (un sonido ms intenso,
ms fuerte) que el nivel del sonido adyacente.

1.3.2.3.2 Enmascaramiento temporal

El enmascaramiento temporal del odo est relacionado con la inercia del odo
interno. Cualquier sonido audible, produce una excitacin mecnica del odo
interno, prolongando artificialmente la sensacin auditiva hasta que la situacin de
equilibrio se recupera completamente. Se presenta cuando un tono suave est
muy cercano en el dominio del tiempo (unos cuantos milisegundos) a un tono
fuerte. Si se est escuchando un tono suave y aparece un tono fuerte, el tono
suave ser enmascarado por el tono fuerte, antes de que el tono fuerte
efectivamente aparezca (pre-enmascaramiento). Posteriormente, cuando el tono
fuerte desaparece, el odo necesita un pequeo intervalo de tiempo (entre 50 y
300 ms) para que se pueda seguir escuchando el tono suave (post-
enmascaramiento), ilustrado en la figura 1.18.

Retardo de tiempo (ms)
Pre-enmascaramiento Post-enmascaramiento
Tono enmascarador
60
40
20
d
B
0 -5 5 10 20 50 100 200 500

Figura 1. 18 Enmascaramiento temporal

El pre-enmascaramiento es un fenmeno inesperado, pues pareciera implicar que
el sistema auditivo es no causal: una seal puede enmascarar a otra antes de ser
aplicada. Sin embargo, es posible justificar la existencia del pre-enmascaramiento
si se piensa que cualquier sensacin sonora no se produce instantneamente,
sino que se requiere de un cierto tiempo para que se origine dicha sensacin.
31

Con el post-enmascaramiento no hay problemas; pero el pre-enmascaramiento
sugiere que un tono ser enmascarado por otro tono, antes de que el tono
enmascarador realmente aparezca. Para este fenmeno, se han presentado dos
explicaciones:

a) El cerebro integra el sonido sobre un perodo de tiempo, y procesa la
informacin por rfagas en la corteza auditiva, o
b) Simplemente, el cerebro procesa los sonidos fuertes ms rpido que los
sonidos suaves.

En un sonido cualquiera, se presentan ambos tipos de enmascaramiento. El
enmascaramiento en frecuencia es mucho ms importante que el
enmascaramiento temporal; aunque en ciertos dispositivos para compresin de
audio se tiene en cuenta ambos tipos de enmascaramiento, con lo cual se logra
mejor compresin de datos.

1.4 AUDIO DIGITAL

1.4.1 INTRODUCCIN

Antes de tratar aspectos como el audio analgico y el audio digital resulta
necesario conocer cul es la diferencia entre el sonido y el audio.

El sonido es una variacin de presin acstica ejercida sobre las partculas de un
medio (en nuestro caso: el aire). Mientras que el audio es una representacin
elctrica del sonido. Actualmente se utilizan dos tipos de tecnologas aplicadas al
audio: el "audio analgico" y el "audio digital".

Tanto el sonido, una onda de presin sonora, y el audio (analgico) una seal
elctrica continua pueden observarse en la figura 1.19.
32

Presin
sonora
Tiempo
SONIDO
Voltaje
elctrico
Tiempo
AUDIO

Figura 1. 19 Diferencia entre sonido y audio

1.4.2 AUDIO ANALGICO

1.4.2.1 Seales analgicas

Las seales analgicas son aquellas en las que la informacin est representada
por seales continuas, as, una seal continua o anloga puede tomar un nmero
infinito de valores entre dos mximos.

Las seales analgicas se llaman as porque son "anlogas" a la forma de la
seal original. Es decir, si se compara la seal, sta equivaldra a la seal
resultante en su forma.

En la figura 1.20 se representa una seal de voltaje analgica. El margen de
valores que toma la funcin se denomina margen dinmico y suele estar acotado
entre un valor mnimo y uno mximo que dependen de las limitaciones fsicas de
los sistemas de transduccin.

Voltaje
valores reales
Funcin real de
variable real
Margen
dinmico
Tiempo
valores reales
Seal analgica

Figura 1. 20 Representacin de una seal analgica (seal elctrica)
33

1.4.2.2 Audio analgico

1.4.2.2.1 Historia

La primera persona en dar una aplicacin pblica al sonido tratado con medios
elctricos fue Alexander Graham Bell, quien en 1876 patent un equipo para
transmitir audio: el telfono.

Ese mismo ao Emile Berliner, invent el primer micrfono utilizado como
transmisor de voz y la Bell Telephone Company adquiri la patente. Un ao
despus, el 4 de diciembre de 1877, el inventor Thomas Alva Edison construye el
primer fongrafo de cilindro cubierto con papel de aluminio y all realiz la primera
grabacin de la voz humana. Justo ese ao, Ernst Siemens patenta el primer
altavoz. Mientras que Edison continuaba trabajando en el desarrollo de la
grabacin en cilindros, Berliner invent el disco plano y patent el gramfono con
dicha tecnologa; con ello se hizo posible en adelante reproducir el sonido de una
manera prctica.

1.4.2.2.2 Definicin

El denominado "audio analgico" es la representacin elctrica del sonido como
se observa en la figura 1.21, en la cual las variaciones de presin sonora son
representadas por las variaciones de voltaje. La seal de audio analgica es una
seal de carcter continuo, es decir, si se pretendiera obtener el valor intermedio
entre dos puntos cualesquiera de la seal, dicho punto se podra obtener.

Ondas de
sonido
Transductor Transductor
Seales
elctricas
Seales
elctricas
Ondas de
sonido
Seal analgica

Figura 1. 21 Audio analgico
34

1.4.3 DIGITALIZACIN DE SEALES ANALGICAS

Las seales denominadas digitales son aquellas seales en las que la informacin
est representada por valores discretos, implican un conjunto discreto de valores
tanto en tiempo como en amplitud. Una seal digital puede tomar ciertos valores
entre dos mximos, es decir, tomar un nmero finito de niveles o estados entre un
mximo y un mnimo.

Una seal continua es convertida en una seal digital mediante un proceso
denominado digitalizacin, el cual es un proceso que depende de varias
operaciones como: muestreo, cuantizacin y codificacin. Adems de estas tres
operaciones se considera una operacin ms, la misma que se puede aadir
dependiendo del tipo de seales a procesar; esta etapa es la del filtrado. El
filtrado puede resultar importante en ciertos casos, as, un ejemplo ilustrativo de
una seal con rango de frecuencias limitado por su propia naturaleza sera el de
los sistemas de audio, cuyo rango de frecuencias queda limitado a menos de
20.000 Hz, pues sobre los 20 KHz se supera los lmites de percepcin del odo
humano.

1.4.3.1 Muestreo

El muestreo (en ingls, sampling) consiste en tomar muestras de la seal continua
cada cierto tiempo a intervalos constantes. El muestreo consiste en retener en la
salida de un circuito denominado sample & hold, al valor analgico de voltaje de
entrada durante un lapso de tiempo denominado periodo de muestreo (Is). La
separacin de los impulsos en el dominio del tiempo se conoce como periodo de
muestreo y la separacin en el dominio de la frecuencia se conoce como
frecuencia o tasa de muestreo.

s = 1Is (Ec. 1.10)

Donde, s es la frecuencia de muestreo y representa el nmero de muestras por
segundo, y tiene una vinculacin con la respuesta de frecuencia del audio.
35

Cuanto ms rpidos son los cambios temporales que experimenta la seal, ms
elevada debe ser la frecuencia de muestreo a fin de evitar que se produzca una
prdida de informacin significativa. En una forma ms precisa, el muestreo
consiste en multiplicar una seal analgica por un tren de impulsos unitarios
discretos, tal como se muestra en la figura 1.22.

Figura 1. 22 Muestreo de una seal analgica

1.4.3.1.1 Teorema del muestreo

Para que la seal original pueda ser correctamente analizada en frecuencia,
segn el denominado teorema de Nyquist, es psicoacsticamente necesario
muestrear la seal analgica con una frecuencia de muestreo mayor o igual a 2
veces la mxima frecuencia contenida en la seal. As se tiene:

s 2m (Ec. 1.11)

A esta frecuencia de muestreo que cumple con el teorema de Nyquist se la suele
denominar frecuencia o tasa de Nyquist. A mayor valor en la tasa de Nyquist, no
se gana nada en la determinacin de las componentes de frecuencia. En cambio,
si interesa analizar o recuperar la informacin de la forma de onda se debe al
menos muestrear a una fs = 10fm.
36

Cuando el sonido se digitaliza en alta fidelidad, por lo tanto, debe ser muestreado
en un poco ms de la tasa de Nyquist de 2 x 22.000 = 44.000 Hz. Esta es la razn
por la cual el sonido digital de alta calidad se basa en 44.100 Hz. Cualquier
frecuencia de muestreo inferior a esta tasa resulta en distorsin, mientras tasas
ms altas no producen mejoras en la reconstruccin (reproduccin) del sonido. Se
puede considerar la tasa de muestreo de 44.100 Hz como un filtro pasa bajo, ya
que elimina de forma efectiva todas las frecuencias por encima de 22.000 Hz.

En trminos informticos, una mayor frecuencia de muestreo requiere una mayor
resolucin (nmero de bits).

La mxima frecuencia de sampleo (muestreo) utilizada en sistemas de audio
actualmente es de 192 KHz.

Las frecuencias de muestreo estndar son:

x 8.000 Hz para transmisin de voz (telfono)
x 11.025 Hz para transmisin de voz (mayor Calidad)
x 22.050 Hz para transmisin de msica
x 32.000 Hz para la radiodifusin sonora
x 44.100 Hz para la produccin musical, transmisin de msica (alta calidad CD)
x 48.000 Hz para la post-produccin de audio para imagen
x 96.000 Hz en DVD
x 192.000 Hz en DVD Audio

1.4.3.1.2 Aliasing

Si la tasa de muestreo no es suficiente, las rplicas del espectro se traslaparn
entre s y no ser posible reconstruir el espectro original al filtrar con el filtro pasa
bajos. Este fenmeno se conoce como aliasing, aliasin o solapamiento, que se
muestra en la figura 1.23 y en la figura 1.24.
37

Figura 1. 23 Aliasing en el dominio de la frecuencia

Figura 1. 24 Aliasing en el dominio del tiempo

Claramente la seal reconstruida en el caso submuestrado se encuentra
distorsionada respecto a la original. Si se trata de una seal estocstica y no se
tiene conocimiento de su frecuencia mxima (fm), se debe limitar dicha fm por
medio de un filtro (denominado anti-aliasing).

Para eliminar el aliasing, los sistemas de digitalizacin incluyen filtros pasa bajos,
que eliminan todas las frecuencias que sobrepasan la frecuencia que corresponde
a la mitad de la frecuencia de muestreo elegida en la seal de entrada. Es decir,
todas las frecuencias que queden por encima de la mitad de la frecuencia de
muestreo seleccionada son eliminadas.

1.4.3.1.3 Jitter

El jitter se produce cuando las muestras que deberan llegar cada cierto intervalo,
llegan a destiempo. El jitter afecta a la reproduccin de las frecuencias y est en
el orden de 1 a 100 nanosegundos.
38

1.4.3.1.4 Cuantizacin

La cuantizacin tambin conocida como cuantificacin, profundidad de bits, o
resolucin, es el proceso que tiene como finalidad discretizar el dominio de la
amplitud de una seal muestreada. Una vez muestreada la seal, a cada valor de
amplitud nico por periodo de muestreo se le asigna un cdigo binario (de no
coincidir exactamente el valor de amplitud original con los valores discretos en la
escala de amplitud, se aproximar el valor al ms cercano en la escala).

Los valores continuos de la seal son aproximados a 2
n
niveles de amplitud
cuantizados, donde n corresponde al nmero de bits disponible. La resolucin de
la seal, por consiguiente, tendr relacin con el nmero de niveles que se tenga
para codificar. En el caso del compact disc o CD, se utilizan 16 bits para
representar la amplitud. Esto significa que hay 2
16
= 65.536 niveles distintos para
representar la amplitud.

En caso de considerar una cuantizacin de tres bits, la seal que se visualizara
sera la de la figura 1.25.

Periodo de
muestreo
Tiempo
Amplitud
Paso de
cuantizacin

Figura 1. 25 Cuantizacin con tres bits

1.4.3.1.5 Ruido de cuantizacin

La figura 1.26 muestra el proceso de discretizacin de la amplitud de la seal e
indica cmo se introduce un error entre el valor real de la seal analgica y el
valor con que se codificar la muestra una vez digitalizada.
39

error
Valor cuantificado
Valor real
Periodo de muestreo
Cuantizacin

Figura 1. 26 Cuantizacin y ruido de cuantizacin

El proceso de digitalizacin introduce por tanto un error aleatorio en la amplitud de
la seal que es equivalente a la adicin de una componente de ruido. En efecto,
se puede suponer que el valor cuantificado corresponde al de la seal original
ms un ruido virtual, que se ha superpuesto con la seal, dando lugar al valor
que realmente se adquiere. El ruido puede ser tanto positivo como negativo y su
valor mximo es igual a la mitad del paso de cuantificacin.

Debido al error o ruido de cuantizacin se tiene la relacin seal a ruido de
cuantificacin SNRq:

SNRq =
L|x
2
(n)]
L_[x(n)-x
q
(n)
2
_
(Ec. 1.12)

Donde, E[ ] = valor esperado
x(n) = seal de entrada al cuantizador, que corresponde a la seal
que sale del muestreador, esto es: x(n) = x
s
(t)
x
q
(n) = seal de salida del cuantizador

El error de cuantizacin e(n) corresponde por tanto a la diferencia de valores entre
la amplitud de la seal actual (muestra) y su correspondiente cuantificada:

c(n) = x
q
(n) -x(n) (Ec. 1.13)
40

1.4.3.1.6 Dithering

En el mundo del audio digital, aplicar dither significa mezclarle ruido de manera
controlada a una seal.

De ser una onda sinusoidal perfecta, por ejemplo, al ser cuantizada se convierte
en una seal a pasos, que en vez de ser una onda con curvas perfectas, tiene
forma de escalera. Esto se debe al error de cuantizacin y generalmente, hace
que el audio suene mal por haber perdido resolucin. Aadir entonces un poco de
ruido blanco a sta seal har ms suave la forma escalonada de una seal
cuantizada creando un sonido mucho ms natural. Ms all de los 24 bits de
cuantizacin en una seal, ya no es necesario aplicar dithering.

En la figura 1.27 se puede apreciar la diferencia entre una seal sin dither y con
dither.

Figura 1. 27 Izquierda, seal sin dither. Derecha, seal con dither

1.4.3.1.7 Cuantizacin uniforme

Se tiene una cuantizacin uniforme cuando se establecen intervalos de
cuantizacin iguales de forma uniforme para todo el margen de amplitudes de la
seal como se puede apreciar en la figura 1.28.

Figura 1. 28 Cuantizacin uniforme
41

Cuando las seales de entrada son pequeas pueden resultar diferencias
relativamente grandes entre el valor de una muestra y su nivel de cuantizacin
asignado. Siendo "q" el tamao del intervalo de cuantizacin, el error de
cuantizacin e(n) puede tomar valores dentro del rango:

-
q
2
c(n)
q
2
(Ec. 1.14)

Adems, para cuantizacin uniforme la relacin seal a ruido de cuantizacin es:

SNRq =
v
2
q
2
12
,
(Ec. 1.15)

SNRq = 1u log
v
2
q
2
12
,
= 1u,8 +2u log
v
q
(Ec. 1.16)

Donde, V = valor rms de la seal de entrada
q = tamao del intervalo de cuantizacin

1.4.3.1.8 Cuantizacin no uniforme

A fin de aumentar la relacin seal a ruido de cuantizacin, es necesario tener
niveles de cuantizacin ms cercanos para niveles de seal de menor amplitud y
niveles de cuantizacin ms espaciados para niveles de seal de mayor amplitud,
a un proceso de esta naturaleza se denomina cuantizacin no uniforme y se
aprecia en la figura 1.29.

Figura 1. 29 Cuantizacin no uniforme

Un cuantizador no uniforme usualmente se obtiene pasando la seal a travs de
dispositivos no lineales (compander), seguido por un cuantizador uniforme.
42

As es muy usual utilizar compansores logartmicos. En telefona digital, la UIT-T
(segn recomendacin G.711) especifica dos esquemas de compansin
logartmica, denominados Ley A y Ley .

1.4.3.1.9 Cuantizacin Ley A

Usado en Europa, frica y Sudamrica (Ecuador). Utiliza un cuantizador no
uniforme, es decir, para valores de seal inferiores a cierto umbral utiliza una
funcin lineal; y, por encima de ese margen se usa una funcin no lineal
(logartmica). La caracterstica de transferencia consta de 13 segmentos, cada
uno de ellos con 16 niveles, dando como resultado 256 niveles en total, 128 de
polaridad positiva y 128 de polaridad negativa, como se muestra en la figura 1.30.

Se emplean 8 bits para representar los niveles, de modo que el codificador
maneja palabras de 8 bits.

Figura 1. 30 Cuantizador ley A

Siendo x la seal que ingresa al cuantizador, entonces la seal de salida es:
43

F
A
(x) =
`
1
1
sgn(x)
A|x|
1+Inx
u |x|
1
A
sgn(x)
1+In(A|x|)
1+In(A)

1
A
|x| 1
(Ec. 1.17)

Donde, A = coeficiente numrico igual a 87,6
Sgn(x) = funcin signo de x

La palabra PCM de ocho bits (b1,b2,b3,b4,b5,b6,b7,b8) que entrega el codificador
representa: b1 polaridad (1L positiva, 0L negativa). Los tres bits restantes b2, b3,
b4 especifican el segmento en cuestin y, los ltimos cuatro bits b5, b6, b7 y b8
discriminan el intervalo de cuantificacin dentro del segmento especificado.

1.4.3.1.10 Cuantizacin Ley

Usado en los EEUU, Japn y Canad. Tiene una caracterstica de transferencia
de 15 segmentos, que representa una funcin logartmica para todo el margen de
valores de una seal a comprimir. Maneja 256 intervalos de cuantificacin y
consecuentemente el codificador usa palabras de 8 bits.

Si x es la seal que ingresa al cuantizador, la salida del mismo ser:

F
A
(x) = sgn(x)
In(1+|x|)
In(1+)
, JonJc sgn(x) _
+1 x u
u x = u
-1 x u
(Ec. 1.18)

Donde, el coeficiente numrico = 255

La ley A es inferior a la ley , en trminos de calidad para pequeas seales.

1.4.3.2 Codificacin

La codificacin consiste en traducir los valores obtenidos durante la cuantificacin
al cdigo binario. Hay que tener presente que el cdigo binario es el ms utilizado,
pero tambin existen otros tipos de cdigos que tambin son utilizados.
44

La codificacin asigna una secuencia de bits a cada valor analgico discreto. La
longitud de la secuencia de bits es funcin del nmero de niveles analgicos
empleados en la cuantificacin. As la seal analgica va a quedar transformada
en un tren de impulsos digital (sucesin de ceros y unos). En la figura 1.31 se
representa esquemticamente el proceso de codificacin de una seal. A cada
muestra se le asigna el cdigo binario correspondiente que representar el nivel
de amplitud de la seal.

Figura 1. 31 Ejemplo de codificacin de una seal

1.4.3.3 Ventajas y desventajas de seales y sistemas digitales

1.4.3.3.1 Ventajas

x Menores costos de procesamiento.
x Inmunidad al ruido.
x Capacidad de aplicar mtodos de correccin de errores o recuperacin de la
seal.
x Posibilidad de encriptar la informacin.
x Procesamiento y tratamiento de seales de gran versatilidad.
x Los archivos de audio digitales se guardan y procesan ms fcilmente que los
archivos de audio analgico.
x Posibilidad de almacenar grandes cantidades de datos en diferentes soportes.
x Las grabaciones no se deterioran con el paso del tiempo como sucede con las
cintas analgicas.
45

x Permite realizar regrabaciones sucesivas sin que se pierda ningn dato y, por
tanto, calidad.
x Permite la compresin para reducir la capacidad de almacenamiento.
x Facilita la edicin visual de las imgenes y del sonido en un ordenador o
computadora personal, utilizando programas apropiados.

1.4.3.3.2 Desventajas

x Para su transmisin requiere un mayor ancho de banda en comparacin con
una seal analgica.
x La conversin A/D (Analgico/Digital) y D/A (Digital/Analgico) introduce ruido
de cuantizacin.
x La sincronizacin entre los relojes de un transmisor inalmbrico digital y el
receptor debe ser precisa.
x Las transmisiones de seales digitales son incompatibles con las instalaciones
existentes para transmisiones analgicas.

1.4.4 CARACTERSTICAS DEL AUDIO DIGITAL

Tanto como una imagen puede ser digitalizada y dividida en pixeles, donde cada
pxel (picture element) es un nmero, el sonido tambin puede ser digitalizado y
dividido en nmeros. De esta manera el denominado "audio digital" es una
representacin discreta (no continua) del sonido. El audio digital basa su
funcionamiento en dos propiedades bsicas: la frecuencia de muestreo y la
cuantizacin. Una seal de audio digital, consiste bsicamente en una secuencia
discreta de nmeros, el audio digital es la representacin de seales sonoras
mediante un conjunto de datos binarios.

Las computadoras actuales permiten, en general, manejar audio digital. Es decir,
permiten almacenar, procesar y reproducir sonidos de diversos tipos.

46

1.4.4.1 La computadora en sistemas de audio digital

Como se conoce, cualquier tipo de informacin que sea manejado por una
computadora es almacenado en sta mediante ceros y unos (informacin digital).
Esos ceros y unos pueden representar texto, imgenes, sonido o cualquier otro
tipo de elemento factible de ser procesado digitalmente. Dado que los
computadores son binarios, es necesario digitalizar el audio para que el
computador pueda leer la informacin sonora. En otras palabras, un computador
solo puede procesar audio digital. Esto no significa que el computador no pueda
interactuar con audio analgico.

Para digitalizar el sonido se pueden utilizar diversos dispositivos, pero la solucin
ms econmica, en el caso de una PC (personal computer), generalmente
consiste en utilizar una tarjeta de sonido (ver figura 1.33). Una computadora
puede generar y tratar sonidos de varias formas diferentes.

La figura 1.32 muestra las tres formas ms usuales del uso del computador en
sistemas de audio.

Memoria
Externa
Computador D/A A/D
Filtro
pasabajos
Filtro
pasabajos
Entrada de
audio
Salida de
audio
a)

Computador A/D
Filtro
pasabajos
Entrada de
audio
Datos
analizados
b)

Figura 1. 32 La computadora en sistemas de audio digital

El caso 1.32 a) corresponde al proceso de grabacin o procesamiento digital. El
audio analgico es captado por un transductor, por ejemplo un micrfono, que
convierte las variaciones de presin del aire (energa acstica) en una seal
elctrica, que consiste bsicamente en variaciones de voltaje. Esta seal es luego
filtrada por un filtro pasa bajos con el fin de eliminar componentes de frecuencia
47

no deseadas y eliminar la posibilidad de aliasing. Una vez filtrada la seal, sta es
digitalizada (muestreada) por un conversor analgico/digital. A la salida del
conversor se obtiene audio digital, que puede ser procesado o guardado en la
memoria externa por la computadora.

Un ejemplo de procesamiento de la seal podra ser aplicar reverberacin al
sonido original o mezclarlo con otro previamente almacenado en la memoria
externa. Una vez realizado el proceso de digitalizacin, el audio es introducido
esta vez en un conversor digital/analgico y pasado por un filtro pasa bajos. La
salida de este filtro produce audio analgico que podra ser amplificado y enviado
nuevamente al aire mediante los parlantes.

La grabacin digital tiene varias ventajas por sobre su similar analgica. Dado
que, la informacin digitalizada contiene solo nmeros y no una seal analgica,
tiene una calidad superior ya que no se deteriora con el tiempo ni depende de
variables como la temperatura ambiente, presin atmosfrica, viscosidad del aire
o el ruido ambiental. Adems, una copia digital del archivo de audio original digital
es exactamente idntica y fiel.

El caso 1.32 b) corresponde al anlisis de seales. Cuando la computadora opera
como un analizador de seales, la computadora toma una seal digital y
matemticamente determina sus caractersticas. Por ejemplo, un anlisis
computacional puede revelar informacin importante sobre las propiedades
acsticas de un determinado sonido.

1.4.4.2 Hardware para audio digital

El dispositivo principal empleado en la actualidad que permite la adquisicin,
reproduccin y procesamiento del audio tanto analgico como digital es la tarjeta
de sonido, la misma que se observa en la figura 1.33; y que tiene ciertas
funciones bsicas las mismas que son:

48

x Reproduccin de archivos de sonido desde el disco duro o lectores
externos.
x Captura y almacenamiento de audio procedente de una fuente externa.
x Sntesis y generacin de sonidos a partir de informacin (MIDI).
x Procesamiento de sonidos almacenados en el disco duro.

Figura 1. 33 Tarjeta de sonido

1.4.4.2.1 Funcionamiento de la tarjeta de sonido

El ncleo de cualquier tarjeta de sonido est formado por tres subsistemas:

x Convertidor analgico/digital (CAD).
x Procesador digital de seales (DSP).
x Convertidor digital/analgico (CDA).

Los elementos de interfaz son:

x Entrada de micrfono.
49

x Entrada de lnea, permite introducir seales procedentes de otras fuentes
de audio (reproductores de cinta, receptores de radio, etc.).
x Salida de audio, monofnico, estreo o multicanal.
x Algunas tarjetas proporcionan entradas y salidas digitales que permiten
introducir la informacin de audio directamente en formato digital.

1.4.4.3 Parmetros de audio digital

Los parmetros bsicos para describir la secuencia de muestras que representa
el sonido son:

El nmero de canales: 1 canal para monofnico, 2 canales para estreo, 4 para el
sonido cuadrafnico, etc. Como regla general, las muestras de audio multicanal
suelen organizarse en tramas. Una trama es una secuencia de tantas muestras
como canales, correspondiendo cada una a un canal. En este sentido el nmero
de muestras por segundo coincide con el nmero de tramas por segundo.

En estreo, el canal izquierdo suele ser el primero. Cada canal del audio puede
contener una informacin independiente a los dems canales. Se suele
almacenar el sonido en ms de un canal para as tener ms informacin del
mismo. Cada canal podra contener la grabacin de un mismo sonido realizada
con distintos micrfonos, o simplemente efectos distintos que se le quieran aadir
al sonido, ya que todos los canales pueden ser reproducidos al mismo tiempo.

Tasa de muestreo: es el nmero de muestras tomadas por segundo en cada
canal.

Nmero de bits por muestra: habitualmente son 8 o 16 bits.

Teniendo en cuenta los diversos parmetros del audio digital, el espacio requerido
en disco duro para la grabacin de informacin de audio digital a distintas
frecuencias de muestreo, cuantizaciones y cantidad de canales de audio es:

50

Nmero de
pistas y
duracin
16 bits a
44,1 KHz
16 bits a
48 KHz
24 bits a
44,1 KHz
24 bits a
48 KHz
16 bits a
88,2 KHz
16 bits a
96 KHz
24 bits a
88,2 KHz
24 bits a
96 KHz
1 pista mono
1 minuto
5 MB 5,5 MB 7,5 MB 8,2 MB 10 MB 11 MB 15 MB 16,4 MB
1 pista estreo
1 minuto
10 MB 11 MB 15 MB 16,5 MB 20 MB 22 MB 30 MB 33 MB
1 pista estreo
60 minutos
606 MB 660 MB 908 MB 989 MB 1,2 GB 1,3 GB 1,8 GB 2 GB
32 pistas mono
5 minutos
808 MB 880 MB 1,2 GB 1,3 GB 1,6 GB 1,8 GB 2,4 GB 2,6 GB
32 pistas mono
60 minutos
9,4 GB 10,4 GB 14 GB 15,5 GB 18,9 GB 20,6 GB 28 GB 31 GB
MB = Megabyte (1 MB = 10
6
bytes)
Tabla 1. 5 Espacio en disco duro para la grabacin de audio digital

1.4.4.4 Calidad del audio digital

La calidad del audio digital depende principalmente de los parmetros con los que
la seal de sonido ha sido adquirida, pero no son los nicos parmetros
importantes para determinar la calidad.

Una forma de estimar la calidad del audio digital es analizar la diferencia entre el
sonido original y el sonido reproducido a partir de su representacin digital. Para
los sistemas de audio sta medida estar determinada por el nmero de bits por
muestra y la tasa de muestreo.

La calidad que percibe el oyente est determinada por la respuesta del odo
humano a las ondas sonoras, es decir, si el audio digital es de buena calidad el
oyente no percibe muchas de las posibles diferencias. Lgicamente si las seales
son muy parecidas, el odo no las podr diferenciar, pero tambin pueden ser muy
distintas y ser percibidas como la seal original. Por lo tanto, parece ms
apropiada la evaluacin de la calidad de un sistema digital mediante parmetros
de sensibilidad del odo humano y pruebas especficas con oyentes
especializados.

51

1.4.5 FORMATOS DE FICHERO

Los formatos de fichero indican la estructura con la que el audio es almacenado.
En los comienzos del audio digital aparecieron multiplicidad de formatos de audio
y cada sistema determinaba el formato que utilizaba, con el tiempo el conjunto de
formatos usados se redujo mediante la aparicin de formatos cada vez ms
flexibles y eficientes, algunos formatos son usados de forma masiva, mientras que
otros tienen usos muy reducidos. Los formatos de fichero no tienen por qu
coincidir con las caractersticas del reproductor. En general un mismo formato de
fichero permite contener diversas codificaciones, tasas de muestreo, etc. En este
sentido se distingue entre dos grupos de formatos de ficheros de audio:

a) Formatos autodescriptivos: contienen de forma explcita los parmetros del
dispositivo y la codificacin en algn punto del fichero.

b) Formatos sin cabecera o tipo raw: los parmetros del dispositivo y
codificacin empleada son fijos.

1.4.5.1 Formatos de fichero autodescriptivos

Los formatos de fichero autodescriptivos, suelen permitir la eleccin entre varias
codificaciones, de entre las cuales se especifica la utilizada en una cabecera. La
cabecera suele comenzar por lo que se conoce como un nmero mgico, que no
es ms que un valor fijo que permite identificar el fichero como un fichero del
formato buscado. Esta cabecera suele contener la tasa de muestreo, el nmero
de bits por muestra, si las muestras tienen signo o no, si se colocan en formato
little-endian
7
(ltimo el bit menos significativo LSB) o big-endian
8
(ltimo el bit ms
significativo MSB), y otro tipo de informacin como la descripcin del sonido que
contiene o notas de copyright.

7
Formato Little Endian (LSB MSB), se almacena primero el dato ms pequeo; el byte de menor
peso se almacena en la direccin ms baja de memoria y el byte de mayor peso en la ms alta.
8
Formato Big Endian (MSB LSB), se almacena primero el dato ms grande; el byte de mayor peso
se almacena en la direccin ms baja de memoria y el byte de menor peso en la ms alta.
52

Existe un subconjunto de estos ficheros formados por aquellos que en lugar de
tener una cabecera con la informacin de codificacin, organizan el fichero en
bloques de datos y bloques de informacin de codificacin, intercalando unos y
otros. Estos ficheros permiten la utilizacin de diversas codificaciones de datos a
lo largo de un mismo fichero.

La tabla 1.6 muestra una relacin de algunos de los formatos de fichero de audio
autodescriptivos ms habituales e indica algunos de los parmetros que permiten
modificar.

Tabla 1. 6 Formatos de fichero autodescriptivos [3]

1.4.5.2 Formatos de fichero sin cabecera o tipo raw

Estos formatos definen un nico esquema de codificacin y no permiten la
variacin de los parmetros salvo, en algunos casos, la tasa de muestreo. De
hecho, muchas veces no se puede conocer de ninguna forma la tasa de muestreo
empleada a menos que se escuche el sonido.

Estos formatos son menos importantes que los autodescriptivos, por ser menos
flexibles. Hoy en da estn prcticamente en desuso, aunque en el pasado fueron
los primeros en aparecer.

REFERENCIAS BIBLIOGRFICAS

CAPITULO 1: ESTUDIO DEL SONIDO

LIBROS:

[1] Guyton, Arthur C., y John E. Hall. (2002). Tratado de Fisiologa mdica.
Captulo 52, El sentido de la audicin. Dcimo primera edicin. Mxico:
McGraw-Hill, Interamericana.
[2] Salomon, D. (2007). Data Compression. Chapter 7, Audio Compression.
Fourth Edition. London: Springer-Verlag.
[3] Lpez, A. Formatos de Audio Digital. Ingeniera de Ondas. Espaa.

INTERNET:

[4] Asinsten, J. El sonido. Ministerio de Educacin Ciencia y Tecnologa.
http://coleccion.educ.ar/coleccion/CD13/contenidos/materiales/archivos/son
ido.pdf
[5] Bruscianelli, C. Electroacstica. Universidad Simn Bolvar, Departamento
de Electrnica.
http://www.labc.usb.ve/EC4514/AUDIO/Indice.html
[6] Cdiz, R. (2008). Introduccin a la Msica Computacional. Centro de
Investigacin en Tecnologas de Audio, Instituto de Msica, Pontificia
Universidad Catlica de Chile.
http://www.rodrigocadiz.com/imc/
[7] ESPOL. (2009). Procesamiento de Audio y Video. Facultad de Ingeniera
en Electricidad y Computacin, ESPOL OCW.
http://www.ocw.espol.edu.ec/facultad-de-ingenieria-en-electricidad-y-
computacion/procesamiento-de-audio-y-video-1/course-schedule
54

CAPTULO 2.
COMPRESIN DE AUDIO

2.1 COMPRESIN DE LA INFORMACIN

2.1.1 INTRODUCCIN

Con la llegada de las computadoras personales de bajo costo en los aos 1980 y
1990 llegaron las aplicaciones multimedia, donde texto, imgenes, videos y audio
se almacenan en el computador, y se pueden cargar, descargar, editar, y
reproducir. En la actualidad es impensable la informacin multimedia en formato
sin compresin. Principalmente, porque da a da son ms las aplicaciones que
requieren de un amplio rango de calidad y funcionamiento de acuerdo a los
requerimientos de los distintos usuarios. Afortunadamente, un gran nmero de
investigaciones durante las ltimas dcadas han conducido a muchas tcnicas y
algoritmos de compresin que hacen factible la transmisin de multimedia. Es el
resultado de ms de 50 aos de investigacin.

Muchas de las tcnicas de compresin actuales, que nacieron a inicios de los
aos noventa, compiten entre s o son complementarias. Los mtodos de
compresin modernos estn basados en un compromiso entre criterios como: que
la calidad de los datos codificados, y luego decodificados, sea tan buena como
sea posible; que se logren tasas de compresin tan altas como se pueda; y una
adecuada relacin costo-beneficio.

La tendencia creciente hacia la estandarizacin de formatos de compresin, han
hecho posible una compatibilidad casi universal entre distintos sistemas de
comunicacin. El paso de la era industrial a la sociedad de la informacin, se
sustenta en los avances en redes, computadoras y telecomunicaciones.
55

La existencia de diferentes tipos de archivos con los cuales trabajamos
diariamente y en ocasiones, de manera simultnea; han hecho que los algoritmos
de compresin se desarrollen en correspondencia al tipo de archivos y de acuerdo
a determinadas relaciones de compresin requeridas. As por ejemplo para
archivos de texto, audio, imgenes y video existen los algoritmos
correspondientes. En general se puede decir que el texto no ocupa mucho
espacio en el computador, as por ejemplo un libro promedio, consiste de un
milln de caracteres y se puede almacenar sin comprimir en alrededor de 1 MB,
ya que cada carcter de texto ocupa un byte. En contraste, las imgenes ocupan
mucho ms espacio, dando otro significado a la frase "una imagen vale ms que
mil palabras". Dependiendo del nmero de colores utilizados en una imagen, un
solo pxel ocupa entre un bit y tres bytes. En cuanto a la voz, audio y video se
consideran medidas cuantitativas de distorsin perceptiva para as obtener una
compresin eficiente.

2.1.2 NECESIDAD PARA LA COMPRESIN

Actualmente existen dispositivos con una gran capacidad de almacenamiento
(discos duros, DVDs, memorias flash, etc.) pudiendo almacenar en ellos, muchos
datos de gran tamao. Sin embargo, la complejidad y volumen de los datos
aumenta en forma casi paralela al aumento de las capacidades de estos medios
de almacenamiento, por ello hay que comprimirlos.

Imgenes, video y audio sin comprimir pueden implicar una enorme cantidad de
datos y ello puede originar problemas en la transmisin, almacenamiento y
procesamiento; por ejemplo una seal de audio sin comprimir, con calidad
telefnica, muestreada a 8 KHz y utilizando 8 bits/muestra, implica una tasa de
transmisin de 64Kbps. Una foto de 35 mm a una resolucin de 2000 x 2000
ocupara 10 MB. Una seal de audio estreo sin comprimir y con calidad CD,
muestreada a 44,1 KHz utilizando 16 bits/muestra, demanda 1.4112 Mbps.
Seales de video para TV y para PC sin comprimir requieren tasas en el orden de
las centenas de Mbps, para video de alta definicin (HDTV) se requiere tasas en
el orden de las unidades de Gbps.
56

La compresin permite reducir el nmero de bits a transmitirse, con una menor
tasa de bits se consigue una disminucin en el tiempo de transmisin y ahorro en
ancho de banda. Un archivo comprimido ocupa menos espacio de memoria. La
compresin afronta entonces el problema de la reduccin de la cantidad de datos,
con lo cual se logra disminuir las tasas de datos, sin prdidas significativas en la
calidad. Adems el ahorro de recursos como: ancho de banda, espacio de
almacenamiento y tiempo; se ven vinculados directamente con ahorro en costos.

Una razn importante en cuanto a la necesidad de compresin se refiere, aparece
con las redes de comunicaciones, la Internet es un ejemplo de ello. Esta razn es
el tiempo (que tambin se traduce en dinero) que es necesario para acceder o
descargar archivos de gran tamao por la red. Por tanto, si esos datos estn
comprimidos se tardarn menos (y se gastar menos dinero) en enviarlos o
recibirlos (por correo electrnico, web, ftp
9
o cualquier otro protocolo de
transferencia de datos).

2.1.3 COMPRESIN DE DATOS

Comprimir significa reducir el tamao de algo. El objetivo principal de cualquier
esquema de compresin es describir la misma informacin con un conjunto de
datos de menor magnitud.

La compresin de datos se define como el proceso de reducir la cantidad de datos
necesarios para representar eficazmente una informacin, la compresin es la
bsqueda para obtener la mxima transferencia (almacenamiento) de informacin
con un mnimo nmero de bits posible. Si la compresin es eficiente, el resultado
ocupar menor espacio que los smbolos originales.

El mtodo de compresin depende intrnsecamente del tipo de datos que se van a
comprimir, no se comprime una imagen del mismo modo que un archivo de audio.

9
FTP = File Transfer Protocol (protocolo de transferencia de archivos), es un protocolo de la capa
aplicacin (capa 4) del modelo TCP/IP basado en la arquitectura cliente-servidor utilizado para
descargar o enviar archivos.
57

Cuando se habla de compresin, es til mencionar algunos trminos como los
siguientes:

x Relacin de compresin (CR): Tambin denominada radio de compresin o
factor de compresin, mide cunto comprime un algoritmo de compresin. La
CR en forma de relacin n : 1 viene dada por:

CR =
nmco dc bts sncompcson
nmco dc bts con compcson
(Ec. 2.1)

El nmero de bits sin compresin representa el tamao original del archivo (TO)
mientras que el nmero de bits con compresin representa el tamao comprimido
(TC). Por esta razn, expresado como porcentaje la CR viene dada por:

CR =
TO-TC
TO
x 1uu [%] (Ec. 2.2)

Por ejemplo si CR = 65.536 / 16.384 = 4; representara una relacin de 4:1.

x Factor de Mrito: Es el inverso de la relacin de compresin

FR =
1
CR
(Ec. 2.3)

2.1.3.1 Utilizacin de la compresin

La compresin puede ser utilizada principalmente en transmisin y
almacenamiento. La compresin utilizada en transmisin se ilustra a continuacin
en la figura 2.1.

Compresor
o
Codificador
Expansor
o
Decodificador
Canal de
transmisin
Salida de
datos
Fuente de
datos

Figura 2. 1: Compresin utilizada en transmisin
58

Se puede observar en la figura 2.1 que el compresor reduce la tasa de datos de la
fuente de informacin
10
, los datos comprimidos atraviesan un canal de
comunicacin y luego son retornados a la tasa original mediante el expansor. En
ocasiones a un compresor y un expansor en cascada se los denomina
compansor. Al compresor se lo puede llamar codificador y al expansor
decodificador en cules casos el par puede denominarse cdec.

El uso de la compresin en aplicaciones de almacenamiento es sumamente
poderoso, la figura 2.2 muestra el uso de un cdec para almacenamiento de
informacin. Con la ayuda de los diferentes algoritmos de compresin, una mayor
cantidad de archivos pueden ser almacenados en diferentes dispositivos de
almacenamiento.

Compresor
o
Codificador
Expansor
o
Decodificador
Fuente de
datos
Dispositivo
de
almacenamiento
cinta,
disco,
RAM,
etc.
Salida de
datos

Figura 2. 2: Compresin utilizada en almacenamiento

2.1.3.2 Tcnicas de compresin

2.1.3.2.1 Compresin fsica y lgica

La compresin fsica acta directamente sobre los datos; por lo tanto, es cuestin
de almacenar los datos repetidos de un patrn de bits a otro. La compresin
lgica, por otro lado, se lleva a cabo por razonamiento lgico al sustituir esta
informacin por informacin equivalente.

10
Fuente de informacin: Es aquella que produce un conjunto finito de posibles mensajes si es
discreta y mensajes definidos sobre un rango continuo de valores si es continua.
59

2.1.3.2.2 Compresin simtrica y asimtrica

En el caso de la compresin simtrica, se utiliza el mismo mtodo para comprimir
y para descomprimir los datos, cada operacin requiere la misma cantidad de
trabajo. En general, se utiliza este tipo de compresin en la transmisin de datos.

La compresin asimtrica requiere ms trabajo para una de las dos operaciones,
compresin o descompresin, es frecuente buscar algoritmos para los cuales la
compresin es ms lenta que la descompresin.

Los algoritmos que realizan la compresin de datos con mayor rapidez que la
descompresin pueden ser necesarios cuando se trabaja con archivos de datos a
los cuales se accede con muy poca frecuencia (por razones de seguridad, por
ejemplo), ya que esto crea archivos compactos.

2.1.3.2.3 Codificacin de fuente y de entropa

La codificacin de fuente tiene las siguientes caractersticas:

x Codifica los datos basndose en las caractersticas y propiedades de stos.
x Suelen tolerar prdidas en la codificacin (lossy cdecs) que perceptualmente
pasan inadvertidas para el usuario.
x Son codificadores de propsito especfico.
x De manera general obtienen mayores beneficios que los codificadores
basados en la entropa.
x Suelen ser tcnicas de compresin con prdidas.
x Se obtienen tasas de compresin elevadas.

Ejemplos: Codificacin Diferencial, Codificacin por Transformada (Transformada
Discreta del Coseno Modificada - MDCT), etc.

60

La codificacin de entropa
11
tiene las siguientes caractersticas:

x Codifica los datos sin necesidad de conocer la naturaleza de stos.
x Es una codificacin de propsito general (para todo tipo de datos).
x Son tcnicas de compresin sin prdidas.

Ejemplos: Compresores estadsticos (Huffman, Aritmticos, etc.)

2.1.3.2.4 Compresin con y sin prdida de informacin

Existe varias formas de clasificar los diferentes algoritmos y esquemas de
compresin en forma general se puede mencionar dos grandes grupos: la
compresin con prdida de informacin o entropa (reduccin de entropa) lossy
en ingls y la compresin sin prdida de informacin o entropa (con prdida de
redundancia) o lossless en ingls. A la compresin con y sin prdida de
informacin se las tratar con detalle, ms adelante en este captulo.

2.1.3.2.5 Codificacin no adaptativa, semiadaptativa y adaptativa

Los codificadores no adaptativos estn basados en diccionarios
12
para un tipo
especfico de datos. La repeticin de letras en un archivo de texto, por ejemplo,
depende del idioma en el que ese texto est escrito. Un codificador
semiadaptativo crea un diccionario segn los datos que va a comprimir, es decir,
crea el diccionario mientras analiza el archivo y despus lo comprime.

Al contrario, un codificador adaptativo se adapta a los datos que va a comprimir,
no parte de un diccionario ya preparado para un tipo de datos determinado.

11
Entropa H(S): Es la cantidad media de informacin por smbolo emitida por una fuente de
informacin de memoria nula, es decir aquella que emite smbolos estadsti camente
independientes.
12
El modelo basado en diccionario usa un cdigo simple para reemplazar cadenas de smbolos, si
una cadena concuerda, un indicador en el diccionario puede salir en lugar del cdigo del smbolo.
61

2.2 COMPRESIN LOSSY Y LOSSLESS

2.2.1 COMPRESIN CON PRDIDA DE INFORMACIN (LOSSY)

La compresin con prdida de informacin se usa en aplicaciones donde se
pueden tolerar diferencias entre los datos originales y comprimidos: voz, msica,
imgenes y video. Por ejemplo, para imgenes uno de los formatos ms
conocidos es el JPEG, para video los formatos: MPEG-1, MPEG-2 y MPEG-4 son
muy conocidos. En cuanto a audio se refiere existen formatos tanto para el habla
y dilogo como tambin para lo que es msica; en cuanto a msica los formatos:
AAC (usado por Apple Computer), ADPCM, ATRAC, Dolby AC-3, MP2, MP3,
WMA son muy utilizados, para habla y dilogo existen varios formatos entre
algunos de ellos estn: CELP, G.711 (PCM), G.726 (ADPCM).

En la compresin con prdida de informacin se introducen medidas de distorsin
perceptiva y se fijan los umbrales tolerables, a menudo el observador humano no
aprecia las diferencias. Al descomprimir la informacin, no recuperamos
exactamente la original, en el proceso de descompresin se pierde cierta
informacin que no se considera fundamental. De esta forma pareciera que una
tcnica de compresin que perteneciera a esta categora difcilmente podra tener
una aplicacin en la vida real; pero no es as, la explosin de la multimedia y el
trfico de imgenes, audio y videos en la Internet, presente hoy en da se ha dado
gracias a los esfuerzos investigativos en este campo.

La prdida de datos asociada a las tcnicas con prdida se ve compensada por
su alta relacin de compresin (en imgenes se pueden alcanzar razones de 25:1
sin una prdida notable de la calidad y en audio se pueden alcanzar razones de
12:1 con el formato MP3). La compresin con prdida, a diferencia de la
compresin sin prdida, elimina informacin para lograr la mejor relacin de
compresin posible mientras mantiene un resultado que es lo ms cercano
posible a los datos originales.

62

Los archivos ejecutables, por ejemplo, no pueden comprimirse mediante este
mtodo, porque necesitan especialmente preservar su integridad para poder
ejecutarse. De hecho, es inconcebible reconstruir un programa omitiendo y
despus agregando bits.

2.2.1.1 Codificacin diferencial

La codificacin diferencial se fundamenta en la correlacin existente entre
muestras sucesivas de la fuente, basndose en las diferencias entre dos smbolos
consecutivos, no se codifica la muestra si no la diferencia entre muestras. Ciertos
tipos de datos tienen la propiedad de similitud entre smbolos consecutivos: seal
de audio, vdeo, imgenes, etc. Esto permite codificar con pocos bits las
diferencias. Dentro de este tipo de codificadores se tiene:

x DPCM (PCM Diferencial)
x DM (Modulacin Delta)
x Codificacin Predictiva

2.2.1.2 Codificacin por transformada

Consiste en una codificacin por bloques. La seal de entrada se transforma a un
dominio diferente, se traslada del dominio del tiempo al dominio de la
transformada, y se codifican los coeficientes de la transformacin, se evala el
contenido energtico de los coeficientes de la transformada y se transmiten
nicamente aquellos coeficientes codificados de mayor aporte energtico. En el
receptor, el decodificador calcula la transformada inversa para obtener la seal
original reconstruida. La transformacin ms usada es la transformada discreta
coseno (sus siglas en ingls, DCT).

La codificacin por transformada se utiliza en la codificacin de seales de banda
ancha de imagen y audio. Sin embargo, no se usa mucho en codificacin de voz
debido a su complejidad.

63

Dentro de las transformadas de mayor uso se tiene:

x KL (Karhunen Loev) o de componentes principales.
x Fourier.
x Hadamard.
x Haar.
x Coseno.
x Ondilla (wavelet).

2.2.1.3 Cuantizacin vectorial

Opera sobre bloques de datos, en lugar de sobre datos aislados, un bloque de
datos se puede ver como un vector (siendo N la dimensin de los vectores), de
ah el nombre.

Se utiliza un libro de cdigos conocido como registro de cdigos (RC), que usa
una tabla, codebook en ingls; que contiene los posibles vectores a la salida de
un cuantificador; cada vector del registro de cdigos se llama vector de cdigo y
su correspondiente ndice en la tabla es la palabra cdigo. Se debe definir el
nmero de bits del registro de cdigos, la dimensin de los vectores de entrada, y
los valores de los vectores de cdigos a fin de disminuir el error entre la seal
cuantificada y su original. Cuantificar un vector de entrada consiste en determinar
su vecino ms cercano dentro del registro de cdigos, para ello hay que calcular
su distancia a todos los vectores del registro de cdigos y escoger el de menor
distancia.

2.2.2 COMPRESIN SIN PRDIDA DE INFORMACIN (LOSSLESS)

La compresin sin prdida se usa en aplicaciones donde no es tolerable ninguna
diferencia entre los datos originales y comprimidos: textos, programas, imgenes
crticas (radiografas, teledeteccin).

64

Como ejemplos de los compresores sin prdida, para archivos se tiene: RAR,
Gzip, Bzip, zip, 7z; en imgenes: PNG, RLE; en formatos de audio: FLAC, WAV.
En video es muy raro, suelen ser utilizados para captura.

Empleando compresin sin prdidas los datos originales pueden ser recuperados
en un 100% despus de aplicar sobre los datos comprimidos un algoritmo
compatible de descompresin. Si bien los algoritmos de compresin sin prdida
tienen la propiedad de disminuir el tamao y conservar la totalidad de la
informacin, la compresin sin prdida logra un ndice de compresin muy bajo
(aproximadamente 2:1), comparada con la compresin con prdida. Esta forma de
compresin se caracteriza porque la tasa de compresin que proporciona est
limitada por la entropa (redundancia de datos) de la seal original. Es decir,
existe un lmite terico de compresin para los compresores sin prdida, este
lmite fue enunciado por Shannon en 1948. En su primer teorema Shannon
menciona que la longitud media de un cdigo
13
(L) siempre es mayor o igual a la
entropa de la fuente [H(s)], de lo que se concluye que el cdigo ms corto que
puede existir para codificar la salida de una fuente de mensajes est limitado por
la misma fuente.

2.2.2.1 Codificacin estadstica

La codificacin estadstica se basa en asignar cdigos cortos a los datos que
aparecen ms frecuentemente, y asignar cdigos ms largos a los datos ms
infrecuentes. De este modo, el nmero promedio de bits por dato codificado es
menor. Los compresores estadsticos utilizan las propiedades estadsticas de la
fuente para mejorar la codificacin.

Entre los compresores estadsticos se tienen los siguientes: Huffman, Shanon-
Fano, Predictores (adaptivo) y Codificacin Aritmtica.

13
Longitud media de un cdigo (L): constituye el nmero promedio de smbolos del alfabeto cdigo
(conjunto de smbolos de otro alfabeto diferente al de la fuente) que utiliza un cdigo para codificar
un smbolo de la fuente. La longitud media constituye el nmero de smbolos cdigo que en
promedio conforma una palabra cdigo.
65

Como en la implementacin del codificador mp3 en Matlab se emplea el algoritmo
de codificacin de Huffman, referido al estndar ISO/IEC 11172-3, ste ser
descrito de forma breve a continuacin.

2.2.2.1.1 Codificacin Huffman

Una tcnica que consiste en asignarles cdigos de bits ms cortos a los datos que
mayor frecuencia de aparicin tienen y cdigos ms largos a los que aparecen
con menos regularidad. Es una tcnica que ofrece altos radios de compresin.

Para realizar el proceso se construye un rbol binario de abajo hacia arriba, se
comienza teniendo todos los smbolos del archivo junto con sus frecuencias. Se
escogen los 2 datos con menor frecuencia y se los une. El padre de ambos datos
ser la suma de sus frecuencias. Luego se toma este rbol con 2 hijos y se le
agrega la menor frecuencia siguiente. Se repite el proceso hasta que se llega al
dato con mayor frecuencia.

Para obtener el cdigo de Huffman (serie de bits que representan un dato) se
recorre el rbol desde el nodo hijo hasta la raz del rbol. Dependiendo de la rama
que se tome se agrega un 0 o un 1 al cdigo de Huffman. Si es rama derecha se
asigna un 1 y para la rama izquierda un 0.

Una caracterstica particular de estos cdigos es que dada una serie de bits es
posible determinar si se debe continuar leyendo el cdigo o se debe detener. Por
ejemplo: no habr un cdigo 001 y otro 00101, porque los 3 primeros bits se
repiten. Se tiene uno u otro, de forma que no se repitan los primeros bits.

Ejemplo:
Smbolo A B C D E
Frecuencia 15 7 6 6 5
Tabla 2. 1: Smbolos y sus respectivas frecuencias (Codificacin Huffman)

66

Figura 2. 3: Ejemplo de codificacin Huffman

2.2.2.2 Basados en diccionario

Se construye un diccionario basado en la entrada procesada hasta ese momento,
ese diccionario contiene cadenas de mensajes identificados por un ndice. Estos
compresores no requieren un conocimiento de la probabilidad de aparicin de
cada smbolo. Por ello sern tiles en aquellas aplicaciones donde no sea posible
conocer las probabilidades de los smbolos. Se basan en que algunas cadenas de
smbolos se repiten frecuentemente. Las cadenas procesadas hasta el momento
pasan a ser parte de un diccionario indexado, el cual puede definirse de forma
explcita o implcita. Durante el proceso de compresin, si la cadena que se est
procesando, coincide con una entrada en el diccionario, la salida emitida por el
compresor es el ndice correspondiente a dicha cadena; ndices que
generalmente son cdigos de menor longitud que la cadena a la que hacen
referencia.

Existen gran variedad de algoritmos basados en el uso de diccionarios, la
diferencia fundamental entre todos ellos es la manera en que cada uno crea y
gestiona el diccionario, entre los compresores ms conocidos se tiene: RLE (Run
Length Encoding) y Lempel Ziv.

67

2.3 COMPRESIN DE AUDIO

2.3.1 INTRODUCCIN

Los requisitos de almacenamiento del audio son ms pequeos que los de las
imgenes o pelculas, pero ms grandes que los de texto. Esta es la razn porque
la compresin de audio ha llegado a ser importante y ha sido objeto de mucha
investigacin y experimentacin en toda la dcada de 1990. Hay caractersticas
importantes en la compresin de audio, una tiene que ver con la prdida de
informacin y otra con el requerimiento de una rpida decodificacin. El texto
debe ser de compresin sin prdidas, pero las imgenes y el audio pueden perder
mayor cantidad de datos sin una degradacin notable de la calidad. En la mayora
de los casos en la compresin de audio se aprovechan de las propiedades que
presentan las fuentes de sonido y las limitaciones fsicas del odo humano. Las
caractersticas de una seal de audio y los distintos tipos de calidad requerida
influyen en la utilizacin de una u otra tcnica de compresin de audio.

Las secuencias de audio forman parte de las aplicaciones multimedia. El estudio
de la codificacin y compresin se puede enfocar en funcin de la aplicacin. En
aplicaciones interactivas (audio o video conferencia) se emplean cdecs
14

simtricos, mientras que en aplicaciones de difusin y reproduccin de medios
(TV digital, audio Hi-Fi, DVD, etc.) se emplean cdecs asimtricos

Cuando se habla del audio se puede hacer referencia a dos grandes categoras
una tiene que ver con la msica y la otra tiene que ver con la voz.

En el presente proyecto de titulacin se har mayor nfasis al aspecto de la
compresin de msica y no al de la compresin de voz ya que el objetivo general
es implementar un codificador mp3 en Matlab para comprimir un archivo de
msica *.wav a *.mp3.

14
Como se mencion anteriormente en este captulo el compresor puede bien llamarse codificador
y el expansor decodificador en cules casos el par puede denominarse cdec.
68

2.3.1.1 Caractersticas de la compresin de audio

Las tcnicas de compresin de audio, en general, se pueden clasificar en dos
categoras bsicas: sin prdidas y con prdidas. Aunque hay muchas diferentes
tcnicas de compresin, todas ellas caen en una u otra de estas categoras. A
menudo, el audio se almacena en formato comprimido y debe ser descomprimido
en tiempo real cuando el usuario quiere escucharlo; este es el por qu la mayora
de los mtodos de compresin de audio son asimtricos. El codificador puede ser
lento, pero el decodificador tiene que ser rpido.

En compresin del audio la tcnica ms simple para reducir el volumen de datos
en una seal digital es la reduccin de la frecuencia de muestreo o de la cantidad
de bits de cuantizacin. Si bien es un mtodo bastante rudimentario y poco
eficiente, todava puede ser utilizado en algunas aplicaciones. Solamente hay que
tener en cuenta que reduciendo la frecuencia de muestreo se reduce el ancho de
banda que es posible procesar, y reduciendo los bits de cuantizacin disminuye la
relacin seal a ruido de cuantizacin SNRq (Ec. 1.12) introducindose ruido en la
seal.

2.3.1.2 Cdec de audio

Un cdec de audio, es un cdec que incluye un conjunto de algoritmos que
permiten codificar y decodificar los datos auditivos, lo cual significa reducir la
cantidad de bits que ocupa el fichero de audio. Un cdec puede ser implementado
en software, hardware o una combinacin de ambos. Actualmente existen una
gran variedad de cdecs de audio. Aunque cada vez son ms complejos y aaden
caractersticas adicionales, dependiendo del mtodo de codificacin o reduccin
de la tasa de bits se pueden clasificar en:

2.3.1.2.1 Codificadores perceptuales

Los codificadores perceptuales aprovechan las limitaciones en la percepcin del
sistema auditivo humano (umbral de audicin, enmascaramiento temporal y/o
69

frecuencial) para codificar el flujo de datos. Las distintas versiones de MPEG-1,
siendo MP3 (MPEG-1 Layer 3) la ms conocida, utilizan este mtodo de
codificacin.

La codificacin perceptual se tratar con detalle ms adelante en este captulo.

2.3.1.2.2 Codificadores paramtricos

Los codificadores paramtricos se basan en que el audio y la voz se pueden
representar y sintetizar con tonos aislados, patrones armnicos (representados
con sinusoides) y componentes ruidosas. Con parmetros como la amplitud, la
frecuencia fundamental o los componentes espectrales se requieren pocos bits
para representar el audio o la voz.

2.3.1.2.3 Vocoders

Los vocoders son codificadores paramtricos especficos para la codificacin de
la voz. Estos analizan la seal de voz correspondiente a un segmento temporal
considerado estacionario para extraer los parmetros del modelo y la excitacin.

2.3.1.2.4 Codificadores de forma de onda

Los codificadores de forma de onda se basan en el estudio de la seal, de forma
que intentan reproducir la forma de la seal de entrada. Generalmente se disean
para ser independientes de la seal, de manera que se utilizan para codificar una
gran variedad de seales.

Estos codificadores aprovechan la redundancia de la seal, y a partir de una
prediccin lineal permiten codificar la seal auditiva; de esta forma se consiguen
tasas de compresin elevadas cuando las seales son muy redundantes y
prcticamente nulas cuando no es as.

70

2.3.1.2.5 Codificadores hbridos

Los codificadores hbridos, tambin conocidos como codificadores de anlisis por
sntesis combinan las tcnicas de los codificadores de forma de onda con los
vocoders, esencialmente son codificadores de voz. Entre los codificadores
hbridos se encuentran: RELP, MPC, CELP, VSELP, RPE-LTP.

2.3.1.3 Parmetros de los cdecs de audio

Los cdecs de audio se caracterizan por los siguientes parmetros:

x Nmero de canales: Dependiendo el nmero de seales de audio simultneas
que contiene el flujo de datos (stream en ingls). Un cdec puede ser
monofnico (1 canal), estreo (2 canales) o multicanal como 5.1 (seis canales)
o 7.1 (ocho canales).

x Frecuencia de muestreo: Determina la calidad percibida, por lo tanto cuanto
ms alta sea la frecuencia de muestreo mayor ser la fidelidad del audio
obtenido respeto al original. La mxima frecuencia de muestreo utilizada en
sistemas de audio actualmente es de 192 KHz.

x Nmero de bits por muestra: Determina la precisin con la que se reproduce la
seal original y el rango dinmico de la misma. Se suelen utilizar 8 bits por
muestra (para un rango dinmico de hasta 45 dB), 16 bits por muestra (para
un rango dinmico de hasta 90 dB como el formato CD) o 24 bits por muestra
(para un rango dinmico desde 109 hasta 120 dB). El ms comn es 16 bits.

x Tipo de compresin: Un cdec de audio puede ser de compresin con
prdidas (lossy) o sin prdidas (lossless).

x Tasa de bits: Determina el nmero de bits de informacin necesarios por
unidad de tiempo. La tasa de bits no se puede deducir de los parmetros
anteriores puesto que la compresin puede ser con prdidas o sin prdidas.
71

Adems, la tasa de bits puede ser constante (CBR: Constant Bit Rate),
variable (VBR: Variable Bit Rate) o media (ABR: Average Bit Rate). En audio
se utiliza tasa de bits variable (VBR), puesto que es ms eficiente que CBR
cuando hay silencios o segmentos donde la complejidad es baja y se pueden
almacenar con menos bits.

Cdec AAC FLAC MP3
Tipo de
compresin
Con prdidas,
Hbrido
Sin prdidas Con prdidas
Frecuencia de
muestreo
8 KHz a 192 KHz
1 KHz a
1.04857 MHz
8, 11.025, 12, 16, 22.05,
24, 32, 44.1, 48 KHz
Tasa de bits
8 - 529 Kbps
(estreo)
Variable
8, 16, 24, 32, 40, 48, 56,
64, 80, 96, 112, 128, 160,
192, 224, 256, 320 Kbps
Bits por
muestra
Cualquiera 4, 8, 16, 24, 32 Cualquiera
CBR Si No Si
VBR Si Si Si
Multicanal hasta 28 canales
hasta 8
canales
No
Tabla 2. 2: Caractersticas tcnicas de cdecs de audio

x Estandarizacin: Hay dos organizaciones que dominan la estandarizacin de
los codificadores de audio. La UIT-T (Unin Internacional de
Telecomunicaciones) dentro del conjunto de normas H.320 y H.323 donde se
definen los estndares para videoconferencia y telefona IP G.7xx y la ISO/IEC
(Organizacin Internacional de Estndares y Comisin Electrotcnica
Internacional) principalmente con los estndares MPEG (Moving Picture
Experts Group).

Sin prdidas Con prdidas
ALAC (Apple Lossless)
DST (Direct Stream Transfer)
FLAC (Free Lossless Audio Codec)
LA (Lossless Audio)
LPAC (Lossless Predictive Audio Codec)
LTAC (Lossless Transform Audio Codec)
MLP (Meridial Lossless Packing)
Monkey's Audio (APE)
MPEG-4 ALS
MPEG-4 SLS
OptimFROG
QDesign
AAC (Advanced Audio Coding)
aacPlus
AC3 (Dolby Digital A/52)
ADPCM
ADX (Videojuegos)
ATRAC (Adaptive Transform Acoustic Coding)
DRA
DTS (Digital Theater Systems)
MP1 (MPEG-1 audio layer-1)
mp3PRO
72

RealAudio Lossless
RKAU
Shorten (SHN)
TTA (True Audio)
WavPack
WMA lossless (Windows Media Audio
Lossless)
Musepack
Ogg Vorbis
Perceptual Audio Coding
RTA (Real Time Audio Cdec)
TwinVQ
Siren
WMA (Windows Media Audio)
Tabla 2. 3: Ejemplos de cdecs de audio con y sin prdida

2.3.2 COMPRESIN DE MSICA

Para la compresin de msica se desea normalmente que la fuente este
muestreada preferiblemente a 44,1 KHz y 16 bits/muestra. El objetivo es reducir al
mnimo el tamao, pero preservando una calidad casi idntica a la de la fuente
original. En la actualidad se puede conseguir una calidad muy buena entre los 64
y 128 Kbps. A estos cdecs se los conoce como cdecs perceptuales ya que se
basan en las limitaciones del odo humano para realizar su trabajo.

Para lograr la compresin se remueve toda la informacin presente en la seal
que no es detectada por el odo humano. Para saber qu se puede eliminar se
recurre al conocimiento de la psicoacstica, esto es de la percepcin humana del
sonido.

2.3.2.1 Mnimo umbral auditivo

Este umbral, tambin conocido como umbral absoluto, corresponde al sonido de
intensidad ms dbil que se puede escuchar en un ambiente silencioso. El
mnimo umbral auditivo no tiene un comportamiento lineal; se representa por una
curva de Intensidad (dB) contra Frecuencia (Hz), que posee niveles mnimos entre
2 y 5 KHz, los cuales corresponden a la parte ms sensitiva del odo humano.

Por lo tanto, en los sistemas de compresin de audio que sacan provecho de la
psicoacstica, no es necesario codificar los sonidos situados bajo este umbral (el
rea por debajo de la curva en la figura 2.4), ya que stos no sern percibidos.

73

Frecuencia (KHz)
0 2 4 6 8 10 12 14 16
0
10
20
30
40
d
B

Figura 2. 4: Mnimo umbral auditivo (ambiente silencioso)

2.4 ALGORITMOS DE COMPRESIN DE AUDIO

2.4.1 INTRODUCCIN

La compresin es un proceso que intenta alcanzar una representacin ms
compacta de la seal digital, mediante la eliminacin de la redundancia existente
en dicha seal. El objetivo es minimizar la cantidad de bits necesarios para su
transmisin o almacenamiento, preservando la calidad de la seal.

Las seales de audio son interesantes desde el punto de vista de la compresin,
debido a que contienen gran cantidad de informacin redundante que en gran
parte puede eliminarse antes de su transmisin o almacenamiento.

2.4.2 CODIFICACIN PERCEPTUAL DE AUDIO

La codificacin perceptual de audio consiste, de modo general, en un mtodo
para reducir la cantidad requerida de datos para representar una seal de audio
digital [13]. Este mtodo inevitablemente genera prdidas en trminos de calidad,
introduciendo una cierta cantidad de ruido que podra perfectamente caer dentro
del rango de la audicin humana si se analiza en forma aislada. Sin embargo, la
codificacin perceptual est diseada de tal manera que el ruido generado por el
codificador cae fuera de los lmites de audicin humana en presencia de la seal
original. Esta distincin es muy importante, ya que los algoritmos de compresin
basados en percepcin, a diferencia de los esquemas puramente numricos o
74

algortmicos, tales como Ley o ADPCM, se aprovechan de las limitaciones del
sistema auditivo humano.

La idea fundamental de la codificacin perceptual de audio, es que la presencia
de ciertos estmulos auditivos puede influenciar la habilidad del cerebro humano
para percibir otros estmulos. En palabras ms simples, este tipo de algoritmos se
basa fuertemente en el fenmeno de enmascaramiento. Un codificador perceptual
por lo tanto, no codifica aquellas componentes de la seal de audio que se vern
enmascaradas por otras, ahorrando de esta manera una considerable cantidad de
datos perceptualmente redundantes e innecesarios.

Hoy en da existen numerosos esquemas de compresin basados en esta
premisa, siendo el ms conocido el MPEG-1 Capa 3, comnmente conocido como
MP3.

El esquema de un codificador perceptual de audio se muestra a continuacin en
la figura 2.5.

BUFFER
FFT
UMBRAL
ENMASCARADOR
CODIFICADOR
ASIGNACIN
DINMICA DE
PARMETROS
MUX
C
A
N
A
L
D
I
G
I
T
A
L
DEMUX
Entrada
DECODIFICAR
ASIGNACIN
DINMICA DE
PARMETROS
Salida

Figura 2. 5: Esquema de un codificador perceptual de audio

Como se puede apreciar en el esquema, en el codificador, la seal de entrada se
descompone en mltiples bandas de frecuencia. De esta forma, los datos de cada
banda se pueden procesar de manera independiente y cada banda puede ser
representada con un grado variable de resolucin. La idea es asignar una menor
75

resolucin en aquellas bandas de frecuencia que pueden ser representadas con
una menor cantidad de informacin, debido principalmente al enmascaramiento.

Cuando la resolucin se reduce en alguna banda en particular, crece el ruido de
cuantizacin, en esa zona de frecuencias. La idea es cambiar el nivel de
cuantizacin de esa banda de manera de satisfacer la tasa de bits objetivo,
manteniendo la mayor cantidad de detalles posible. El codificador est
constantemente analizando la seal de entrada y toma decisiones acerca de qu
zonas del espectro se ven enmascaradas y por lo tanto, al ser inaudibles, pueden
descartarse de la seal y as disminuir la resolucin. Para decodificar se aplica
una transformada inversa de manera de combinar las bandas y restaurar la seal
original. En el caso en que la resolucin de una banda no se vea reducida, el
proceso es ideal y sin prdida.

La efectividad de un codificador perceptual depende de que tan bien puede
modelar las limitaciones perceptuales del sistema auditivo humano, pero tambin
depende de si dispone del ancho de banda necesario para contener todo el
detalle sonoro que los seres humanos somos capaces de percibir.

2.4.3 CODIFICACIN DE SUB-BANDAS

La codificacin de sub-bandas o SBC (sub-band coding) es un mtodo potente y
flexible para codificar seales de audio eficientemente. A diferencia de los
mtodos especficos para ciertas fuentes, el SBC puede codificar cualquier seal
de audio sin importar su origen, ya sea voz, msica o sonido de tipos variados. El
principio bsico del SBC es la limitacin del ancho de banda por descarte de
informacin en frecuencias enmascaradas. El resultado simplemente no es el
mismo que el original, pero si el proceso se realiza correctamente, el odo humano
no percibe la diferencia.

En la compresin de audio el primer proceso al que se somete la seal digital no
comprimida de entrada, es a una codificacin en sub-bandas, la cual consiste en
filtrar la seal mediante un banco de filtros que descomponen la banda total en
76

una serie de sub-bandas o ventanas y, a continuacin cada sub-banda se codifica
adaptativamente [14], aplicando un modelo psicoacstico que analiza tanto las
bandas, como la seal y determina los niveles de enmascaramiento utilizando los
datos psicoacsticos que dispone. Considerando estos niveles de
enmascaramiento se cuantizan y codifican las muestras de cada banda, si en una
frecuencia dentro de la banda hay una componente por debajo de dicho nivel, se
desecha. Si lo supera, se calculan los bits necesarios para cuantizarla y se
codifica. Por ltimo se agrupan los datos segn el estndar correspondiente que
estn utilizando codificador y decodificador, de manera que ste pueda descifrar
los bits que le llegan de aqul y recomponer la seal. Si la seal de sonido se
hace pasar por un banco de filtros, cuyos anchos de banda son contiguos en todo
el espectro de la seal y no se traslapan, las sub-bandas resultantes pueden
recombinarse para recuperar la seal original sin distorsin perceptible.

En el caso de la codificacin de audio MPEG se emplean 32 filtros, cada uno con
512 derivaciones. El nmero de bits utilizado en el proceso de codificacin, en
general es diferente para la seal de cada sub-banda, en que la cuantizacin se
realiza con un criterio perceptual. Al codificar individualmente la seal de cada
sub-banda, el ruido de cuantizacin queda confinado slo a esa sub-banda. Los
flujos binarios de salida de cada codificador se multiplexan para su transmisin o
procesado posterior. En el receptor se realiza primero un demultiplexado seguido
por la decodificacin de las seales de cada sub-banda para recuperar la seal
original.

Banco
de
filtros
x
Determinacin del
factor de escala
Recuantizacin
MUX
Entrada
audio PCM
Compresin
Modelo de
enmascaramiento
FFT
Audio
comprimido

Figura 2. 6: Diagrama de bloques de un codificador de sub-bandas [15]
77

2.4.4 COMPRESIN DE AUDIO ADPCM

ADPCM (Adaptive Differential Pulse Code Modulation), reduce la muestra y
cuantiza adaptativamente
15
. El muestreo se realiza a 8 KHz, con muestras de 8
bits a 64 Kbps. Utiliza diferencias de 4 bits, con una tasa de bits final de 32 Kbps.

Los cdecs ADPCM son codificadores de forma de onda, los cuales en vez de
cuantificar la seal directamente, como los codificadores PCM, cuantifican la
diferencia entre la seal y una prediccin hecha a partir de la seal, por lo que se
trata de una codificacin diferencial. Para este caso se usa la codificacin
diferencial o predictiva.

En la figura 2.7 se ilustra el diagrama de bloques de un codificador ADPCM.

Filtro QMF
Seal de
audio de
entrada
Banda alta
Banda baja
Multiplexor
Almacenamiento
o transmisin

Figura 2. 7: Diagrama de bloques de un codificador ADPCM

Antes de la digitalizacin se coge la seal analgica y se divide en bandas de
frecuencia gracias a los filtros QMF
16
(Quadrature Mirror Filter), obteniendo sub-
bandas de seal. Cada sub-banda es tratada de modo distinto utilizando las
propiedades de DPCM, es decir, se lleva a cabo el proceso de muestreo,
cuantizacin del error de prediccin y finalmente se codifica.

15
Cuantizacin adaptativa: Usa pasos ms largos para codificar diferencias entre muestras muy
distintas en magnitud (de alta frecuencia) y pasos ms pequeos para muestras que son similares
(bajas frecuencias).
16
En procesamiento digital de seales, un filtro espejo en cuadratura (Quadrature Mirror Filter,
QMF) es un filtro que divide la seal de entrada en dos bandas que posteriormente suelen ser
submuestreadas por un factor 2. Adems, ambas bandas (superior e inferior) de frecuencias se
intercambian entre s. Es decir, las frecuencias bajas se codifican como frecuencias altas y
viceversa. Las frecuencias en la banda de transicin se codifican en las bandas inferior y superior
con diferentes amplitudes.
78

Una vez que se obtiene la sucesin de bits (bitstream) de cada sub-banda, se
multiplexan los resultados y ya se puede proceder a almacenar los datos o bien
transmitirlos. El decodificador tiene que realizar el proceso inverso, es decir,
demultiplexar y decodificar cada sub-banda del bitstream.

Algunas de las tcnicas ADPCM se utilizan en las comunicaciones de voz sobre
IP. ADPCM tambin fue utilizado por IMA (Interactive Multimedia Association)
17

para el desarrollo del cdec de audio ADPCM conocido como DVI, IMA ADPCM o
DVI4, en la dcada de 1990.

ADPCM se articula en los estndares CCITT G.721, CCITT G.723 y en el CCITT
G.726, que reemplaz a los dos anteriores definiendo estndares para 16, 24, 32
y 40 Kbps (que corresponden a tamaos de muestra de 2, 3, 4 y 5 bits
respectivamente).

2.4.5 FORMATO DE AUDIO WAV

La palabra WAV es una abreviatura inglesa de wave (onda) y se refiere a la
forma que tiene la representacin grfica tpica del sonido. Lo flexible de este
formato lo hace muy usado para el tratamiento del sonido pues puede ser
comprimido y grabado en distintas calidades y tamaos, desde 11.025 Hz, 22.050
Hz a 44.100 Hz.

Aunque los archivos .wav pueden tener un excelente sonido comparable al del CD
(16 bits y 44,1 KHz, estreo), el tamao necesario para esa calidad es demasiado
grande (especialmente para los usuarios de Internet) una cancin convertida a
.wav puede ocupar fcilmente entre 20 y 30 MB. La opcin ms pequea es
grabar a 4 bits/muestra y a una frecuencia de muestreo de 11.025 Hz, lo ms bajo

17
La Asociacin de Multimedia Interactiva (IMA) fue una asociacin de la industria que desarroll
un conjunto de algoritmos de audio. El ms importante es el algoritmo ADPCM que est en uso
por Apple y Microsoft. La Asociacin de Multimedia Interactiva dej de funcionar alrededor de
1998.
79

posible, el problema es la baja calidad del sonido, los ruidos, la esttica e incluso
cortes en el sonido; por esta razn casi siempre se usa para muestras de sonido.
La ventaja ms grande es la de su compatibilidad para convertirse en varios
formatos por medio del software adecuado, un ejemplo de ello es pasar de .wav a
.mp3.

2.4.5.1 Caractersticas de un archivo WAV

La descripcin de las caractersticas de un archivo WAV es relativa. Las
cualidades superiores se utilizan para archivos de msica, mientras tanto, las
intermedias para voz y efectos sonoros. Como referencia, la msica de los discos
compactos (CDs) est grabada a 16 bits por muestra y una frecuencia de
muestreo de 44,1 KHz. La msica suena muy mal con slo 8 bits de resolucin, y
se pierden matices cuando se graban voces.

La eleccin entre archivos monofnicos o estreo (la relacin de tamaos es de
2:1) depende no slo del uso del archivo, sino de la captura de los sonidos: si se
graba con un micrfono monoaural, no tiene mucho sentido utilizar un archivo
estreo. Tampoco para efectos de sonido, salvo que se utilice los canales para
crear efectos de desplazamiento o distancia entre las fuentes sonoras. Los
archivos .wav admiten tres frecuencias de muestreo (11.025 Hz, 22.050 Hz y
44.100 Hz); puede asignar 8 o 16 bits de resolucin (bits por muestra), y pueden
usar uno o dos canales: mono o estreo.

Bits por
muestra
Frecuencia de
muestreo
Canales Tamao/minuto
16 44.100 Hz Estreo 10 MB
16 44.100 Hz Mono 5 MB
8 44.100 Hz Mono 2,5 MB
8 22.500 Hz Estreo 2,5 MB
8 22.500 Hz Mono 1,25 MB
8 11.000 Hz Mono 0,63 MB
Tabla 2. 4: Tamaos del archivo WAV
80

2.4.6 FLAC

FLAC significa cdec de audio libre sin prdida (Free Lossless Audio Cdec).
FLAC es libre lo que significa que, a diferencia de MP3, AAC, Ogg
18
u otros, no
existe prdida de informacin desde la fuente de audio, convirtindose en un
formato ideal para archivos de audio de muy alta calidad, ya que permite
reconstruir el audio original en su totalidad. FLAC admite cualquier resolucin
PCM entre 4 y 32 bits por muestra, y cualquier frecuencia de muestreo (sample
rate) desde 1 a 65.535 Hz, en incrementos de 1 Hz.

FLAC est diseado para comprimir audio. Debido a ello, los archivos resultantes
son reproducibles y tiles, adems de ser ms pequeos que si se hubiera
aplicado directamente al archivo PCM un algoritmo de compresin estadstica
(como ZIP). Los algoritmos con prdida pueden comprimir a ms de 1/10 del
tamao inicial, descartando informacin; FLAC, en su lugar, usa la prediccin
lineal para convertir las muestras en series de pequeos nmeros no correlativos
(conocido como "residuos"), que se almacenan eficientemente usando la
codificacin Golomb-Rice
19
. Adems de esto, para aprovechar los silencios
(donde los valores numricos presentan mucha repeticin) usa codificacin RLE
(Run-Length Encoding) para muestras idnticas.

FLAC se ha convertido en uno de los formatos preferidos para la venta de msica
por Internet, al igual que Monkey's Audio
20
que funciona de manera similar.

18
Ogg es un formato de archivo contenedor multimedia, desarrollado por la Fundacin Xiph.org y
es el formato nativo para los cdecs multimedia que tambin desarrolla Xiph.org. El formato es
libre de patentes y abierto al igual que toda la tecnologa de Xiph.org, diseado para dar un alto
grado de eficiencia en el "streaming" y la compresin de archivos.
19
La codificacin Golomb es un tipo de codificacin de entropa inventada por Solomon W.
Golomb que es ptima para alfabetos que siguen una distribucin geomtrica, lo que significa que
los valores bajos son mucho ms comunes que los altos.
20
Monkeys Audio es un formato de fichero para comprimir informacin de audio. Siendo un
formato de compresin sin prdida, Monkeys Audio no elimina informacin del flujo de audio.
81

Adems es usado en el intercambio de canciones por la red, como alternativa al
MP3, cuando se desea obtener una mayor reduccin del tamao que en un
archivo WAV-PCM, y no perder calidad de sonido. Tambin es el formato ideal
para realizar copias de seguridad de CDs, ya que permite reproducir exactamente
la informacin del original, y recuperarla en caso de problemas con este material.

Los archivos FLAC tienen una extensin .flac; son perfectamente reproducibles
con algunos reproductores, incluso en computadoras antiguas, ya que una de las
caractersticas del formato, es que los archivos decodifiquen en modo sencillo.
Estos archivos son de velocidad de bits variable, ya que no todas las partes de
una misma cancin son igualmente comprimibles. FLAC se populariza gracias a la
banda ancha y a los discos duros de mayor capacidad. Por supuesto, el principal
inconveniente del uso del FLAC radica en el espacio que ocupa un archivo en
este formato. A pesar de que sus creadores defiendan que en tareas de
compresin y descompresin de los archivos es el ms rpido de su categora, y
a que, segn sus datos, consiga una reduccin de alrededor del 50% del espacio
de la cancin original, el resultado es que 'pesa' bastante ms que los MP3.

As, s se toma como referencia una cancin comprimida en MP3 de 5 minutos, su
tamao variar entre los 4,6 Megabytes y los 11,5 Megabytes, en funcin de la
tasa de kilobits por segundo (lo que se conoce como bitrate) con la que se
codifique (entre 128 kilobits por segundo, el mnimo para conseguir un sonido
similar al CD, y 320 Kbps, el mximo de calidad de este formato). Sin embargo, el
mismo archivo comprimido en FLAC supera los 35 Megabytes.

2.4.7 CODIFICACIN DE AUDIO EN EL ESTNDAR MPEG

El estndar de compresin de audio MPEG define tres capas de calidad subjetiva
y complejidad crecientes. Soporta frecuencias de muestreo a 32, 44,1 y 48 KHz. A
16 bits por muestra, el audio no comprimido produce un caudal binario de
alrededor de 1,5 Mbps.

82

Nombre Estndar Caractersticas
MPEG-1 ISO/IEC 11172-3
Proporciona codificacin de un canal (mono) o
dos canales (estreo o mono dual) con
frecuencias de muestreo de 32, 44,1 y 48 KHz.
Las tasas de bits (bit rates) predefinidas son:
x Layer I: De 32 a 448 Kbps
x Layer II: De 32 a 384 Kbps
x Layer III: De 32 a 320 Kbps
MPEG-2
AAC
ISO/IEC 13818-7
Es un estndar de codificacin audio de muy alta
calidad de hasta 48 canales con frecuencias de
muestreo entre 8 y 96 KHz con capacidades
multicanal, multilenguaje y multiprograma. Trabaja
a bitrates desde 8 Kbps para seal monofnica de
voz hasta ms de 160 Kbps/chanal para
codificacin de muy alta calidad.
MPEG-4 ISO/IEC 14496-3
x Codificacin y composicin de objetos audio
tanto naturales como sintetizados.
x Escalabilidad en el bitrate.
x Escalabilidad en la complejidad de los
codificadores y decodificadores.
x Audio Estructurado: Lenguaje universal para la
sntesis de sonido.
x TTSI: Un interfaz para la conversin de texto a
voz.
Tabla 2. 5: Caractersticas de los estndares MPEG

Despus de la compresin, las tasas de bits para canales monofnicos se sitan
entre 32 y 192 Kbps y los estereofnicos, entre 128 y 324 Kbps. Al igual que otros
sistemas de compresin de audio, MPEG aprovecha las caractersticas
psicoacsticas del sistema auditivo humano, principalmente el enmascaramiento
simultneo y el temporal. El enmascaramiento simultneo se basa en el hecho de
que una seal de audio de cierta amplitud y frecuencia, puede enmascarar a otras
seales de frecuencias cercanas y menor amplitud. El enmascaramiento
temporal, por otra parte, se basa en el hecho de que el odo no percibe seales
inmediatamente anteriores o posteriores a una seal enmascaradora.

La primera accin en el proceso de compresin MPEG es la de codificacin en
sub-bandas, segmentando el audio digital en ventanas de 384 muestras. Las
capas I y II de MPEG utilizan un banco de filtros para descomponer cada ventana
en 32 sub-bandas, cada una con un ancho de banda de aproximadamente 750
Hz, para una frecuencia de muestreo de 48 KHz. Cada sub-banda es diezmada
83

de modo que la tasa de muestreo por sub-banda es de 1,5 KHz con 12 muestras
por ventana. Por otra parte, a la entrada de audio digital se le aplica una
transformada rpida de Fourier (FFT) con el fin de determinar su espectro y
calcular un umbral global de enmascaramiento para cada sub-banda; con ello, se
elige un cuantizador uniforme que produce la mnima distorsin a la tasa binaria
requerida.

Para cada sub-banda se amplifica el nivel de la seal para obtener niveles
normalizados mximos. La ganancia necesaria es constante para cada bloque y
se transmite un factor de escala con cada bloque, en cada sub-banda, a fin de
invertir el proceso en el decodificador.

Uno de los problemas introducidos por la cuantificacin son los preecos, que
pueden ocurrir cuando un sonido percusivo agudo va precedido de silencio. Al
reconstruir la seal, los errores debidos a la cuantizacin tienden a distribuirse
sobre el bloque de muestras causando una distorsin audible antes de la seal
real. En una ventana de 8 ms el enmascaramiento temporal no puede suprimir los
pre-ecos por completo.

En la capa III de MPEG el control de pre-ecos es una parte importante y, para
ello, en esa capa se agrega una descomposicin de las sub-bandas mediante la
transformada discreta del coseno modificada (MDCT), con el fin de conseguir una
divisin de frecuencia mucho ms fina. En la capa III se agrega cuantizacin no
uniforme, en el sentido de que las seales de mayor nivel pueden enmascarar
errores de cuantizacin mayores. Adems se incluye codificacin por entropa y
conmutacin dinmica de ventanas, con lo que se obtiene mejor resolucin
temporal y mejor control de los pre-ecos. La mxima tasa binaria que soporta es
de 384 Kbps.

Las tres capas soportan tasas binarias tan bajas como 32 Kbps, de ellas, la capa I
es la ms simple de las tres y proporciona audio de buena calidad a 192 Kbps. La
mxima tasa binaria que soporta es de 448 Kbps. La capa II utiliza una FFT de
mayor resolucin que la capa I, cuantificacin ms fina y una forma ms eficiente
84

de transmitir los factores de escala para las sub-bandas. El modelo psicoacstico
empleado en esta capa es ms complejo que el utilizado en la capa I. Proporciona
audio con calidad de CD a 128 Kbps por canal y la mxima tasa binaria que
soporta es de 384 Kbps.

2.4.7.1 Estndar MPEG-1

El estndar internacional ISO/IEC 11172, ms conocido como MPEG-1
(Codificacin de imgenes en movimiento y el audio asociado para medios de
almacenamiento digital a una tasa cercana a 1,5 Mbps) est dividido en las
siguientes partes:

Parte Descripcin
Parte 1
Sistema (Multiplexacin y control para sincronizacin del video, el audio
y la informacin secundaria)
Parte 2 Codificacin del video
Parte 3 Codificacin del audio
Parte 4 Pruebas del sistema
Parte 5 Simulacin por software
Tabla 2. 6: Partes del estndar MPEG-1

x Parte 1, Sistema: se refiere al problema de combinar uno o ms flujos de
datos provenientes de la parte de audio o video, incluyendo informacin de
temporizacin y sincronizacin para lograr un flujo nico de datos, apropiado
para ser almacenado o transmitido. Los archivos audio de la capa I utilizan
tpicamente la extensin .mp1 o a veces .m1a.

x Parte 2, Video: especifica una representacin codificada que puede ser usada
para comprimir secuencias de video (tanto de 625 como de 525 lneas de
frecuencia). Los archivos de audio de la capa II utilizan tpicamente la extensin
.mp2 o a veces .m2a.

x Parte 3, Audio: describe la representacin codificada que puede usarse para
comprimir secuencias de audio (en modo monofnico, o en estreo). Los
archivos de audio de la capa III utilizan la extensin .mp3.
85

x Parte 4, Pruebas: trata del diseo y de las pruebas que verifican si el flujo de
bits y los decodificadores cumplen con los requerimientos y especificaciones
dadas en las partes 1, 2 y 3.

x Parte 5, Simulacin: no se trata de un estndar, sino de un reporte tcnico;
proporciona implementacin completa por software de las tres primeras partes
del estndar MPEG-1.


Numerado de manera formal como ISO/IEC MPEG 13818 (Codificacin genrica
para informacin de imgenes en movimiento y el audio asociado), fue dado a
conocer en 1994, tan slo un ao despus del primer estndar, y se encuentra
constituido por ms partes que el estndar anterior.

Parte Descripcin
Parte 1 Sistema (Multiplexacin y control para sincronizacin del audio y video)
Parte 2 Codificacin del video
Parte 3 Codificacin del audio (Compatible con el audio MPEG-1)
Parte 4 Pruebas del sistema
Parte 5 Reportes tcnicos
Parte 6
DSM-CC: Digital Storage Media-Command and Control, Medios de
Almacenamiento Digital-Comando y Control
Parte 7
AAC: Advanced Audio Coding, Codificacin Avanzada de Audio (No compatible
con el audio MPEG-1)
Parte 8
Fue abandonada cuando se comprob que no haba inters de la industria. Intent
codificar el video cuando las muestras de entrada son 10 bits
Parte 9 RTI: Real Time Interface, Interface en Tiempo Real
Parte 10 Pruebas del DSM-CC
Tabla 2. 7: Partes del estndar MPEG-2

El estndar en su primera fase fue una simple extensin en las capacidades de
compresin y codificacin del primer estndar, mientras que en la segunda fase
se desarrollaron nuevos algoritmos que implicaban diferentes mtodos para
realizar la compresin tanto de video como de audio, pero en este punto se
sacrific la compatibilidad con el estndar anterior en algunas reas.

86

x Parte 1, Sistema: es similar al primer estndar, realiza la misma funcin, pero
aqu la realiza de dos maneras diferentes, el flujo de programa y el flujo de
transporte, cada uno optimizado para diferentes conjuntos de aplicaciones. El
flujo de programa se pens para ambientes libres de errores y es apropiado
para aplicaciones que involucren procesamiento por software, mientras que el
flujo de transporte se usa para almacenamiento o transmisin en medios que
presenten ruido y prdidas.

x Parte 2, Video: mejora las capacidades para compresin de video del estndar
anterior MPEG-1.

x Parte 3, Audio: adems de agregar capacidad multicanal, tambin proporciona
capacidad para mltiples idiomas, con respecto a la parte 3 del estndar
MPEG-1.

x Parte 4, Pruebas y parte 5, Reporte: corresponden con las partes 4 y 5 del
estndar MPEG-1.

x Parte 6, Medios de Almacenamiento Digital, Comando y Control: especifica
un conjunto de protocolos que proporcionan las funciones y operaciones de
control para manejar los flujos de bits MPEG-1 y MPEG-2.

x Parte 7, AAC: se trata de un algoritmo de codificacin de audio multicanal,
incompatible con la parte 3 de MPEG-1 y MPEG-2.

x Parte 9, RTI: da especificaciones acerca de la interface en tiempo real para los
decodificadores del flujo de transporte (correspondiente a la parte 1) y se
puede adaptar para su uso en todas las redes que transporten flujos de este
tipo.

x Parte 10, Pruebas del DSM-CC: considera las pruebas que deben ser
realizadas para verificar el correcto funcionamiento de la parte 6 (DSM-CC,
Medios de Almacenamiento Digital - Comando y Control).
87


Este estndar consta de dos versiones. El estndar MPEG-4 Versin 1 se termin
en octubre de 1998 y se public en 1999. La segunda versin se termin en
diciembre de 1999 y se public en el 2000.

MPEG-4 es una fase que engloba todos los esquemas vistos para MPEG-1 y
MPEG-2, define estructuras de ms alto nivel por las cuales se permite el control
y la combinacin de elementos de audio procedentes tanto de fuentes sonoras
digitalizadas (p.ej. por medio de los formatos MPEG-1 y MPEG-2, codificacin
CELP, etc.) como sintetizadas (voz o sonidos musicales, tanto simples como
complejos). Es por lo tanto un estndar que combina diferentes fuentes de audio
en un mismo bitstream
21
con especial nfasis en aplicaciones multicanal, soporte
multilenguaje, tasa binaria variable y recuperacin de errores.

La mayor novedad a los formatos de audio que incorpora MPEG-4 est asociada
a codificaciones de voz con tasas binarias extra bajas. El estndar especifica el
uso de codificadores paramtricos de tasa binaria extra baja para la codificacin
de voz, que consiguen tasas binarias comprendidas entre 2 y 8 Kbps. Los
codificadores paramtricos establecen un modelo de seal que ajustan al sonido
a codificar. La informacin transmitida son los parmetros del modelo que mejor lo
ajustan a la seal.

Tericamente, el MPEG-4 permite desde un ancho de banda muy bajo (telefona
mvil) hasta la televisin en alta definicin (HDTV). Por supuesto, los dispositivos
actuales no soportan la reproduccin de todo el rango de especificaciones pero,
con el tiempo, se presentarn nuevos equipos en el mercado.

Las extensiones utilizadas en archivos que contienen datos en el formato .mp4
son: .mp4, extensin oficial para audio, video y contenidos avanzados; .m4a, slo
para archivos de audio; .m4p, FairPlay archivos protegidos.

21
El trmino bitstream hace referencia a una sucesin de bits.
88

2.4.7.4 AAC

AAC representa un formato de codificacin de audio avanzado (Advanced Audio
Coding), basado en el algoritmo de compresin con prdida, un proceso por el
que se eliminan algunos de los datos de audio para poder obtener el mayor grado
de compresin posible, resultando en un archivo de salida que suena lo ms
parecido posible al original.

El formato AAC corresponde al estndar internacional ISO/IEC 13818-7 como
una extensin de MPEG-2: un estndar creado por MPEG. Debido a su
excepcional rendimiento y calidad, la codificacin de audio avanzada se
encuentra en el ncleo del MPEG-4, 3GPP y 3GPP2
22
, y es el cdec de audio de
eleccin para Internet, conexiones inalmbricas y de radio difusin digital. AAC no
es compatible con MPEG-1.

El AAC utiliza una tasa de bits variable (VBR), un mtodo de codificacin que
adapta el nmero de bits utilizados por segundo para codificar datos de audio, en
funcin de la complejidad de la transmisin de audio en un momento determinado.
La frecuencia de muestreo de AAC es de 8 Hz a 96 KHz, el nmero de canales es
de 1 a 48. AAC es un algoritmo de codificacin de banda ancha de audio que
tiene un rendimiento superior al del MP3, que produce una mejor calidad en
archivos pequeos y requiere menos recursos del sistema para codificar y
decodificar. Este cdec est orientado a usos de banda ancha y se basa en la
eliminacin de redundancias de la seal acstica, as como en la compresin
mediante la transformada discreta del coseno modificada (MDCT)
23
, muy parecido
al MP3. Los archivos de audio con formato AAC utilizan las extensiones .m4a,
.m4b, .m4p, .m4v, .m4r, .3gp, .mp4 y .aac.

22
.3gp, .3g2 son extensiones utilizadas en archivos que contienen datos en el formato *.mp4
utilizados por la telefona mvil 3G.
23
La Transformada Discreta del Coseno Modificada (MDCT, por sus siglas en ingls, Modified
Discrete Cosine), es una transformada lineal ortogonal solapada en la cual se usan ventanas con
un solapamiento del 50%; basada en la idea de la cancelacin del aliasing del dominio de tiempo
(TDAC, Time Domain Aliasing Cancellation). La MDCT se utiliza tpicamente en codificadores con
una ventana longitud de 512 muestras, y 256 muestras nuevas para cada bloque.
89

2.4.8 ESTUDIO COMPARATIVO DE LAS CARACTERSTICAS DE LOS
ALGORITMOS DE COMPRESIN DE AUDIO

A continuacin se muestra una tabla comparativa entre los algoritmos de
compresin de audio desarrollados en este captulo, en cuanto a sus
caractersticas tcnicas se refiere.

Formato de
compresin
de audio
Algoritmo de
compresin
Frecuencia de
muestreo
Tasa de bits
Bits por
muestra
WAVE Audio
Format
LPCM
(Modulacin por
impulsos lineales)
11,025; 22,050 y
44,1 KHz
Variable
1,411 Kbps
8 y 16 bits
ADPCM
Audio
Compression
Adaptativo
(Modulacin por
codificacin de
impulsos
diferenciales
adaptativos)
8; 11,025; 22,050
y 44,1 KHz
16; 24; 32 y
40 Kbps
2, 3, 4 y 5 bits
FLAC Lossless
1 KHz a 1,04857
MHz
Variable
4, 8, 16, 24 y
32 bits
MPEG-4
Audio
Lossless
Coding (ALS)
Lossless
192 KHz a
384 KHz
Variable Cualquiera
Advanced
Audio
Coding.
(AAC)
MDCT, Filtro
Hbrido Subbanda
8 KHz a
192 KHz
8 a 529 Kbps
(estreo)
Cualquiera
MPEG-1
Layer 3
(MP3)
MDCT, Filtro
Hbrido Subbanda
8; 11,025; 12; 16;
22,05; 24; 32;
44,1 y 48 KHz
8; 16; 24; 32;
40; 48; 56; 64;
80; 96; 112;
128; 160; 192;
224; 256 y
320 Kbps
Cualquiera

Tabla 2. 8: Cuadro comparativo de las caractersticas de los algoritmos de compresin de
audio

La calidad de un archivo MP3 viene dada por el tiempo de codificacin y el
tamao del archivo codificado que se quiera obtener, para obtener un archivo de
audio con calidad digital la tasa de transferencia de bits o bitrate recomendada es
de 128 Kbps, con una frecuencia de muestreo de 44.100 Hz.

El formato MP3 es el ms utilizado y el ms popular por tres razones: capacidad
de compresin, calidad de compresin y facilidad de distribucin.
90

La capacidad de compresin tiene relacin con el hecho de que el formato MP3
logra reducir hasta 12 veces el tamao de un archivo de audio original (sin
compresin).

El algoritmo de compresin de audio MP3 logra un equilibrio en cuanto a la
calidad de compresin, ya que, logra reducir el tamao de un archivo de audio
original con una mnima prdida de calidad, por el mismo hecho de ser un
algoritmo de compresin con prdidas (lossy), el cual elimina informacin para
lograr la mejor relacin de compresin.

Con relacin a su facilidad de distribucin el formato MP3 tiene amplia ventaja con
respecto a otros formatos de compresin de audio, alcanzando una gran
popularidad en la Internet, tanto que en la actualidad se asocia al MP3 como
sinnimo de msica en Internet inclusive en conexiones de bajo ancho de banda,
otro factor es la aparicin de la radio digital y el servicio de audio streaming
24
.

24
Servicio de audio streaming: es una tecnologa que permite transmitir cualquier fuente de audio
a los oyentes a travs de Internet de una forma simple y transparente. Una computadora se
encarga de transmitir el audio a los servidores de super-hosting (servicio que provee a los usuarios
de Internet un sistema para poder almacenar informacin) y estos a su vez, distribuyen el audio a
los oyentes conectados en ese momento. Todo este proceso se realiza prcticamente en tiempo
real, es decir, los oyentes escucharn lo que en ese momento se est transmitiendo tal como lo
haran con una radio convencional.
91


CAPITULO 2: COMPRESIN DE AUDIO

LIBROS:

[9] Jimnez, M. (2007), Teora de Informacin y Codificacin, Captulos 2 y 3,
Escuela Politcnica Nacional, Quito.

INTERNET:

[10] Surez F. (2009), Compresin de la Informacin Multimedia, Universidad
de Oviedo, rea de Arquitectura y Tecnologa de Computadores,
http://www.atc.uniovi.es/teleco/5tm/archives/3comp.pdf
[11] Marn R., Compresin de la informacin, Fundamentos de la Compresin
de Informacin, Dpto. de Ingeniera de la Informacin y las
Comunicaciones, Facultad de Informtica, Universidad de Murcia,
http://perseo.dif.um.es/ aike/roque/index.htm
[12] ESPOL. (2009). Procesamiento de Audio y Video. Facultad de Ingeniera
en Electricidad y Computacin, ESPOL OCW.
http://www.ocw.espol.edu.ec/facultad-de-ingenieria-en-electricidad-y-
computacion/procesamiento-de-audio-y-video-1/course-schedule
[13] Cdiz, R. (2008). Introduccin a la Msica Computacional. Centro de
Investigacin en Tecnologas de Audio, Instituto de Msica, Pontificia
Universidad Catlica de Chile.
http://www.rodrigocadiz.com/imc/
[14] Prez, C. (2005). Introduccin a la Compresin de Audio. Dpto. de
Ingeniera de Comunicaciones, Universidad de Cantabria.
http://personales.unican.es/perezvr/pdf/Introducci%C3%B3n%20a%20la
%20compresi%C3%B3n%20de%20audio.pdf
[15] Cuello, Freddy F., y Juan Carlos Rueda. Compresin de datos de audio.
http://tav.net/multimedia/sonido/compresion_datos/index.htm
92

CAPTULO 3.
SISTEMAS DE ALTA FIDELIDAD

3.1 INTRODUCCIN

En este captulo se va a tratar acerca de la alta fidelidad y de la relacin con los
formatos de audio comprimidos haciendo nfasis a la relacin con el formato de
audio MP3.

Para poder entender la vinculacin de los formatos de audio comprimidos con los
sistemas de alta fidelidad, primero hay que definir qu es un sistema de alta
fidelidad. Como el mundo de la alta fidelidad es un mundo muy interesante pero a
la vez muy extenso en este captulo se va a cubrir aspectos bsicos y generales
que permitan tener una idea clara de lo que es la alta fidelidad.

3.2 ALTA FIDELIDAD

3.2.1 PREMBULO

Alta fidelidad o HiFi (High Fidelity) es un trmino usado para describir la
capacidad de un sistema de reproducir el sonido con un alto grado de realismo, la
alta fidelidad pretende que los ruidos y la distorsin sean mnimos. Al hablar de
alta fidelidad se hace mencin de la reproduccin y grabacin de informacin de
audio, con la mayor precisin posible, comparado con su versin original.

Es un error pensar que el sonido profesional es lo mejor, y no es as, simplemente
es diferente y tiene una aplicacin distinta. Igual que un equipo domstico, no
93

satisface las expectativas en una sonorizacin
25
al aire libre, un equipo profesional
no es idneo para una sala de audicin de dimensiones normales, ni es capaz de
reproducir tantos detalles y sutilezas que un equipo de alta fidelidad.

Habitualmente se habla de cuatro mundos en cuanto a la alta fidelidad, los
mismos que son: cine en casa, estudios de grabacin, sonorizacin de exteriores,
y car audio, un estudio ms profundo de los 4 mundos de la alta fidelidad
involucra un anlisis complejo, el mismo que es tratado por ingenieros o expertos
en el campo del sonido y de la acstica.

3.2.2 HISTORIA

La alta fidelidad, aparece en Estados Unidos tras la segunda guerra mundial,
acuado por los tcnicos que buscaban disear sistemas de grabacin,
reproduccin, amplificacin y altavoces, con la mnima distorsin posible, con la
mejor relacin seal/ruido alcanzable y capaces de mostrar la totalidad de las
frecuencias que el odo humano puede percibir como sonido, en general de 20
Hz a 20.000 Hz.

As, en ese afn de mejorar la fidelidad, se dieron distintos avances, desde los
rollos de cera de los primeros fongrafos, los discos de 78 rpm
26
de acetato, los
discos de 33 rpm Long Play (LP) microsurco de vinilo, la radio FM, con mayor
ancho de banda de audio y menor susceptibilidad a la interferencia de la seal,
mejores diseos de amplificadores, con mayor atencin a la respuesta de
frecuencia
27
y potencia de salida de mucha mayor capacidad y muchos otros
avances.

25
Sonorizacin: denominada tambin refuerzo sonoro, consiste en la amplificacin del audio
empleando grandes y sofisticados sistemas de audio en escenarios de gran envergadura.
26
rpm: revoluciones por minuto
27
Respuesta de frecuencia: la respuesta de frecuencia es un parmetro que describe las
frecuencias que puede grabar o reproducir un dispositivo.
94

Sin olvidar nunca que el fin ltimo de todos los desarrollos es recrear, a domicilio,
la ilusin de una msica que alguien interpret en otro sitio y momento, en el
fondo trata de la capacidad de un equipo de sonido para recrear de forma creble
y emotiva la msica que en su momento fue grabada.

En los aos 50 el trmino "alta fidelidad" empez a ser usado por fabricantes de
equipos de audio como un trmino de marketing para describir discos y equipos
que pretendan suministrar una reproduccin fiel del sonido.

Al perodo entre finales de los aos 50 y principios de los aos 60, se lo conoci
como "La Edad de Oro de Hi-Fi", cuando los fabricantes de equipos de vlvulas
crearon algunos de sus modelos ms sofisticados, justo antes de que aparezcan
los equipos de estado slido (equipos que utilizan transistores).

3.2.3 GENERALIDADES

La alta fidelidad es deudora en su desarrollo de otras aplicaciones en las que el
sonido es parte fundamental, como el telfono, la radio o el cine, que ya estaban
muy perfeccionadas a principios de los aos 40. Tanto las vlvulas de vaco,
como la posibilidad de coleccionar y almacenar sonido en todo su rango de
frecuencias, ya exista a finales de los aos 30, y algunos de ellos, como las
vlvulas que hoy siguen vigentes, datan de finales de los aos 20. As pues se ve
que la alta fidelidad apareci antes que el sonido estreo y ste es muy anterior al
multicanal.

La alta fidelidad trata de lograr que en la casa por ejemplo, acondicionando la sala
adecuadamente; escogiendo los altavoces apropiados, seleccionando la
amplificacin y empleando la fuente de sonido adecuada en funcin de las
grabaciones de las que se disponga para escuchar, se pueda sentir que
realmente hay personas frente al pblico haciendo msica. Y esto, es lo que, para
diferenciarlo de la masificada HiFi, se conoce como High End o bsqueda de la
excelencia en el sonido reproducido.

95

El problema es que no existe un sonido perfecto absoluto para todos, cada uno
segn su percepcin y su subjetividad puede encontrar su sonido ideal. El poder
encontrar un sonido ideal puede tambin requerir un poco de adiestramiento del
sistema auditivo, lo cual no es una tarea fcil pero no imposible. Ingenieros en
sonido y muchos expertos, con la experiencia, pueden mostrar un buen
adiestramiento del sistema auditivo pudiendo saber con mucha precisin la
diferencia, de parmetros como: frecuencia de muestreo, profundidad de bits y
formato de los diversos archivos de audio.

3.2.3.1 Hi-Fi y apariencia de realismo

En un principio la alta fidelidad se limitaba a la reproduccin de sonido
monofnico, la aproximacin realista a lo que un oyente experimentara en una
sala de conciertos era limitada. Los investigadores se dieron cuenta
tempranamente de que la manera ideal para tener una experiencia musical
reproducida por un equipo de audio era a travs de mltiples canales de
transmisin, pero la tecnologa no estaba disponible en ese momento. Por
ejemplo, se descubri que una representacin realista de la separacin entre
intrpretes en una orquesta desde una posicin de escucha ideal en la sala de
concierto requerira por lo menos tres altavoces para los canales frontales.

Para la reproduccin de la reverberacin
28
, por lo menos se requeriran dos
altavoces detrs o a los lados del oyente. El sonido estereofnico suministr una
solucin parcial al problema de crear alguna apariencia de la ilusin de intrpretes
tocando en una orquesta.

Un intento para suministrar la reproduccin de la reverberacin se prob en 1970
a travs del sonido cuadrafnico, pero, otra vez, la tecnologa en ese momento
era insuficiente para la tarea. Los consumidores no queran pagar el costo
adicional requerido en dinero y espacio para un mejoramiento marginal en el

28
Reverberacin: fenmeno acstico que consiste en la intensificacin del sonido a causa de
mltiples reflexiones que sufre antes de llegar al odo.
96

realismo. Con el incremento de la popularidad del cine en casa
29
, sin embargo, los
sistemas de reproduccin multicanal se volvieron asequibles, y los consumidores
se dispusieron a tolerar los seis a ocho canales de los equipos de cine en casa.

Adems de realismo espacial, la reproduccin de la msica debe ser
subjetivamente libre de ruido para lograr realismo. El disco compacto (CD), prev
al menos 90 decibeles de rango dinmico, que es tanto como la mayora de las
personas pueden tolerar en una media de sala de estar. Esto requiere, por lo
tanto, el equipo de reproduccin para ofrecer una relacin seal/ruido de al menos
90 decibeles, adems el equipo de audio debe ser capaz de reproducir
frecuencias suficientemente altas y bajas para darnos un resultado realista.

3.2.3.2 Modularidad

Un sistema de alta fidelidad puede ser un sistema integrado (todo en uno) o
puede estar constituido de varios mdulos, entre los mdulos se pueden tener:
amplificadores, tocadiscos, digital media players, caseteras (ahora en desuso,
casi ni se fabrican), reproductores de audio digital, reproductores de DVD o Blue-
Ray que reproducen una amplia variedad de discos incluyendo CDs, grabadoras
de CD, grabadores MiniDisc, grabadoras de video (ecualizadores, procesadores
de seal, y cajas de parlantes (con tweeters, midranges y subwoofers
30
).

Esta modularidad permite al melmano (persona fantica de la msica) o audifilo
(persona amante del audio de buena calidad), gastar como mucho o poco, lo que
quiera en un componente que se adapte a sus necesidades especficas. Un
sistema construido a partir de mdulos, permite el uso parcial del resto del

29
Cine en casa: Si el sistema de alta fidelidad incluye componentes como un reproductor DVD, un
proyector, o una televisin, entonces es llamado frecuentemente como cine en casa.
30
Tweeter: altavoz reproductor de ultra-altos o agudos, cubren frecuencias de audio desde 4.000 a
20.000 HZ.
Midrange: altavoz de medios-bajos, cubre rango desde 400 a 4.000 HZ.
Woofer: altavoz de ultra-bajos o graves reproduce frecuencias de audio desde 400 a 40 HZ.
97

sistema en el caso que alguno falle o se descomponga. Una reparacin de un
sistema integrado, sin embargo, significa la ausencia total de uso del sistema.

3.2.4 ASPECTOS DE LA ALTA FIDELIDAD

Los sonidos reales son muy complejos, la mezcla de sonidos de varios
instrumentos tocados al mismo tiempo dan a la onda una forma muy irregular.

El audio original pasa por tantos equipos que es difcil que sea una rplica fiel del
original. Cada componente es deficiente en la perfecta duplicacin por una
cantidad pequea y mesurable. Si el total excede el 15%, es decir, si el sonido
reproducido difiere un 15% del original, dicho sonido no puede ser llamado alta
fidelidad.

A continuacin en la tabla 3.1 algunas cantidades tpicas de deformacin en un
sistema de audio:

Dispositivo Tolerancia
Micrfono 2 %
Amplificador 1 %

Grabador 2 %

Duplicador
31
1 %
Fonocaptor
32
2,5 %
Parlante 3,5 %
TOTAL 12%

Tabla 3. 1: Deformacin de un sistema de audio

El sistema de la tabla 3.1 es sin duda un sistema muy bueno ya que no excede el
15%.

31
Duplicador: dispositivo que permite dividir la seal de audio, trabaja como un splitter.
32
Fonocaptor: aparato que, aplicado a un disco de gramfono, permite reproducir
electrnicamente las vibraciones inscritas en el disco.
98

La razn para que el odo pueda aceptar estas altas cifras es que el odo humano
se engaa fcilmente. Sin embargo, una vez acostumbrado a una buena
reproduccin del sonido, no se satisfar luego con menos.

3.2.5 ALTA FIDELIDAD COMO NORMA DE CALIDAD

La alta fidelidad como norma de calidad significa que la reproduccin del audio es
muy fiel al original. El trmino alta fidelidad, se aplica normalmente a todo sistema
domstico de razonable calidad. En un intento por normar la alta fidelidad en
1973, el Deutsches Institut fr Normung (DIN: Instituto Alemn de Normalizacin)
cre la norma DIN 45500; la norma estableci requerimientos mnimos de las
medidas de: respuesta de frecuencia, distorsin, ruido y otros parmetros;
logrando algn reconocimiento de algunas revistas de audio.

Cumpliendo esa norma se han fabricado equipos de msica de una calidad muy
razonable, pero este estndar no es el nico ya que existen y se fabrican muchos
equipos y sistemas de audio bajo otros estndares de Hi-Fi, estndares
propietarios. Como la norma DIN 45500 no es la nica norma, no resulta
necesario mencionar las caractersticas tcnicas citadas en esta norma; ya que
por razones de marketing la mayora de equipos se publicitan como de alta
fidelidad por cubrir el rango de frecuencias que va desde 20 Hz a 20 KHz.

La norma DIN 45500 fue bien intencionada, pero cumpli slo con xito limitado
normar la definicin de alta fidelidad. En los comienzos la misma norma
garantizaba que los equipos cumplan con lo especificado en sta, por lo tanto
solo los equipos que haban pasado las pruebas podan llevar el nombre de Hi-Fi,
pero un tiempo despus muchos otros fabricantes comenzaron a poner ese
nombre en sus productos sin que esta norma lo avale y as la norma 45500 fue
perdiendo popularidad.

En la dcada de 1990, habiendo mejorado la tecnologa, se acu otro trmino
para definir otro estndar con niveles cualitativos ms altos, el "Hi-End" ; el audio
High End es un concepto que se invent para los transistores incorporando
99

componentes de mayor calidad y esttica, como conectores baados en oro, etc.;
ms o menos se entiende como una alta fidelidad ms exquisita, ms purista, ms
alejada de lo comercial, ms exclusiva, con una tecnologa de ms alto nivel, y en
definitiva mucho ms cara.

3.2.6 EQUIPOS DE ALTA FIDELIDAD

La calidad de un sistema de grabacin y reproduccin de alta fidelidad se mide a
partir de la capacidad de ste de reproducir la seal de audio de manera ms fiel
a la realidad, es decir, con el mximo parecido respecto a la seal original. Eso
significa por ejemplo, conservar la naturaleza y la perfecta inteligibilidad de la voz
o las propiedades tmbricas de los distintos instrumentos.

Entre las caractersticas ms importantes que ha de tener un sistema para ser
considerado de alta fidelidad, hay que destacar tanto la respuesta en frecuencia,
que ha de ser suficientemente uniforme y amplia en el campo de las frecuencias
audibles, como la ausencia de distorsin de seal, que se evidencia cuando se
introduce algn componente que no estaba presente en la seal original y
produce una especie de ruido de fondo. Adems la fidelidad est condicionada
por las caractersticas ambientales donde tiene lugar la audicin.

Lo cierto es que un buen sistema de alta fidelidad crea las condiciones
potenciales para una reproduccin del audio satisfactoria. De todas formas no es
conveniente exagerar respecto a los resultados en torno a la perfeccin de cada
componente del equipo, ya que siempre pueden existir nuevos elementos que
intervengan de manera determinante y que conviertan en mediocre la
reproduccin efectuada con el equipo tcnicamente ms sofisticado y costoso.

3.2.6.1 Equipos modernos

Equipos modernos de alta fidelidad de audio digital generalmente incluyen fuentes
de seal tales como: reproductores de CD, cinta de audio digital (DAT) y Digital
100

Audio Broadcasting (DAB), sintonizadores de radio HD, un amplificador, un
preamplificador, y altavoces. Algunos equipos modernos de alta fidelidad pueden
ser conectados digitalmente, utilizando hilos de fibra ptica y pueden tener
puertos seriales universales (USB) y soporte de fidelidad inalmbrica (WiFi).

3.3 COMPARATIVA CON EL FORMATO MP3

Una amplia franja de la poblacin, escucha msica en formato MP3 bajada
gratuitamente a travs de la Internet, directamente en sus ordenadores o
reproductores porttiles sin preocuparse mucho por la calidad del sonido. En la
actualidad existen servidores de msica que contienen archivos de msica en
formato comprimido y en la mayora de los casos en formato MP3.

Con mayores avances tecnolgicos en temas como la compresin y en especial
con la aparicin del formato MP3 se puede decir que calidad sonora empeor a
criterio de expertos en audio y audifilos. Hace un tiempo exista mucha gente a la
cual le pareca una barbaridad escuchar msica comprimida en MP3 ya que con
la utilizacin de los formatos comprimidos como el MP3 se pierde parte del sonido
original; pero en la actualidad ir contra los formatos de audio comprimido y en
especial contra el MP3, sera como remar contra la corriente.

Muchos sectores detractores de los formatos comprimidos argumentan que la
compresin de audio provoca la prdida de la emocin musical y se preguntan por
qu en la era de los mayores avances tecnolgicos la calidad sonora empeor
como nunca. Es muy lgico que tanto, los formatos de audio sin prdida o con
prdida sufran la degradacin de la fidelidad, ya que el audio reproducido en las
computadoras actuales o dispositivos multimedia es un audio digital. Al pasar las
seales analgicas por el proceso de la digitalizacin las seales originales sufren
cambios que pueden ser muy notorios, dependiendo del procesamiento de la
seal y de los algoritmos de compresin.

101

Es cierto que los formatos de compresin han degradado la calidad musical, por
ello por ms xito y expansin que tenga el MP3, siempre habrn puristas
dedicados a escuchar slo en vinilo o en cinta y con equipos valvulares. Ya sea
por aspectos psicolgicos, subjetivos o por nostalgia de la poca de antao,
varias empresas como Apple, por motivos comerciales principalmente, han
dedicado parte de sus esfuerzos a producir equipos hbridos, como el que se
muestra en la figura 3.1, para de esta manera satisfacer a un sector de la
poblacin que nunca se ha olvidado de los sistemas de audio antiguos.

Figura 3. 1: iPod Hibrido

Los fetichistas del vinilo siempre hablan sobre la msica de antao, suelen
mencionar que aquella msica fue hecha por gente en una habitacin, no por una
computadora. Tanto los archivos comprimidos, como el CD son el equivalente a
escuchar una copia de esta msica, aunque si uno no escuchara el original quiz
nunca se dara cuenta.

En cuanto a los formatos comprimidos se hace mucho nfasis en el formato de
msica grabada en MP3 ya que a pesar de que existen innumerables cdecs de
audio el formato MP3 es uno de los que ms sobresale.

Parecera que al hablar de MP3 y de alta fidelidad, se habla de palabras muy
opuestas, pero en la actualidad no es as, ya que por marketing y por motivos en
su mayora comerciales, gran parte de los equipos comerciales son denominados
102

de alta fidelidad si cubren el rango de frecuencias de 20 Hz a 20 KHz y muy poco
se preocupan que el equipo reproduzca formatos comprimidos, es ms, la
reproduccin de los formatos comprimidos es una de las caractersticas ms
publicitada de los dispositivos multimedia y sistemas de audio, como ejemplo de
esto se presenta la figura 3.2 con sus caractersticas ms importantes, resaltando
la posibilidad de reproducir archivos de formato MP3.

Figura 3. 2: iPod Shuffle de 2 GB

Equipo (Ipod) Principales caractersticas tcnicas
Apple iPod Shuffle
2GB 3era generacin
MP3

Unidad flash de 2 GB

Reproduce hasta 500 o 1.000 canciones

Formatos AAC,MP3,WAV

Tabla 3. 2: Caractersticas del iPod Shuffle de 2 GB

Finalmente hay que tener en cuenta que la calidad final no slo depende del
formato utilizado, sino tambin del equipo de audio, los altavoces, la forma del
mobiliario y el entorno.

Es innegable que un archivo no comprimido suena mejor que un archivo en
formato MP3 y que a criterio de muchos expertos los sistemas de audio de los
aos 50 y 60 suenan mejor que los de ahora, pero hoy en da la calidad de audio
de un mp3 puede ser aceptable y hasta ms que suficiente para el usuario
promedio. Adems el formato se debe elegir de acuerdo a las necesidades,
posibilidades y objetivos.

103


CAPITULO 3: SISTEMAS DE ALTA FIDELIDAD

LIBROS:

[16] Lazzati, M., (2009), Electroacstica III, Universidad de las Amricas -
Quito, Ingeniera en Sonido y Acstica.

INTERNET:

[17] Como Funcionan, (2009), Altas fidelidades, Como Funcionan.com,
http://www.como-funcionan.com
[18] JVC, (2009), Componentes Hi-Fi, Barcelona-Espaa.
http://www.jvc.es
[19] Pro Audio, (2008), Revista Pro Audio Show,
http://issuu.com/revistaacm/docs/webabril08
[20] Doctor ProAudio, (2009), Biblioteca Hi-FI,
http://www.doctorproaudio.com
[21] Philips, (2007), Koninklijke Philips Electronics N.V, version 2.0,
http://www.philips.com
[22] Chiacchio, D. (2009), Audio Hi-Fi y Hi-End, Audiohiend,
http://www.audiohiend.com.ar
[23] Audiotest.org, (2010), Pro Audio Recording.
http://www.audiotest.org
[24] Meyer Sound, (2009), High Fidelity Case Study, Houson-Texas.
http://www.meyersound.com/spanish/products/mseries/milo/news.php

104

CAPTULO 4.
FORMATO MP3

4.1 INTRODUCCIN

4.1.1 HISTORIA

A finales de los aos 80, se convirti en necesidad potenciar la digitalizacin del
sonido ms all de los formatos existentes. Una de las prioridades era crear un
sistema de compresin, ya que el formato WAV que hasta ese momento se
utilizaba, requera mucho espacio en disco, algo que dificultaba su
almacenamiento y transporte.

La tecnologa del formato de audio MP3
33
fue desarrollada en Alemania por
Karlheinz Brandenburg, Harald Popp y Bernhard Grill, tres cientficos del instituto
tecnolgico de Fraunhofer en Ilemenau en el ao 1986. Luego en 1992 el Moving
Picture Experts Group (MPEG) aprob oficialmente la tecnologa. En ese pas,
gan el premio a la innovacin tecnolgica "Future Prize" del gobierno en el ao
2000.

Figura 4. 1: Creadores del formato MP3,
Bernhard Grill, Karlheinz Brandenburg y Harald Popp (de izquierda a derecha)

33
Nota legal: el formato MP3 es un formato propietario del Instituto Fraunhofer y ha sido utilizado
slo con fines acadmicos en el presente proyecto de titulacin.
105

Brandenburg, describi l mismo la forma en que se incorpor al proyecto: A
comienzos de los ochenta, en la poca en que se digitaliz la red telefnica en
Alemania, el profesor Dieter Seitzer, de la Universidad de Erlangen, tuvo la idea
de transmitir por la lnea telefnica RDSI de 64 kilobits por segundo algo ms que
la voz. Entonces comenz a investigar un pequeo grupo en el que yo entr para
hacer mi tesis de fin de carrera.

Su planteamiento era que para transmitir toda la informacin de un CD por la lnea
telefnica se necesitaba hacerlo a 1,5 megabits por segundo, pero slo se poda
transmitir 64 kilobits por segundo. Brandenburg pens en que si se comprima
hasta doce veces la informacin, se podra transmitir por una sola lnea telefnica.
Lo primero que desarroll fue un cdec, un programa que poda comprimir y
descomprimir audios, manteniendo en gran parte la calidad del sonido.

Y de ah al gran salto, al MP3 (las siglas o el diminutivo de MPEG-1 Audio Layer
3 o MPEG-1 Capa de Audio 3).

La posibilidad de intercambiar msica por Internet la vimos desde el principio y se
la ofrecimos a la industria La respuesta que nos dieron entonces hoy les debe
de dar vergenza: `Pero si nadie tiene Internet en casa. Entonces ya tenamos la
forma de codificarlo que permita la venta por Internet, pero no supieron ver el
potencial y nos mandaron a casa. [36]

Por supuesto que no fue fcil hacer que este formato se volviera popular. En sus
inicios era visto como un demonio, por las discogrficas por supuesto, quienes
trataban de cerrarle las puertas de cualquier manera mostrando una imagen irreal
de lo que realmente era. Pero de nada les sirvi esos intentos. Hoy MP3 es el
formato de la msica online.

4.1.1.1 Cronologa del mp3

En 1987, el Instituto Fraunhofer en Alemania inici una investigacin bajo el
nombre de proyecto Eureka EU147, Digital Audio Broadcasting.
106

En el mes de enero de 1988, se cre el Grupo de Expertos de Imgenes en
Movimiento o MPEG como una subcomisin de la Organizacin Internacional de
Estandarizacin (ISO).
En abril de 1989, Fraunhofer obtuvo la patente alemana para el MP3.
En el ao 1992, el algoritmo de codificacin de audio de Fraunhofer y de Dieter
Seitzer fue integrado en MPEG-1.
En el ao 1993, el estndar MPEG-1 fue publicado.
En 1994, fue desarrollado MPEG-2 y publicado un ao despus.
En el mes de noviembre de 1996, fueron concedidas las patentes del MP3 para
los Estados Unidos.
En septiembre de 1998, Fraunhofer empez a hacer valer sus derechos de
patente haciendo que todos los desarrolladores de codificadores MP3 se vieran
obligados a pagar una cuota de licencia a Fraunhofer.
En febrero de 1999, una empresa disquera llamada SubPop comenz a distribuir
las pistas de msica en formato MP3.
En el mismo ao aparecieron los reproductores de mp3 porttiles, los cuales se
han masificado, siendo un estandarte del gnero el iPod
34
de Apple.

4.1.2 DEFINICIN

MP3 es un formato de datos que debe su nombre a un algoritmo de codificacin
llamado MPEG 1 Layer 3, el cual, a su vez, es un sistema de compresin de audio
que permite almacenar sonido con una calidad similar a la de un CD. Este formato
se utiliza para comprimir formatos de audio normales (WAV o CD audio) en una
relacin de 1:12. En la prctica, permite almacenar el equivalente a 12 CD-ROM
de lbumes de msica en el espacio de un solo CD, es decir, unas 150 canciones
aproximadamente. Es ms, el formato MP3 casi no altera la calidad del sonido
para el odo humano.

34
iPod es una marca de reproductores multimedia porttiles diseados y comercializados por
Apple Inc., el iPod puede reproducir archivos MP3, WAV, AAC/M4A, AIFF y Apple Lossless. El
iPod de 5 generacin tambin es capaz de reproducir archivos de video en formatos H.264 y
MPEG-4.
107

El sistema de codificacin que utiliza MP3 es un algoritmo de compresin con
prdidas. Es decir, el sonido original y el que obtenemos posteriormente no son
idnticos. Tcnicamente hablando es un sistema de compresin aplicado al audio,
cuya invencin se basa en un estudio relacionado con el odo humano. Para crear
mp3, los cientficos analizaron cmo el odo humano y el cerebro perciben el
sonido. Esta tcnica de codificacin, de alguna manera, engaa el odo
eliminando las partes menos esenciales de un archivo de msica. Por ejemplo, si
dos notas son muy similares, o si un tono alto y bajo ocurren exactamente al
mismo tiempo, el cerebro percibe slo a uno de ellos; entonces el algoritmo mp3
selecciona la seal ms importante y desecha la otra. Los investigadores
recortaron, adems, las frecuencias muy altas y muy bajas que no son percibidas
por el odo. De esta manera, la prdida es inaudible y el tamao del archivo se
reduce 12 veces en relacin a su original.

La principal ventaja evidente fue el reducido tamao y buena calidad en
comparacin con el resto de los formatos en ese momento. Para establecer
comparaciones, un CD de msica de tracks (pistas) es grabado a 44,1 KHz y
tiene 16 bits con dos canales (estreo), esto equivale a 172 KB. Por lo tanto una
cancin tpica de 4'30'' ocupa 46.512 KB o unos 45 MB. Bajar archivos tan
grandes en las velocidades de Internet de hace unos aos no era tarea fcil;
adems en un CD normal no entraran ms de 14 o 15 canciones.

El MP3 es, de lejos, el formato de audio ms popular; prcticamente todos los
aparatos reproductores soportan el formato de audio comprimido MP3 como "el
denominador comn" para la ms fcil interoperabilidad entre aplicaciones
diferentes. A raz del descubrimiento del mp3, empresas como Apple Computers,
Real Networks o Sony han desarrollado, cada uno, tecnologas propias de
reproduccin. Es inevitable, en la actualidad, relacionar el mp3 con la descarga de
archivos a travs de las redes peer-to-peer (P2P)
35
.

35
Una red peer-to-peer (P2P) o red de pares, es una red de computadoras en la que todos o
algunos aspectos de sta funcionan sin clientes ni servidores fijos, sino una serie de nodos que se
comportan como iguales entre s. Es decir, actan simultneamente como clientes y servidores
respecto a los dems nodos de la red.
108

4.2 ASPECTOS PRINCIPALES DEL ESTNDAR ISO/IEC 11172-3
(MPEG-1 CAPA DE AUDIO III)

La parte concerniente al audio del estndar ISO/IEC 11172 es la parte 3, la misma
que es designada como estndar ISO/IEC 11172-3.

La primera edicin del estndar ISO/IEC 11172-3 fue publicada en ingls, en
Ginebra (Suiza) el 1 de agosto de 1993, posteriormente se hace una correccin
al estndar el 15 de abril de 1995, as mismo, consecuentemente la organizacin
conjunta ISO/IEC realiza dos revisiones adicionales al estndar una en el ao
2000 y otra en el ao 2002.

De manera general se puede decir que el estndar internacional ISO/IEC 11172-3
posee extensa informacin tecnolgica en cuanto al audio y lo que al
procesamiento de la seal se refiere; el estndar provee aspectos tanto
informativos como normativos. El estndar contiene aspectos generales,
elementos tcnicos, para un mejor entendimiento de la norma, y varios anexos los
cuales contienen a su vez variada y muy explcita informacin incluyendo
conceptos, algoritmos y diagramas para un mejor entendimiento de los diversos
procesos que estn vinculados al estndar internacional.

Los elementos generales, los elementos tcnicos y los anexos A y B son de
carcter normativo. En tanto los otros anexos (del C al G) son de carcter
informativo, es decir, no obligan a seguir al pie de la letra uno u otro
procedimiento, por el contrario brindan la libertad y visto de cierta forma dan
pautas o sugerencias para realizar cualquier trabajo o tarea; por ejemplo el
estndar ISO/IEC 11172-3 no tiene definido ningn modelo psicoacstico pero a
su vez provee dos modelos, uno ms complicado que el otro, y que pueden ser
utilizados indistintamente segn el trabajo, los recursos disponibles o la
conveniencia.

Como la informacin que provee el estndar es muy interesante pero a la vez muy
extensa, en este captulo se pretende hacer un resumen de los aspectos ms
109

relevantes y los que estn ms ligados al proceso de la codificacin con el
objetivo de obtener archivos .mp3 vlidos.

Gran parte de la informacin tcnica est contenida en los anexos los mismos que
de manera general son descritos a continuacin:

Anexo A (normativo) - Diagramas
Anexo B (normativo) - Tablas
Anexo C (informativo) - Proceso de codificacin
Anexo D (informativo) - Modelos psicoacsticos
Anexo E (informativo) - Sensibilidad de los bits individuales a errores
Anexo F (informativo) - Cancelacin de errores
Anexo G (informativo) - Codificacin Joint Stereo

4.2.1 CODIFICACIN

El codificador procesa la seal de audio digital y produce el bitstream
empaquetado para su almacenamiento y/o transmisin. El algoritmo de
codificacin no est determinado, y puede utilizar enmascaramiento, cuantizacin
variable y escalada. Sin embargo, debe ajustarse a las especificaciones del
decodificador.

La figura 4.2 ilustra el esquema del codificador segn la norma ISO/IEC 11172-3.

Mapeado del
tiempo a la
frecuencia
Cuantizacin y
codificacin
Empaquetamiento
de trama
Modelo
Psicoacstico
Seal de audio
PCM
Relacin seal a
Mscara (SMR)
Flujo de bits
Codificado
Muestras
32/ 44,1 / 48 KHz
Datos adicionales

Figura 4. 2: Codificador segn la norma ISO/IEC 11172-3
110

Las muestras se introducen en el codificador y a continuacin el mapeador crea
una representacin filtrada y submuestreada de la seal de entrada. Las muestras
mapeadas se denominan muestras de subbanda transformadas. El modelo
psicoacstico crea una serie de datos (dependiendo de la implementacin del
codificador) que sirven para controlar la cuantizacin y codificacin. Este ltimo
bloque crea a su vez su propia serie de datos, de nuevo dependiendo de la
implementacin. Por ltimo, el bloque de empaquetamiento de trama se encarga
de agrupar como corresponde todos los datos, pudiendo aadir algunos ms,
llamados datos adicionales, como por ejemplo CRC o informacin del usuario.

4.2.1.1 Codificacin MPEG-1 para la capa 3

Para comprender detalladamente el proceso de codificacin descrito en el
estndar ISO/IEC 11172-3, se describe a continuacin su funcionamiento.

El mapeado de tiempo-frecuencia para la codificacin MPEG-1 capa 3 (MP3)
aade un nuevo banco de filtros, procesando las salidas filtradas con una
Transformada Discreta del Coseno Modificada (MDCT), estos dos bloques
conforman el denominado filtro hbrido, el cual proporciona una resolucin en
frecuencia variable, 6 x 32 o 18 x 32 subbandas, ajustndose mucho mejor a las
bandas crticas de las diferentes frecuencias. A diferencia del banco de filtros
polifsicos, sin cuantizacin, la MDCT no presenta prdidas. La MDCT tambin
subdivide las salidas de subbanda en frecuencia para incrementar la resolucin y
as poder dividir el audio en bandas que se ajustan mejor a las bandas crticas del
odo. Una vez que los componentes de subbanda son subdivididos en frecuencia,
el codificador cancela parte del aliasing causado por el banco de filtros polifsicos.

El modelo psicoacstico utiliza un mtodo denominado prediccin polinmica,
incluyendo los efectos totales del enmascaramiento tanto en frecuencia como en
el tiempo.

El bloque de cuantizacin y codificacin tambin emplea algoritmos muy
sofisticados que permiten tramas de longitud variable, donde, la variable
111

controlada es el ruido, a travs de bucles iterativos que lo reducen al mnimo
posible en cada paso.

En el formateador de trama
36
, las tramas contienen informacin de 1152 muestras
y empiezan con la misma cabecera de sincronizacin y diferenciacin, pero la
informacin perteneciente a una misma trama no se encuentra generalmente
entre dos cabeceras. El empaquetado de trama incluye el uso de una reserva de
bits (bit reservoir), que hace posible emplear ms bits en partes de la seal que lo
necesiten. La longitud de la trama puede variarse en caso de necesidad.
Tambin, permite alta calidad en el audio a tasas tan bajas como 64 Kbps.

Adems de tratar con esta informacin, el esquema III incluye codificacin
Huffman de longitud variable, un mtodo de codificacin entrpica que sin prdida
de informacin elimina redundancia. Los mtodos de longitud variable se
caracterizan, en general, por asignar palabras cortas a los eventos ms
frecuentes, dejando las largas para los ms infrecuentes.

En la figura 4.3 se muestra un diagrama en bloques ms detallado del codificador
MP3.

Conversin
tiempo -frecuencia
Ventana de Hanning
FFT 1024 puntos
Modelo
psicoacstico
Filtro pasa altos
Banco de filtros
32 subbandas
Distorsin
permitida
MDCT
(transformada
discreta coseno
modificada) Formato del
flujo de bits
Cdigo
CRC
Reparticin
del ruido
(Cuantizacin
no-uniforme)
Codificacin
Huffman
Codificacin de
la informacin
secundaria
Entrada
de audio
PCM
Datos auxiliares
(opcional)
Control de bloque
largo o corto
Flujo de
bits MP3
Muestras
cuantizadas

Figura 4. 3: Diagrama de bloques de un codificador MP3

36
La definicin de trama para este esquema segn ISO nos dice que: "Trama es la mnima parte
del bitstream decodificable mediante el uso de informacin principal adquirida previamente".
112

En forma resumida el proceso de codificacin es el siguiente: el flujo de audio a la
entrada pasa a travs de un banco de filtros que divide la seal en mltiples
subbandas. En forma paralela al filtrado se realiza el anlisis psicoacstico que
determina el ruido (distorsin permitida) en cada subbanda. La etapa "Reparticin
de ruido" usa las distorsiones permitidas para decidir cmo dividir el nmero total
de bits de cdigo disponibles.

Por ltimo, las muestras codificadas mediante Huffman junto con la informacin
secundaria son convertidas en un flujo de bits MP3 vlido.

4.2.1.2 Anlisis psicoacstico

El estndar ISO/IEC 11172-3 (que describe la manera de generar flujos de audio
MP3 vlidos), proporciona dos modelos psicoacsticos; el primer modelo
psicoacstico es menos complejo que el segundo y simplifica mucho los clculos.
Ambos modelos trabajan para cualquiera de las capas, aunque requieren
adaptaciones especficas para el esquema de la capa 3. Existe considerable
libertad en la implementacin del modelo psicoacstico; la precisin que se
requiera del modelo es dependiente de la aplicacin y de la tasa de bits que se
quiere lograr. Para bajos niveles de compresin, donde hay un nmero generoso
de bits para realizar la codificacin, el modelo psicoacstico puede ser
completamente omitido, en cuyo caso, slo se calcula la SNR
37
ms baja, y con
este valor se realiza el proceso de reparticin de ruido para la subbanda.

El modelo psicoacstico II que se usa en la Capa 3 tiene mejoras adicionales que
se adaptan mejor a las propiedades del odo humano. Primero el modelo
convierte el audio al dominio espectral, usando una FFT de 1024 puntos para
conseguir una buena resolucin de frecuencia y poder calcular correctamente los
umbrales de enmascaramiento. Antes de la FFT, se aplica una ventana de
Hanning convencional para evitar las discontinuidades en los extremos de la
seal. La salida de la FFT se usa primero para analizar qu tipo de seal est

37
SNR: Relacin seal ruido.
113

siendo procesada: una seal estacionaria hace que el modelo escoja bloques
largos, y una seal con muchos transitorios da como resultado bloques cortos. El
tipo de bloque se usa luego en la parte MDCT del algoritmo. Despus de esto, el
modelo psicoacstico calcula el mnimo umbral de enmascaramiento para cada
subbanda. Estos valores de umbral se usan luego para calcular la distorsin
permitida. El modelo pasa entonces las distorsiones permitidas a la seccin
"Reparticin de ruido" en el codificador para uso posterior.

Algunas de las funciones del modelo psicoacstico se presentan a continuacin:

4.2.1.2.1 Alineacin en tiempo

Se debe tener en cuenta que cuando se hace la evaluacin psicoacstica, los
datos de audio que son enviados al modelo deben ser concurrentes con los datos
de audio a ser codificados.

El modelo psicoacstico debe tener en cuenta el retardo de los datos al pasar por
el banco de filtros y aplicar un desplazamiento adicional, de tal manera que los
datos relevantes queden centrados en la ventana del anlisis psicoacstico.

4.2.1.2.2 Representacin espectral

El modelo psicoacstico realiza una conversin del tiempo a la frecuencia
totalmente independiente del mapeo realizado por el banco de filtros porque
necesita una mejor resolucin en frecuencia para calcular con gran precisin los
umbrales de enmascaramiento. Ambos modelos usan una transformada de
Fourier para realizar el mapeo.

El modelo I usa una FFT de 1024 puntos para la capa 3. El anlisis psicoacstico
para la capa 3 se realiza sobre 1152 muestras, as que la FFT de 1024 puntos no
proporciona cobertura total. Idealmente, la FFT debera cubrir todas las 1152
114

muestras; aunque 1024 puntos es un compromiso razonable ya que las muestras
que se omiten, no tienen mayor impacto en el anlisis psicoacstico.

El modelo II usa una FFT de 1024 puntos para la capa 3, el modelo ejecuta dos
clculos psicoacsticos de 1024 puntos. El primer clculo se encarga de las 576
muestras iniciales, y el segundo clculo se realiza sobre las ltimas 576 muestras.
El modelo II combina los resultados de ambos clculos, de tal manera que el
resultado total implique la seleccin del umbral de enmascaramiento de ruido
(Noise Masking Treshold) ms bajo en cada subbanda. Para simplificar los
clculos, ambos modelos procesan los valores espectrales en unidades
perceptuales, denominadas Barks (Ec. 1.9).

4.2.1.2.3 Componentes tonales y no tonales

Ambos modelos identifican y separan las componentes tonales y las componentes
de ruido en la seal de audio. Esto se debe a que cada componente presenta un
tipo de enmascaramiento diferente.

El modelo I identifica las componentes tonales, basado en los picos locales del
espectro de potencias. Despus de procesar todas las componentes tonales, el
modelo concentra los valores espectrales restantes en una nica componente no
tonal por banda crtica. El ndice de frecuencia de cada una de estas
componentes no tonales es el valor ms cercano a la media geomtrica de la
banda crtica a la cual pertenece cada componente no tonal.

El modelo II realmente nunca separa las componentes tonales ni las no tonales,
sino que calcula un ndice de tonalidad en funcin de la frecuencia.

4.2.1.2.4 Estimacin del ndice de tonalidad

Este ndice mide el comportamiento que presenta cada tipo de componente. El
modelo II usa este ndice para interpolar entre valores puros de TMN y valores
115

puros de NMT
38
. El ndice de tonalidad se basa en una prediccin mediante una
extrapolacin lineal de los ltimos dos clculos, para predecir los valores de la
componente que est siendo procesada. Las componentes tonales son ms
predecibles y, por lo tanto, tienen ndices de tonalidad ms altos. Este mtodo de
discriminacin es mejor que el usado por el modelo I.

4.2.1.2.5 Funcin de dispersin

La capacidad de enmascarar de una componente determinada se distribuye por
toda la banda crtica que la rodea. Ambos modelos determinan el umbral de
enmascaramiento de ruido para ambos tipos de componentes; para lograr esto, el
modelo I compara con un enmascaramiento determinado empricamente,
mientras que el modelo II aplica la funcin de dispersin descrita en la siguiente
ecuacin:

IEN = E
N
- 1.4S - B (Ec. 4.1)

Donde, THN = umbral de enmascaramiento del ruido
E
N
= nivel de energa enmascaradora de las bandas de ruido
B = es el nmero de bandas crticas

En las aplicaciones de la capa 3, solo se toman en cuenta aquellos valores de la
funcin de dispersin mayores a 60 dB.

4.2.1.2.6 Umbral de enmascaramiento individual

Para poder calcular el umbral de enmascaramiento global, el modelo I debe
calcular primero los umbrales de enmascaramiento que cada componente tonal o
no tonal genera sobre la seal de audio (llamados "Umbrales de
enmascaramiento individuales"). Debe tenerse en cuenta que antes de esto se
realiza un proceso conocido como "Decimation of maskers" (diezmado en la

38
El enmascaramiento simultneo o en frecuencia tiene tres tipos: Ruido enmascara tono (NMT),
Tono enmascara ruido (TMN) y Ruido enmascara ruido (NMN).
116

cantidad de componentes enmascarantes). Este proceso consiste en escoger
nicamente las componentes tonales y no tonales que verdaderamente
enmascaran el sonido (cuya magnitud y distancia en Barks debe ser apropiada),
desechando el resto de componentes calculadas en el paso anterior.

Despus de realizada esta eleccin, el modelo I calcula el efecto de
enmascaramiento que cada componente enmascaradora (tonal o no tonal) tiene
sobre las lneas de frecuencia adyacentes a ella. Este anlisis slo es necesario
hacerlo para las lneas de frecuencia que se encuentran entre -3 y +8 Barks a
partir de la componente enmascaradora. O sea, el anlisis abarca todas las lneas
de frecuencia que se encuentren tres bandas crticas a la izquierda (hacia las
bajas frecuencias), y ocho bandas crticas a la derecha (hacia las altas
frecuencias) de la componente enmascaradora. Esto se debe a que el efecto de
enmascaramiento de la componente tonal o no tonal que est siendo analizada
(por ms intensidad que sta tenga) es demasiado tenue por fuera de este rango.

Como el modelo II nunca separa las componentes no tonales y tonales, sino que
calcula el ndice de tonalidad (en funcin de la frecuencia) que presenta cada
componente enmascaradora, entonces no es necesario hacer el clculo de los
umbrales de enmascaramiento individuales.

4.2.1.2.7 Umbral de enmascaramiento global

Ambos modelos psicoacsticos incluyen un umbral de enmascaramiento absoluto,
el cual ha sido determinado empricamente: el mnimo umbral auditivo en un
ambiente silencioso. Se debe recordar que ste es la intensidad del sonido ms
dbil que se puede escuchar cuando no hay ms sonidos presentes.

Usando el modelo I, este umbral absoluto se combina con los umbrales
individuales calculados en el paso anterior para determinar el umbral de
enmascaramiento global sobre toda la banda de audio.

117

El modelo II no calcula el umbral de enmascaramiento global, sino que trabaja
todos los datos dentro de cada subbanda, de acuerdo con el ndice de tonalidad
que tenga cada componente enmascaradora en esa subbanda.

4.2.1.2.8 Pre - eco

Los efectos de pre-ecos son muy comunes cuando se trabaja con esquemas
perceptuales de codificacin de audio que usan alta resolucin en frecuencia.
Para entender el origen de los pre-ecos, consideremos el diagrama simplificado
del decodificador de un sistema de codificacin perceptual de la figura 4.11.

Las lneas de frecuencia reconstruidas son combinadas por el filtro sntesis, que
consiste en una matriz de modulacin y una ventana de sntesis. El error de
cuantizacin introducido por el codificador puede verse como una seal agregada
a las lneas de frecuencia originales, con un intervalo en el tiempo que es igual a
la duracin de la ventana de sntesis. Por esto, los errores de la reconstruccin se
esparcen por toda la duracin de la ventana. Si la seal de audio presenta un
incremento abrupto de energa, el error de cuantizacin tambin se incrementa. Si
ese pico de energa ocurre dentro de la ventana de sntesis, el error se esparcir
dentro de la ventana de sntesis completa, precediendo en el tiempo la causa real
de su existencia. Si dicha seal pre-ruido se extiende ms all del perodo de pre-
enmascaramiento del odo humano, se vuelve audible y se llama pre-eco.

La capa 3 incorpora varios pasos para reducir el pre-eco. Primero, el modelo
psicoacstico de la capa 3 contiene modificaciones que detectan las condiciones
de pre-eco. Segundo, la capa 3 puede pedir prestados codebits de la reserva de
bits para reducir el ruido de cuantizacin cuando las condiciones de pre-eco se
presentan.

Por ltimo el codificador puede cambiar a un tamao de bloque MDCT ms
pequeo para reducir el tiempo de ventana efectivo.

118

4.2.1.2.9 Umbral de enmascaramiento mnimo

Ambos modelos psicoacsticos seleccionan el mnimo umbral de
enmascaramiento en cada subbanda.

Con el modelo I, para encontrar el umbral de enmascaramiento mnimo en cada
subbanda, simplemente se extrae el mnimo valor del espectro global incluido
entre las dos frecuencias lmites de cada subbanda, o sea, el valor extrado del
umbral global debe ser el valor mnimo de enmascaramiento en la subbanda. Este
mtodo se comporta bien para las subbandas ms bajas donde la subbanda es
estrecha con respecto a las bandas crticas, pero se vuelve inadecuado para las
subbandas altas porque una banda crtica en esta frecuencia se distribuye sobre
varias subbandas. Esta imprecisin se incrementa todava ms, debido a que el
modelo I concentra todas las componentes no tonales, dentro de cada banda
crtica, en un nico valor para una sola frecuencia.

El modelo II selecciona el mnimo de todos los umbrales de enmascaramiento en
cada subbanda slo para regiones de frecuencia donde el ancho de la subbanda
es amplio comparado con el ancho de la banda crtica. Si el ancho de la subbanda
es estrecho en comparacin con el ancho de la banda crtica, el modelo realiza un
promedio entre todos los umbrales de enmascaramiento en esa subbanda. El
modelo II es ms preciso para las subbandas altas, ya que ste no concentra las
componentes de ruido.

4.2.1.2.10 Relaciones seal a mscara

Los dos modelos calculan la relacin seal a mscara, SMR, como la relacin
entre la energa de la seal en la subbanda (para la Capa 3, un grupo de bandas)
y el mnimo umbral de enmascaramiento para esa subbanda. En el modelo
psicoacstico de la Capa 3, el valor que se entrega no es la SMR, sino un valor
equivalente llamado "Distorsin permitida" o "Ruido permitido". Este valor
determina cul es la cantidad mxima de ruido de cuantizacin que se permite en
el bloque "Reparticin de ruido".
119

4.2.1.3 Banco de filtros hbridos conmutados

El banco de filtros usado en MPEG-1 Capa 3 pertenece a la clase de bancos de
filtros hbridos. Estos son construidos poniendo en cascada dos bancos de filtros
diferentes, primero un banco de filtros polifsico y segundo, un banco de filtros
con la transformada discreta del coseno modificada (MDCT).

Dependiendo del bitrate al que se vaya a codificar, este proceso eliminar ms o
menos datos siguiendo el modelo psicoacstico hasta lograr la compresin
necesaria.

Dentro del formato MP3 podemos comprimir con distinto ancho de banda, modo y
bitrate obteniendo distintas calidades segn para que vayamos a utilizar ese
sonido, como se muestra en la tabla 4.1.

calidad del
sonido
ancho de
banda
Modo bitrate
radio de
compresin
sonido telefnico 2,5 KHz Mono 8 Kbps 96:1
mejor que onda corta 4,5 KHz

Mono 16 Kbps 48:1
mejor que radio AM 7,5 KHz

Mono 32 Kbps 24:1
similar a radio FM 11 KHz estreo 56...64 Kbps 26...24:1
cercano al CD 15 KHz estreo 96 Kbps 16:1
CD >15 KHz estreo 112..128 Kbps 14..12:1

Tabla 4. 1: Razn de compresin de acuerdo al ancho de banda, modo, bitrate y radio de
compresin

En un disco compacto (CD) tenemos una velocidad de muestreo de 44,1 KHz,
muestreados a 16 bits en estreo lo cual produce aproximadamente 1400 Kbps
(44100 x 16 x 2 bits por segundo). Codificndolo por ejemplo a un MP3 de 128
Kbps obtenemos una reduccin en torno al 1/12 del espacio inicial. Tambin se
puede optar por compresiones a mayor bitrate llegando a 192 o incluso 256 Kbps.
Pero el ms popular es el de 128 Kbps con el que se consigue una calidad
excelente con una compresin sobresaliente.

120

4.2.1.3.1 Filtro pasa-altos

El estndar ISO/IEC 11172-3 proporciona respuesta en frecuencia hasta el nivel
de 0 Hz. Sin embargo, para ciertas aplicaciones, se puede incluir un filtro pasa
altos a la entrada del codificador, con su frecuencia de corte ubicada entre 2 y 10
Hz. La aplicacin de tal filtro evita el innecesario requerimiento de una alta tasa de
bits para la subbanda ms baja y aumenta la calidad total en el sonido.

4.2.1.3.2 Banco de filtros polifsicos

El banco de filtros polifsicos divide la seal de audio en 32 subbandas de
frecuencias igualmente espaciadas como se ve en la figura 4.4.

Figura 4. 4: Banco de filtros polifsicos [35]

Los filtros son relativamente simples y ofrecen una buena resolucin temporal con
una razonable resolucin en frecuencia.

Para el diseo de estos filtros se deben de tener en cuenta algunas
consideraciones:
121

Primero, la igualdad del ancho de las subbandas no representa adecuadamente
las bandas crticas del odo. Muchos efectos psicoacsticos son consistentes si
tomamos un escalado de frecuencias como el de las bandas crticas. Por ejemplo,
la audicin de una seal en presencia de una seal enmascaradora es diferente
para seales que estn dentro de una banda crtica que para seales que estn
ms all de una banda crtica. Para bajas frecuencias una subbanda abarca
varias bandas crticas. En estas condiciones el nmero de bits de cuantizacin no
puede ser explcitamente fijado por el ruido enmascarador disponible por cada
una de las bandas crticas. En cambio, la banda crtica con el menor
enmascaramiento de ruido nos da el nmero de bits de cuantizacin necesarios
para toda la subbanda.

En segundo lugar, el banco de filtros polifsicos y su inversa son
transformaciones con prdidas. Incluso sin cuantizacin, la transformacin inversa
no puede recuperar perfectamente la seal original. Sin embargo, el error
introducido por el banco de filtros polifsicos es pequeo e inaudible.

Finalmente, las bandas de dos filtros adyacentes tienen un gran solapamiento de
frecuencia, esto es, un tono puede generar una salida en dos subbandas
adyacentes.

La salida del filtro mostrado en la figura 4.4 es:

s
t
(i) =

6S
u k
7
0 j
N|i]|k] (C|k +64j] x|k +64j]) (Ec. 4.2)

Donde, i es el ndice de la subbanda, los mrgenes van desde 0 hasta 31.
s
t
(i) es la muestra de salida del filtro para la subbanda i en un tiempo t.
t es un entero, mltiplo de los 32 intervalos de muestras de audio.
C|n] es uno de los 512 coeficientes de la ventana de anlisis definida en
el estndar.
x|n] es la muestra de audio de entrada extrada de un buffer de 512
muestras.
122

N|i]|k] = cos|(2i +1) (k -16)
64
,
] es la matriz de coeficientes de
anlisis.

La ecuacin 4.2 est parcialmente optimizada para reducir el nmero de
operaciones. Debido a que la funcin, que est entre parntesis, es independiente
del valor de i , y N|i]|k] es independiente de j, las 32 salidas de los filtros
necesitan solo 512 + 32 x 64 = 2560 productos y 64 x 7+32 x 63 = 2464 sumas, o
aproximadamente 80 productos y sumas por cada salida. Sin embargo se puede
mejorar sustancialmente el nmero de operaciones mediante una transformada
discreta del coseno rpida (FDCT), o la FFT.

Podemos modificar la ecuacin 4.2 utilizando la tpica ecuacin de convolucin:

s
t
|i] =
S11
u n
x|t -n] B
I
|n] (Ec. 4.3)

Donde, x|t] es una muestra de audio en un tiempo t
B
I
|n] = h|n] cos|(2i +1) (k -16)
64
,
] con h|n] = -C|n], si la
parte entera de (n/64) es impar, o h|n] = C|n] en el caso contrario,
para n = 0 hasta 511.

De esta forma cada subbanda del banco de filtros tiene su propio filtro pasa banda
correspondiente a la respuesta al impulso B
I
|n]. A pesar de que esta forma es
muy conveniente para el anlisis matemtico, es claramente, una solucin
ineficiente para ser implementada. Una implementacin directa de esta ecuacin
requiere 32 x 512 = 16384 multiplicaciones y 32 x 511 = 16352 sumas para
obtener las 32 salidas de los filtros.

Podemos observar que en la ecuacin 4.3 se modula la seal h|n] mediante el
producto con un coseno, de esta forma obtenemos un desplazamiento en
frecuencia de la seal h|n], es por este motivo que se denominan filtros
123

polifsicos. A pesar de que el banco de filtros polifsicos tiene prdidas, los
errores que de ste se obtienen son pequeos.

A la salida del banco de filtros polifsico, las muestras de audio se dividen por
subbandas de la manera mostrada en la figura 4.5. Como se ve, cada subbanda
aporta 12 muestras para un total de 384 muestras de audio, en la Capa 1,
mientras que para la Capa 3, cada subbanda aporta 36 muestras de audio para
un total de 1152 muestras subbanda por trama.

12
muestras
12
muestras
12
muestras
12
muestras
12
muestras
12
muestras
12
muestras
12
muestras
12
muestras
Trama Capa I
Trama Capas II III
Filtro subbanda 0
Filtro subbanda 1
Filtro subbanda 31
Nota: Cada filtro subbanda produce una (1)
muestra de salida por cada 32 muestras de
entrada
Muestras de
audio de entrada

Figura 4. 5: Divisin en subbandas de las muestras de audio

El odo tiene una limitada selectividad en frecuencia que vara desde menos de
100 Hz para las frecuencias ms bajas hasta un poco ms de 4 KHz, para las
frecuencias ms altas. El ancho de banda que proporcionan los filtros polifsicos
es demasiado amplio para las bajas frecuencias, y demasiado estrecho para las
altas frecuencias, as que el nmero de bits del cuantizador no se puede optimizar
para la sensibilidad al ruido dentro de cada banda crtica. Debido a esto, lo mejor
es que al espectro audible se le hagan particiones en bandas crticas, por medio
de la transformada discreta del coseno modificada MDCT, que reflejen la
selectividad en frecuencia del odo.
124

4.2.1.3.3 Transformada discreta del coseno modificada (MDCT)

La Capa 3 subdivide cada una de las 32 bandas (salidas del banco de filtros)
mediante una transformada discreta coseno modificada de seis o dieciocho
puntos (lneas de frecuencia) y 50% de solapamiento, con el fin de compensar la
falta de precisin del banco de filtros, logrando subdividir la salida espectral en
frecuencias que proporcionen mejor resolucin con respecto a las bandas crticas,
como se muestra en la figura 4.6.

Entrada de
audio PCM
Subbanda 0
Subbanda 1
Subbanda 31
Lnea 0 Lnea 0
Lnea 575
Lnea 575
Ventana
MDCT
Ventana
MDCT
Ventana
MDCT
Transformada
MDCT
Transformada
MDCT
Transformada
MDCT
Seleccin de ventana
Larga, Larga a Corta, Corta, Corta a
Larga
Control de Bloque
Largo o Corto (desde el
modelo psicoacstico)
B
a
n
c
o
d
e
f
i
l
t
r
o
s
p
o
l
i
f
s
i
c
o
R
e
d
u
c
c
i
n
d
e
a
l
i
a
s
i
n
g
(
s
o
l
o
p
a
r
a
b
l
o
q
u
e
s
l
a
r
g
o
s
)

Figura 4. 6: Diagrama de bloques de las operaciones de la MDCT

Usando dieciocho puntos, el nmero mximo de componentes en frecuencia es:
32 x 18 = 576. Usando 6 puntos, la resolucin en frecuencia (ancho de banda) es
menor, pero la temporal es mayor, y se aplica en aquellas zonas en las que cabe
esperar efectos de pre-eco (transiciones bruscas de silencios a altos niveles
energticos, como por ejemplo justo antes de un sonido de percusin). En estos
casos se produce un transitorio con elevados errores de cuantizacin, debido a la
saturacin del cuantizador.
125

Al realizar la decodificacin, el error se distribuye por toda la trama, ocasionando
que las partes de silencio ya no sean silencio, sino que presenten parte de la
energa de las otras regiones de la trama. Esto obliga al uso de ventanas MDCT
temporales ms pequeas que limitan el efecto de pre-eco a un nmero menor de
muestras, en comparacin con el uso de ventanas grandes logrando de esta
manera, reducir la distorsin. El pre-enmascaramiento temporal evita que la
distorsin restante sea audible.

La Capa 3 tiene tres modos de bloque: dos modos donde las 32 salidas del banco
de filtros pueden pasar a travs de las ventanas y las transformadas MDCT, todas
las salidas con la misma longitud de bloque. Y un modo de bloque mixto donde
las dos bandas de frecuencia ms bajas usan bloques largos y las 30 bandas
superiores usan bloques cortos. La decisin del modo de bloque a ser usado
recae sobre el modelo psicoacstico: si la seal presenta muchos transitorios se
debe usar bloque corto, correspondiente a tres ventanas cortas; pero si la seal
es ms estacionaria, se debe usar bloque largo, correspondiente a una ventana
larga. El cambio entre modos no es instantneo; un bloque largo con una ventana
de datos especializada (ventana larga a corta o, ventana corta a larga)
proporciona el mecanismo de transicin entre modos.

Si se ejecuta la MDCT sobre cualquiera de las ventanas largas (NORMAL,
START, o STOP), se producirn 18 lneas de frecuencia debido al 50% de
solapamiento. Cuando se usan las tres ventanas cortas se producirn 3 grupos,
cada grupo con 6 lneas de frecuencia que pertenecen a diferentes intervalos de
tiempo. El proceso de la transformada MDCT sobre cualquier tipo de bloque
producir, entonces, 576 lneas de frecuencia referidas como "Grnulo"
(subdivisin de una trama).

En la figura 4.7 se muestran los cuatro tipos de ventana que se usan durante el
proceso de codificacin MP3:

a) NORMAL,
b) transicin de ventana larga a corta (START),
126

c) tres ventanas cortas (SHORT), y
d) transicin de ventana corta a larga (STOP).

Amplitud Amplitud
Amplitud Amplitud
Tiempo
Tiempo
Tiempo
Tiempo
a) Normal b) Start
c) Short d) Stop

Figura 4. 7: Ventanas de datos usadas durante el proceso MP3

En resumen, el proceso que se ha mostrado es: 576 muestras PCM de entrada se
convierten en 576 muestras subbanda. El solapamiento, antes de la MDCT,
ocasiona que esta cantidad se duplique: en este punto son 1152 muestras
subbanda, las cuales finalmente producen 576 coeficientes MDCT (lneas de
frecuencia) de salida.

Antes de continuar, se realiza la reduccin del aliasing introducido por el filtro
anlisis. Este proceso se realiza aqu, para obtener una reduccin en la cantidad
de informacin a ser codificada y transmitida.

4.2.1.4 Reparticin de ruido

Mientras las capas 1 y 2 usan reparticin de bits el codificador de la capa 3 usa
reparticin de ruido. La reparticin de bits
39
nicamente aproxima la cantidad de
ruido causado por la cuantizacin, mientras que la reparticin de ruido
verdaderamente calcula el ruido.

39
En el proceso de reparticin de bits, estos son asignados a las subbandas de acuerdo al nivel de
enmascaramiento que result de aplicar el modelo psicoacstico. El objetivo de la reparticin de
bits es minimizar el mximo de las relaciones mascara ruido (NMR), el mximo tomado sobre
todos los canales y todas las subbandas. Donde: NMR (dB) = SNR (dB) SMR (dB).
127

La reparticin se hace en un ciclo de iteracin que consiste de un ciclo interno y
uno externo.

4.2.1.4.1 Ciclo interno (rate control loop)

El ciclo interno realiza la cuantizacin no uniforme y escoge un determinado paso
de cuantizacin, cuantiza los valores espectrales, y a estos datos cuantizados se
les aplica codificacin de Huffman. Si el nmero de bits resultante de la
codificacin excede el nmero de bits disponible para codificar un bloque de datos
dado, de acuerdo con el bitrate escogido, se realiza una correccin ajustando la
ganancia global. De este modo se logra tener un paso de cuantizacin ms
grande, dando as valores cuantizados ms pequeos, entonces el ciclo comienza
otra vez con un nuevo intervalo de cuantizacin, ejecutando la cuantizacin y la
codificacin de Huffman otra vez.

El ciclo termina cuando los valores cuantizados que han sido codificados con
Huffman usan menor o igual nmero de bits que la mxima cantidad de bits
permitida.

4.2.1.4.2 Ciclo externo (distortion control loop).

Para moldear el ruido de cuantizacin de acuerdo al umbral de enmascaramiento,
factores de escala son aplicados a cada banda de factor de escala, que se
adece a los lmites de frecuencia variable del umbral de enmascaramiento.

El sistema comienza con un factor por defecto de 1,0 para cada banda. Si el ruido
de cuantizacin en una determinada banda excede el umbral de
enmascaramiento (ruido permitido) obtenido del modelo psicoacstico, el factor de
escala para esta banda se ajusta para reducir el ruido de cuantizacin.

Ahora el ciclo externo se encarga de verificar si el factor de escala para cada
subbanda tiene ms distorsin que la permitida (ruido en la seal codificada),
128

comparando cada banda del factor de escala (scalefactor band) con los datos
previamente calculados en el anlisis psicoacstico. Si cualquiera de las bandas
del factor de escala tiene ms ruido que el mximo permitido, el ciclo amplifica
esa banda de factor de escala, decrementa el tamao del paso del cuantizador
para las mismas y ejecuta ambos ciclos (el interno y el externo) de nuevo.

El ciclo externo termina cuando una de las siguientes condiciones se cumple:

x Ninguna de las bandas del factor de escala tiene una distorsin mayor a la
permitida.
x La prxima iteracin amplificara cualquiera de las bandas por encima del
valor mximo permitido.
x Todas las bandas han sido amplificadas al menos una vez.

Ya que el ciclo consume mucho tiempo, una aplicacin en tiempo real debe tener
en cuenta una cuarta condicin, que detenga el ciclo evitando que la codificacin
se ejecute fuera de tiempo.

Dado que lograr un ruido de cuantizacin menor requiere un nmero de pasos de
cuantizacin mayor y por tanto una bitrate ms alta, el ciclo interno debe repetirse
cada vez que se usen nuevos factores de escala. En otras palabras, el ciclo
interno se anida dentro del ciclo externo. El ciclo externo es ejecutado hasta que
el ruido real (calculado a partir de la resta entre los valores espectrales originales
y los valores espectrales cuantizados) est por debajo del umbral de
enmascaramiento para cada factor de escala (p.ej. banda crtica).

4.2.1.5 Flujo de bits MP3 vlido

El ltimo bloque en el proceso de codificacin MP3 es el encargado de producir
un flujo de bits MP3 vlido. Este bloque almacena el audio codificado y algunos
datos adicionales en tramas, donde cada trama contiene informacin de 1152
muestras de audio.
129

Una trama es un bloque de datos con su propio encabezado e informacin de
audio junto con el chequeo de errores y los datos auxiliares, estos dos ltimos
campos son opcionales.

El encabezado describe, entre otros, cul capa, tasa de bits y frecuencia de
muestreo se estn usando para el audio codificado. Los datos codificados con
Huffman y su informacin secundaria estn localizados en la parte de los datos de
audio, donde la informacin secundaria dice qu tipo de bloque, tablas de
Huffman y factores de ganancia deben ser usados.

4.2.1.6 Cuantizacin no uniforme

El cuantizador eleva su entrada a la potencia antes de cuantizar, de esta
manera se busca tener una mayor consistencia de los valores de SNR (relacin
seal/ruido) sobre el rango de cuantizacin. El decodificador realiza el proceso
inverso.

La ecuacin completa para el cuantizador es:

x
q
|i] = RnJ _[
x|I]
2
A
4
,
3
4
,
-u.u946_ (Ec. 4.4)

Donde, A es el paso de cuantizacin
x|i] es la seal a cuantizar

El mximo valor de cuantizacin permitido tiene como fin limitar el tamao de las
tablas usadas para la bsqueda del decodificador.

4.2.1.7 Codificacin Huffman (codificacin entrpica)

El formato MP3 emplea la tcnica del algoritmo de Huffman que es un algoritmo
de codificacin (no de compresin), que tiene su efecto al final del proceso de
130

compresin, al crear cdigos de longitud variable sobre un gran nmero de bits,
donde los smbolos con ms alta probabilidad tienen cdigos ms cortos.

Los cdigos de Huffman tienen la propiedad de poseer un nico prefijo y por lo
tanto, pueden ser decodificados correctamente a pesar de su longitud variable; el
proceso de la decodificacin es muy rpido, a travs de una tabla de
correspondencias. Este tipo de codificacin ahorra, como promedio, algo menos
del 20% del espacio que ocupa.

El algoritmo Huffman es muy efectivo cuando los sonidos son "puros" (cuando no
hay enmascaramiento), ya que los sonidos digitalizados contienen muchos
sonidos redundantes, y es aqu donde la codificacin de Huffman se vuelve muy
eficiente debido a que los sonidos puros, cuando se digitalizan, contienen gran
cantidad de bytes redundantes, que entonces sern reemplazados por cdigos
ms cortos.

Smbolo Probabilidad
A 0,13
B 0,05
C 0,33
D 0,08
E 0,18
F 0,23

Figura 4. 8: Codificacin Huffman

Un rbol binario est construido con respecto a la probabilidad de cada smbolo,
como se muestra en la figura 4.8.

La codificacin de un smbolo determinado es la secuencia desde la raz a la hoja
que contiene ese smbolo. Aplicando el algoritmo Huffman de la siguiente manera:

a) Encontrar los dos smbolos con menor probabilidad.
b) Crear un nuevo smbolo de la fusin de los dos y sumando sus
probabilidades respectivas. Los smbolos tienen que ser tratados con la
misma probabilidad.
E
F
B D
A
C
0
0
0
0
0
1
1
1
1
1
131

c) Repetir los pasos 1 y 2 hasta que se incluyan todos los smbolos.

B D
B D
A
0,13
0,26

Figura 4. 9: Algoritmo Huffman

Cuando se realiza la decodificacin, la tabla de probabilidad debe ser recuperada
primero. Para saber cundo cada representacin de un smbolo termina
simplemente se debe seguir el rbol desde la raz hasta encontrarnos en un
smbolo. Esto es posible porque ninguna codificacin es un subconjunto de otra
(prefijo de codificacin).

4.2.1.8 Reserva de bits

En la Capa 3, las tramas no son siempre totalmente independientes, debido al
posible uso del bit reservoir, que es una especie de buffer, las tramas son a
menudo dependientes unas de otras. En el peor caso, se pueden necesitar hasta
nueve tramas, antes de poder realizar la decodificacin de una sola.

La figura 4.10 muestra con un ejemplo este concepto.

Trama 4 Trama 5 Trama 6 Trama 7
Datos de audio Trama 3
bit reservoir
main_data_begin_4 main_data_begin_5
main_data_begin_7
main_data_begin_8
Encabezado
Informacin
secundaria
Trama4
Encabezado
Informacin
secundaria
Trama5
Encabezado
Informacin
secundaria
Trama6
Encabezado
Informacin
secundaria
Trama7
main_data_begin_6

Figura 4. 10: Ejemplo de uso de la reserva de bits (bit reservoir)
132

El main_data_begin es un puntero (de nueve bits) de ajuste negativo, incluido
dentro de la informacin secundaria, que apunta a la posicin del byte de inicio de
la informacin de audio dentro de cada trama. Por ejemplo, main_data_begin_4
es igual a cero, indicando que los datos de audio empiezan inmediatamente
despus de la informacin secundaria. Para indicar que el audio de la trama 5 se
inicia en la trama 4, se especifica main_data_begin_5 como un ajuste negativo
que indica el desplazamiento en bytes hacia la izquierda para encontrar el primer
dato de audio de la trama 5.

En el ejemplo se ve como cada trama permite el uso del bit reservoir. En el caso
de la trama 7, el proceso empieza codificando la informacin de audio de su
propia trama, como los datos requieren muy pocos bits, y la trama 6 tena espacio
disponible, entonces todos los datos de audio de la trama 7 se incluyen en la
trama 6, pero la trama 6 sigue con espacio para bit reservoir, que se usa para
datos de la trama 8; por lo que gracias al bit reservoir, la trama 6 incluye los datos
de audio de tres tramas: las tramas 6, 7 y 8. El audio de la trama 8 se reparte
entre las tramas 6 y 7; sin embargo, ste no alcanza a ocupar todo el espacio
disponible en la trama 7, as que el bit reservoir de la trama 7 se usa para la trama
9, y as sucesivamente, teniendo en cuenta que los datos de audio de una
determinada trama no pueden estar desplazados ms de nueve tramas.

Este caso puede ocurrir en una seal de audio MPEG-1 estreo, si la frecuencia
de muestreo es 48 KHz y la tasa de transferencia deseada es 32 Kbps. En este
caso, cada trama consume 768 bits, donde 304 bits (32 bits para el encabezado,
16 bits para el chequeo de errores, 256 bits para la informacin secundaria) son
fijos. Por lo tanto, quedan 464 bits disponibles para los datos codificados con
Huffman, y debido a que el valor de main_data_begin puede apuntar mximo 511
bytes (4088 bits) hacia atrs, entonces es posible que main_data_begin apunte
sobre ms de ocho tramas (no se cuenta ninguno de los bits usados para el
encabezado y la informacin secundaria de ninguna trama).

Tambin es importante mencionar que el bit reservoir slo puede originarse de
tramas que ya han sido codificadas; para este buffer no es posible usar tramas
133

para las que todava no se haya hecho la reparticin de los bits disponibles
(reparticin de ruido).

4.2.1.9 Modos de funcionamiento

Hay cuatro modos de funcionamiento para el esquema III de MPEG-1 (MP3):

x Single Channel o canal nico: una seal en un bitstream.
x Dual Channel o canal doble: dos seales independientes en un mismo
bitstream.
x Stereo: como el anterior, perteneciendo las seales al canal izquierdo y
derecho de una seal estreo original.
x Joint Stereo: como el anterior, aprovechando ciertas caractersticas del
estreo como irrelevancia y redundancia de datos para reducir la tasa de bits.

4.2.1.9.1 Codificacin joint stereo

La mayora de los sistemas de alta fidelidad utilizan un "boomer" (que reproduce
los graves). Sin embargo, para el odo humano parece que el audio no proviene
del boomer sino de los otros altavoces. Por debajo de una determinada
frecuencia, el odo humano no puede distinguir de dnde provienen los sonidos.

El formato MP3 puede, opcionalmente, tomar ventaja de este fenmeno utilizando
el modo joint stereo. El modo joint stereo aprovecha las semejanzas de audio
entre los canales izquierdo y derecho, descartando la informacin idntica que se
encuentra en ambos canales. Esto significa que ciertas frecuencias se graban en
modo monofnico, pero incluyen datos adicionales para que suenen como una
configuracin de varios altavoces.

En muchos casos un resultado satisfactorio es adquirido con este proceso. La
mayora de los cdecs utilizan el modo joint stereo cuando codifican archivos de
audio a una tasa de bits de 128 Kbps.
134

4.2.2 DECODIFICACIN

El decodificador debe procesar el bitstream para reconstruir la seal de audio
digital. La figura 4.11 ilustra el esquema simplificado del decodificador.

Flujo de bits
Codificado
Desempaquetamiento
de trama
Reconstruccin
Mapeado
inverso
Seal de audio
PCM
Muestras
32/ 44,1 / 48 KHz

Figura 4. 11: Decodificador segn la norma ISO 11172-3

Los datos del bitstream son desempaquetados para recuperar las diversas partes
de la informacin. El bloque de reconstruccin recompone la versin cuantizada
de la serie de muestras mapeadas. El mapeador inverso transforma estas
muestras de nuevo a PCM (Pulse-Code Modulation).

4.3 FORMATO DE LAS TRAMAS MP3

La trama MP3 est constituida por las muestras de audio y por la informacin
secundaria. Esta ltima sirve de control, adems de proporcionar informacin del
archivo.

Para la capa 3, la trama est compuesta por 1152 muestras de audio ms la
informacin de la trama. Adicionalmente, cada trama es subdividida en dos partes
(conocidas como grnulos), cada una con 576 muestras. Dado que la tasa de bits
determina el tamao de cada muestra, el aumento de la tasa de bits tambin
aumentar el tamao de la trama.

El formato que tiene cada trama MP3 se muestra en la figura 4.12, en la cual se
puede ver el encabezado de trama que posee 32 bits (cuatro bytes) de longitud;
los primeros 12 bits siempre se ponen en uno '1', se llaman "FRAME SYNC", y se
usan para sincronizacin de la trama.

135

Encabezado
32 bits
Chequeo de
errores
0 16 bits
Informacin
secundaria
136 256 bits
main data, datos principales
(no necesariamente en la misma trama)
Longitud variable
main
data
begin
Private
bits
Informacin para la seleccin
del factor de escala
scfsi
SI
grnulo 0
SI
grnulo 1

Figura 4. 12: Formato de la trama MP3

Las tramas pueden tener opcionalmente un CRC para chequeo de errores. Su
longitud es de 16 bits, y si existe, se pone despus del encabezado. Volviendo a
calcular el CRC se puede comprobar si la trama ha sido alterada durante la
transmisin del flujo de bits de audio MP3.

A continuacin sigue la informacin secundaria (Side Information) que indica
cmo se realiz la codificacin, y por lo tanto, cmo debe realizarse la
decodificacin.

En el ltimo bloque vienen los datos de audio (main data), repartidos entre dos
grnulos. Dentro de la informacin secundaria, que usa 136 bits en modo
monofnico y 256 bits en los otros modos, se incluye el main_data_begin. Los bits
privados estn a disposicin del usuario. Despus viene la informacin que indica
cul combinacin de factores de escala se est usando (scfsi, scalefactor
selection information). Los ltimos dos sub-bloques corresponden a la informacin
secundaria (Side Info, SI) para cada uno de los dos grnulos (sub-tramas) en los
que se divide una trama.

El ltimo bloque, main data, es el que lleva la informacin de audio; las muestras
MDCT codificadas con Huffman, repartidas entre dos grnulos. Cada grnulo
contiene informacin de 576 muestras de audio (exactamente la mitad de la
informacin total de la trama). Adems, en este mismo bloque se incluyen los
factores de escala de la trama y la informacin auxiliar, siendo esta ltima
opcional.
136

4.3.1 ENCABEZADO DE TRAMAS

No existe un encabezado principal de archivo en el formato de audio MPEG. En
ste el encabezado es individual para cada trama (fragmento de archivo). Cuando
se quiere leer informacin de un archivo MP3, usualmente es suficiente encontrar
la primera trama, leer su encabezado y asumir que las otras tramas son iguales.
Pero ste no es siempre el caso; por ejemplo, existen algunos archivos con
bitrates variables, donde cada trama posee su propia bitrate. Esto se hace con el
fin de mantener constante la calidad del sonido durante todo el archivo. Otro
mtodo usado para mantener constante la calidad de sonido es emplear ms bits
(con ayuda del buffer bit reservoir) en las partes donde se necesite.

El encabezado de la trama tiene la siguiente presentacin, figura 4.13, con las
posiciones para cada uno de los 32 bits.

31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
A B C D E F G H I J K L M

Figura 4. 13: Encabezado de la trama MP3

A: Syncword. Con 12 bits de longitud, todos en uno '1111 1111 1111' para
identificar el comienzo de la trama.

B: ID. Un bit usado para identificacin del audio. Siempre en uno '1', para indicar
que se trata de audio MPEG-1.

C: Layer. Dos bits usados para la descripcin de la capa. Para identificar cul
esquema fue usado durante la codificacin del audio, ver tabla 4.2.

00 Reservado
01 Capa III
10 Capa II

11 Capa I

Tabla 4. 2: Valores posibles para los bits 18 y 17 para indicar cul capa de MPEG-1 se
utiliza
137

D: protection_bit. Un bit de proteccin. Si est en cero '0' indica que la trama
est protegida por un cdigo de redundancia cclica para deteccin de errores. En
la mayora de los archivos MP3 este bit es uno '1' para indicar que no hay
redundancia.

E: bit_rate_index. Cuatro bits para proporcionar el ndice de la tasa de bits, de
acuerdo con la tabla 4.3. Adems indica la tasa de bits total independientemente
del modo utilizado (stereo, joint stereo, dual channel o single channel).

Cdigo
bit_rate_index
Tasa de bits
Capa 3
0000 formato libre
0001 32 Kbps
0010 40 Kbps
0011 48 Kbps
0100 56 Kbps
0101 64 Kbps
0110 80 Kbps
0111 96 Kbps
1000 112 Kbps
1001 128 Kbps
1010 160 Kbps
1011 192 Kbps
1100 224 Kbps
1101 256 Kbps
1110 320 Kbps
Nota: Si la trama usa formato libre (una tasa de bits diferente
a las listadas), la tasa debe permanecer constante, y debe ser
menor a la mxima tasa de bits permitida que es 320 Kbps.

Tabla 4. 3: Codificacin para la tasa de bits

F: sampling_frequency. Dos bits que indican la frecuencia de muestreo, de
acuerdo a la siguiente tabla.

Cdigo
Frecuencia de
muestreo
00 44,1 KHz
01 48 KHz
10 32 KHz
11 Reservado

Tabla 4. 4: Codificacin para la frecuencia de muestreo

138

G: padding_bit. Un bit usado para relleno. nicamente se usa para frecuencias
de 44,1 KHz. Si se usan tramas de 417 bytes de largo no se logra la tasa de
transferencia de 128 Kbps. Para solucionar esto, ste bit se pone en uno '1' y se
agrega un byte extra al final de esas tramas para as obtener 128 Kbps.

H: private_bit. Un bit para uso privado. Generalmente no se usa.

I: mode. Dos bits que indican el modo de canal, tal y como se muestra en la tabla
4.5.

Cdigo Modo de canal
00 Stereo
01 Joint Stereo
10
Dual Channel (2 canales monofnicos independientes)
(intensity_stereo y/o ms_stereo)
11 Single Channel (1 canal monofnico)

Tabla 4. 5: Codificacin para el modo de canal

El modo Stereo indica que el canal comparte bits, pero no usa codificacin Joint
Stereo.

En el modo Joint Stereo s se saca provecho de la correlacin existente entre los
dos canales para representar ms eficientemente la seal.

El modo Dual Channel est conformado por dos canales monofnicos totalmente
independientes (cada uno es un archivo de audio diferente); cada canal usa
exactamente media tasa de bits del archivo. La mayora de los decodificadores los
procesan como estreo, pero no es siempre el caso.

El modo Single Channel consiste en un nico canal de audio.

J: mode_extension. Dos bits indicando extensin al modo; slo se usa en modo
Joint Stereo. La extensin al modo se usa para informacin que no es de ninguna
utilidad en el efecto estreo. Estos bits se determinan dinmicamente por un
139

codificador en el modo Joint Stereo, y este modo puede cambiar entre tramas, o
incluso se puede dejar de usar en algunas tramas.

En la Capa 3, estos dos bits indican qu tipo de codificacin Joint Stereo se est
usando, intensidad estreo o estreo M/S (intensity_stereo o ms_stereo).

Estreo M/S se refiere a transmitir los canales normalizados Middle/Side
(Suma/Diferencia) de los canales izquierdo y derecho en lugar de los habituales
Izquierdo/Derecho. En el lado del codificador los canales habituales se
reemplazan usando la ecuacin 4.5.

H
=
V2
2
(I
+R
) y S
=
V2
2
(I
-R
) (Ec. 4.5)

Donde, H
es el canal normalizado Middle (Suma)

S
es el canal normalizado Side (Diferencia)

I
es el canal Izquierdo
R
es el canal Derecho

Los valores M
i
se transmiten por el canal izquierdo y los valores S
i
se transmiten
por el canal derecho.

En el lado del decodificador los canales izquierdo y derecho se reconstruyen de la
siguiente forma:

I
=
M
i
+S
i
V2
y R
=
M
i
-S
i
V2
(Ec. 4.6)

Intensidad estreo (intensity_stereo) se refiere a retener en las frecuencias
superiores a 2 KHz slo la envolvente de los canales izquierdo y derecho.

El cdigo indica que tipo de extensin al modo se est usando, como se indica a
continuacin en la tabla 4.6.

140

Cdigo intensity_stereo ms_stereo
00 No no
01 Si no
10 No si
11 Si si

Tabla 4. 6: Codificacin de la extensin al modo

K: copyright. Un bit usado para copyright. Tiene el mismo significado que el bit
de copyright en CDs y cintas DAT
40
(Digital Audio Tape), indica que es ilegal
copiar el contenido del archivo, ya que est protegido por derechos de autor
cuando este bit est en '1'. Mientras que si este bit es igual a cero '0' no hay
derechos de autor en el flujo de bits codificados.

L: original/copy. Un bit usado para indicar si se trata de un medio original, si el bit
est colocado en uno '1'. En cero '0' indica que es una copia del medio original.

M: emphasis. Dos bits usados para informacin del nfasis. Le indica al
decodificador que el sonido debe ser "re-ecualizado" despus de una supresin
de ruido tipo Dolby. Generalmente no se utiliza.

Cdigo nfasis
00 No nfasis
01 50/15 [s] de nfasis
10 Reservado
11 CCITT J.17

Tabla 4. 7: Codificacin de la informacin de nfasis

4.3.2 CHEQUEO DE ERRORES

Si el bit de proteccin en el encabezado es igual a cero '0', se incluye un CRC de
16 bits despus del encabezado. Si el bit de proteccin est en uno '1', no hay

40
Las cintas DAT se crearon como formato de audio con calidad CD, pero en 1998 SONY y HP
definieron el estndar para el almacenamiento de datos digitales, aplicando esta tecnologa al
almacenamiento de datos. Las cintas DAT se encuentran en formato DDS y DataDAT. Las
frecuencias de muestreo que puede utilizar el DAT son 32, 44,1 y 48 KHz. La velocidad de
transferencia de datos del DAT son 2,77 Mbps.
141

chequeo de errores y estos bits pueden ser usados para los datos de audio. El
mtodo para deteccin de errores que se utiliza es CRC-16, cuyo polinomio
generador es:

CRC -16 = x
16
+x
1S
+x
2
+1 (Ec. 4.7)

Los cdigos de redundancia cclica forman una subclase de los cdigos bloque
usados en esquemas de transmisin de bloques (frames) y se los utiliza para la
deteccin de errores. Son cdigos cclicos porque el desplazamiento cclico de
una palabra cdigo vlida genera otra palabra vlida. Es as que, dado un bloque
de m bits de informacin, el transmisor genera una secuencia de k bits de control,
conocida como la FCS (Frame Check Sequence); tal que la trama resultante
consistente de (m+k) bits, sea exactamente divisible para una secuencia
denominada secuencia generadora de (k+1) bits [25].

El algoritmo para calcular la suma de verificacin en un CRC-16, es el siguiente:

x Se anexan 16 bits cero al final de la trama, para que ahora contenga m+6
bits la trama resultante.
x Se divide la cadena de bits correspondiente al polinomio generador
x
16
+x
15
+x
2
+1 = 11000000000000101 (secuencia generadora) entre
la trama resultante usando una divisin mdulo 2.
x Se resta el residuo (que siempre es de 16 bits o menos bits) a la cadena de
bits correspondiente a la trama resultante de m+16 bits usando una resta
mdulo 2. El resultado es la trama con suma de verificacin que va a
transmitirse.

En recepcin se divide la trama con suma de verificacin recibida para la
secuencia generadora y:

x Si el residuo = 0 = 3 error en la transmisin
x Si el residuo = 0 = + error en la transmisin
142

4.3.3 INFORMACIN SECUNDARIA

ste campo consta de 17 bytes para el modo monofnico, y de 32 bytes en
cualquier otro modo.

La informacin que contiene, consiste de cuatro partes: el puntero
main_data_begin, informacin secundaria para ambos grnulos (private_bits y
scfsi), informacin secundaria para el grnulo 0, e informacin secundaria del
grnulo 1, como se muestra en la figura 4.14.

main_data_begin
(9)
private_bits
(5,3)
scfsi
(4,8)
SI grnulo 0
(59,118)
SI grnulo 1
(59,118)

Figura 4. 14: Formato de la informacin secundaria

main_data_begin: el campo main_data es el bloque que contiene los datos de
audio, repartidos entre dos grnulos y no est necesariamente localizado justo
despus de la informacin secundaria.

main_data_begin es un puntero que usa 9 bits, indicando la localizacin donde
est el primer byte del main_data de la trama actual. La localizacin est
especificada como un desplazamiento negativo en bytes desde el encabezado
actual (bytes a la izquierda, antes del primer bit del encabezado).

La informacin secundaria (SI) comn a ambos grnulos se muestra a
continuacin:

private_bits: El nmero de private_bits para la informacin secundaria depende
del nmero de canales (5 para mono y 3 para estreo). El nmero de bits
reservados para private_bits es definido por el usuario.

scfsi: El campo scfsi (informacin para seleccin del factor de escala) determina
si los factores de escala se envan para cada grnulo, o si son comunes para
ambos grnulos, por canal.
143

Se transmiten cuatro bits por canal, cada bit perteneciente a un grupo de bandas
del factor de escala diferente. Un cero '0' para un grupo especfico de bandas del
factor de escala, indica que los factores de escala para ese grupo en particular, se
transmiten para cada grnulo. Un uno '1' indica que se usan los mismos factores
de escala para ambos grupos; por lo tanto, slo se transmiten los factores de
escala correspondientes al grupo de bandas del primer grnulo.

Despus de la informacin secundaria para ambos grnulos, sigue la informacin
secundaria para cada grnulo, como se muestra en la figura 4.15.

part2_3_length
(12,24)
big_values
(9,18)
global_gain
(8,16)
scalefac_compress
(4,8)
window_switching_flag
(1,2)
block_type
(2,4)
mixed_block_flag
(1,2)
table_select
(10,20)
subblock_gain
(9,18)
table_select
(15,30)
region0_count
(4,8)
region1_count
(3,6)
preflag
(1,2)
scalefac_scale
(1,2)
count1table_select
(1,2)
a)
b)
c)
d)

Figura 4. 15: Informacin secundaria para cada grnulo

En el caso de bloques largos, la informacin secundaria para cada grnulo es:

part2_3_length: Denota el nmero de bits que son usados en main_data para los
factores de escala y los datos codificados con Huffman. Se usan 12 bits en modo
mono y 24 bits en los otros modos. Como la cantidad de bits usados para la
informacin secundaria es constante, part2_3_length puede usarse para calcular
el comienzo del prximo grnulo.

big_values: Despus de la cuantizacin, las 576 muestras MDCT cuantizadas
estn organizadas en un orden determinado (de menor a mayor frecuencia).
144

Luego, estos valores se dividen en tres particiones consecutivas: rzero, count1 y
big_values.

La primera particin, rzero, se localiza en las altas frecuencias y consiste en pares
de ceros.

La segunda particin, count1, consiste de cudruplos cuyo valor es -1, 0 +1.

La ltima particin, big_values, se localiza en las bajas frecuencias extendindose
hasta el nivel de frecuencia de 0 Hz y se compone de pares de valores
restringidos a una amplitud mxima absoluta de 8206 (8191+15, el cual es el
mximo valor cuantizado permitido). El campo big_values indica la cantidad de
pares cuantizados que pertenecen a esta particin. Nueve bits se usan para
big_values en modo monofnico y 18 bits en los otros modos.

global_gain: Contiene informacin acerca del intervalo usado en el cuantizador,
donde la cuantizacin se hace logartmicamente. La variable global_gain usa 8
bits en modo mono y 16 bits para los otros modos.

scalefac_compress: Es una variable de 4 bits en modo monofnico y de 8 bits en
los otros modos, transmitida para cada grnulo, la cual determina el nmero de
bits usados para la transmisin de los factores de escala. Cada grnulo se divide
en 12 21 bandas del factor de escala dependiendo del tipo de ventana que se
est usando.

Estas bandas del factor de escala se dividen de nuevo en dos grupos (0-10 y 11-
20 para ventanas largas; 0-5 y 6-11 en el caso de ventanas cortas).

La variable scalefac_compress se usa como ndice a una tabla proporcionada en
el estndar ISO/IEC 11172-3 [30], la cual retorna dos variables llamadas "slen1" y
"slen2", que indican la cantidad de bits usados para los factores de escala del
primer y segundo grupo de bandas, respectivamente.

145

window_switching_flag: Un bit por canal que seala si una ventana diferente del
tipo NORMAL se est usando. Este valor determina los siguientes 22 bits en la
informacin secundaria: si est en uno '1', se aaden los bits de la figura 4.15 (b);
si est en cero '0', se aaden los bits de la figura 4.15 (c).

table_select: Habilita el uso de 32 diferentes tablas para el cdigo de Huffman
[30], dependiendo de las estadsticas de la seal. Se usan 15 bits por canal (5 bits
por regin) para indicar cules de las 32 tablas han sido seleccionadas.

region0_count: Para mejorar el desempeo en la codificacin, la particin
big_values se subdivide en tres regiones llamadas region0, region1 y region2.

Cada regin se codifica con una de las 32 tablas de Huffman (seleccionada con
table_select). La variable region0_count especifica el lmite entre la region0 y
region1. Esta variable de 4 bits en modo monofnico especifica la cantidad de
bandas del factor de escala incluidas en esta region0, pero disminuidas en 1.

rcgionu_count = bonJos Jcl octor Jc cscolo cn rcgionu -1 (Ec. 4.8)

region1_count: Especifica el lmite entre la region1 y region2. Esta variable de 3
bits por canal indica las bandas del factor de escala incluidas en region1,
disminuidas en 1.

rcgion1_count = bonJos Jcl octor Jc cscolo cn rcgion1 -1 (Ec. 4.9)

preflag: Un bit por canal, indicando que se us prenfasis (es decir, amplificacin
adicional en las altas frecuencias). Este valor apunta a una tabla en el estndar
ISO/IEC 11172-3, cuyos 21 valores son sumados a los factores de escala. Para
bloques cortos, no se usa prenfasis.

scalefac_scale: Los factores de escala estn cuantizados de manera logartmica
con un intervalo de 2 (2)
1/2
, dependiendo del valor de scalefac_scale, que usa 1
bit por canal.
146

count1table_select: Esta variable, que usa 1 bit por canal, indica cul de dos
posibles tablas de Huffman [30] fue usada para codificar la particin count1.

En el caso de bloques cortos, la informacin secundaria slo cambia en las
variables mostradas en la figura 4.15 (c), las cuales son reemplazadas por
aquellas de la figura 4.15 (b). Las otras variables mostradas en la figura 4.15 no
cambian.

block_type: Indica el tipo de ventana que se usa en un grnulo particular. La
variable block_type usa 2 bits por canal.

mixed_block_flag: Esta variable, que usa 1 bit por canal, indica que se usan
diferentes tipos de ventana en las bajas y en las altas frecuencias. Si esta variable
est en uno '1', las dos subbandas ms bajas usan ventana NORMAL, y las 30
subbandas restantes usan el tipo de ventana especificado por block_type.

table_select: En este caso, table_select usa 10 bits por canal, debido a que, para
bloques cortos, la particin big_values slo se subdivide en dos regiones.

subblock_gain: Habilita una ganancia por un factor de 4 para un sub-bloque
particular. Esta variable se usa slo con bloques tipo 2 (ventanas cortas). Esta
variable usa 3 bits por canal.

4.3.4 DATOS PRINCIPALES

En esta parte del flujo de bits de la Capa 3, estn incluidos los campos mostrados
en la figura 4.16:

Factores de escala
longitud variable
Cdigo de Huffman
longitud variable
Datos auxiliares
longitud variable

Figura 4. 16: Campos incluidos en los datos principales

147

Factores de escala: stos se usan para colorear el ruido
41
de cuantizacin. Los
factores de escala se transmiten para cada grupo de lneas de frecuencia (bandas
del factor de escala) de cada grnulo, dependiendo del valor de scfsi para ese
grupo particular de lneas de frecuencia. La cantidad de factores de escala
realmente transmitidos, tambin depende de block_type, window_switching_flag y
mixed_block_type.

Los factores de escala consumen entre 0 y 74 bits.

Cdigo de Huffman: Las lneas de frecuencia de cada grnulo se dividen en tres
particiones (rzero, count1 y big_values).

La particin rzero no se codifica, ya que slo contiene valores iguales a cero.

La particin count1 contiene cudruplos de valores iguales a -1, 0 +1, que se
codifican usando una de las 2 posibles tablas de Huffman, la cual ha sido
especificada por coun1table_select. Para cada valor diferente de cero, se agrega
un bit que indica el signo (cero '0' si es positivo).

La particin big_values fue subdividida en tres regiones, las cuales se codifican
separadamente, usando una de 32 posibles tablas de Huffman (numeradas de 0 a
31, pero en realidad son 30, ya que las tablas 4 y 14 no existen), o sea, una tabla
por regin.

Dentro de la particin big_values, los pares de lneas de frecuencia con valor
absoluto menor que 15, se codifican directamente. Para cada valor absoluto
mayor o igual a 15, se agregan 1 2 campos extras llamados "linbitsx" o "linbitsy"
dependiendo de cul es el valor del par (x, y) que es mayor o igual a 15. Este
campo extra usa de 0 a 13 bits, dependiendo del parmetro "linbits", el cual se
calcula con base en el valor mximo de la regin, ver ecuacin 4.9.

41
Cuando la grfica de la densidad espectral de potencia (PSD, Power Spectral Density) no es
plana, entonces, se dice que el ruido est "coloreado". Dependiendo de la forma que tenga la
grfica de la PSD del ruido se definen diferentes colores.
148

Iinbits = log
2
(mximo :olor cuontizoJo -14) (Ec. 4.9)

Donde, se realiza un redondeo por exceso al resultado, es decir, el nmero
decimal se aproxima al entero mayor.

De nuevo, para cada valor diferente de cero, se agrega un bit de signo (cero '0' si
es positivo).

Por ejemplo: Asmase, primero que la tabla de Huffman ya ha sido seleccionada,
y tambin los siguientes valores:

Par de valores cuantizados (x,y) = (0,15)
Mximo valor cuantizado de la regin = 1039
Cdigo de Huffman para el par (0,15) = '01101'
Valor adicional para 'y' = linbitsy = 15-15 = 0
linbits = log2 (1039 - 14) 10,0014 = linbits = 11
linbitsy = 15 - 15 = 0 = '00000000000'
Codificacin del par (0,15) = Codificacin del par (0,15) + linbitsy
Codificacin del par (0,15) = '01101''00000000000'
Bits necesarios para codificar el par (0,15) = 16 bits

(x,y)
5 bits
linbitsx
0 bits
linbitsy
11 bits
signx
0 bits
signy
1 bits
Flujo de bits 01101 00000000000 0

Figura 4. 17: Ejemplo ilustrativo

En el caso de que 'x' tambin sea mayor que 14, se debe buscar el cdigo de
Huffman para el par (15,15), y adems, se debe codificar un valor adicional
llamado "linbitsx", que indica la diferencia entre 15 (mximo valor de las tablas) y
el valor verdadero de 'x'.

Adicionalmente, por cada valor diferente de cero se debe agregar un bit de signo
(cero '0' si es positivo, uno '1' si es negativo). En el ejemplo, la cantidad total de
149

bits que se necesita para codificar el par es 17 bits, ya que se debe agregar un bit
para indicar que 'y' es diferente de cero.

Datos auxiliares: stos son opcionales, y la cantidad de bits repartidos para este
campo, se define por el usuario.

4.4 CURIOSIDADES DEL FORMATO MP3

Las investigaciones sobre el formato MP3 empezaron en 1987 y a solo 2 das de
lanzar la primera versin del MP3 en 1991 el proyecto estuvo a punto de morir, ya
que en las modificaciones la codificacin no funcionaba correctamente. Ya en
1992 fue adoptado el estndar MPEG y junto a ste el MP3, pero la capacidad de
los procesadores en los ordenadores de la poca no proporcionaban la potencia
necesaria. Hoy 18 aos despus, el MP3 es ms que un algoritmo, es el smbolo
del fenmeno sociolgico del compartir en internet, llegando a convertirse en la
palabra ms empleada dentro de los buscadores web.

Para la reproduccin de archivos MP3 existen multitud de programas especficos
en su mayora shareware
42
, aunque algunos son incluso freeware
43
.

Un ao despus de que el formato MP3 fue desarrollado en el Instituto Fraunhofer
en Alemania por concepto de patentes ingresaban 1,2 millones de euros. Diez
aos ms tarde esta cantidad alcanz los 26,1 millones y sigue en aumento.

Si bien los primeros codificadores
44
MP3 estuvieron disponibles desde 1994, al
principio eran pocos los que posean este tipo de software y el hardware suficiente

42
Se denomina shareware a una modalidad de distribucin de software, en la que el usuario puede
evaluar de forma gratuita el producto, pero con limitaciones en el tiempo de uso o en algunas de
las formas de uso o con restricciones en las capacidades finales.
43
El trmino freeware define un tipo de software que se distribuye sin costo, disponible para su uso
y por tiempo ilimitado, siendo una variante gratuita del shareware, en el que la meta es lograr que
un usuario pruebe el producto durante un tiempo limitado (con funcionalidad limitada o no), y si le
satisface, pague por l, habilitando toda su funcionalidad.
150

para utilizarlo con eficiencia; los primeros intercambios de archivos MP3 se
hicieron a travs de FTP (File Transfer Protocol), un servicio de internet no
demasiado popular en esa poca.

En Mayo de 1999, un estudiante universitario de la Northeastern University de
Boston llamado Shawn Fanning present en la web un servicio gratuito de
intercambio de archivos MP3 llamado Napster, basado en la tecnologa "Peer-To-
Peer" (P2P). Este sistema permite a los usuarios conectarse entre s y formar un
gigantesco depsito de MP3 en el que todos pueden buscar cualquier tipo de
msica disponible y bajarla a su disco.

Al principio el formato MP3 tena el limitante de funcionar en las computadoras por
medio de un software reproductor de MP3, pero gracias a la creciente popularidad
que este nuevo formato ha presentado ya existen en el mercado cientos de
productos porttiles para la reproduccin de estos archivos.

En la figura 4.18 se muestra una recopilacin de los reproductores MP3 ms
curiosos y originales que se pueden encontrar.

a) Tenis para correr MP3, se puede hacer ejercicio mientras se disfruta de la
msica favorita, ya sea con o sin audfonos.

44
Codificadores son programas compresores que codifican los datos de acuerdo a unas rutinas de
codificacin especficas y que se usan principalmente para convertir un fichero WAV a un archivo
MP3, cuyo tamao es notablemente ms reducido.
151

b) Casette normal MP3, se introduce una tarjeta SD o una memoria flash,
y funciona como un casette normal.

c) Reproductor de msica MP3 considerado como el ms caro del mundo, est valorado en
25 mil euros, realizado en oro de 18 kilates y con 63 diamantes incrustados de 1 Kilate.

Figura 4. 18: Curiosos reproductores mp3 [38]

4.5 INNOVACIONES EN EL FORMATO MP3

4.5.1 FORMATO MP3 DE ALTA CALIDAD

MP3HD, o de alta definicin, es un nuevo formato de compresin de audio que
permite comprimir matemticamente el audio sin causar prdida en la calidad
152

(lossless) que mantiene la misma extensin .mp3 para sus archivos y que es
compatible con los reproductores de MP3 clsicos.

El formato MP3HD maneja tasas de transferencia entre 500 y 900 Kbps, segn el
tipo de msica. El tamao final de los archivos es aproximadamente cuatro veces
mayor que el de un MP3 clsico, pero con la ventaja de ofrecer una mejor calidad.

4.5.2 MP3PRO

MP3PRO es la combinacin del estndar MP3 y una nueva tecnologa de
codificacin de audio llamada Spectral Band Replication (SBR), que mejora la
eficiencia y fidelidad de los cdecs de audio existentes.

SBR fue desarrollado por Coding Technologies y aplicado en conjunto con
Thomson Multimedia y Fraunhofer IIS.

Los archivos MP3PRO tienen la extensin .mp3 al igual que los MP3
convencionales, aunque internamente son diferentes. Para bitrates bajos, el
rendimiento del formato MP3PRO es significativamente superior al del MP3. Un
archivo MP3PRO a 64 Kbps suena mejor que un MP3 a 96 Kbps, por otra parte la
calidad de un MP3PRO a 96 Kbps (mximo bitrate constante de los encoders
MP3PRO actuales) es similar a la de un MP3 a 128 Kbps ocupando mucho
menos espacio en disco y ofreciendo una calidad de audio muy buena para el
usuario promedio.

El formato MP3PRO no reemplaza al MP3 original sino que est pensado para ser
utilizado en bitrates bajos (32 Kbps a 96 Kbps) ya que es en este espectro donde
es mucho mejor que MP3 y es por este motivo especialmente apto para ser usado
en reproductores porttiles que usualmente tienen una memoria limitada. Por otro
lado para bitrates medios y altos (160 Kbps a 320 Kbps) y consecuentemente muy
alta calidad de sonido el formato MP3 es superior a MP3PRO.

153

Al codificar audio con MP3PRO se producen dos componentes, la parte MP3
propiamente dicha para las frecuencias bajas y la parte SBR o PRO" para las
frecuencias altas. Como la parte PRO tiene muy pocos requerimientos de
memoria, la codificacin se puede realizar de forma compatible con el formato
MP3, lo que permite utilizar reproductores mp3 para escuchar archivos MP3PRO,
ignorando la parte PRO.

4.5.3 FORMATO MT9

Este nuevo formato tambin conocido como Music 2.0, desarrollado por la
compaa coreana ETRI (Electronics and Telecommunications Research), trae un
nuevo planteamiento a la msica digital.

El formato MT9 est estructurado en 6 canales independientes, que contienen la
voz, los coros, el piano, las guitarras, el bajo y la percusin, cada uno
independiente de los dems pero que son reproducidos simultneamente en
perfecta armona. Este revolucionario formato permite a los usuarios modular el
sonido de cada cancin o pieza musical a su gusto y segn sus preferencias,
permitindole subir y bajar (incluso silenciar) el volumen de cada una de estas
partes de la cancin, pudiendo as disfrutar de solo la percusin, eliminar la voz
para usar las canciones en el karaoke, subir las guitarras para captarlas mejor,
etc.

La nica desventaja, hasta el momento es el traspaso de formato desde MP3 a
MT9, ya que para la conversin de una cancin en el formato MT9 es necesario
remasterizar digitalmente la msica original con el fin de conseguir la separacin
en capas de las pistas de instrumentos.

Su formato de archivo es .mt9 y fue presentado a la Motion Picture Experts Group
(MPEG), que es responsable de la certificacin de todos los formatos de audio y
vdeo MPEG. Actualmente se est considerando hacer del MT9 un formato oficial
que pueda ser soportado por cualquier dispositivo.

154


CAPITULO 4: FORMATO MP3

LIBROS:

[25] Jimnez, M., (2007), Teora de Informacin y Codificacin, Captulo 6,
Escuela Politcnica Nacional, Quito.
[26] Tanenbaum, Andrew S., (2003), Redes de computadoras, Prentice-Hall,
Pearson Educacin, Captulo 3, Cuarta edicin, Mxico.
[27] Stallings, William, (2000), Comunicaciones y Redes de Computadoras,
Prentice-Hall, Sexta edicin.
[28] Lazzati, M., (2009). Electroacstica III, Universidad de las Amricas -
Quito, Ingeniera en Sonido y Acstica.
[29] ISO/IEC, (2002). MPEG Audio specification (ISO/IEC 11172-3)
45
(2002),
CD 11172-3 CODING OF MOVING PICTURES AND ASSOCIATED
AUDIO FOR DIGITAL STORAGE MEDIA AT UP TO ABOUT 1.5 MBIT/s
Part 3 AUDIO, General normative elements, Technical normative
elements.
[30] ISO/IEC, (2002). MPEG Audio specification (ISO/IEC 11172-3) (2002),
Annex A (normative) Diagrams, Annex B (normative) Tables, Annex C
(informative) The Encoding Process, Annex D (informative)
Psychoacoustic Models, Annex E (informative) Bit Sensitivity to Errors,
Annex F (informative) Error Concealment, Annex G (informative) Joint
Stereo Coding.

45
Nota legal: el estndar ISO/IEC 11172-3 tiene copyright siendo propiedad de la Organizacin
Internacional para la Estandarizacin (ISO, por sus siglas en ingls: International Organization for
Standardization) y ha sido utilizado slo con fines acadmicos en el presente proyecto de
titulacin.
Nota legal: el MP3 es un formato propietario del Instituto Fraunhofer y ha sido utilizado slo con
fines acadmicos en el presente proyecto de titulacin.
155

[31] Ramapriya Rangachar, (2001). ANALYSIS AND IMPROVEMENT OF THE
MPEG-1 AUDIO LAYER III ALGORITHM AT LOW BIT-RATES, Arizona
State University.
[32] Joebert S. Jacaba, (2001). AUDIO COMPRESSION USING MODIFIED
DISCRETE COSINE TRANSFORM: THE MP3 CODING STANDARD,
Department of Mathematics, College of Science the University of the
Philippines Diliman, Quezon City.
[33] Sieler M., Sperschneider R., (1997). MPEG-Layer3, Bitstream Syntax and
Decoding.
[34] Bourlot, C., Vollmann, A., (2000). Reproductor Porttil De Audio Digital
Comprimido, Universidad Catlica de Crdoba, Argentina.

PAPERS:

[35] Pan, Davis. A tutorial on MPEG/Audio compression, IEEE Multimedia
Journal, Vol. 2 No. 2 (Summer 1995).

INTERNET:

[36] MasterMagazine (2004). Biografa de Karlheinz Brandenburg / MP3.
http://www.mastermagazine.info/articulo/11696.php
[37] Tecnologiabit, (2010). Nuevos MP3 | MP3HD, MP3Pro, MP3D, MP3 SX y
MP3 Surround, Argentina.
http://www.meyersound.com/spanish/products/mseries/milo/news.php
[38] Dogguie.com, (2010). Curiosos reproductores mp3.
http://www.dogguie.com/curiosos-reproductores-mp3/
[39] Predrag Supurovic, (1999). MPEG Audio Compression Basics.
http://www.mpgedit.org/mpgedit/mpeg_format/mpeghdr.htm
[40] Livingstone, D., (1999). Historia y Reproductores de MP3.
http://www.pc-doctor.com.mx/Radio%20Formula/temas/Historia%20del%20MP3.htm
[41] Nogales, A., (2002). MP3.
http://www.iesleonardo.info/ele/tra/CURSO%202001-2002/t02-mp3/

156

CAPTULO 5.
DISEO E IMPLEMENTACIN EN MATLAB DEL
ALGORITMO MP3 PARA COMPRESIN DE AUDIO

5.1 INTRODUCCIN

El propsito de este captulo es el diseo y la implementacin en software de
simulacin Matlab del algoritmo MP3 para compresin de audio, basados en el
estndar ISO/IEC 11172-3 propiedad de la Organizacin Internacional para la
Estandarizacin (ISO, por sus siglas en ingls: International Organization for
Standardization), cabe sealar que el MP3 es un formato propietario del Instituto
Fraunhofer. Con esto, se pretende lograr una reduccin significativa de la
cantidad de bits considerando que al reproducir el archivo de audio comprimido, la
diferencia en comparacin con el audio original sea mnima

El proyecto se basa en el estndar ISO/IEC 11172-3 ya que el mismo describe la
manera de generar archivos de audio MP3 vlidos.

El software de simulacin escogido es el Matlab debido a que permite realizar
clculos numricos rpidos y con alta precisin, la programacin se realiza
mediante un lenguaje de alto nivel, con la ayuda de la extensa biblioteca de
funciones que permite el uso de tcnicas digitales para el procesamiento de
seales, adems, incluye un soporte bsico para diseo de interfaz grfica que
permitir realizar la implementacin del modelo en un ambiente amigable al
usuario, permitiendo crear una interaccin entre el usuario y el codificador MP3
implementado.

En la implementacin del algoritmo MP3 se hace una descripcin completamente
detallada de la secuencia en que se realiza la codificacin de un archivo de audio
.wav a un archivo de audio comprimido .mp3.
157

5.2 SOFTWARE DE SIMULACIN MATLAB

5.2.1 DESCRIPCIN GENERAL

El software utilizado para la implementacin del codificador MP3 es Matlab
46

(Matrix Laboratory) un producto de la empresa The Mathworks Inc., empresa
fundada en 1984 y que cuenta actualmente con ms de 1 milln de usuarios
registrados en ms de 175 pases.

Matlab es un programa que permite realizar clculos numricos con vectores y
matrices, puede tambin trabajar con nmeros escalares tanto reales como
complejos, con cadenas de caracteres y con otras estructuras de informacin ms
complejas. Una de las capacidades ms atractivas es la de realizar una amplia
variedad de grficos en dos y tres dimensiones.

Matlab constituye una de las herramientas lderes en el rea de ingeniera,
dispone de un extenso conjunto de comandos y funciones que realizan tareas
especficas, adems dispone de un cdigo bsico y ms de 30 libreras
especializadas llamadas toolboxes las cuales trabajan en reas especiales como
las comunicaciones, el procesamiento de seales, etc.

Matlab, es un lenguaje de programacin de alto nivel que permite realizar
interfaces grficas de usuario y tambin permite tener interfaces con otros
lenguajes de programacin.

5.2.2 CARACTERSTICAS

El software de simulacin Matlab empleado en la implementacin del codificador
MP3 tiene las siguientes caractersticas:

46
Nota legal: MATLAB es un software propietario de The Mathworks Inc. y ha sido utilizado slo
con fines acadmicos en el presente proyecto de titulacin.
158

x Versin: 7.8.0.347 - Release: R2009a; versin para PC: 32 bits (win32)
x Toolboxes empleados: Matlab Toolbox, Signal Processing Toolbox,
Communications Toolbox, Mp3 Toolbox, Guide Toolbox
x Compatible con Windows XP, Windows Vista y Windows 7

5.2.3 GUIDE (GRAPHICAL USER INTERFACE DEVELOPMENT
ENVIROMENT)

GUIDE es un entorno de programacin visual disponible en Matlab para realizar y
ejecutar programas que necesiten ingreso continuo de datos. Tiene las
caractersticas bsicas de todos los programas visuales como Visual Basic o
Visual C++.

Una aplicacin GUIDE consta de dos archivos: *.m y *.fig. El archivo .m es el que
contiene el cdigo con las correspondencias de los botones de control de la
interfaz y el archivo .fig contiene los elementos grficos. Cada vez que se adicione
un nuevo elemento en la interfaz grfica, se genera automticamente cdigo en el
archivo .m.

5.3 CRITERIOS DE DISEO

Para la implementacin del codificador MP3 en Matlab se considera realizar
varios archivos .m, archivos .fig y archivos .mat relacionados entre s, que
permitan obtener al final un archivo de audio comprimido mp3 vlido bajo el
estndar ISO/IEC 11172-3.

Ya que la simulacin se realiza con una computadora, es necesario discretizar la
seal analgica. Por esta razn, solo se toman valores de la seal analgica cada
cierto tiempo denominado periodo de muestreo (el inverso de la frecuencia de
muestreo). Una vez discretizada la seal de audio se introducirn algunos efectos
(estos efectos estn completamente detallados en el cdigo fuente) que permitan
procesar la seal digital de audio.
159

Con respecto a la utilizacin de la herramienta grfica de Matlab Guide, el
programa est distribuido en varias interfaces grficas interactivas con el usuario,
en total el programa est constituido por cinco ventanas principales y dos
ventanas adicionales. Tanto los elementos de la interfaces grficas como las
interfaces en s mismo van apareciendo secuencialmente mientras se va
procesando la seal de audio.

El programa implementado permite convertir un archivo de audio de formato
Windows PCM (.wav) con frecuencia de muestreo de 44.100 Hz en modo estreo
o monofnico, a un archivo de audio con formato comprimido MPEG-1 Layer III
(.mp3) monofnico, con una tasa de bits (bitrate) variable que puede ser escogida
por el usuario desde los 96 Kbps a 320 Kbps, con una frecuencia de muestreo de
44.100 Hz.

5.4 IMPLEMENTACIN DEL ALGORITMO DE CODIFICACIN
MP3 EN MATLAB

La implementacin del algoritmo de codificacin MP3 est realizada en base a las
siguientes etapas:

x Banco de filtros
x Modelo psicoacstico
x Transformada discreta del coseno modificada (MDCT)
x Cuantizacin y codificacin
x Formato de la trama MP3

En la implementacin del algoritmo se ha credo conveniente tratar estas cinco
etapas principales en varios archivos .m en Matlab, en total el algoritmo de
compresin de audio MP3 implementado, consta de 41 archivos distribuidos de la
siguiente manera: 30 archivos *.m, 7 archivos *.fig y 4 archivos *.mat, pensados
para trabajar en conjunto, que permitan mostrar en detalle cmo opera el
algoritmo de codificacin MP3 hasta obtener un archivo de audio comprimido
vlido con extensin *.mp3.
160

5.4.1 DIAGRAMAS DE FLUJO

5.4.1.1 Proceso de adquisicin de la seal de audio de Microsoft *.wav

En la figura 5.1 se puede apreciar el diagrama correspondiente al proceso de
adquisicin de la seal de audio de Microsoft (*.wav) muestreada a 44.100 Hz en
modo estreo o monofnico.

Guardar Imgenes Estndar ISO/IEC 11172-3 Abrir Ayuda Crditos
INICIO
Desea
continuar?
Abrir archivo .WAV
[nombre direc] = uigetfile('*.wav','Abrir archivo de audio .wav');
Estreo o
monofnico?
Extraer canal izquierdo
canal_izquierdo_original = wav_original(:,1);
Estreo
Seal de audio en el
dominio del tiempo
y la frecuencia
Monofnico
Si
Se muestran en forma secuencial en
la pantalla las seales en el dominio
del tiempo y la frecuencia
Salir del programa
No
Archivo: MPEG1_LayerIII.m
Ventana: MPEG1_LayerIII
Archivo: Codificador_MP3.m
Ventana: Codificador_MP3
Men: Abrir
[wav_original,Fs,bits,info_wav] = wavread([direc archivo]);
size_original = wavread([direc archivo],'size');
A
Dominio del tiempo:
Ts=1/Fs;
tiempo=0:Ts:(size_izq_original-1)*Ts;
plot(tiempo,canal_izquierdo_original,'r');
Dominio de la frecuencia:
nFFT= 1024;
Y=fft(canal_izquierdo_original,nFFT);
Fmax=Fs/2;
P1=Y.*conj(Y)/nFFT;
f=0:Fmax/(length(P1)/2):Fmax;
plot(f,20*log10(abs(P1(1:length(f)))),'k');

Figura 5. 1: Diagrama de flujo para la adquisicin de la seal de audio de Microsoft *.wav

161

5.4.1.2 Codificacin del archivo *.wav a un archivo de audio en formato comprimido
*.mp3

5.4.1.2.1 Seleccin de parmetros necesarios para la codificacin

Una vez adquirida la seal de audio en formato .wav, se procede a escoger los
parmetros como la tasa de bits (bitrate) en un rango de 96 Kbps a 320 Kbps y el
ingreso del tiempo de codificacin en segundos, (cunto tiempo se quiere
codificar del archivo original) entre un tiempo mnimo correspondiente a procesar
4 tramas MP3 como mnimo y un tiempo mximo debido a la aplicacin de la FFT
(transformada rpida de Fourier) de 1024 puntos, sobre las 1152 muestras que
comprenden una trama MP3.

Seleccionar
tasa de bits
Tasa==112Kbps Tasa==128Kbps Tasa==160Kbps Tasa==192Kbps Tasa==224Kbps Tasa==256Kbps Tasa==96Kbps Tasa==320Kbps
A
Ingreso tiempo de
codificacin
bitrate_index = 0111;
ajgg = 11;
tasa = 96;
ajgg = 10;
tasa = 112;
ajgg = 9;
tasa = 128;
ajgg = 9;
tasa = 160;
ajgg = 8;
tasa = 192;
ajgg = 8;
tasa = 224;
ajgg = 7;
tasa = 256;
ajgg = 7;
tasa = 320;
function in_tiempo_de_codificacion_Callback(hObject, eventdata, handles)
time_cod = str2double(get(handles.in_tiempo_de_codificacion,'String'));
Codificar
B

Figura 5. 2: Diagrama de flujo para la seleccin de los parmetros necesarios para la
codificacin

5.4.1.2.2 Codificacin

Una vez seleccionada la tasa de bits e introducido el tiempo que se quiere
codificar de la seal, se procede a ejecutar el algoritmo de compresin de audio
MP3 segn el estndar internacional ISO/IEC 11172-3, para ello se sigue el
diagrama de bloques provisto en la figura 5.3.
162

Banco de filtros
polifsico
Anlisis
FFT
Ventana de Hanning
1024 puntos
Modelo
Psicoacstico I
MDCT
(Transformada
discreta del coseno
modificada)
32 subbandas
Reparticin de ruido
Cuantizacin no uniforme
Operacin en progreso,
espere por favor...
Cronmetro asincrnico
Barra de progreso
dlg = progreso('StatusMessage','Codificando,
espere por favor...', 'Indeterminate', true);
Codificacin de la
informacin
secundaria
Codificacin
Huffman
Formato del flujo de bits
Escribir informacin
en disco
Archivo .MP3 bajo el
estndar internacional
ISO/IEC 11172-3
El archivo ha sido codificado
exitosamente en el tiempo
que indica el cronmetro
B
Codificar:
function conversion_wav2mp3_Callback(hObject, eventdata, handles)
global X XR gr xmin scalefac_l bin_str
C

Figura 5. 3: Diagrama de flujo para la codificacin del archivo *.wav a un archivo de audio
en formato comprimido *.mp3

Una vez realizada la codificacin se puede visualizar y reproducir el archivo de
audio comprimido en formato MP3, el diagrama correspondiente se puede
observar en la figura 5.11.
163

5.4.1.2.3 Banco de filtros polifsico

INICIO
Buffer FIFO X de 512 muestras de entrada, con desplazamientos
de a 32 elementos. X(i) = X(i-32) ; for i = 511 down to 32.
X(512:-1:33) = X(480:-1:1);
Archivo: filtro_polifasico.m
En el buffer FIFO, la primera muestra va en la posicin 32 y la
ltima muestra en la posicin 1.
X(32:-1:1) = muestras;
Ventana de anlisis con
los 512 coeficientes del
archivo coeficientes.mat
Clculo de las 32 muestras subbanda de salida S(i).
Mik_parcial = (-16:47)*pi/64;
FIN
muestras; coeficientes
S
for i = 1:64
Clculo parcial Y(i), de los 64 coeficientes.
Y(i) = sum(Zi(i:64:512));
for i = 1:32
S(i) = sum(cos((2*i-1).*Mik_parcial)*Y(:));
If tasa
<=128Kbps
Muestras ventaneadas, para obtener el vector Zi,
se multiplica al vector X por los coeficientes de la
ventana de anlisis modificada.
Ci = coeficientes; Zi = Ci .* X;
Muestras ventaneadas, para obtener el vector Zi,
se multiplica al vector X por los coeficientes de la
ventana de anlisis recomendada en el estndar.
Ci = coeficientes; Zi = Ci .* X;
no si
Ventana de anlisis con los
512 coeficientes del archivo
coeficientes_modif.mat
50 100 150 200 250 300 350 400 450 500
-0.03
-0.02
-0.01
0
0.01
0.02
0.03
0.04
50 100 150 200 250 300 350 400 450 500
-0.04
-0.03
-0.02
-0.01
0
0.01
0.02
0.03
0.04

Figura 5. 4: Diagrama de flujo para la etapa correspondiente al banco de filtros [45]

5.4.1.2.4 Anlisis FFT

INICIO
Se escogen las 1024 muestras centrales.
s = in_muestras(65:1088);
Archivo: analisis_fft.m
Antes de la FFT se aplica una ventana de Hanning convencional
para evitar las discontinuidades en los extremos de la seal
h = hanning(1024);
Se emplea una FFT de 1024 para conseguir una buena resolucin de frecuencia.
A partir de la FFT, se obtiene la densidad espectral de potencia (vector F).
F = max(20*log10(abs(fft(s .* h))/1024),-200); % -200 dB corresponde a -INF
F = F(1:512); % F se reduce a la mitad de componentes, por la simetra de la FFT
FIN
in_muestras
F
Ventana de Hanning de
1024 puntos
0 100 200 300 400 500 600 700 800 900 1000
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1

Figura 5. 5: Diagrama de flujo para el anlisis FFT del Modelo psicoacstico I
164

5.4.1.2.5 Transformada discreta del coseno modificada (MDCT)

INICIO Archivo: transf_discreta_coseno.m
FIN
S: salida filtro subbanda, 32 muestras subbanda
U576: ltimas 576 muestras de las 1152 muestras PCM de entrada
gr: grnulo
sb: subbanda
MDCT
for gr = 1:2
for sb = 1:32
En cada subbanda, los 18 valores de salida del grnulo anterior (almacenados en U576) y los 18
valores de salida del grnulo actual se ensamblan en un bloque de 36 muestras (vector xi). En caso
de que el grnulo sea el segundo, para cada subbanda, la matriz S es procesada directamente.
if gr == 1
xi = [U576(1:18,sb); S(1:18,sb)]; xi = S(1:36,sb);
v
F
Clculo del vector zi de 36 valores para el tipo de bloque NORMAL:
zi = xi' .* sin((pi/36)*(0.5:35.5));
Clculo del vector MDCT de 18 valores para bloques LARGOS:
MDCT = zeros(18,1); % inicializacin del vector MDCT en 0
MDCT_parcial = pi/72*(19:2:89);
for i = 1:18
MDCT(i) = sum(zi.*cos((2*i-1)*MDCT_parcial));

Figura 5. 6: Diagrama de flujo para la transformada discreta del coseno modificada
MDCT [45]

5.4.1.2.6 Cuantizacin y codificacin

La etapa correspondiente a la cuantizacin y codificacin es la ms compleja del
estndar y debe ser seguida de acuerdo a lo especificado en el estndar
respetando sus pasos.

Para ello, a continuacin las figuras 5.7, 5.8 y 5.9 describen de manera
simplificada la manera en que se realiza la cuantizacin no uniforme y la
codificacin Huffman; se presentan los 3 lazos de iteracin necesarios en la
cuantizacin.
165

INICIO
Clculo de bits disponibles.
init_mean_bits = fix(tasa*1000*(1152/44100)/2)-(84+ajuste);
mean_bits = init_mean_bits + bit_reservoir;
Inicializacin de variables de iteracin
scalefac_scale(gr) = 0;
scalefac_l(:,gr) = zeros(21,1);
Clculo del nmero de bits no usados.
part2_3_length(gr) = overall_bitsum + slen1(gr)*11 + slen2(gr)*10;
bit_reservoir = mean_bits - part2_3_length(gr);
FIN
tasa
XR: Vector de muestras subbanda con reduccin del aliasing introducido por el 50% de solapamiento de la MDCT
Todos los valores
espectrales son cero?
if XR == 0
Ciclo externo
no
si
for gr = 1:2
gr: grnulo

Figura 5. 7: Diagrama de flujo del lazo de iteracin para la cuantizacin no uniforme [43]

INICIO Archivo: ciclo_externo.m
Todas las bandas del factor de
escala fueron amplificadas?
no
scalefactor_bands: es la matriz de las bandas del factor de escala, obtenida en Codificador_MP3.m
IX: es el vector de valores espectrales cuantizados, obtenido con ciclo_interno.m
qquant y quantanf: son los valores usados para el intervalo de cuantizacin, obtenidos con ciclo_interno.m
scalefac_scale: es el factor logartmico de cuantizacin para los factores de escala, obtenido en Codificador_MP3.m
Ciclo interno
Clculo de la distorsin permitida para cada banda del factor de escala.
xmin = distorsion_permitida(scalefactor_bands,UA,UEG);
scalefactor_bands: es la matriz de las bandas del factor de escala
UA: es la matriz de umbral absoluto obtenida con umbral_absoluto.m
UEG: es vector del umbral de enmascaramiento global obtenido con umbral_enmascaramiento_global.m
La opcin de prenfasis no se la implementa
Amplificacin de las bandas de los factores de escala
scalefactor_bands, que exceden la distorsin permitida
si
D
E
F

166

FIN
si
Amplificacin de las bandas por
debajo del lmite superior?
Al menos una banda excede la
distorsin permitida?
si
Restaurar factores de escala
no
no
E D
F

Figura 5. 8: Diagrama de flujo del lazo de iteracin para el ciclo externo [43]

INICIO Archivo: ciclo_interno.m
Suma total de bits menor
que el nmero de bits
disponible?
si
Cuantizacin
sfm = exp(sum(log(XR.^2))/576)/(sum(XR.^2)/576);
quantanf = system_const*log(sfm); % seleccin del intervalo de cuantizacin
qquant = 0; % seleccin del intervalo de cuantizacin
scalefactor_bands: es la matriz de las bandas del factor de escala
XR: es el vector de muestras subbanda obtenido originalmente con aliasing.m, y ms tarde modificado
en ciclo_externo.m
system_const: es la constante del sistema; segn el estndar, system_const = 8.
no
Cuantizacin de los valores del vector XR:
IX = round((abs(XR)/(2^((qquant+quantanf)/4))) .^ 0.75 - 0.0946);
IS = sign(XR).*IX;
En IX se almacenan los valores absolutos y en IS se almacenan los valores con signo.
Mximo de todos los valores
cuantizados dentro del rango?
Incrementar el tamao
de paso del cuantizador
si
Clculo del nmero de cudruplos (count1) de los
valores menores o iguales a uno en el extremo superior
del vector IX
Clculo del nmero de bits necesario para
codificar los valores count1.
Determinacin de la tabla de Huffman ms apropiada
para la codificacin (count1table_select)
Divisin del resto de valores espectrales en 2 o 3 subregiones
Bsqueda de la tabla de codificacin Huffman para cada subregin,
la codificacin Huffman se la realiza con el archivo huffman.m
Clculo del nmero de bits necesario para cada subregin
Incrementar el tamao
de paso del cuantizador
FIN
no

Figura 5. 9: Diagrama de flujo del lazo de iteracin para el ciclo interno [43]

167

5.4.1.2.7 Formato del flujo de bits MP3 vlido

INICIO
syncword = '1111 1111 1111'; % 12 bits, para identificar el comienzo de la trama
ID = '1'; % 1 bit, para indicar que se trata de audio MPEG-1
layer = '01'; % 2 bits, se usa Capa III para codificacin del audio
protection_bit = '1'; % 1 bit, para indicar que no hay redundancia CRC para deteccin de errores
sampling_frequency = '00'; % 2 bits, frecuencia de muestreo de 44.100 Hz
private_bit = '0'; % 1 bit, no se usa
mode = '11'; % 2 bits, indican que el modo de canal es monofnico (single channel)
mode_extension = '00'; % 2 bits, ya que no se usa extensin del modo (Joint stereo)
copyright = '0' ; % 1 bit, no hay derechos de autor en el flujo de bits codificados
original_or_copy = '0'; % 1 bit, para indicar que el archivo MP3 es una copia
emphasis = '00'; % 2 bits, '00' no se usa ningn tipo de prenfasis
FIN
Se determina si es necesario activar el padding_bit
con el fin de ajustar la tasa de bits promedio.
for a = 1:1152:size_muestras
frames = (a+1151)/1152;
frames > 1
dif = rem(144000*tasa,Fs);
rest = rest - dif;
si
rest < 0
padding_bit = 1;
rest = rest + Fs;
si
padding_bit = 0;
no
Archivo: encabezado.m
padding_bit: es la bandera que indica la escritura de un byte de
relleno dentro del flujo de bits para ajustar la tasa de bits promedio
bitrate_index: es un valor que indica la tasa de bits del archivo
no
Flujo de bits MP3 vlido bajo
el estndar ISO/IEC 11172-3
Informacin secundaria
Datos principales
main_data_begin: 9 bits, contiene los datos de audio, repartidos entre dos grnulos
private_bits = '00000'; % 5 bits, para indicar que no se usan.
scfsi: 4 bits,cada bit perteneciente a un grupo de bandas del factor de escala diferente, para
determinar si los factores de escala se transmiten para cada grnulo, o si son comunes para ambos
grnulos. Con un '0' indica que los factores de escala para ese grupo en particular, se transmiten
para cada grnulo. Un '1' indica que se usan los mismos factores de escala para ambos.
informacin secundaria por grnulo: 59 bits por grnulo
factores de escala: longitud variable
cdigo de huffman: longitud variable
datos auxiliares: longitud variable (opcional)

Figura 5. 10: Diagrama de flujo para el formato de la trama MP3 y obtencin del flujo de
bits MP3 vlido bajo el estndar internacional ISO/IEC 11172-3 [43]
168

5.4.1.3 Proceso de adquisicin de la seal de audio en formato comprimido *.mp3

Guardar Imgenes Ayuda Crditos
Ayuda Crditos
Crditos
INICIO
Abrir archivo .MP3
[nombre_mp3 dir] = uigetfile('*.mp3','Abrir archivo .MP3);
[archivo_mp3,FS,bit,inf_mp3] = mp3read([dir nombre_mp3]);
Seal de audio MP3
en el dominio del
tiempo y la frecuencia
Se muestran en forma secuencial en
la pantalla las seales en el dominio
del tiempo y la frecuencia
Archivo: Archivo_MP3.m
Ventana: Archivo_MP3
Men: Abrir
Dominio del tiempo:
TS=1/FS;
time_mp3=0:TS:(size_mp3-1)*TS;
plot(time_mp3,archivo_mp3,'r');
Dominio de la frecuencia:
nFFT_mp3= 1024;
Y1=fft(archivo_mp3,nFFT_mp3);
FMAX=FS/2;
P2=Y1.*conj(Y1)/nFFT_mp3;
f1=0:FMAX/(length(P2)/2):FMAX;
plot(f1,20*log10(abs(P2(1:length(f1)))),'k');
C
Caractersticas del
archivo codificado .MP3
Clculo del radio de compresin
(tamao archivo original /
tamao archivo comprimido)
Resumen de la
codificacin
G
Abrir el estndar ISO/IEC 11172-3 y sus anexos
winopen('Especificaciones MPEG.pdf');
Men: Estndar ISO/IEC 11172-3
Guardar las imgenes de las seales presentadas en la
[nombre_imagen,ruta_imagen]=uiputfile('.jpg','Guardar imagen se
Men: Guardar Imgenes
Abrir el manual de usuario Anexo A o ver el video tutorial *.avi
winopen('ANEXO A (Manual de Usuario).pdf');
winopen('videotutorial.avi');
Men: Ayuda
Abrir crditos (Biografas de autores y director del proyecto)
function Autores_Callback(hObject, eventdata, handles)
set(Autores,'Visible','on');
Men: Crditos

Figura 5. 11: Diagrama de flujo para la lectura del archivo de audio comprimido *.mp3
169

5.4.1.4 Comparacin entre archivo de audio original *.wav y archivo en formato de
audio comprimido *.mp3

Para poder comparar el archivo de audio original con el archivo de audio
comprimido, se crey conveniente crear otra ventana adicional que permita
visualizar y comparar ambos archivos tanto en el dominio del tiempo como en el
dominio de frecuencia.

El diagrama correspondiente a la comparacin de los archivos .wav y .mp3 se
puede apreciar en la figura 5.12, a continuacin.

Desea salir del
programa?
SALIR
Archivo: Comparacion_Wav_Mp3.m
Ventana: Comparacion_Wav_Mp3
COMPARACIN
WAV MP3
Seal de audio .WAV y .MP3
en el dominio del tiempo y
la frecuencia
Caractersticas del archivo no
codificado .WAV y del archivo
codificado .MP3
Si
FIN
No

Figura 5. 12: Diagrama de flujo para la comparacin del archivo .wav y el archivo de
audio comprimido .mp3

Una vez realizados los diagramas de flujo correspondientes a la implementacin
del algoritmo MP3 para compresin de audio en Matlab, se explica cada una de
las etapas en cuanto a su implementacin y los archivos *.m y *.mat que
comprenden cada etapa, pero que juntos permiten ejecutar paso a paso el
algoritmo de compresin de audio MP3 para obtener al final un archivo de audio
comprimido .mp3 vlido.
170

5.4.2 IMPLEMENTACIN DEL BANCO DE FILTROS

Los archivos de Matlab que comprenden la etapa del banco de filtros son:

x filtro_polifasico.m
x coeficientes.mat y coeficientes_modif.mat

La primera etapa correspondiente al banco de filtros, consiste en dividir la seal
de audio PCM muestreada a Fs = 44.100 Hz en 32 subbandas igualmente
espaciadas a 1.378,125 Hz (Fs/32).

5.4.2.1 Filtro subbanda polifsico

Para la implementacin del filtro subbanda polifsico en el algoritmo MP3 se
efectan los siguientes pasos:

1. Se toman 32 muestras de audio de entrada.
2. En un buffer FIFO (vector) de 512 muestras se almacenan las muestras de
audio de entrada. Las 32 muestras de audio son cambiadas, la primera
muestra va en la posicin 32 y la ltima muestra en la posicin 1.
3. Se aplica una ventana de anlisis recomendada en el estndar ISO/IEC
11172-3 al vector con las 512 muestras, mediante un producto entre el
vector y los 512 coeficientes de la ventana de anlisis.

C[ 0]= 0.000000000 C[ 1]=-0.000000477 C[ 2]=-0.000000477 C[ 3]=-0.000000477
C[ 4]=-0.000000477 C[ 5]=-0.000000477 C[ 6]=-0.000000477 C[ 7]=-0.000000954
C[ 8]=-0.000000954 C[ 9]=-0.000000954 C[ 10]=-0.000000954 C[ 11]=-0.000001431
C[ 12]=-0.000001431 C[ 13]=-0.000001907 C[ 14]=-0.000001907 C[ 15]=-0.000002384
C[ 16]=-0.000002384 C[ 17]=-0.000002861 C[ 18]=-0.000003338 C[ 19]=-0.000003338
C[ 20]=-0.000003815 C[ 21]=-0.000004292 C[ 22]=-0.000004768 C[ 23]=-0.000005245
C[ 24]=-0.000006199 C[ 25]=-0.000006676 C[ 26]=-0.000007629 C[ 27]=-0.000008106
C[ 28]=-0.000009060 C[ 29]=-0.000010014 C[ 30]=-0.000011444 C[ 31]=-0.000012398
C[ 32]=-0.000013828 C[ 33]=-0.000014782 C[ 34]=-0.000016689 C[ 35]=-0.000018120
C[ 36]=-0.000019550 C[ 37]=-0.000021458 C[ 38]=-0.000023365 C[ 39]=-0.000025272
C[ 40]=-0.000027657 C[ 41]=-0.000030041 C[ 42]=-0.000032425 C[ 43]=-0.000034809
C[ 44]=-0.000037670 C[ 45]=-0.000040531 C[ 46]=-0.000043392 C[ 47]=-0.000046253
C[ 48]=-0.000049591 C[ 49]=-0.000052929 C[ 50]=-0.000055790 C[ 51]=-0.000059605
C[ 52]=-0.000062943 C[ 53]=-0.000066280 C[ 54]=-0.000070095 C[ 55]=-0.000073433
C[ 56]=-0.000076771 C[ 57]=-0.000080585 C[ 58]=-0.000083923 C[ 59]=-0.000087261
C[ 60]=-0.000090599 C[ 61]=-0.000093460 C[ 62]=-0.000096321 C[ 63]=-0.000099182
C[ 64]= 0.000101566 C[ 65]= 0.000103951 C[ 66]= 0.000105858 C[ 67]= 0.000107288
171

C[ 68]= 0.000108242 C[ 69]= 0.000108719 C[ 70]= 0.000108719 C[ 71]= 0.000108242
C[ 72]= 0.000106812 C[ 73]= 0.000105381 C[ 74]= 0.000102520 C[ 75]= 0.000099182
C[ 76]= 0.000095367 C[ 77]= 0.000090122 C[ 78]= 0.000084400 C[ 79]= 0.000077724
C[ 80]= 0.000069618 C[ 81]= 0.000060558 C[ 82]= 0.000050545 C[ 83]= 0.000039577
C[ 84]= 0.000027180 C[ 85]= 0.000013828 C[ 86]=-0.000000954 C[ 87]=-0.000017166
C[ 88]=-0.000034332 C[ 89]=-0.000052929 C[ 90]=-0.000072956 C[ 91]=-0.000093937
C[ 92]=-0.000116348 C[ 93]=-0.000140190 C[ 94]=-0.000165462 C[ 95]=-0.000191212
C[ 96]=-0.000218868 C[ 97]=-0.000247478 C[ 98]=-0.000277042 C[ 99]=-0.000307560
C[100]=-0.000339031 C[101]=-0.000371456 C[102]=-0.000404358 C[103]=-0.000438213
C[104]=-0.000472546 C[105]=-0.000507355 C[106]=-0.000542164 C[107]=-0.000576973
C[108]=-0.000611782 C[109]=-0.000646591 C[110]=-0.000680923 C[111]=-0.000714302
C[112]=-0.000747204 C[113]=-0.000779152 C[114]=-0.000809669 C[115]=-0.000838757
C[116]=-0.000866413 C[117]=-0.000891685 C[118]=-0.000915051 C[119]=-0.000935555
C[120]=-0.000954151 C[121]=-0.000968933 C[122]=-0.000980854 C[123]=-0.000989437
C[124]=-0.000994205 C[125]=-0.000995159 C[126]=-0.000991821 C[127]=-0.000983715
C[128]= 0.000971317 C[129]= 0.000953674 C[130]= 0.000930786 C[131]= 0.000902653
C[132]= 0.000868797 C[133]= 0.000829220 C[134]= 0.000783920 C[135]= 0.000731945
C[136]= 0.000674248 C[137]= 0.000610352 C[138]= 0.000539303 C[139]= 0.000462532
C[140]= 0.000378609 C[141]= 0.000288486 C[142]= 0.000191689 C[143]= 0.000088215
C[144]=-0.000021458 C[145]=-0.000137329 C[146]=-0.000259876 C[147]=-0.000388145
C[148]=-0.000522137 C[149]=-0.000661850 C[150]=-0.000806808 C[151]=-0.000956535
C[152]=-0.001111031 C[153]=-0.001269817 C[154]=-0.001432419 C[155]=-0.001597881
C[156]=-0.001766682 C[157]=-0.001937389 C[158]=-0.002110004 C[159]=-0.002283096
C[160]=-0.002457142 C[161]=-0.002630711 C[162]=-0.002803326 C[163]=-0.002974033
C[164]=-0.003141880 C[165]=-0.003306866 C[166]=-0.003467083 C[167]=-0.003622532
C[168]=-0.003771782 C[169]=-0.003914356 C[170]=-0.004048824 C[171]=-0.004174709
C[172]=-0.004290581 C[173]=-0.004395962 C[174]=-0.004489899 C[175]=-0.004570484
C[176]=-0.004638195 C[177]=-0.004691124 C[178]=-0.004728317 C[179]=-0.004748821
C[180]=-0.004752159 C[181]=-0.004737377 C[182]=-0.004703045 C[183]=-0.004649162
C[184]=-0.004573822 C[185]=-0.004477024 C[186]=-0.004357815 C[187]=-0.004215240
C[188]=-0.004049301 C[189]=-0.003858566 C[190]=-0.003643036 C[191]=-0.003401756
C[192]= 0.003134727 C[193]= 0.002841473 C[194]= 0.002521515 C[195]= 0.002174854
C[196]= 0.001800537 C[197]= 0.001399517 C[198]= 0.000971317 C[199]= 0.000515938
C[200]= 0.000033379 C[201]=-0.000475883 C[202]=-0.001011848 C[203]=-0.001573563
C[204]=-0.002161503 C[205]=-0.002774239 C[206]=-0.003411293 C[207]=-0.004072189
C[208]=-0.004756451 C[209]=-0.005462170 C[210]=-0.006189346 C[211]=-0.006937027
C[212]=-0.007703304 C[213]=-0.008487225 C[214]=-0.009287834 C[215]=-0.010103703
C[216]=-0.010933399 C[217]=-0.011775017 C[218]=-0.012627602 C[219]=-0.013489246
C[220]=-0.014358521 C[221]=-0.015233517 C[222]=-0.016112804 C[223]=-0.016994476
C[224]=-0.017876148 C[225]=-0.018756866 C[226]=-0.019634247 C[227]=-0.020506859
C[228]=-0.021372318 C[229]=-0.022228718 C[230]=-0.023074150 C[231]=-0.023907185
C[232]=-0.024725437 C[233]=-0.025527000 C[234]=-0.026310921 C[235]=-0.027073860
C[236]=-0.027815342 C[237]=-0.028532982 C[238]=-0.029224873 C[239]=-0.029890060
C[240]=-0.030526638 C[241]=-0.031132698 C[242]=-0.031706810 C[243]=-0.032248020
C[244]=-0.032754898 C[245]=-0.033225536 C[246]=-0.033659935 C[247]=-0.034055710
C[248]=-0.034412861 C[249]=-0.034730434 C[250]=-0.035007000 C[251]=-0.035242081
C[252]=-0.035435200 C[253]=-0.035586357 C[254]=-0.035694122 C[255]=-0.035758972
C[256]= 0.035780907 C[257]= 0.035758972 C[258]= 0.035694122 C[259]= 0.035586357
C[260]= 0.035435200 C[261]= 0.035242081 C[262]= 0.035007000 C[263]= 0.034730434
C[264]= 0.034412861 C[265]= 0.034055710 C[266]= 0.033659935 C[267]= 0.033225536
C[268]= 0.032754898 C[269]= 0.032248020 C[270]= 0.031706810 C[271]= 0.031132698
C[272]= 0.030526638 C[273]= 0.029890060 C[274]= 0.029224873 C[275]= 0.028532982
C[276]= 0.027815342 C[277]= 0.027073860 C[278]= 0.026310921 C[279]= 0.025527000
C[280]= 0.024725437 C[281]= 0.023907185 C[282]= 0.023074150 C[283]= 0.022228718
C[284]= 0.021372318 C[285]= 0.020506859 C[286]= 0.019634247 C[287]= 0.018756866
C[288]= 0.017876148 C[289]= 0.016994476 C[290]= 0.016112804 C[291]= 0.015233517
C[292]= 0.014358521 C[293]= 0.013489246 C[294]= 0.012627602 C[295]= 0.011775017
C[296]= 0.010933399 C[297]= 0.010103703 C[298]= 0.009287834 C[299]= 0.008487225
C[300]= 0.007703304 C[301]= 0.006937027 C[302]= 0.006189346 C[303]= 0.005462170
C[304]= 0.004756451 C[305]= 0.004072189 C[306]= 0.003411293 C[307]= 0.002774239
C[308]= 0.002161503 C[309]= 0.001573563 C[310]= 0.001011848 C[311]= 0.000475883
C[312]=-0.000033379 C[313]=-0.000515938 C[314]=-0.000971317 C[315]=-0.001399517
C[316]=-0.001800537 C[317]=-0.002174854 C[318]=-0.002521515 C[319]=-0.002841473
C[320]= 0.003134727 C[321]= 0.003401756 C[322]= 0.003643036 C[323]= 0.003858566
172

C[324]= 0.004049301 C[325]= 0.004215240 C[326]= 0.004357815 C[327]= 0.004477024
C[328]= 0.004573822 C[329]= 0.004649162 C[330]= 0.004703045 C[331]= 0.004737377
C[332]= 0.004752159 C[333]= 0.004748821 C[334]= 0.004728317 C[335]= 0.004691124
C[336]= 0.004638195 C[337]= 0.004570484 C[338]= 0.004489899 C[339]= 0.004395962
C[340]= 0.004290581 C[341]= 0.004174709 C[342]= 0.004048824 C[343]= 0.003914356
C[344]= 0.003771782 C[345]= 0.003622532 C[346]= 0.003467083 C[347]= 0.003306866
C[348]= 0.003141880 C[349]= 0.002974033 C[350]= 0.002803326 C[351]= 0.002630711
C[352]= 0.002457142 C[353]= 0.002283096 C[354]= 0.002110004 C[355]= 0.001937389
C[356]= 0.001766682 C[357]= 0.001597881 C[358]= 0.001432419 C[359]= 0.001269817
C[360]= 0.001111031 C[361]= 0.000956535 C[362]= 0.000806808 C[363]= 0.000661850
C[364]= 0.000522137 C[365]= 0.000388145 C[366]= 0.000259876 C[367]= 0.000137329
C[368]= 0.000021458 C[369]=-0.000088215 C[370]=-0.000191689 C[371]=-0.000288486
C[372]=-0.000378609 C[373]=-0.000462532 C[374]=-0.000539303 C[375]=-0.000610352
C[376]=-0.000674248 C[377]=-0.000731945 C[378]=-0.000783920 C[379]=-0.000829220
C[380]=-0.000868797 C[381]=-0.000902653 C[382]=-0.000930786 C[383]=-0.000953674
C[384]= 0.000971317 C[385]= 0.000983715 C[386]= 0.000991821 C[387]= 0.000995159
C[388]= 0.000994205 C[389]= 0.000989437 C[390]= 0.000980854 C[391]= 0.000968933
C[392]= 0.000954151 C[393]= 0.000935555 C[394]= 0.000915051 C[395]= 0.000891685
C[396]= 0.000866413 C[397]= 0.000838757 C[398]= 0.000809669 C[399]= 0.000779152
C[400]= 0.000747204 C[401]= 0.000714302 C[402]= 0.000680923 C[403]= 0.000646591
C[404]= 0.000611782 C[405]= 0.000576973 C[406]= 0.000542164 C[407]= 0.000507355
C[408]= 0.000472546 C[409]= 0.000438213 C[410]= 0.000404358 C[411]= 0.000371456
C[412]= 0.000339031 C[413]= 0.000307560 C[414]= 0.000277042 C[415]= 0.000247478
C[416]= 0.000218868 C[417]= 0.000191212 C[418]= 0.000165462 C[419]= 0.000140190
C[420]= 0.000116348 C[421]= 0.000093937 C[422]= 0.000072956 C[423]= 0.000052929
C[424]= 0.000034332 C[425]= 0.000017166 C[426]= 0.000000954 C[427]=-0.000013828
C[428]=-0.000027180 C[429]=-0.000039577 C[430]=-0.000050545 C[431]=-0.000060558
C[432]=-0.000069618 C[433]=-0.000077724 C[434]=-0.000084400 C[435]=-0.000090122
C[436]=-0.000095367 C[437]=-0.000099182 C[438]=-0.000102520 C[439]=-0.000105381
C[440]=-0.000106812 C[441]=-0.000108242 C[442]=-0.000108719 C[443]=-0.000108719
C[444]=-0.000108242 C[445]=-0.000107288 C[446]=-0.000105858 C[447]=-0.000103951
C[448]= 0.000101566 C[449]= 0.000099182 C[450]= 0.000096321 C[451]= 0.000093460
C[452]= 0.000090599 C[453]= 0.000087261 C[454]= 0.000083923 C[455]= 0.000080585
C[456]= 0.000076771 C[457]= 0.000073433 C[458]= 0.000070095 C[459]= 0.000066280
C[460]= 0.000062943 C[461]= 0.000059605 C[462]= 0.000055790 C[463]= 0.000052929
C[464]= 0.000049591 C[465]= 0.000046253 C[466]= 0.000043392 C[467]= 0.000040531
C[468]= 0.000037670 C[469]= 0.000034809 C[470]= 0.000032425 C[471]= 0.000030041
C[472]= 0.000027657 C[473]= 0.000025272 C[474]= 0.000023365 C[475]= 0.000021458
C[476]= 0.000019550 C[477]= 0.000018120 C[478]= 0.000016689 C[479]= 0.000014782
C[480]= 0.000013828 C[481]= 0.000012398 C[482]= 0.000011444 C[483]= 0.000010014
C[484]= 0.000009060 C[485]= 0.000008106 C[486]= 0.000007629 C[487]= 0.000006676
C[488]= 0.000006199 C[489]= 0.000005245 C[490]= 0.000004768 C[491]= 0.000004292
C[492]= 0.000003815 C[493]= 0.000003338 C[494]= 0.000003338 C[495]= 0.000002861
C[496]= 0.000002384 C[497]= 0.000002384 C[498]= 0.000001907 C[499]= 0.000001907
C[500]= 0.000001431 C[501]= 0.000001431 C[502]= 0.000000954 C[503]= 0.000000954
C[504]= 0.000000954 C[505]= 0.000000954 C[506]= 0.000000477 C[507]= 0.000000477
C[508]= 0.000000477 C[509]= 0.000000477 C[510]= 0.000000477 C[511]= 0.000000477

Tabla 5. 1: Coeficientes Ci de la ventana de anlisis segn el estndar [42]

Al realizar la implementacin de la ventana de anlisis recomendada por el
estndar, se observ que a partir de los 160 Kbps hasta 320 Kbps empiezan a
originarse picos no deseados, denominados como artefactos de audio
47
los cuales
distorsionan la seal de audio codificada.

47
Artefactos de audio: son las inconsistencias en el espectro de frecuencias causadas por las
normas de compresin de un algoritmo de codificacin, en ste caso el algoritmo MP3. Los
artefactos de audio pueden ser reconocidos al reproducir el audio digital y escuchar un crujido.
173

Artefactos de audio


Artefactos de audio
T
e
x
t
o
T
e
x
t
o
T
e
x
t
o
T
e
x
t
oo


Como se puede ver en las figuras 5.13 y 5.14 a mayores tasas de bits la
presencia de los artefactos de audio es mayor, esto conlleva a tener un mayor
nmero de crujidos en la seal al momento de reproducirla, siendo un fenmeno
molestoso no deseado.
Tras un exhaustivo anlisis y verificando en detalle la programacin empleada
mediante la ayuda del depurador de Matlab, la existencia de los artefactos de
audio se puede justificar por las siguientes razones:

174

x El algoritmo de codificacin para la capa III es muy complejo, en varias etapas
del programa se necesita realizar procesos iterativos, y al trabajar con tasas
de bits altas, se realiza mayor procesamiento y por lo tanto se puede decir que
a partir de los 160 [Kbps] se produce un efecto de overflow el cual origina los
artefactos de audio.
x El diseo y la implementacin del algoritmo MP3 en Matlab han sido basados
en la informacin del estndar internacional ISO/IEC 11172-3, y a pesar de
que dicha informacin se ha seguido al pie de la letra, puede que algn detalle
se haya omitido en la publicacin del estndar al ser ste de tipo propietario.

Tras el anlisis correspondiente se logr determinar que modificando los
coeficientes de la ventana de anlisis recomendada en el estndar, tal y como se
muestra en la figura 5.15, los artefactos de audio no deseados desaparecen y
esto se evidencia al reproducir las seales en el dominio del tiempo de las figuras
5.16 y 5.17.

50 100 150 200 250 300 350 400 450 500
-0.04
-0.03
-0.02
-0.01
0
0.01
0.02
0.03
0.04

50 100 150 200 250 300 350 400 450 500
-0.03
-0.02
-0.01
0
0.01
0.02
0.03
0.04

a) b)
Figura 5. 15: a) Ventana de anlisis recomendada en el estndar b) Ventana modificada
en el diseo e implementada para velocidades superiores a 128 Kbps

Es posible modificar la ventana de anlisis debido a que la misma se encuentra
en el Anexo C del estndar que es de carcter informativo, es decir, no es
mandatorio la implementacin tal como est la ventana dada, debido a que la
misma es obtenida a travs de pruebas y es una recomendacin en el estndar.

175

Los coeficientes modificados de la ventana de anlisis son los primeros 256
valores multiplicados por un factor de 0,7; los restantes 256 coeficientes se
conservan tal como se muestra en la tabla 5.1.

En las figuras 5.16 y 5.17 se muestran los resultados obtenidos al solucionar el
problema de los artefactos de audio, cabe destacar que en el diseo y la
implementacin del algoritmo se busca la reduccin significativa del tamao (en
bytes) del archivo de audio con la mnima prdida en la calidad.

codificada a 160 Kbps

codificada a 320 Kbps

4. Por ltimo se obtienen las 32 muestras subbanda de salida (cada filtro
subbanda produce una muestra subbanda de salida por cada 32 muestras
de audio de entrada). En la capa 3 de MPEG-1, cada subbanda aporta 36
muestras de audio para un total de 1152 muestras subbanda por trama.
176

5.4.3 IMPLEMENTACIN DEL MODELO PSICOACSTICO

El estndar ISO/IEC 11172-3 deja a libertad de eleccin el modelo psicoacstico a
implementar, es por ello que, el modelo psicoacstico elegido en el proyecto e
implementado en Matlab es el modelo I detallado en el captulo 4, se escogi este
modelo para simplificar los clculos y comprender mejor el algoritmo.

Los archivos de Matlab que comprenden la etapa del modelo psicoacstico I son:

x analisis_fft.m
x componentes.m
x umbral_absoluto.m
x limites_banda_critica.m
x reduccin_componentes.m
x umbral_enmascaramiento_individual.m
x umbral_enmascaramiento_global.m

En esta etapa es necesario determinar en cada subbanda el mximo nivel de
seal y el mnimo umbral de enmascaramiento.

El mnimo umbral de enmascaramiento se deriva de la FFT de la seal de entrada
PCM. La FFT en paralelo con el filtro subbanda compensan la falta de selectividad
espectral obtenida en las bajas frecuencias por el banco de filtros subbanda.

5.4.3.1 Anlisis FFT

El modelo I, el cual se est utilizando en la implementacin del codificador, usa
una FFT de 1024 puntos para la capa 3.

Al utilizar la FFT de 1024 puntos para las 1152 muestras PCM de entrada, se
escogen las 1024 muestras centrales de las 1152 muestras, a las cuales se les
aplica una ventana de Hanning convencional antes de calcular su FFT, para evitar
las discontinuidades en los extremos de la seal.
177

Se emplea una FFT de 1024 para conseguir una buena resolucin de frecuencia y
poder calcular correctamente los umbrales de enmascaramiento.

A partir de la FFT, se obtiene la densidad espectral de potencia (F).

5.4.3.2 Componentes tonales y no tonales

Una vez obtenida la seal en el dominio de la frecuencia, se identifica y separa las
componentes tonales y no tonales presentes en la seal de audio, para ello, se
determina una lista de los mximos (picos) locales para las lneas de frecuencia,
de acuerdo con los requerimientos del estndar ISO/IEC 11172-3, el anlisis slo
es necesario hacerlo para las lneas de frecuencia con ndice k entre 3 y 500.

Si se cumplen las dos condiciones de que F(k)>F(k-1) & F(k)F(k+1), una lnea de
frecuencia es etiquetada como mximo local, una vez identificados los mximos
locales, hay que diferenciarlos entre componentes tonales y no tonales y
determinar su nivel de presin sonora, en este punto hacemos uso de la funcin
umbral_absoluto.m que contiene una tabla de "Frecuencias, Tasas de Bandas
Crticas y Umbral Absoluto", no es necesario codificar los sonidos situados bajo el
umbral absoluto ya que stos no sern percibidos.

Frecuencia | Tasa de Banda Crtica | Umbral Absoluto
Hz Barks dB
43.07 0.425 45.05
86.13 0.850 25.87
129.20 1.273 18.70
172.27 1.694 14.85
215.33 2.112 12.41
258.40 2.525 10.72
301.46 2.934 9.47
344.53 3.337 8.50
387.60 3.733 7.73
430.66 4.124 7.10
473.73 4.507 6.56
516.80 4.882 6.11
559.86 5.249 5.72
602.93 5.608 5.37
646.00 5.959 5.07
689.06 6.301 4.79
732.13 6.634 4.55
775.20 6.959 4.32
178

818.26 7.274 4.11
861.33 7.581 3.92
904.39 7.879 3.74
947.46 8.169 3.57
947.46 8.450 3.40
1033.59 8.723 3.25
1076.66 8.987 3.10
1119.73 9.244 2.95
1162.79 9.493 2.81
1205.86 9.734 2.67
1248.93 9.968 2.53
1291.99 10.195 2.39
1335.06 10.416 2.25
1378.13 10.629 2.11
1421.19 10.836 1.97
1464.26 11.037 1.83
1507.32 11.232 1.68
1550.39 11.421 1.53
1593.46 11.605 1.38
1636.52 11.783 1.23
1679.59 11.957 1.07
1722.66 12.125 0.90
1765.72 12.289 0.74
1808.79 12.448 0.56
1851.86 12.603 0.39
1894.92 12.753 0.21
1937.99 12.900 0.02
1981.05 13.042 -0.17
2024.12 13.181 -0.36
2067.19 13.317 -0.56
2153.32 13.578 -0.96
2239.45 13.826 -1.38
2325.59 14.062 -1.79
2411.72 14.288 -2.21
2497.85 14.504 -2.63
2583.98 14.711 -3.03
2670.12 14.909 -3.41
2756.25 15.100 -3.77
2842.38 15.284 -4.09
2928.52 15.460 -4.37
3014.65 15.631 -4.60
3100.78 15.796 -4.78
3186.91 15.955 -4.91
3273.05 16.110 -4.97
3359.18 16.260 -4.98
3445.31 16.406 -4.92
3531.45 16.547 -4.81
3617.58 16.685 -4.65
3703.71 16.820 -4.43
3789.84 16.951 -4.17
3875.98 17.079 -3.87
3962.11 17.205 -3.54
4048.24 17.327 -3.19
4134.38 17.447 -2.82
4306.64 17.680 -2.06
4478.91 17.905 -1.32
4651.17 18.121 -0.64
4823.44 18.331 -0.04
179

4995.70 18.534 0.47
5167.97 18.731 0.89
5340.23 18.922 1.23
5512.50 19.108 1.51
5684.77 19.289 1.74
5857.03 19.464 1.93
6029.30 19.635 2.11
6201.56 19.801 2.28
6373.83 19.963 2.46
6546.09 20.120 2.63
6718.36 20.273 2.82
6890.63 20.421 3.03
7062.89 20.565 3.25
7235.16 20.705 3.49
7407.42 20.840 3.74
7579.69 20.972 4.02
7751.95 21.099 4.32
7924.22 21.222 4.64
8096.48 21.342 4.98
8268.75 21.457 5.35
8613.28 21.677 6.15
8957.81 21.882 7.07
9302.34 22.074 8.10
9646.88 22.253 9.25
9991.41 22.420 10.54
10335.94 22.576 11.97
10680.47 22.721 13.56
11025.00 22.857 15.31
11369.53 22.984 17.23
11714.06 23.102 19.34
12058.59 23.213 21.64
12403.13 23.317 24.15
12747.66 23.415 26.88
13092.19 23.506 29.84
13436.72 23.592 33.05
13781.25 23.673 36.52
14125.78 23.749 40.25
14470.31 23.821 44.27
14814.84 23.888 48.59
15159.38 23.952 53.22
15503.91 24.013 58.18
15848.44 24.070 63.49
16192.97 24.125 68.00
16537.50 24.176 68.00
16882.03 24.225 68.00
17226.56 24.271 68.00
17571.09 24.316 68.00
17915.63 24.358 68.00
18260.16 24.398 68.00
18604.69 24.436 68.00
18949.22 24.473 68.00
19293.75 24.508 68.00
19638.28 24.542 68.00
19982.81 24.574 68.00

Tabla 5. 2: Frecuencias, Tasas de Bandas Crticas y Umbral Absoluto [42]

180

Mientras que la funcin limites_banda_critica.m que contiene una tabla con los
"Lmites de las Bandas Crticas", destacando que las frecuencias corresponden al
lmite superior de cada banda crtica (ver tabla 1.4).

ndice | Frecuencia | Tasa de Banda Crtica
i Hz Barks
1 43.066 0.425
2 86.133 0.850
3 129.199 1.273
5 215.332 2.112
7 301.465 2.934
10 430.664 4.124
13 559.863 5.249
16 689.063 6.301
19 818.262 7.274
22 947.461 8.169
26 1119.727 9.244
30 1291.992 10.195
35 1507.324 11.232
40 1722.656 12.125
46 1981.055 13.042
51 2325.586 14.062
56 2756.250 15.100
62 3273.047 16.110
69 3875.977 17.079
74 4478.906 17.904
79 5340.234 18.922
85 6373.828 19.963
92 7579.688 20.971
99 9302.344 22.074
105 11369.531 22.984
117 15503.906 24.013
130 19982.813 24.573

Tabla 5. 3: Lmites de las bandas crticas [42]

5.4.3.3 Reduccin de componentes enmascarantes

Determinadas las componentes tonales y no tonales, se realiza la reduccin de
componentes enmascarantes para lo cual se procede de la siguiente manera:

1. Las componentes que se encuentran por debajo del mnimo umbral
auditivo, o que su distancia con respecto a otra componente es menor a
0,5 Barks, son eliminadas.
2. Se elimina(n) la(s) componente(s) con menor nivel de presin sonora y se
conserva la componente con mayor nivel.
181

5.4.3.4 Umbral de enmascaramiento individual

Los umbrales de enmascaramiento individual para las componentes tonales y no
tonales se fijan en -INF, ya que la funcin de enmascaramiento tiene atenuacin
infinita ms all de -3 y de +8 Barks, es decir, la componente no tiene efecto
enmascarante sobre frecuencias ms all de aquellos rangos.

Es por ello, que ste anlisis slo es necesario hacerlo para las lneas de
frecuencia que se encuentren entre -3 y +8 Barks a partir de la componente
enmascaradora.

Slo un subconjunto de las muestras son consideradas para el futuro clculo del
umbral de enmascaramiento global.

5.4.3.5 Umbral de enmascaramiento global

El umbral de enmascaramiento global se obtiene de la suma de las potencias
correspondientes de los umbrales de enmascaramiento individual y del umbral
absoluto o umbral en silencio.

5.4.4 IMPLEMENTACIN DE LA TRANSFORMADA DISCRETA DEL
COSENO MODIFICADA (MDCT)

Los archivos de Matlab que comprenden la etapa de la transformada discreta del
coseno modificada son:

x transf_discreta_coseno.m
x aliasing.m

En esta etapa se emplea la transformada discreta del coseno modificada para
compensar la falta de precisin del banco de filtros, logrando subdividir la salida
182

espectral en frecuencias que proporcionen mejor resolucin con respecto a las
bandas crticas.

En el proceso de la transformada MDCT implementado en Matlab se producen
576 lneas de frecuencia referidas como "Grnulo" (subdivisin de una trama).

El archivo aliasing.m realiza la reduccin del aliasing introducido por el 50% de
solapamiento de la MDCT, permitiendo obtener una reduccin en la cantidad de
informacin a ser codificada y transmitida.

5.4.5 IMPLEMENTACIN DE LA ETAPA DE CUANTIZACIN Y
CODIFICACIN

La etapa correspondiente a la cuantizacin y codificacin dentro del algoritmo de
compresin de audio MP3, la componen los siguientes archivos de Matlab:

x distorsion_permitida.m
x ciclo_interno.m
x ciclo_externo.m
x huffman.m

El fundamento de la compresin de audio MPEG es la cuantizacin, es por ello
que en la implementacin de esta etapa se consider realizar la cuantizacin en
tres etapas y siguiendo los lineamientos del estndar ISO/IEC 11172-3.

El archivo distorsion_permitida.m nos permite calcular la distorsin admitida para
cada una de las 21 bandas del factor de escala necesarias en los lazos iterativos
de la cuantizacin, para ello se utiliza los niveles de umbral absoluto dados en la
tabla 5.2 y el umbral de enmascaramiento global obtenido del modelo
psicoacstico I.
183

Una vez verificada la distorsin en cada banda del factor de escala y almacenada
la informacin en un vector se procede a ejecutar el lazo de iteracin principal, en
este lazo se realizan los siguientes pasos:

x Clculo del nmero de bits disponibles para cada grnulo (subdivisin de
una trama).
x Se inicializan todas las variables de iteracin.
x Si no hay datos de audio, se devuelven ciertos valores por defecto,
proporcionados en el estndar.
x En caso de haber datos, se comparan los valores espectrales, si estos
valores son todos igual a cero, se calcula el nmero de bits no usados y se
retorna al lazo. En caso de ser diferente de cero todos los valores
espectrales, se ejecuta el lazo de iteracin externo mediante el archivo
ciclo_externo.m

En el lazo de iteracin externo o denominado en el estndar como ciclo externo
se llevan a cabo las siguientes acciones:

x Primero se lleva a cabo el lazo de iteracin interno mediante el archivo
ciclo_interno.m
x Se utiliza el vector con la distorsin permitida para cada subbanda del
factor de escala calculado mediante el archivo distorsion_permitida.m
x Se guardan los factores de escala.
x En la implementacin del algoritmo, no se emplea la opcin de prenfasis.
x Se amplifican las bandas del factor de escala cuyo valor supera a la
distorsin permitida
x Se verifica si todas las bandas del factor de escala han sido amplificadas,
en caso de no serlo, se amplifican todas las bandas por debajo del lmite
superior, una vez amplificadas, se verifica si por lo menos existe una banda
con ms de la distorsin permitida, en caso de existir alguna banda se
vuelve a ejecutar el lazo de iteracin externo, caso contrario se restauran
los valores de los factores de escala.

184

El lazo de iteracin interno o denominado en el estndar como ciclo interno
comprende los siguientes pasos:

x Se realiza la cuantizacin, para ello se emplea un cuantizador no uniforme,
segn recomendacin del estndar. El cuantizador eleva los valores a ser
cuantizados a de potencia antes de la cuantizacin, esto provee una
relacin seal a ruido SNR ms estable.
x Se escoge un determinado paso de cuantizacin, para cuantizar los valores
espectrales, y a estos datos cuantizados se les aplica codificacin de
Huffman.
x Si la suma total de los bits utilizados para la codificacin Huffman no es
menor que el nmero de bits disponible, se incrementa el tamao del paso
de cuantizacin y se vuelve a ejecutar el lazo de iteracin.
x El ciclo interno termina cuando los valores cuantizados que han sido
codificados con Huffman usan menor o igual nmero de bits que la mxima
cantidad de bits disponible.

El archivo huffman.m contiene todas las tablas recomendadas en el estndar, y
como la codificacin Huffman es una parte normativa del estndar, se
implementaron todas las tablas proporcionadas en el mismo.

5.4.6 IMPLEMENTACIN DEL FORMATO DE LA TRAMA MP3

La trama MP3 est constituida por el encabezado, los datos principales y la
informacin secundaria, para la implementacin de esta etapa se emplean los
siguientes archivos de Matlab:

x encabezado.m
x datos_principales.m
x info_secundaria.m

185

El archivo encabezado.m permite escribir los 32 bits correspondientes al header
de la trama MP3 dentro de una cadena binaria.

Al inicio del encabezado se emplea una palabra de sincronismo de 12 bits, todos
'1111 1111 1111' para identificar el comienzo de la trama, a continuacin se tiene
un bit de identificacin del audio en ste caso en '1' para indicar que se trata de
audio MPEG-1, luego se tienen 2 bits, en '01', para indicar que se usa la Capa III
de MPEG-1 para la codificacin del audio.

Como el objetivo del proyecto de titulacin no es la implementacin de un
software comercial, sino ms bien de un material acadmico de apoyo para
futuras investigaciones en cuanto a procesamiento de audio digital se refiere, no
se realiza la deteccin de errores, es por ello que el bit de proteccin es puesto en
1, para indicar que no hay redundancia CRC para deteccin de errores. A
continuacin se tienen 2 bits, en '00' para indicar que la frecuencia de muestreo
es de 44.100 Hz. El bit de uso privado es puesto en '0' para indicar que no se usa,
para reducir el tiempo de procesamiento, se decidi procesar y obtener archivos
codificados monofnicos, es por ello que los 2 bits correspondientes al modo son
puestos en '11', e indican que el modo de canal es monofnico, como no se
emplea un extensin del modo los 2 bits correspondientes estn en '00'. Como el
presente proyecto est basado en un estndar internacional se ha considerado no
poner derechos de autor al flujo de bits codificados, es decir, el bit de copyright
est en '0', para indicar que el archivo MP3 es una copia. La opcin de prenfasis
no se utiliza, es por ello que los 2 bits, son puestos en '00'.

El archivo info_secundaria.m consta de 17 bytes por ser de modo monofnico,
almacenados en una cadena binaria que consiste de cuatro partes: el puntero
main_data_begin, informacin secundaria para ambos grnulos (private_bits y
scfsi), informacin secundaria para el grnulo 0, e informacin secundaria del
grnulo 1.

El archivo datos_principales.m contiene la informacin relacionada a los factores
de escala y la codificacin Huffman, referidos al estndar.
186


CAPITULO 5: DISEO E IMPLEMENTACIN EN MATLAB DEL ALGORITMO
MP3 PARA COMPRESIN DE AUDIO

LIBROS:

[42] Joebert S. Jacaba, (2001). AUDIO COMPRESSION USING MODIFIED
DISCRETE COSINE TRANSFORM: THE MP3 CODING STANDARD,
Department of Mathematics, College of Science the University of the
Philippines Diliman, Quezon City.
[44] ISO/IEC, (2002). MPEG Audio specification (ISO/IEC 11172-3) (2002), CD
11172-3 CODING OF MOVING PICTURES AND ASSOCIATED AUDIO
FOR DIGITAL STORAGE MEDIA AT UP TO ABOUT 1.5 MBIT/s Part 3
AUDIO, General normative elements, Technical normative elements.
[45] ISO/IEC, (2002). MPEG Audio specification (ISO/IEC 11172-3) (2002),
Annex A (normative) Diagrams, Annex B (normative) Tables, Annex C
(informative) The Encoding Process, Annex D (informative)
Psychoacoustic Models, Annex E (informative) Bit Sensitivity to Errors,
Annex F (informative) Error Concealment, Annex G (informative) Joint
Stereo Coding.

PAPERS:

[46] Pan, Davis. A tutorial on MPEG/Audio compression, IEEE Multimedia
Journal, Vol. 2 No. 2 (Summer 1995).

INTERNET:

[47] MATLAB, The MathWorks, Inc., (2010), Mathworks Homepage.
http://www.mathworks.com
[48] MATPIC, (2010). Manual de Interfaz Grfica de Usuario en Matlab.
http://www.matpic.com/
187

CAPTULO 6.
PRUEBAS DE FUNCIONAMIENTO Y RESULTADOS

6.1 INTRODUCCIN

Las pruebas de funcionamiento se dividen en dos partes, la primera parte de las
pruebas consiste en el anlisis del comportamiento y funcionamiento del
codificador y la segunda parte consiste en el anlisis de los archivos codificados.

Para efectuar las pruebas de funcionamiento del codificador y analizar el
comportamiento del mismo, se ha procedido a codificar varios archivos de audio
de diferente duracin y diferente ritmo. Al codificar los distintos archivos se
obtienen diferentes caractersticas producto de la codificacin, dicha informacin
junto con la informacin de los archivos no codificados (originales) sirven para
elaborar tablas las cuales muestran en forma cuantitativa el comportamiento del
codificador, adems, con la informacin recolectada para elaborar las tablas se
realizan diagramas que nos indican de forma ms didctica el comportamiento y
tendencia del codificador.

Para la segunda parte de las pruebas, es decir, para el anlisis de los archivos
codificados, se comparan las seales obtenidas con el codificador, con las
seales que se obtienen empleando programas de audio comerciales (Cool Edit
Pro 2.0 y GoldWave 5.2), con la ayuda de estos programas se comprueban las
caractersticas del archivo codificado, en el dominio del tiempo y en el dominio de
la frecuencia.

Adems utilizando los programas mencionados, se comprueba la veracidad y
validez del archivo e incluso se visualiza la reproducibilidad (que el archivo se
pueda abrir y reproducir) del archivo comprimido.

188

6.2 PRUEBAS DE FUNCIONAMIENTO DEL CODIFICADOR

6.2.1 INTRODUCCIN

6.2.1.1 Especificaciones de hardware

El programa ha sido elaborado, diseado y ejecutado en una computadora
notebook Compaq Presario C706LA, de las siguientes caractersticas:

x Procesador: AMD Turion (tm) 64, Mobile Technology MK38, 2.21 [GHz].
x RAM: 1024 MB, DDR2 667 [MHz].
x Disco duro: 120 GB, enhanced IDE 5400 RPM SATA.
x Tarjeta grfica: Nvidia GeForce Go 1600, 256 MB.

Debido a que el codificador demanda una alta utilizacin de recursos del CPU,
procesador y memoria (ver anexo A) en el momento de la codificacin, para
poder tener un rendimiento aceptable es recomendable correr el programa en una
computadora que por lo menos conste de un procesador Pentium IV y 512 MB de
RAM.

6.2.1.2 Requerimientos de software

El codificador ha sido desarrollado en software de simulacin MatLab 7.8
(R2009a), corriendo en un sistema operativo Windows XP SP3 de 32 bits. En
cuanto a los toolboxes o libreras empleados, el codificador necesita los
siguientes toolboxes: Matlab Toolbox, Signal Processing Toolbox,
Communications Toolbox, MP3 Toolbox y Guide Toolbox. Como el
programa ha sido desarrollado en un ambiente de Microsoft Windows, el
codificador es compatible con Windows XP, Windows Vista y Windows 7.

Para la verificacin de los resultados (archivos codificados) se emplean dos
programas especializados en el tratamiento y procesamiento del audio, estos
programas son: Cool Edit 2.0 y GoldWave 5.2.
189

6.2.2 FUNCIONAMIENTO DEL CODIFICADOR

El ejemplo que se indica a continuacin no pretende explicar de manera detallada
la utilizacin y el funcionamiento del codificador, al contrario se hace una breve y
sencilla descripcin de la utilizacin del codificador, esto se lo hace con el objetivo
de mostrar cmo y de dnde se obtiene la informacin utilizada en la elaboracin
de las diferentes tablas de las caractersticas del codificador, las mismas que
sern mostradas posteriormente. Para entender de mejor manera y en detalle el
funcionamiento y utilizacin del codificador se recomienda ver el Anexo A.

Una vez que se ha tenido acceso al codificador, la primera ventana que se
visualiza en la pantalla es la ventana MPEG1_LayerIII (ventana de la cartula).

Pasar a la ventana
Codificador_MP3
Salir del codificador

Figura 6. 1: Primera ventana del codificador (Ventana de la cartula)

Al seleccionar la opcin CONTINUAR de la ventana MPEG1_LayerIII se tiene
acceso a la ventana Codificador_MP3 como se observa en la figura 6.2
190

Barra de mens
Barra de
herramientas
Ventana "Codificador_MP3"
Imgenes de seales
y botones de
reproduccin
Indicaciones y
parmetros de
codificacin

Figura 6. 2: Segunda ventana del codificador, ventana Codificador_MP3

Como se observa en la figura 6.2, inicialmente la ventana Codificador_MP3
aparece vaca, porque an no se ha seleccionado ningn archivo de audio y no se
ha procesado seal alguna. Para poder abrir un archivo de audio deseado, de la
barra de mens se selecciona el men Abrir y luego la opcin Archivos .WAV.

Apertura del archivo
original (sin comprimir)

Figura 6. 3: Opcin para abrir archivo sin comprimir *.wav

Luego de seleccionar la opcin Archivos .WAV del men Abrir se despliega
una ventana de bsqueda, la misma que permite ubicar el directorio, seleccionar y
abrir el archivo de audio con el que se requiera trabajar, tal como se indica en la
figura 6.4.

Nombre del archivo
Extensin del archivo
(*.wav)
Archivos de audio
Abrir archivo de audio

Figura 6. 4: Seleccin y apertura del archivo *.wav
191

Al abrir el archivo de audio, empieza el procesamiento de la seal, y
progresivamente van apareciendo las imgenes de las seales procesadas; al
final la ventana lucir como se muestra en la figura 6.5.

Seal estereo Seal monofnica
Seal en el dominio
del tiempo
Seal en el dominio de
la frecuencia
Indicaciones para la
codificacin
Parmetros de
codificacin

Figura 6. 5: Seales de archivo de audio de entrada,
indicaciones y parmetros de codificacin

Hasta este punto, la informacin que ser utilizada posteriormente es la de las
imgenes de las seales en el dominio del tiempo y de la frecuencia.

El paso posterior para continuar con la utilizacin del codificador, es el ingreso de
los parmetros de codificacin. El primer parmetro a seleccionar es la tasa de
bits, en un rango de 96 Kbps a 320 Kbps, en el caso del ejemplo en particular la
eleccin ha sido de 128 Kbps.

Men tasa de bits, de
96 [Kbps] a 320 [Kbps]

Figura 6. 6: Eleccin de la tasa de bits
192

Como se muestra en la figura 6.7, al seleccionar la tasa de bits no solo se activa
una caja de texto de edicin, la cual permite el ingreso del tiempo requerido, sino
que adems se despliega informacin de los tiempos mnimos y mximos que
pueden ser codificados. En el caso del ejemplo que se est indicando y para
todos los dems archivos con los que se elaboran las tablas que describen el
comportamiento del codificador, el tiempo utilizado es el mximo.

Tasa de bits seleccionada
(128 [Kbps] )
Tiempos de codificacin
mnimo y mximo
Ingreso del tiempo de
codificacin

Figura 6. 7: Parmetros mostrados despus de seleccionar la tasa de bits

Despus de seleccionar la tasa de bits se ingresa el tiempo que se desea
codificar, es decir cuantos segundos del archivo original (no codificado) van a ser
codificados, como se mencion para ste y los dems casos el tiempo ingresado
ser el mximo (se codificar todo el archivo original).

Tiempo de codificacin
(11.9902 segundos)
Inicio de la codificacin

Figura 6. 8: Ingreso del tiempo que se desea codificar del archivo original (no codificado)

La duracin total del archivo y el tiempo que se desea codificar son datos que van
a ser mostrados en las tablas como se ver ms adelante. Una vez que se han
ingresado los parmetros para codificar el archivo e iniciar el proceso de la
codificacin se selecciona el botn Codificar.
193

Barra de progreso, indica que la
codificacin est en progreso

Figura 6. 9: Ejecucin de la codificacin

Como se indica en la figura 6.9 al iniciarse la codificacin se visualiza, el progreso
sistemtico de la codificacin (barra de progreso), pero paralelamente a esto, se
inicia un cronmetro el cual permite visualizar el tiempo que se tard el archivo en
ser codificado, este tiempo tambin ser utilizado en la elaboracin de la tablas
que describen el comportamiento del codificador.

Barra de progreso
Contador, indica cuanto tiempo se
tardo el archivo en ser codificado

Figura 6. 10: Finalizacin del proceso de codificacin
194

Cabe mencionar que el cronmetro funciona en modo asncrono, esto significa
que si la carga del procesador es alta, el cronmetro trabaja en segundo plano y
no se visualiza el cronmetro en la pantalla, pero si se libera la carga del
procesador la ventana del cronmetro se despliega, es por ello que el cronmetro
solo se despliega cuando el archivo est casi por terminar su codificacin porque
en dichos instantes la carga del procesador no es tan alta.

La ventana perteneciente al cronmetro una vez que se ha finalizado la
codificacin, no solo nos indica el tiempo del proceso de codificacin sino que
adems muestra un mensaje que indica que el archivo de audio ha sido
codificado exitosamente, es decir el proceso de codificacin ha completado el cien
por ciento, sin errores.

Instantes posteriores a la finalizacin del proceso de codificacin, se activa en la
parte inferior derecha de la ventana Codificador_MP3 un botn Ver MP3 el cual
al activarlo da paso a la tercera ventana del codificador, es decir la ventana
Archivo_MP3.

Botn "Ver MP3"

Figura 6. 11: Activacin del botn Ver MP3 para activar la ventana Archivo_MP3

Como se puede observar en la figura 6.12, la ventana inicialmente aparece vaca,
en esta ventana a diferencia de la ventana Codificador_MP3 no es necesario
ingresar algn parmetro, lo nico que se necesita es seleccionar el archivo
resultante del proceso de codificacin, es decir, el archivo comprimido (*.mp3).
195

Figura 6. 12: Ventana Archivo_MP3

Para seleccionar y abrir el archivo comprimido se escoge la opcin Archivos
.MP3 del men Abrir, figura 6.13.

Apertura del archivo codificado
(comprimido)

Figura 6. 13: Opcin para abrir archivo codificado *.MP3

Al seleccionar la opcin Archivos .MP3 del men Abrir se despliega una
ventana, como la de la figura 6.14, la cual permite buscar, seleccionar y abrir el
archivo codificado.

Nombre del archivo
(*.mp3)
Archivos de audio
codificado (*. mp3)

Figura 6. 14: Seleccin y apertura del archivo del archivo codificado (*.mp3)
196

Una vez que se abre el archivo comprimido, inicia el procesamiento digital de las
seales correspondientes al archivo codificado; dichas seales junto con varias
caractersticas del archivo codificado y un cuadro de resumen del proceso de
codificacin se muestran en la ventana Archivo_MP3.

Seal monofnica
Seal en el dominio del tiempo
Seal en el dominio de la frecuencia
Caractersticas
principales del archivo
codificado (*.mp3)
Resumen de la
codificacin
Botones de
reproduccin
Botn
Comparacin WAV y MP3

Figura 6. 15: Caractersticas del archivo codificado

En el cuadro de resumen como se visualiza en la figura 6.16, se indican
caractersticas del archivo original (*.wav) y caractersticas del archivo comprimido
(*.mp3), estas caractersticas tambin son utilizadas para elaborar las tablas de
las caractersticas del codificador.

Figura 6. 16: Resumen de la codificacin
197

En la ventana Archivo_MP3 una vez que se ha procesado todas las seales y se
han mostrado todos los cuadros de informacin aparece, en la parte inferior
derecha, un botn Comparacin WAV y MP3, el cual al ser seleccionado da
paso a la ventana Comparacion_WAV_MP3.

Archivo sin codificacin (*.wav) Archivo codificado (*.mp3)

Figura 6. 17: Comparacin de las caractersticas de los archivos
sin codificacin (izquierda) y con codificacin (derecha)

En esta ventana se muestra informacin detallada de las caractersticas tanto del
archivo original (*.wav) como del archivo codificado (*.mp3), adems de visualizar
las caractersticas de los archivos, es posible visualizar los archivos de audio
tanto en el dominio del tiempo como en el de la frecuencia. Al igual que en las
ventanas anteriores en esta ventana se puede escuchar los archivos de audio (no
codificado y codificado) con el uso de los botones de reproduccin.

En cuanto a las caractersticas de los archivos, las que se muestran en la ventana
Comparacin_Wav_Mp3 son: nombre del archivo, extensin del archivo de
audio, frecuencia de muestreo, tasa de bits , nmero de canales, nmero de
muestras, nmero de bits por muestra, tamao del archivo y duracin del archivo.
198

6.2.3 CARACTERSTICAS DE LOS ARCHIVOS CODIFICADOS

Una vez que se ha codificado el archivo requerido, con todas las tasas de bits
disponibles y se ha obtenido informacin del tiempo que se demora el archivo en
ser codificado, tamaos de los archivos original (sin compresin) y codificado
(comprimido), todos estos datos son distribuidos y presentados en tablas, las
cuales se muestran ms adelante.

En cuanto a los archivos que han sido codificados se ha trabajado con archivos
monofnicos y se han empleado cinco ritmos los cuales son: folklore, ranchera,
rock, balada e instrumental.

Si bien el codificador est diseado para poder trabajar con archivos en modo
estreo o monofnico, por facilidad en los clculos y ahorro de recursos y tiempo
de procesamiento, el tratamiento del archivo de audio se lo realiza en modo
monofnico nicamente.

El incremento de la duracin de los archivos monofnicos es cada segundo,
empezando con tres segundos en el ritmo folklore y terminando en siete segundos
en el ritmo instrumental.

6.2.3.1 Archivos de audio

6.2.3.1.1 Ritmo Folklore

ARCHIVO ORIGINAL .WAV
Ritmo Folklore
Modo Mono
Tamao archivo original .WAV [Kbytes] 258,473
Duracin del archivo original [seg] 3

Tabla 6. 1: Caractersticas del archivo monofnico sin codificacin, ritmo Folklore

199

Tiempo seleccionado para codificar: 3 segundos (tamao total del archivo)
ARCHIVO CODIFICADO .MP3
Tasa de bits
[ Kbps]
Tiempo del proceso de
codificacin [minutos]
Tamao del archivo codificado .MP3
[Kbytes]
Radio de
compresin
96 0,21 34,76 7
112 0,22 40,55 6
128 0,24 46,34 6
160 0,26 57,93 4
192 0,29 69,51 4
224 0,30 81,10 3
256 0,32 92,69 3
320 0,34 115,86 2

Tabla 6. 2: Caractersticas de los archivos codificados, ritmo Folklore

6.2.3.1.2 Ritmo Ranchera

Ritmo Ranchera
Modo Mono

Tabla 6. 3: Caractersticas del archivo monofnico sin codificacin, ritmo Ranchera

Tasa de bits
[ Kbps]
[Kbytes]
Radio de
compresin
96 0,30 46,39 7
112 0,33 54,12 6
128 0,34 61,85 6
160 0,37 77,32 4
192 0,40 92,78 4
224 0,44 108,24 3
256 0,46 123,71 3
320 0,50 154,63 2

Tabla 6. 4: Caractersticas de los archivos codificados, ritmo Ranchera

200

6.2.3.1.3 Ritmo Rock

Ritmo Rock
Modo Mono

Tabla 6. 5: Caractersticas del archivo monofnico sin codificacin, ritmo Rock

Tasa de bits
[ Kbps]
[Kbytes]
Radio de
compresin
96 0,39 58,33 7
112 0,41 68,05 6
128 0,43 77,77 6
160 0,48 97,21 4
192 0,53 116,66 4
224 0,55 136,10 3
256 0,58 155,54 3
320 0,65 194,43 2

Tabla 6. 6: Caractersticas de los archivos codificados, ritmo Rock

6.2.3.1.4 Ritmo Balada

Ritmo Balada
Modo Mono

Tabla 6. 7: Caractersticas del archivo monofnico sin codificacin, ritmo Balada

201

Tasa de bits
[ Kbps]
[Kbytes]
Radio de
compresin
96 0,48 69,66 7
112 0,51 81,26 6
128 0,54 92,87 6
160 0,61 116,09 4
192 0,67 139,31 4
224 0,73 162,53 3
256 0,79 185,75 3
320 0,87 232,18 2

Tabla 6. 8: Caractersticas de los archivos codificados, ritmo Balada

6.2.3.1.5 Ritmo Instrumental

Ritmo Instrumental
Modo Mono
Tamao archivo original .WAV [Kbytes] 603

Tabla 6. 9: Caractersticas del archivo monofnico sin codificacin, ritmo Instrumental

Tasa de bits
[ Kbps]
[Kbytes]
Radio de
compresin
96 0,57 81,59 7
112 0,61 95,19 6
128 0,66 108,79 6
160 0,73 135,99 4
192 0,82 163,19 4
224 0,90 190,39 3
256 0,97 217,58 3
320 1,09 271,98 2

Tabla 6. 10: Caractersticas de los archivos codificados, ritmo Instrumental

202

6.2.3.2 Anlisis de las caractersticas del codificador

A pesar de que parezcan redundantes los datos mostrados en las tablas de la 6.1
a la 6.10, dichos datos muestran que el codificador puede desempearse de una
manera adecuada con varios ritmos y a diferentes tasas de bits, es decir, el
codificador puede desempearse en un gran campo de accin.

Al analizar los resultados obtenidos en las tablas, para los archivos de audio
codificados se puede mencionar que la tasa de bits es un factor importante en
cuanto a la compresin se refiere, ya que codificando el tiempo total de los
archivos, a mayor tasa de bits, mayor demora en el proceso de codificacin,
mayor tamao del archivo codificado y menor radio de compresin; en tanto con
la tasa de bits mnima, el tiempo en codificarse el archivo es el menor, el tamao
del archivo codificado es menor y el radio de compresin es el ms alto.

Claramente como se muestra en cada una de las tablas de la 6.1 a la 6.10 el
mayor radio de compresin se lo alcanza al seleccionar una tasa de 96 Kbps; el
mayor radio de compresin para los archivos de audio fue de siete.

En cuanto a los radios de compresin obtenidos, se puede concluir que la
codificacin es bastante adecuada. Recordando que la idea original de Karlheinz
Brandenburg y varios cientficos del Instituto Tecnolgico de Fraunhofer, era
transmitir por el canal telefnico de 64 Kbps la informacin de un CD de audio,
con una frecuencia de muestreo de 44.100 Hz, 16 bits por muestra y en modo
estreo (2 canales) dando una tasa de bits de 1,411 Mbps como se muestra en la
ecuacin 6.1.

Ioso Jc bits C = 441uu
mucstus
scgundo
x 16
bts
mucstu
x 2 conolcs = 14112uu bps (Ec. 6.1)

Iomoo oproximoJo = 1Suu kilobits cn 1 scgunJo

203

Recordando que el sistema telefnico es un sistema monofnico la tasa que se
debera comparar con la tasa de 64 Kbps, debera ser la descrita en la ecuacin
6.2.

Ioso Jc bits C = 441uu
mucstus
scgundo
x 16
bts
mucstu
x 1 conolcs = 7uS6uu bps (Ec. 6.2)

Iomoo oproximoJo = 7uS kilobits cn 1 scgunJo

Al dividir el tamao del archivo monofnico con calidad CD de 705 kilobits con el
tamao aproximado que se podra transmitir por el canal telefnico de 64 kilobits,
el resultado es el que se lo haba planteado Karlheinz Brandenburg en el Instituto
Tecnolgico de Fraunhofer y el cual es expresado cuantitativamente en la
ecuacin 6.2.

RoJio Jc comprcsion =
705,6 kIobts
64 kIobts
= 11,u2S (Ec. 6.3)

RoJio Jc comprcsion oproximoJomcntc = 11

Debido a esta razn al utilizar la menor tasa de bits disponible en el codificador de
96 Kbps (aproximadamente 96 kilobits en 1 segundo) y compararlo con el audio
en calidad CD monofnico de 705 Kbps (aproximadamente 705 kilobits en 1
segundo) el radio de compresin que se obtiene, es el que se indica en la
ecuacin 6.4.

RoJio Jc comprcsion =
705 kIobts
96 kIobts
= 7,SS (Ec. 6.4)

RoJio Jc comprcsion oproximoJomcntc = 7

Con los resultados mostrados en las tablas de la 6.1 a la 6.10 se puede concluir
que la relacin de compresin del codificador implementado en Matlab y el
expuesto en el estndar ISO/IEC 11172-3 es el mismo.
204

6.2.4 COMPORTAMIENTO DEL CODIFICADOR

Para visualizar el comportamiento del codificador se ha utilizado los datos del
archivo original (no codificado) y del archivo codificado (comprimido)
correspondientes al ritmo balada, en los grficos mostrados se vinculan varios
parmetros y se observa la dependencia de los diferentes parmetros presentes
en el codificador, as mismo con la ayuda de la funcin agregar lnea de
tendencia de Microsoft Excel se despliega informacin de la tendencia de los
datos incluyendo la ecuacin matemtica que ms se aproxima a la distribucin
de datos empleados para hacer los diagramas de los parmetros y caractersticas
del codificador.

Tabla 6. 11: Caractersticas del archivo original (no codificado), ritmo balada

Tasa de bits
[ Kbps]
[Kbytes]
Radio de
compresin
96 1,24 140,06 7
112 1,33 163,41 6
128 1,44 186,75 6
160 1,64 233,44 4
192 1,85 280,13 4
224 2,05 326,82 3
256 2,25 373,50 3
320 2,59 466,88 2

Tabla 6. 12: Caractersticas de los archivos codificados (comprimidos), ritmo balada

Ritmo Balada
Modo Mono
205

6.2.4.1 Tiempo del proceso de codificacin vs. Tasa de bits

Como se aprecia en la figura 6.18 a mayor tasa de bits hay un incremento del
tiempo en que se demora el archivo en ser codificado.

Figura 6. 18: Tiempo del proceso de codificacin vs. Tasa de bits

6.2.4.2 Tamao del archivo codificado vs. Tasa de bits

Si la tasa de bits incrementa como se observa en la figura 6.19, el tamao del
archivo codificado tambin se incrementa linealmente.

Figura 6. 19: Tiempo del archivo codificado vs. Tasa de bits
y = 0,0062x + 0,6526
0
0,5
1
1,5
2
2,5
3
0 50 100 150 200 250 300 350
T
i
e
m
p
o

d
e
l

p
r
o
c
e
s
o

d
e

c
o
d
i
f
i
c
a
c
i
n

[
m
i
n
u
t
o
s
]

Tasa de bits [Kbps]
Tiempo del
proceso de
codificacin
[minutos]
Lineal (Tiempo del
proceso de
codificacin
[minutos])
Tiempo del proceso de codificacin vs. Tasa de bits
Distribucin de
datos
Lnea de
tendencia
(Lineal (
y = 1,459x - 7E-06
0
50
100
150
200
250
300
350
400
450
500
0 50 100 150 200 250 300 350
T
a
m
a
o

d
e
l

a
r
c
h
i
v
o

c
o
d
i
f
i
c
a
d
o

[
K
b
y
t
e
s
]

Tasa de bits [Kbps]
Tamao del
archivo coficado .
MP3 [Kbytes]
Lineal (Tamao
del archivo
coficado . MP3
[Kbytes])
Tamao del archivo codificado vs. Tasa de bits
Distribucin
de datos
Lnea de
tendencia
(Lineal)
206

6.2.4.3 Radio de compresin vs. Tasa de bits

Al observar la figura 6.20 se distingue claramente que a menor tasa de bits se
logra un mayor radio de compresin, si la tasa de bits va aumentando el radio de
compresin va disminuyendo exponencialmente.

Figura 6. 20: Radio de compresin vs. Tasa de bits

Para observar otras caractersticas del codificador se utilizan los datos de las
tablas 6.13 y 6.14, en este caso al efectuar el proceso de codificacin el
parmetro de ingreso correspondiente a la tasa de bits se mantiene fijo en 128
[Kbps], en su defecto el parmetro que vara es el tiempo del archivo original, al
igual que en los anteriores casos se codifica todo el archivo de audio. Los
archivos originales han sido editados y se van incrementando en un segundo,
iniciando en un segundo y llegando a un mximo de doce segundos.

Ritmo Balada
Modo Mono
Duracin total del archivo [seg] 12

Tabla 6. 13: Caractersticas del archivo original (no codificado).

y = 708,44x
-1

0
1
2
3
4
5
6
7
8
0 50 100 150 200 250 300 350
R
a
d
i
o

d
e

c
o
m
p
r
e
s
i
n

Tasa de bits [Kbps]
Radio de
compresin
Potencial (Radio
de compresin)
Radio de compresin vs. Tasa de bits
Distribucin
de datos
Lnea de
tendencia
(Exponencial
decreciente)
207

Duracin del
archivo original
sin comprimir
[seg]
Tiempo del
proceso de
codificacin
[min]
Tamao del
archivo sin
comprimir
[Kbytes]
Tamao del
archivo
comprimido
[Kbytes]
Radio de
compresin
1 0,09 86,22 14,91 6
2 0,18 172,31 30,42 6
3 0,25 258,47 46,34 6
4 0,35 344,55 61,85 6
5 0,46 430,73 77,77 6
6 0,56 516,80 92,87 6
7 0,69 602,93 108,79 6
8 0,83 689,07 124,71 6
9 0,97 775,22 139,81 6
10 1,12 861,39 155,73 6
11 1,28 947,54 171,65 6
12 1,45 1033,61 186,75 6

Tabla 6. 14: Caractersticas de los archivos codificados a 128 [Kbps]

6.2.4.4 Tamao del archivo comprimido vs. Duracin del archivo sin comprimir

Como se indica en la figura 6.21, lgicamente si se codifica un tiempo mayor el
tamao del archivo codificado ser mayor, el tiempo crece linealmente con el
tamao del archivo codificado.

Figura 6. 21: Tamao del archivo comprimido vs. Duracin del archivo sin comprimir

y = 15,641x - 0,7006
0
20
40
60
80
100
120
140
160
180
200
0 2 4 6 8 10 12 14
T
a
m
a
o

d
e
l

a
r
c
h
i
v
o

c
o
m
p
r
i
m
i
d
o

[
K
b
y
t
e
s
]

Duracin del archivo sin comprimir (*.wav) [seg]
Tamao del archivo
comprimido [Kbytes]
Lineal (Tamao del
archivo comprimido
[Kbytes])
Tamao del archivo comprimido vs. Duracin del archivo
Distribucin de
datos
Linea de
tendencia
(Lineal)
208

6.2.4.5 Tamao del archivo comprimido vs. Tamao del archivo sin comprimir

Tanto el tamao del archivo sin codificar con el tamao del archivo codificado
como se indica en la figura 6.22, van creciendo linealmente.

Figura 6. 22: Tamao del archivo comprimido vs. Tamao del archivo sin comprimir

6.3 ANLISIS DE RESULTADOS DE LOS ARCHIVOS
CODIFICADOS

El anlisis y verificacin de los archivos codificados (archivos *.mp3) van desde
comprobar que el archivo pueda ser reproducido por los programas Cool Edit 2.0
y GoldWave 5.2 hasta el anlisis y comparacin de las caractersticas de los
archivos codificados en el dominio del tiempo y en el dominio de la frecuencia.

6.3.1 PROGRAMAS UTILIZADOS

Los programas empleados para verificar las caractersticas de los archivos
codificados fueron bsicamente dos, el principal Cool Edit versin 2.0 y el otro
GoldWave 5.2, estos programas fueron seleccionados por su robustez y facilidad
de utilizacin.
y = 0,1816x - 0,7104
0
20
40
60
80
100
120
140
160
180
200
0 200 400 600 800 1000 1200
T
a
m
a
o

d
e
l

a
r
c
h
i
v
o

c
o
m
p
r
i
m
i
d
o

[
K
b
y
t
e
s
]

Tamao de archivo sin comprimir [Kbytes]
Tamao del
archivo
comprimido
[Kbytes]
Lineal (Tamao del
archivo
comprimido
[Kbytes])
Tamao del archivo comprimido vs. Tamao del archivo sin comprimir
Distribucin
de datos
Lnea de
tendencia
(Lineal)
209

Los programas mencionados anteriormente fueron seleccionados para verificar la
validez de los archivos codificados por que dichos programas son utilizados en
ambientes comerciales de produccin y edicin musical a nivel profesional.

Con la ayuda de los programas se puede verificar las caractersticas del archivo
tanto en el dominio del tiempo como en el de la frecuencia, as mismo se pueden
comprobar caractersticas bsicas como: el tiempo de duracin del archivo, la
tasa de bits seleccionada, el modo del archivo (monofnico o estereofnico), entre
otras caractersticas importantes.

A continuacin se hace una breve descripcin de los dos programas y se muestra
la ventana de trabajo principal de cada uno de ellos.

6.3.1.1 Cool Edit Pro 2.0

Cool Edit Pro 2.0 es un programa de edicin de audio muy verstil, como todo
programa, cuenta con barras de mens y barras de herramientas, que permite
tener acceso a un gran nmero de efectos de audio y dems utilidades del
programa. Cool Edit Pro adems posee una interfaz grfica de usuario bastante
amigable, como se muestra en la figura 6.23.

Barra de ttulo
Barra de mens
Nombre y extensin
del archivo (.wav)
Pista de audio
(zona de edicin)
Controles de
reproduccin
Barra de estado
(Playing)
Controles de zoom Lnea de tiempo Temporizador
Escala de tiempo
Escala de amplitud
Barra de herramientas

Figura 6. 23: Ventana principal de Cool Edit Pro 2.0
210

Cool Edit Pro permite editar archivos de audio, se pueden eliminar segmentos de
audio con precisiones de milsimas de segundo, aadir otros segmentos que no
estaban en la muestra original, aadir efectos (ecos, reverberaciones, amplificar o
atenuar la seal, eliminar ruidos, etc.).

Cool Edit Pro permite reproducir y grabar diversos tipos de archivos de audio,
soporta ms de 20 tipos de archivos diferentes. Incluso al grabar o cambiar el
formato de un archivo y dependiendo de las caractersticas del formato
seleccionado existe la posibilidad de elegir parmetros como: frecuencia de
muestreo, nmero de bits de cuantizacin, entre otros.

6.3.1.2 GoldWave 5.2

GoldWave es un programa bastante sencillo de usar y ms que suficiente para la
edicin de sonido multimedia, GoldWave permite manejar diversos formatos de
audio, lo que lo hace una herramienta til para un sin nmero de aplicaciones.

Lnea de tiempo Informacin del archivo de audio
Pista de audio
(zona de edicin)
Nombre y extensin
del archivo
Barra de mens
Barra de herramientas Controles de reproduccin Ventana de control

Figura 6. 24: Ventana principal de GoldWave 5.2

En GoldWave los archivos de sonido se presentan en una ventana tpica de
Microsoft Windows, como se visualiza en la figura 6.24. En la parte inferior de la
211

ventana de GoldWave existe una barra de estado de gran utilidad ya que muestra
informacin general sobre el archivo activo y el estado del mismo.

6.3.2 PROPIEDADES Y REPRODUCCIN DE LOS ARCHIVOS CODIFICADOS

6.3.2.1 Propiedades de los archivos codificados

Conociendo con anterioridad que el programa convierte un archivo de audio de
formato Windows PCM (*.wav) de frecuencia de muestreo Fs = 44.100 Hz en
modo estreo o monofnico, a un archivo de formato comprimido MPEG-1 Layer
III (*.mp3) monofnico; en base a las especificaciones del estndar internacional
ISO/IEC 11172-3, los resultados de la verificacin de los archivos comprimidos se
muestran a continuacin.

Con la ayuda de Windows, se puede tener la primera verificacin de la validez de
los archivos de audio codificados, ya que al ubicar el cursor en el archivo de
audio, instantes despus de manera automtica se despliega un resumen de la
informacin del archivo, como se puede visualizar el la figura 6.25, los datos que
comprueban que el archivo se ha codificado exitosamente son el campo tipo, el
cual indica Sonido en formato MP3 y el de la velocidad de transmisin (tasa de
bits) que para este caso es de 128 Kbps.

La velocidad de transmisin (128 Kbps) la duracin del archivo codificado (11
segundos), la extensin del archivo (*.mp3) y el tamao del archivo (186 KB)
indican que la codificacin ha sido exitosa, ya que de lo contrario se tendran
datos errneos o el archivo, resultara ser de un formato desconocido o de un
formato diferente al de mp3.

Figura 6. 25: Caractersticas de archivo de audio codificado (Explorador de Windows)
212

Para comprobar las caractersticas del archivo codificado empleando Cool Edit
Pro 2.0 se procede a abrir el archivo de audio y al dar clic derecho en la zona de
edicin de la pista de audio, como se muestra en la figura 6.26, inmediatamente
aparece una ventana la cual indica en detalle las caractersticas del archivo
codificado. La informacin mostrada en esta ventana permite corroborar que el
archivo ha sido comprimido exitosamente, y de manera lgica estas
caractersticas deben ser las mismas que han sido elegidas en el proceso de
codificacin y adems deben cumplir los lineamientos provistos en el estndar
ISO/IEC 11172-3.

Figura 6. 26: Ventana principal de Cool Edit Pro 2.0 y venta de propiedades del audio

Figura 6. 27: Caractersticas del archivo de audio codificado (Programa: Cool Edit Pro
2.0)
213

Como indica la figura 6.27 los parmetros estn de acuerdo a los resultados
esperados es decir el archivo se ha codificado de manera exitosa, cumpliendo con
requerimientos provistos en el estndar ISO/IEC 11172-3.

6.3.2.2 Reproduccin de los archivos codificados

Para saber que el archivo codificado es capaz de ser reproducido en cualquier
reproductor digital de audio o en cualquier software compatible con el formato
*mp3, se ha procedido a abrir el archivo y a reproducirlo en Cool Edit Pro 2.0 y en
GoldWave 5.2.

Como se aprecia en las figuras 6.28 y 6.29, el archivo pude ser reproducido
normalmente, se observa que la lnea de tiempo y los temporizadores se van
incrementando, adems en las barras de estado se indica que el archivo est
siendo reproducido.
Avance de la lnea de tiempo
Incremento en el valor
del temporizador
La barra de estado indica que el
archivo se est reproduciendo

Figura 6. 28: Reproduccin del archivo de comprimido (Programa: Cool Edit Pro 2.0)

214

Avance de la lnea de tiempo
La barra de estado indica que el
archivo se est reproduciendo

Figura 6. 29: Reproduccin del archivo de comprimido (Programa: GoldWave 5.2)

6.3.3 ANLISIS DE LAS CARACTERSTICAS DE LOS ARCHIVOS
CODIFICADOS

Para comprobar que las seales obtenidas en las diferentes ventanas del
codificador son correctas se compara las seales en el dominio del tiempo y en el
dominio de la frecuencia (espectro) con las seales obtenidas al utilizar Cool Edit
Pro 2.0.

Antes de comprobar las seales correspondientes al dominio del tiempo y de la
frecuencia del archivo codificado (comprimido) se har una comparacin de las
seales del archivo original (no codificado) ya que si estas seales son
incorrectas las pertenecientes al archivo codificado tambin sern incorrectas.

215

6.3.3.1 Anlisis de los archivos sin comprimir

6.3.3.1.1 Anlisis del archivo original en el dominio del tiempo

Como se muestra en la figura 6.30 las seales mostradas en el dominio del
tiempo son las mismas, esto implica que el procesamiento del archivo de audio
original en el dominio del tiempo es correcto.

Seal en el dominio de tiempo
(Codificador realizado en MatLab R2009a)
(Programa CoolEdit Pro 2.0)

Figura 6. 30: Archivo de audio original en el dominio del tiempo

6.3.3.1.2 Anlisis del archivo original en el dominio de la frecuencia

Para efectuar el anlisis en el dominio de la frecuencia utilizando Cool Edit Pro 2.0
es necesario utilizar del men Analyze la opcin Show Frecuency Analysis, tal
como se indica en la figura 6.31.

Figura 6. 31: Opcin para activar la ventana del anlisis de frecuencia
216

Una vez que se selecciona la opcin Show Frecuency Analysis en la pantalla se
visualiza una ventana que indica el anlisis en frecuencia correspondiente a un
instante de tiempo del archivo de audio. En cada instante de tiempo seleccionado
se muestra el anlisis de frecuencia correspondiente, en consecuencia el espectro
que se obtiene al utilizar Cool Edit Pro es un espectro diferente para cada instante
de tiempo, como se aprecia en la figura 6.32.

Figura 6. 32: Anlisis en frecuencia del archivo audio original (en 2,199 segundos)

Figura 6. 33: Anlisis en frecuencia del archivo audio en varios instantes de tiempo
217

Al contrario del espectro presentado en Cool Edit Pro 2.0, el cual es diferente en
cada instante de tiempo, el espectro presentado en el codificador (diseado en
Matlab R2009a) es un espectro promedio para todo el archivo de audio, la razn
es que para el anlisis de frecuencia en el codificador diseado en Matlab se ha
empleado la transformada rpida de Fourier, la cual toma todo el archivo de audio
es decir todo el tiempo seleccionado y saca un espectro promedio.

Para comparar en frecuencia las seales obtenidas con el codificador y las
obtenidas con Cool Edit se verifican los aspectos ms relevantes de las seales,
se identifica la frecuencia o las frecuencias ms sobresalientes en el espectro,
como se indica a continuacin.

Al observar la figura 6.34, se puede identificar de todo el rango de frecuencias un
pico caracterstico que est alrededor de 16.000 Hz, este pico junto con otras
caractersticas observadas, sirven para comparar, el espectro obtenido con el
codificador con el espectro obtenido con el software Cool Edit Pro 2.0.
Comparando los espectros y aclarando que en Matlab el espectro que se obtiene
es un espectro promedio, se puede concluir que el procesamiento de la seal en
el dominio de la frecuencia es correcto.

Figura 6. 34: Anlisis de frecuencia del archivo audio obtenido con el codificador y
comparando con el anlisis de frecuencia obtenido con Cool Edit Pro 2.0
218

6.3.3.2 Anlisis de los archivos comprimidos

Verificando anteriormente que tanto las seales en el tiempo y frecuencia estn
siendo correctamente procesadas y presentadas; a continuacin se presentan las
seales correspondientes al archivo codificado.

6.3.3.2.1 Anlisis del archivo codificado en el dominio del tiempo

(Codificador realizado en MatLab R2009a)
(Programa CoolEdit Pro 2.0)

Figura 6. 35: Archivo de audio codificado en el dominio del tiempo

Comparando las seales en el dominio del tiempo en la figura 6.35, se puede
apreciar que las seales son idnticas y por ende se puede concluir que las
seales correspondientes al archivo codificado en el dominio del tiempo son
correctas.

6.3.3.2.2 Anlisis del archivo codificado en el dominio de la frecuencia

Como se indic anteriormente para comparar las seales en el dominio de la
frecuencia hay que recordar que el espectro que se obtiene con el codificador es
un espectro promedio, un espectro obtenido de todo el archivo; en cambio el
espectro obtenido con Cool Edit Pro es un espectro procesado en cada instante
de tiempo; por ello para verificar que el espectro obtenido con el codificador es
correcto se comparan las caractersticas ms perceptibles y relevantes.

219

Figura 6. 36: Anlisis en frecuencia del archivo de audio codificado obtenido con el
codificador y comparando con el anlisis de frecuencia obtenido con Cool Edit Pro 2.0

220


CAPITULO 6: PRUEBAS DE FUNCIONAMIENTO Y RESULTADOS

INTERNET:

[49] GoldWave Inc., (2010), Excellence in sound editing software for over 15
years.
http://www.goldwave.ca/forums
[50] Adobe Systems, (2010), Introduction Adobe Audition, Adobe Systems.
http://www.adobe.com/es/products/audition
[51] The MathWorks, Inc., (2010), Mathworks Homepage, Matworks Inc.,
http://www.mathworks.com

221

CAPTULO 7.
CONCLUSIONES Y RECOMENDACIONES

7.1 CONCLUSIONES

En la actualidad la era de la sociedad de la informacin y el acceso al internet
han permitido el envo, recepcin y almacenamiento de informacin
multimedia, a tal punto que diariamente existen millones de archivos de audio
que son cargados, descargados, transferidos y almacenados a travs del
internet. Y si bien es cierto que la tecnologa ha ido en mejora y las
aplicaciones son ms robustas y constan de ms utilidades no hay que olvidar
que la informacin multimedia en s, demanda grandes cantidades de
almacenamiento y procesamiento, es por ello, que ha surgido la necesidad de
la bsqueda de esquemas y procesos que permitan transferir y almacenar
datos de forma eficiente; poder minimizar la cantidad de bits necesarios para
representar la misma informacin ha conducido al desarrollo de algoritmos de
compresin. As por ejemplo, los formatos de audio comprimidos han sido un
gran avance, aunque al principio eran criticados por su calidad, en la
actualidad es inconcebible almacenar o reproducir archivos de audio en
formatos sin compresin.

En cuanto al audio se refiere los formatos de compresin no solo permiten
ahorrar recursos de procesamiento y almacenamiento, adems permiten
minimizar el ancho de banda, lo que es un punto favorable permitiendo utilizar
varias aplicaciones sobre el mismo canal de comunicaciones.

Una de las principales ventajas para que se pueda dar la compresin del audio
sin prdidas significativas en la calidad, se debe a que el ser humano tiene
capacidades limitadas, las cuales pueden ser explotadas en la codificacin de
audio. Estudios psicoacsticos han demostrado que el ser humano no es
222

capaz de percibir todas las componentes de frecuencia, por dicho motivo es
posible eliminar informacin que pasa desapercibida por los sentidos y as
poder tener relaciones de compresin elevados manteniendo la calidad del
audio.

Debido al crecimiento que ha tenido la utilizacin del audio digital, y en
especfico los formatos de audio comprimidos, se ha visto adecuado estudiar
en detalle el algoritmo MP3 para compresin de audio. La decisin de hacer
nfasis en el formato MP3 se debe a que es uno de los formatos ms
difundidos, y utilizados y a pesar de coexistir con una gran variedad de
formatos que tcnicamente podran ser mejores, tener ms utilidades, e
incluso estar desarrollados en software libre, el formato MP3 an actualmente
se encuentra en auge y por lo visto se seguir manteniendo o por lo menos no
muestra seales de decaer.

No se hizo nfasis en los sistemas de alta fidelidad debido a que es una
contradiccin hablar del audio en alta fidelidad y de formatos de audio
comprimidos con prdidas, como lo es el formato de audio MP3; adems la
alta fidelidad en los sistemas actuales est asociada a aspectos netamente
comerciales ms que a conservar una rplica fiel del audio presente en la
naturaleza.

Result interesante conocer de una manera muy detallada y extensa el
formato mp3; un formato ampliamente difundido y utilizado, del cual la mayora
de personas desconoce las tcnicas digitales y dems procesamiento de
seales involucrado. Al conocer en detalle los algoritmos pertenecientes a este
formato de audio, se evidenci que el proceso es impresionante pero a su vez
bastante complejo de lo que se podra imaginar a primera vista, por dicho
motivo para poder disear e implementar el codificador y cumpliendo con el
estndar internacional ISO/IEC 11172-3 se ha procedido a dividir la
complejidad del modelo, distribuyndolo en forma jerrquica en bloques que
constituyen subsistemas, de modo que facilitan el estudio y la simulacin; ya
223

que al disear el codificador en bloques disminuye la carga computacional y
los procesos resultan ser ms rpidos y menos complejos.

El formato MP3 presenta altos niveles de compresin, permite comprimir en un
factor aproximado de 12 la informacin original, la calidad del audio obtenida
es buena y existe compatibilidad con una gran cantidad de sistemas de
software y de hardware; puede ser reproducido y editado por una gran
cantidad de programas en la actualidad. Por las diversas cualidades que este
formato presenta, se implement en software de simulacin Matlab 7.8
(R2009a) un programa capaz de leer y reproducir un archivo de audio de
Microsoft (*.wav) muestreado a 44.100 Hz en modo estreo o monofnico y a
partir de ste, obtener y reproducir un archivo en formato de audio comprimido
MPEG-1 Layer III (*.mp3) monofnico, con frecuencia de muestreo 44.100 Hz,
de tasa de bits y tiempo de duracin correspondiente a la eleccin y criterio del
usuario del codificador.

En cuanto a los resultados obtenidos se determin analtica y grficamente
que los archivos codificados cumplen a cabalidad con los lineamientos
provistos por el estndar ISO/IEC 11172-3. Al seguir los procedimientos dados
por un estndar de carcter internacional se garantiza la plena compatibilidad
de los archivos codificados, verificando que los mismos puedan ser abiertos y
reproducidos en cualquier hardware o software compatible con el formato
MP3.

Con la ayuda de los programas comerciales de edicin de audio profesional,
GoldWave 5.2 y Cool Edit Pro 2.0 se determin la validez en cuanto a
reproducibilidad y la veracidad en cuanto a las caractersticas esperadas de
los archivos codificados, con el anlisis de los parmetros obtenidos de los
archivos codificados tanto en el dominio del tiempo como en el dominio de la
frecuencia.

224

En cuanto a los radios de compresin esperados, analizando los resultados se
puede concluir que la compresin de los archivos es bastante buena, ya que
se cumplen con las relaciones de compresin planteadas por Karlheinz
Brandenburg y el Instituto Tecnolgico de Fraunhofer, dado que para la tasa
de bits ms baja del codificador de 96 Kbps se presenta la mayor relacin de
compresin que es de siete.

Como se mostr con los datos obtenidos al codificar diversos archivos, de
diferentes tamaos, duracin y diferente ritmo, los parmetros de entrada son
importantes e influyen directamente en la compresin, as por ejemplo,
codificando todo el archivo el parmetro que determina si se ha codificado en
mayor o menor escala en cuanto al tamao en bytes del archivo, es la tasa de
bits; la tasa de bits es un factor que hay que tomar en cuenta si se tiene en
mente reducir en mayor o menor cantidad el tamao de un archivo de audio.

7.2 RECOMENDACIONES

A pesar de que el programa en su totalidad es muy didctico y sencillo de
utilizar, se recomienda leer el anexo A, el cual constituye un manual de usuario
y presenta informacin general del diseo del programa e informacin
detallada del funcionamiento del codificador.

Cabe recalcar que el codificador puede ser mejorado, empleando la ltima
versin liberada de Matlab o empleando toolboxes adicionales, o a su vez
utilizando una computadora con mejores caractersticas a la utilizada durante
todo el proyecto.

Como MatLab, no ha sido diseado para trabajar en tiempo real, se
recomienda codificar tiempos pequeos, ya que de lo contrario, el proceso de
codificacin puede tardar un tiempo considerable; adems el codificador
implementado en este proyecto no fue concebido como un software comercial,
225

sino que fue pensado como un referente tcnico para el uso de tcnicas
digitales en el procesamiento de seales de audio en formato comprimido.

Como el codificador demanda una gran cantidad de recursos
computacionales, principalmente recursos del procesador y memoria, es
recomendable ejecutar el programa en una computadora que conste por lo
menos de un procesador Pentium IV o AMD Athlon 64 y 512 MB de memoria
RAM.

El programa ha sido implementado para correr sobre un sistema operativo
Windows XP pero esto no constituye un limitante en la compatibilidad con
otros sistemas operativos tales como GNU Linux o versiones posteriores de
Windows. De utilizarse el programa en sistemas operativos como Windows
Vista o Windows 7 se recomienda configurar la prioridad del proceso
MATLAB.exe en tiempo real para asignar la mayor cantidad de recursos del
procesador al codificador MP3 implementado en Matlab.

ANEXOS

A-1

ANEXO A
MANUAL DE USUARIO

A.1 DESCRIPCIN DEL PROGRAMA

El programa convierte un archivo de audio de formato Windows PCM (*.wav) de
frecuencia de muestreo Fs = 44.100 Hz en modo estreo o monofnico, a un
archivo de formato comprimido MPEG-1 Layer III (*.mp3) monofnico; en base a
las especificaciones del estndar internacional ISO/IEC 11172-3.

El codificador est diseado en varios archivos (*.m, *.fig y *.mat), con el objetivo
de separar el proceso de codificacin en varias etapas, pretendiendo de esta
manera entender mejor los lineamientos provistos en el estndar. El programa en
su totalidad cuenta con varias interfaces grficas que permiten una utilizacin ms
sencilla del programa, adems se emplean varios archivos de imagen (*.jpg y
*.png), un archivo de video (*.avi) y varios archivos de documentacin (*.pdf), los
primeros utilizados en los elementos visuales del programa y los restantes con
informacin del estndar y de la utilizacin en s del programa.

Figura A. 1: Archivos del Codificador MPEG-1 Layer III
A-2

El programa en cuanto a la interfaz grfica se refiere, est constituido por cinco
ventanas principales (*.fig), incluida la cartula y biografa de autores, y dos
ventanas adicionales (ventanas de efectos de audio).

Cabe mencionar que tanto los elementos de las interfaces grficas como las
interfaces en s mismo van apareciendo secuencialmente mientras se va
procesando la seal.

A.2.1 REQUERIMIENTO DE SOFTWARE Y DE HARWARE

A.1.1.1 Especificaciones de hardware

El programa ha sido elaborado, diseado y ejecutado en una computadora
notebook Compaq Presario C706LA, de las siguientes caractersticas:

Procesador: AMD Turion (tm) 64, Mobile Technology MK38 2.21 [GHz].

Figura A. 2: Procesador de la computadora utilizada para correr el programa

RAM: 1024 MB, DDR2 667 [MHz].
Disco duro: 120 GB, enhanced IDE 5400 RPM SATA.
Tarjeta grfica: Nvidia GeForce Go 1600, 256 MB.

A.1.1.2 Especificaciones de software

El programa ha sido desarrollado en Matlab 7.8 (R2009a), corriendo en un
sistema operativo Windows XP SP3 y para que la utilizacin del programa sea
ms amigable se ha empleado el entorno de programacin visual de Matlab
A-3

GUIDE (Graphical User Interface Develop Enviroment). Como el programa ha sido
desarrollado en un ambiente de Microsoft Windows, el codificador es compatible
con Windows XP, Windows Vista y Windows 7.

Figura A. 3: Especificaciones de software para el codificador MPEG-1 Layer III

En cuanto a los toolboxes o libreras empleados, el codificador necesita los
siguientes toolboxes: Matlab Toolbox, Signal Processing Toolbox,
Communications Toolbox, MP3 Toolbox y Guide Toolbox. Al elegir la
opcin de instalacin completa en Matlab, casi todos los toolboxes mencionados
anteriormente son instalados automticamente, excepto el MP3 Toolbox el cual
es necesario instalarlo (ver anexo B) y se lo puede descargar de la siguiente
direccin: http://www.mathworks.com/matlabcentral/fileexchange/13852-mp3read.

A.2.2 ACCESO AL PROGRAMA

Como se mencion anteriormente el programa utiliza el ambiente grfico de
Matlab, y al crear una interfaz grfica, Matlab de manera automtica crea dos
archivos uno *.fig y otro *.m, por ello se puede tener acceso al programa mediante
dos formas, a travs del ambiente grfico de Matlab o a travs de la apertura del
archivo *.m correspondiente a la interfaz grfica.

cono archivo *.fig cono archivo *.m

Figura A. 4: Archivos *.fig y *.m de MatLab
A-4

Hay que recordar que el programa est diseado para que funcione y se presente
secuencialmente; por ese motivo la primera ventana a la que se debe tener
acceso es la ventana MPEG1_LayerIII.fig o al archivo MPEG1_LayerIII.m.

A.1.2.1 Acceso al programa a travs del ambiente grfico

Una vez abierto Matlab y listo para ser utilizado; en la ventana de comandos
(Command Window) se procede a ingresar el comando guide, el cual permite
tener acceso a la herramientas del ambiente grfico.

Directorio actual
Ventana de
comandos
rea de trabajo
(variables actuales)
Historial de
comandos
Comando: guide

Figura A. 5: Ventana principal de Matlab y comando para acceder a las herramientas de
la interfaz grfica de usuario

Luego de ingresar el comando guide, aparece una ventana que permite crear una
nueva interfaz grfica o abrir una interfaz existente creada anteriormente,
obviamente se debe elegir abrir una interfaz existente.
A-5

Crear una nueva
interfaz grfica
Abrir una interfaz
existente

Figura A. 6: Ventana de inicio rpido de la interfaz grfica de usuario

Al seleccionar la opcin abrir una GUI (Graphical User Interface) existente y
dependiendo en que directorio de archivos se est trabajando puede ser
necesario buscar la interfaz a la que se quiere tener acceso, esto se lo hace
seleccionado el botn de bsqueda (Browse).

Botn de bsqueda de
la interfaz requerida

Figura A. 7: Bsqueda de la interfaz grfica de inters

Una vez que se ha ubicado el directorio en el cual se encuentra almacenada la
interfaz a la cual se quiere tener acceso, se selecciona el archivo *.fig de la
interfaz correspondiente y se la procede abrir.
A-6

Archivos *.fig de la
interfaces grficas

Figura A. 8: Archivos *.fig correspondientes a las interfaces grficas

Abierto el archivo *.fig correspondiente a la interfaz grfica, aparece una ventana
la cual en su barra de herramientas consta de un botn que permite correr el
programa, tal y como se muestra en la figura A.9.

Cambio al
directorio actual
Interfaz grfica
Ttulo de archivo *.fig
Correr archivo *.fig
Barra de
herramientas

Figura A. 9: Archivo *.fig correspondiente a la interfaz grfica

Al momento de correr el archivo *.fig, y dependiendo de si el directorio de archivos
y la ruta para acceder el archivo estn actualizados y son los correctos, puede o
no aparecer un mensaje de informacin, como el que se indica en la figura A.10,
en este caso para asegurarse de que se est trabajando correctamente y para
A-7

evitar complicaciones futuras es recomendable elegir la opcin cambiar directorio
(Change Directory).

Cambio al
directorio actual
Aadir ruta de
acceso al archivo

Figura A. 10: Actualizacin del directorio y ruta de acceso al archivo

En el instante en que tanto el directorio y la ruta de acceso al archivo son los
correctos, se tiene acceso a la primera ventana del codificador, es decir a la
ventana MPEG1_LayerIII (ventana de la cartula).

Figura A. 11: Acceso a la ventana de cartula del codificador mediante la utilizacin
del ambiente grfico

A-8

A.1.2.2 Acceso al programa a travs del editor de archivo .m

Una vez abierto Matlab y listo para ser utilizado; se procede a buscar y abrir el
archivo *.m de inters, es decir el archivo MPEG1_LayerIII.m.

Figura A. 12: Apertura de archivos

Archivo MPEG1_LayerIII.m

Figura A. 13: Bsqueda y seleccin del archivo *.m perteneciente al codificador

Cuando se procede a abrir el archivo *.m, el archivo se abre en un tpico editor de
archivos *.m de MatLab y en la ventana del editor de archivos .m, aparece una
barra de herramientas la cual consta de un botn que permite correr el programa,
tal y como se muestra en la figura A.14.
A-9

Archivo MPEG1_LayerIII.m Barra de herramientas
Botn para correr el archivo
MPEG1_LayerIII.m

Figura A. 14: Apertura del archivo MPEG1_LayerIII.m

Al correr el programa a travs del editor de archivos .m puede o no ser necesario
actualizar el directorio de archivos y la ruta para acceder a los archivos del
codificador; si es necesario actualizar el directorio y la ruta de acceso se elige la
opcin cambiar directorio (Change Directory).

Cambio al
directorio actual
Aadir ruta de
acceso al archivo

Figura A. 15: Actualizacin del directorio y ruta de acceso al archivo
A-10

Luego de que tanto el directorio como la ruta de acceso estn actualizados y al no
tener ningn error o advertencia al correr el archivo MPEG1_LayerII.m, se tiene
acceso a la primera ventana del codificador, es decir a la ventana
MPEG1_LayerIII (ventana de la cartula).

Figura A. 16: Acceso a la ventana de cartula del codificador mediante la utilizacin
del editor de archivos .m

Una forma ms sencilla de acceder al codificador a travs del editor de archivos
.m es abrir directamente el archivo MPEG1_LayerIII.m posteriormente se corre
el archivo, y si no se tiene ningn percance se tiene acceso a la primera ventana
del codificador.

Figura A. 17: Archivo MPEG1_LayerIII.m

A-11

A.2 EJECUCIN DEL PROGRAMA

Como se mencion anteriormente, el codificador en su totalidad est diseado
para que funcione de una manera secuencial y ordenada, es decir los datos
ingresados o calculados en una ventana anterior sirven como datos o resultados
en la ventana siguiente o en otra ventana posterior. Como el codificador est
dividido en varias ventanas a continuacin se presenta una descripcin de cada
ventana del codificador.

A.2.1 VENTANA MPEG1_LayerIII

La primera ventana del codificador es la ventana de la cartula, la cual consta de
dos botones en la parte inferior izquierda, un botn CONTINUAR el cual da paso
a la ventana siguiente (ventana Codificador_MP3) y un botn SALIR el cual al
ser seleccionarlo muestra una ventana de consulta, figura A.19, la cual segn la
opcin seleccionada, permite salir del programa o regresar a la ventana
MPEG1_LayerIII nuevamente, para posteriormente si as fuese, ir a la ventana
siguiente.

Pasar a la ventana
Codificador_MP3
Salir del codificador

Figura A. 18: Cartula del codificador
A-12

Figura A. 19: Mensaje al seleccionar el botn SALIR

A.2.2 VENTANA Codificador_MP3

Ventana principal del codificador, en esta ventana se requiere que el usuario
interacte con el programa al elegir de manera secuencial y ordenada los
parmetros de codificacin, como se puede observar en la figura A.20, la ventana
cuenta con una barra de mens, submens y una barra de herramientas las
cuales permiten una sencilla utilizacin del programa.

Barra de mens
Barra de
herramientas
Ventana "Codificador_MP3"
Imgenes de seales
y botones de
reproduccin
Indicaciones y
parmetros de
codificacin

Figura A. 20: Segunda ventana del codificador, ventana Codificador_MP3

Esta ventana en primera instancia, aparece vaca, como se visualiza en la figura
20. Una parte del rea vaca de la ventana, est destinada para mostrar las
imgenes del procesamiento de la seal, y la otra parte de sta, corresponde a
las indicaciones y al ingreso de los requerimientos para la codificacin.

A-13

Para iniciar el proceso de codificacin es necesario e indispensable seleccionar,
el archivo de audio que se desea codificar. Para hacerlo, es necesario elegir la
opcin Archivos .WAV del men Abrir de la barra de mens, tal como se indica
en la figura A.21. Hay que recordar que el archivo de audio debe estar en formato
*.wav, puede ser estereofnico o monofnico y con una frecuencia de muestreo
de 44.100 Hz.

Apertura del archivo
original (sin comprimir)

Figura A. 21: Opcin para abrir archivo sin comprimir *.wav

Una vez seleccionada la opcin Archivos .WAV del men Abrir se despliega
una ventana de bsqueda, figura A.22, la cual permite ubicar y seleccionar el
archivo de audio requerido, la ventana como se muestra a continuacin est
condicionada para que solo se desplieguen archivos *.wav con ello se garantiza
que no se cometan errores al elegir el archivo de audio de entrada.

Nombre del archivo
(*.wav)
Archivos de audio

Figura A. 22: Seleccin y apertura del archivo *.wav

Luego de seleccionar y abrir el archivo de audio, empieza el procesamiento de la
seal, y progresivamente van apareciendo las imgenes de las seales
procesadas, tal y como se muestra en la figura A.23.
A-14

Figura A. 23: Procesamiento de archivo de audio de entrada

Cabe mencionar que las seales que se obtienen del procesamiento del archivo
de audio, no slo se las puede visualizar, sino que tambin se las puede
escuchar, por ello en la parte inferior de la imagen de la seal en el dominio del
tiempo se activan botones de reproduccin, como se puede ver en la figura A.24;
dichos botones de reproduccin permiten escuchar, detener y aumentar o
disminuir el volumen del archivo de audio; con respecto al volumen, cabe
mencionar que por conveniencia el volumen inicialmente se presenta configurado
en el nivel mnimo (silencio).

Botn "PLAY"
Botn "STOP"
Control de Volumen
Volumen mnimo Volumen mximo

Figura A. 24: Botones de reproduccin multimedia
A-15

Una vez que se han procesado todas las seales correspondientes al archivo de
audio de entrada, en la parte derecha de la ventana se despliega un cuadro que
contiene indicaciones de la codificacin y ms abajo se presenta otro cuadro en el
cual se solicitan los parmetros de codificacin, figura A.25.

Seal estereo Seal monofnica
Seal en el dominio
del tiempo
Seal en el dominio de
la frecuencia
Indicaciones para la
codificacin
Parmetros de
codificacin

Figura A. 25: Seales de archivo de audio de entrada, indicaciones
y parmetros de codificacin

Con respecto a las indicaciones de codificacin, hay que aclarar que dichas
indicaciones se deben cumplir a cabalidad y en el orden establecido, de lo
contrario se van a tener errores en la codificacin o sencillamente no se activa la
siguiente opcin que permite el ingreso de los dems parmetros.

El ingreso de dos parmetros, la tasa de bits y el tiempo de codificacin, son
necesarios para ejecutar el proceso de codificacin, no obstante la seleccin de
los parmetros de codificacin se la realiza en tres pasos los cuales son descritos
a continuacin:

El primer paso es la eleccin de la tasa de bits, para lo cual se debe
seleccionar un valor del men de la tasa de bits, en un rango de 96 Kbps a
A-16

320 Kbps, al seleccionar una tasa de bits en dicho rango se activa el segundo
parmetro de codificacin, es decir, el tiempo de codificacin.

Men tasa de bits, de
96 [Kbps] a 320 [Kbps]

Figura A. 26: Eleccin de la tasa de bits

Como se observa en la figura A.27, al seleccionar la tasa de bits, se activa una
caja de texto de edicin la cual permite el ingreso del tiempo requerido, adems
se despliega informacin de los tiempos mnimos y mximos que pueden ser
codificados.

Tasa de bits seleccionada
(128 [Kbps] )
Tiempos de codificacin
mnimo y mximo
Ingreso del tiempo de
codificacin

Figura A. 27: Parmetros mostrados despus de seleccionar la tasa de bits

El segundo paso, es el ingreso del tiempo de codificacin (cuanto tiempo se
quiere codificar del archivo original), el tiempo de codificacin est dado en
segundos y como se mencion anteriormente este tiempo viene dado entre un
mnimo y un mximo. El tiempo de codificacin mnimo para todos los archivos
es de 0.10449 segundos, esto es para garantizar el procesamiento mnimo de
A-17

4 tramas MPEG-1 Layer III, mientras el tiempo mximo claro est, depende de
las caractersticas de cada archivo de audio.

Tiempo de codificacin
(11.9902 segundos)
Inicio de la codificacin

Figura A. 28: Ingreso del tiempo de codificacin

El tercer paso, una vez que se ha ingresado el tiempo de codificacin
adecuado, es iniciar el proceso de la codificacin en s mismo, esto se lo hace
seleccionando el botn Codificar; al seleccionar el botn "Codificar" empieza
la codificacin y se visualiza en la pantalla una barra de progreso, la cual
indica el progreso sistemtico de la codificacin.

Barra de progreso, indica que la
codificacin est en progreso

Figura A. 29: Ejecucin de la codificacin

A-18

Al iniciarse la codificacin, en la ventana Codificador_MP3 se visualiza, el
progreso de la codificacin (barra de progreso), pero paralelamente a esto, se
inicia un cronmetro el cual permite visualizar el tiempo que tarda el archivo en
ser codificado; el cronmetro cuenta con horas, minutos, segundos y
milisegundos, ver figura A.30, con esto se consigue gran exactitud en la lectura
del tiempo que se tarda el archivo en la codificacin.

Cabe mencionar que el cronmetro funciona en modo asncrono esto significa que
si la carga del procesador es alta no se visualiza el cronmetro en la pantalla,
pero si se libera la carga del procesador la ventana del cronmetro se despliega,
tal como se muestra en la figura A.30, es por ello que el cronmetro solo se
despliega cuando el archivo est casi por terminar su codificacin porque en
dichos instantes la carga del procesador no es tan alta.

Barra de progreso
Contador, indica cuanto tiempo se
tardo el archivo en ser codificado

Figura A. 30: Finalizacin del proceso de codificacin
A-19

La ventana perteneciente al cronmetro una vez que se ha finalizado la
codificacin, nos indica el tiempo que se tard en el proceso de codificacin y
muestra un mensaje que indica que el archivo de audio ha sido codificado
exitosamente, es decir, el proceso de codificacin ha completado el cien por
ciento, sin errores.

Instantes posteriores a la finalizacin del proceso de codificacin, se activa en la
parte inferior derecha de la ventana Codificador_MP3 un botn Ver MP3 el cual
al ser activado da paso a la tercera ventana del codificador, que es la ventana
Archivo_MP3.

Botn "Ver MP3"

Figura A. 31: Activacin del botn Ver MP3 para activar la ventana Archivo_MP3

A.2.3 VENTANA Archivo_MP3

Esta ventana constituye la tercera ventana del codificador, y permite visualizar y
escuchar las caractersticas del archivo comprimido (*.mp3), cuenta con una barra
de mens, submens y una barra de herramientas, las cuales permiten una
sencilla utilizacin del programa.

Al igual que la ventana Codificador_MP3, esta ventana inicialmente aparece
vaca como se muestra en la figura A.32, en esta ventana a diferencia de la
primera ventana del codificador, el usuario no necesita ingresar parmetros, lo
A-20

nico que se necesita es seleccionar el archivo resultante del proceso de
codificacin, es decir, el archivo comprimido (*.mp3).

Figura A. 32: Tercera ventana del codificador, ventana Archivo_MP3

Para seleccionar y abrir el archivo codificado (*.mp3) es necesario seleccionar el
men Abrir la opcin Archivos .MP3, figura A.33.

Apertura del archivo codificado
(comprimido)

Figura A. 33: Opcin para abrir archivo codificado *.MP3

Al seleccionar la opcin Archivos .MP3 del men Abrir se desplegar una
ventana, la cual permite buscar, seleccionar y abrir el archivo codificado, la
ventana como se muestra a continuacin est condicionada para que slo se
desplieguen archivos *.mp3 con ello se garantiza que no se cometan errores al
elegir el archivo de audio de codificado; si bien lo lgico es que se abra el archivo
codificado, es posible abrir cualquier tipo de archivo cuya extensin sea MPEG-1
Layer III, es decir en formato (*.mp3).
A-21

Nombre del archivo
(*.mp3)
Archivos de audio
codificado (*. mp3)

Figura A. 34: Seleccin y apertura del archivo del archivo codificado (*.mp3)

Una vez que se abre el archivo comprimido, se muestra el procesamiento de la
seal de manera secuencial, se muestran varias caractersticas del archivo
codificado, y adems en la parte inferior de la ventana se muestra un cuadro de
resumen del proceso de codificacin, en el cual se indican caractersticas del
archivo original (*.wav) y caractersticas del archivo comprimido (*.mp3).

Seal monofnica
Seal en el dominio del tiempo
Seal en el dominio de la frecuencia
Caractersticas
principales del archivo
codificado (*.mp3)
Resumen de la
codificacin
Botones de
reproduccin
Botn
Comparacin WAV y MP3

Figura A. 35: Caractersticas del archivo codificado
A-22

Las principales caractersticas del archivo codificado, se muestran en la figura
A.36, entre dichas caractersticas estn: la versin de MPEG, la capa
correspondiente, el modo del archivo codificado (monofnico), el nmero de
muestras por trama (tamao de la trama mp3) y el nmero de tramas del archivo
codificado. Estas caractersticas son el resultado del proceso de codificacin,
como se conoce el resultado esperado de la codificacin es un archivo MPEG-1
Layer III (*.mp3) con un tamao por trama de 1152 muestras y que est en modo
monofnico, si hubiese un error en la codificacin o simplemente el proceso no ha
sido exitoso, los resultados que se mostraran seran diferentes a los esperados o
en su defecto no se mostrara informacin alguna.

Figura A. 36: Caractersticas del archivo codificado

En cuanto al cuadro de resumen, se muestran las caractersticas generales de los
archivos no codificado y codificado, como se observa en la figura A.37.

Figura A. 37: Resumen de la codificacin

Entre dichas caractersticas constan: el nmero de canales, el tiempo de duracin
de los archivos (en segundos), el tamao de los archivos y un parmetro
A-23

importante que se muestra es el "radio de compresin", el cual indica cuntas
veces se ha reducido el archivo original con respecto al archivo comprimido.

Adicionalmente en la ventana Archivo_MP3 una vez que se han procesado
todas las seales y se han mostrado todos los cuadros de informacin, aparece
en la parte inferior derecha, un botn Comparacin WAV y MP3, el cual al ser
seleccionado da paso a la ventana Comparacion_WAV_MP3.

A.2.4 VENTANA Comparacin_Wav_Mp3

En esta ventana se muestra informacin detallada de las caractersticas tanto del
archivo original (*.wav) como del archivo codificado (*.mp3), adems de visualizar
las caractersticas de los archivos, es posible visualizar los archivos de audio
tanto en el dominio del tiempo como en el de la frecuencia. Al igual que en las
ventanas anteriores en esta ventana se puede escuchar los archivos de audio (no
codificado y codificado) con el uso de los botones de reproduccin.

Archivo sin codificacin (*.wav) Archivo codificado (*.mp3)

Figura A. 38: Comparacin de las caractersticas de los archivos
sin codificacin (izquierda) y con codificacin (derecha)

En cuanto a las caractersticas de los archivos, las caractersticas que se
muestran en la ventana Comparacin_Wav_Mp3 son: el nombre del archivo, la
A-24

extensin de los archivos de audio, la frecuencia de muestreo, la tasa de bits, el
nmero de canales, el nmero de muestras, el nmero de bits por muestra, el
tamao del archivo en Kbytes y la duracin del archivo en segundos.

A.3 MENS DEL CODIFICADOR

El codificador en general est estructurado en varias ventanas como se indic
anteriormente, y cada ventana a excepcin de las ventanas MPEG1_LayerIII
(ventana de la cartula) y ventana Autores constan de una barra de mens y
una barra de herramientas, las mismas que difieren en pocas caractersticas
dependiendo de las ventanas en las cuales se est trabajando. A continuacin se
describen los mens presentes en las barras de mens de las diferentes ventanas
del codificador.

A.3.1 MEN ABRIR

Este men en conjunto con su opcin, est disponible en las ventanas
Codificador_MP3 y Archivo_MP3, al seleccionar la opcin Archivos .WAV o
Archivos .MP3 se puede seleccionar y abrir el archivo correspondiente.

Figura A. 39: Men Abrir y opcin Archivos .WAV

Figura A. 40: Men Abrir y opcin Archivos .MP3

A-25

A.3.2 MEN ESTNDAR ISO/IEC 11172-3

Dicho men est disponible en las ventanas Codificador_MP3, Archivo_MP3 y
Comparacion_WAV_MP3; este men consta de cinco opciones las cuales son:
Especificaciones de audio MPEG (ISO/IEC 11172-3), ANEXOS A y B, ANEXO C,
ANEXO D, ANEXOS E, F Y G; al seleccionar cualquiera de estas opciones se
abre un archivo *.pdf, correspondiente a la opcin seleccionada, como se observa
en la figura A.41. Estos archivos *.PDF proporcionan informacin del Estndar
Internacional ISO/IEC 11172-3.

Figura A. 41: Men Estndar ISO/IEC 11172-3 y opciones correspondientes

A.3.3 MEN GUARDAR IMGENES

Las ventanas: Codificador_MP3, Archivo_MP3, Comparacion_WAV_MP3 y
Efectos tienen en su barra de mens, el men Guardar Imgenes. Las opciones
de este men pueden variar en el nombre, es decir si la imagen corresponde al
archivo no codificado o codificado, pero la funcionalidad de las opciones en todas
las ventanas es la misma, guardar las imgenes de las seales procesadas.

Figura A. 42: Men Guardar Imgenes y opciones correspondientes
A-26

Al seleccionar la opcin correspondiente de la imagen que se desee guardar, se
abre una ventana, figura A.43, en la cual se puede elegir la ubicacin y el nombre
de la imagen de la seal requerida, por defecto, facilidad y compatibilidad con los
sistemas de computacin, el formato con el cual se guardan las imgenes es el
*.jpg.

Directorio donde se quiere guardar
la imagen seleccionada
Nombre del archivo de imagen
Extensin del archivo de imagen (*.jpg)
Botn "Guardar"

Figura A. 43: Almacenamiento de la imagen de la seal correspondiente

A.3.4 MEN AYUDA

Este men proporciona informacin concerniente a los aspectos tcnicos del
programa y a la utilizacin en s del programa. La ayuda la constituyen el manual
de usuario en formato *.pdf y un video tutorial *.avi.

Figura A. 44: Men Crditos y submen Autores

A-27

A.3.5 MEN CRDITOS

El men Crditos est presente en las ventanas: Codificador_MP3,
Archivo_MP3, Comparacion_WAV_MP3 y Efectos. Al seleccionar la opcin
Autores del men Crditos, se despliega una ventana, figura A.46, la cual
muestra una breve biografa de los autores y director del proyecto.

Figura A. 45: Men Crditos y submen Autores

Figura A. 46: Biografa resumida de autores

A.3.6 MEN ADICIONAL

Este men adicional, est disponible slo en la ventana
Comparacion_Wav_Mp3, no tiene tanta relacin con el codificador en s, sin
embargo como se est trabajando con archivos de audio, se ha considerado
conveniente aadir la ventana Efectos la cual a travs de sus distintas opciones
A-28

permite realizar un procesamiento digital de las seales de audio, permitiendo
modificar ciertas caractersticas de los archivos de audio.

Para tener acceso a la ventana Efectos se selecciona del men ADICIONAL *
la opcin Efectos de audio, como se muestra en la figura A.47.

Figura A. 47: Men ADICIONAL* y opcin Efectos de audio

Una vez seleccionada la opcin Efectos de audio se visualizar en la pantalla
una ventana como la que se muestra a continuacin.

Indicaciones para
utilizar el editor de audio
Archivo de audio original Ecualizador Archivo de audio con efecto
Efectos de audio y activacin
del ecualizador
Grabacin del archivo con efectos, botn "Grabar"

Figura A. 48: Ventana principal de los efectos de audio

En su barra de mens la ventana Efectos consta del men Abrir el cual a su
vez tiene dos opciones, como se observa en la figura A.49, dichas opciones
permiten abrir archivos de audio no codificados (*.wav) y codificados (*.mp3) uno
a la vez.

Figura A. 49: Apertura de archivos *.WAV o *.MP3 para aplicar efectos de audio
A-29

Al seleccionar la opcin Archivos .WAV o Archivos .MP3, se abre una ventana
de bsqueda que permite seleccionar el archivo de audio deseado ya sea *.wav o
*.mp3.

Nombre del archivo
(*.wav)
Archivos de audio

Figura A. 50: Apertura del archivo de audio para aplicar el efecto deseado

Al seleccionar y abrir el archivo requerido, el mismo se despliega en la parte
izquierda de la pantalla, tal como se presenta en la figura A.51, tanto en el
dominio del tiempo como en el de la frecuencia, adems con la ayuda de los
botones de reproduccin es posible escuchar el archivo seleccionado (archivo sin
efectos de audio).

Figura A. 51: Procesamiento del archivo original (archivo sin efectos)
A-30

Teniendo el archivo con el que se va a trabajar es posible aadir los efectos que
se requiera. Para poder aadir un efecto o varios efectos al archivo de audio
original se lo puede hacer seleccionando una de las opciones del men
EFECTOS, figura A.52.

Figura A. 52: Efectos de audio disponibles

Son cuatro las opciones del men EFECTOS, la primera opcin es aadir eco
con un retardo de 0,5 segundos; la segunda opcin es invertir la seal en el
tiempo; la tercera opcin es reducir o aumentar la velocidad de la seal
modificando la frecuencia de muestreo y la ltima opcin es la del ecualizador, un
ecualizador que consta de cinco bandas de frecuencia y que permite manipular
las bandas de frecuencia desde las bajas hasta las altas frecuencias.

Al seleccionar el efecto (eco, invertir o velocidad) el efecto seleccionado se activa
y puede ser utilizado para modificar las caractersticas del archivo original, la
seal resultante de la adicin del efecto es desplegada en la parte derecha de la
ventana Efectos, como se indica en la figura A.53.

Adems con la ayuda de los botones de reproduccin se puede escuchar los
cambios originados por la aplicacin del efecto.

A-31

Archivos de audio sin efectos Archivos de audio con efectos

Figura A. 53: Archivos de audio con efectos

Cada efecto para diferenciarse uno de otro es mostrado en la pantalla con un
color diferente, como se aprecia en la figura A.54.

Figura A. 54: Efectos: eco, inversin temporal y variacin de la velocidad
(de izquierda a derecha)

Si se utilizase el efecto Velocidad es necesario antes de que el efecto acte,
seleccionar la opcin Reducir/Aumentar y variar la posicin del slider como se
muestra a continuacin, para que el efecto tenga consecuencia.

A-32

Figura A. 55: Efectos:

Al seleccionar la opcin Ecualizador el ecualizador inicialmente muestra todas
sus bandas de frecuencia al mismo nivel; para que tenga efecto la ecualizacin es
necesario desplazar cualquiera de las bandas de frecuencia verticalmente, y
automticamente los cambios realizados pueden ser observados, al seleccionar el
botn Caracterstica y ser escuchados al utilizar los botones de reproduccin.

Ecualizador en estado inicial
Ecualizador modificado
Caracterstica del codificador
en estado inicial
Caracterstica del codificador al
modificar las bandas de frecuencia
Botn "Reset", para regresar al ecualizador a su estado inicial

Figura A. 56: Utilizacin del ecualizador

Una vez que se han realizado los cambios necesarios (adicin de efectos de
audio) el archivo de audio modificado (archivo de audio con efectos) puede ser
almacenado en formato *.wav o *.mp3, segn corresponda.

Para poder grabar el archivo de audio con efectos, se selecciona del men
EFECTOS el botn Grabar (Figura A.52), con ello se despliega una ventana
como se indica a continuacin, la cual permite seleccionar la ubicacin y el
nombre del archivo de audio con efectos.
A-33

Directorio en el cual se
almacenar el archivo
Nombre del archivo

Figura A. 57: Grabacin del archivo de audio con efectos

El archivo de audio almacenado en el directorio seleccionado, puede ser
reproducido utilizando cualquier software de audio comercial o dispositivo de
reproduccin.

A.4 RESOLUCIN DE PROBLEMAS

El programa cuenta con mensajes de advertencia los cuales son desplegados al
ingresar un parmetro incorrecto o estar ejecutando el programa de manera
equivocada. Los mensajes son desplegados en su totalidad al estar trabajando
en la ventana Codificador_MP3 ya que en dicha ventana es necesario que el
usuario seleccione el archivo de audio de entrada e ingrese los distintos
parmetros necesarios para la codificacin.

A.4.1 ERROR EN LA FRECUENCIA DE MUESTREO

Si el archivo de audio seleccionado es abierto y tiene una frecuencia de muestreo
diferente a 44.100 Hz, aparecer de inmediato en la pantalla un mensaje de error,
figura A.58, indicando que la frecuencia de muestreo es diferente de 44.100 Hz,
ya que una de las condiciones del archivo de audio de entrada es que tenga
dicha frecuencia.
A-34

Figura A. 58: Error en la frecuencia de muestreo

A.4.2 ERRORES EN EL INGRESO DEL TIEMPO DE CODIFICACIN

A.4.2.1 Ingreso de un tiempo de codificacin muy pequeo

Como se indic anteriormente al seleccionar la tasa de bits, se despliega un
cuadro de edicin para ingresar el tiempo de codificacin requerido, a la par de
esto se indican los tiempos mnimos y mximos de codificacin (figura A.27) y si
el tiempo ingresado es inferior al mnimo se va a tener problemas a futuro en la
codificacin, por ello para evitar de antemano que suceda lo mencionado, se
despliega el mensaje que se observa a continuacin, indicando que la cantidad de
tiempo es insuficiente para que as se vuelva a ingresar un tiempo adecuado.

Figura A. 59: Error al ingresar un tiempo muy pequeo

A.4.2.2 Ingreso de un tiempo de codificacin muy grande

Si por el contrario el tiempo excede el mximo indicado en la figura A.27, se
desplegar un mensaje de error como el que se muestra a continuacin para que
se corrija este error y en el cuadro de edicin se ingrese un tiempo adecuado.

Figura A. 60: Error al ingresar un tiempo muy grande
A-35

A.4.2.3 Ingreso de un valor no numrico

Si se ingresa en el cuadro de edicin (figura A.28) una letra o carcter no
numrico, aparece un mensaje de error como el de la figura A.61 , indicando que
se elimine dicho carcter y se ingrese un nmero en un rango vlido (entre el
mnimo y el mximo permitido).

Figura A. 61: Mensaje de error al introducir un valor no numrico (Ejemplo: letra A)

A.5 RECOMENDACIONES

Como el programa, en el momento de la codificacin del archivo de audio
demanda de muchos recursos del CPU (procesador y memoria) como se muestra
en la figura A.61, es recomendable no correr o ejecutar otra aplicacin.

Adems para poder tener un rendimiento aceptable es recomendable correr el
programa en una computadora que por lo menos conste de un procesador
Pentium IV y 512 MB de RAM.

Uso de recursos del CPU y memoria
en el proceso de codificacin
Uso de recursos del CPU y memoria antes,
durante y despus del proceso de codificacin
Antes de la
codificacin
Durante la
codificacin
Despus de la
codificacin

Figura A. 62: Uso de recursos (CPU y memoria RAM)
B-1

ANEXO B

INSTALACIN DEL TOOLBOX MP3 EN MATLAB

B.1 DESCRIPCIN DE LA INSTALACIN

En ocasiones al disear o ejecutar ciertos programas, resulta indispensable
instalar libreras adicionales a las que se instalan por defecto en el momento de la
instalacin de Matlab, la instalacin de las libreras o toolboxes en el caso de
Matlab, puede ayudar a que el programa funcione si no lo hace, o mejore su
desempeo.

Para el caso del ejemplo que se va describir a continuacin, el primer punto es
conseguir el toolbox, es decir, el mp3_toolbox; dicho toolbox u otros que sean
necesarios, pueden ser descargados desde la pgina oficial de The Mathworks
Inc., o de pginas vinculadas al producto.

Asociado a The Mathworks Inc., existe un sitio web denominado Matlab Central, el
cual consta de informacin, toolboxes y programas de propiedad de los ingenieros
de soporte de The Mathworks Inc. o de los usuarios de Matlab o Simulink, dicho
sitio web cuya direccin es: http://www.mathworks.com/matlabcentral/, constituye
una ayuda para personas de todos los niveles, desde aquellos que se estn
iniciando en el mundo de Matlab y Simulink, hasta personas que tienen mediana o
mucha experiencia al utilizar Matlab o Simulink.

Especficamente el toolbox requerido para que el codificador cumpla su
funcionamiento a cabalidad, puede ser descargado de la siguiente direccin:
http://www.mathworks.com/matlabcentral/fileexchange/13852-mp3read.

B-2

B.2 INSTALACIN DEL TOOLBOX MP3

B.2.1 ALMACENAMIENTO DEL TOOLBOX

Una vez que se obtiene el toolbox, y se lo descomprime si as fuera, hay que
almacenarlo en la carpeta donde se encuentran los dems toolboxes, la ruta
donde se encuentra el directorio puede variar, dependiendo de la configuracin
del equipo o la seleccin de los parmetros de instalacin; para este caso la
direccin en donde se encuentran almacenados todos los toolboxes es:
C:\Archivos de programa\MATLAB\R2009a\toolbox.

Toolbox
mp3_toolbox
C:\Archivos de programa\MATLAB\R2009a\toolbox

Figura B. 1: Almacenamiento del toolbox en el directorio correspondiente

B.2.2 ADICIN DE LA RUTA DE ACCESO AL TOOLBOX

Tener almacenado el toolbox en el directorio correcto no es suficiente para poder
utilizarlo, es necesario actualizar la ruta de acceso al toolbox, para ello hay que
manualmente guardar la informacin necesaria de las rutas de acceso. Como
primer punto, del men File se selecciona la opcin Set Path o seleccionar
ruta, tal y como se observa en la figura B.2.
B-3

Seleccionar ruta de acceso al toolbox

Figura B. 2: Direccionamiento de la ruta donde se encuentra el toolbox

Luego de seleccionar la opcin Set Path aparecer una ventana la cual consta
de varias opciones para aadir la carpeta o subcarpetas pertenecientes al toolbox
requerido, es recomendable seleccionar la Add with Subfolders como se
indica en la figura B.3, seleccionando esta opcin se garantiza que todas las
carpetas y subcarpetas del toolbox se aadan a la ruta de acceso al toolbox.

Aadir carpetas con
subcarpetas

Figura B. 3: Adicin de carpetas y subcarpetas pertenecientes al toolbox
B-4

A continuacin, se despliega una ventana de exploracin, en la cual se debe
ubicar el toolbox que se desea activar.

Bsqueda del
toolbox

Figura B. 4: Direccionamiento del toolbox requerido

Una vez que se ha localizado y seleccionado el toolbox, es necesario guardar los
cambios para que estos tengan efecto, es decir para poder acceder a las
utilidades de toolbox; es necesario seleccionar la opcin save tal y como se
muestra en la figura B.5.

Guarda y actualiza
los cambios

Figura B. 5: Almacenamiento y actualizacin de cambios

B-5

B.2.3 COMPROBACIN DE LA INSTALACIN DEL TOOLBOX

Cumpliendo a cabalidad todos los pasos mencionados anteriormente, finalmente
el toolbox queda almacenado, y activado para ser utilizado. Una de las maneras
ms sencillas para comprobar que el toolbox est listo y funcionando
adecuadamente, es probar la o las funcionalidades para las que est diseado.

Cabe mencionar que por lo general todo toolbox o programa complementario que
se desee instalar, consta de instrucciones tanto de requerimientos como de
funcionamiento, por ese motivo es recomendable revisar la gua o manual de
usuario de cada toolbox antes de utilizarlo; para conocer sus potencialidades y
sus limitaciones.

En el caso del ejemplo, el toolbox instalado (mp3_toolbox) consta de varias
funciones asociadas al toolbox, una de ellas es mp3read, por ello para
comprobar si la instalacin ha sido exitosa se ha procedido a solicitar la ayuda de
dicha funcin a travs del comando help , y como se observa en la figura B.6 la
ayuda ha sido exitosa, ya que al solicitar la ayuda, automticamente se despliega
el texto de informacin asociado a la funcin mp3read, si el toolbox no estara
instalado de una manera correcta en lugar de la informacin de la funcin
correspondiente aparecera el texto mp3read not found en la ventana de
comandos.

Sentencia: help mp3read
Ayuda contextual de la
funcin mp3read

Figura B. 6: Comprobacin del funcionamiento del toolbox

CD 3269

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

CD 3269

Transféré par

Droits d'auteur :

Formats disponibles

ESCUELA POLITCNICA NACIONAL

FACULTAD DE INGENIERA ELCTRICA Y

es el canal normalizado Middle (Suma)

es el canal normalizado Side (Diferencia)

Vous aimerez peut-être aussi