Vous êtes sur la page 1sur 34

Captulo II

Codificacin de la Voz
El primer paso en VoIP es El gran salto en tcnicas
convertir la seal de compresin se logra
analgica en una seal con la aparicin de DSP
digital. (Digital Signal Procesor),
Desde hace muchos aos dado que si bien las bases
se conoce el principio de matemticas estaban dadas
PCM, el cual comienza desde hacia aos, el bajo
hacia los aos 40. nivel de procesamiento de
Hacia los aos 50 se la poca, no permita
comienza a trabajar sobre obtener resultados en
lo que se toma como el tiempo real.
precursor del Vocoder, el Con lo cual los algoritmos
cual progresa recin en la de mayor compresin
era digital, dado que la aparecen hacia fines de los
tecnologa analgica no 80.
era suficiente.
Codificacin de la Voz
La ITU normaliz las De lo visto anteriormente,
distintas tcnicas de la ITU, gener una serie
de especificaciones para el
compresin, algunas
servicio de Multimedia
de las cuales segn el medio de
utilizaremos en VoIP. transporte, especificando
adems que tipo de
Ao Norma Tcnica Velocidad (Kb/s)
1972 G.711 PCM 64
compresin utilizar en
1984 G.721 ADPCM 32 cada caso.
1988 G.722 ADPCM 48, 56 Y 64
1992 G.728 LD-CELP 16
1995 G.729 CS-CELP 8
1995 G.723.1 MPC-MLQ 5,3 Y 6,4
Codificacin de la Voz
Medio Especificacin Compresin Voz Velocidades La razn por la cual
ATM H.310/321 G.711, 728 16 y 64 Kb/s existen tantas variantes en
IP H.323 G.711, 723.1, 729 5,3 ; 8 y 64 Kb/s la compresin, se debe a
Ethernet H.322 G.711, 728 16 y 64 Kb/s
POTS H.324 G.723.1, 729 5,3 y 8 Kb/s aos de investigacin y
ISDN H.320 G.711, 728 16 y 64 Kb/s una meta en comn:
menor velocidad
mayor calidad
Por lo tanto en VoIP,
mayor eficiencia en el
utilizaremos: algoritmo
G.711
menor retardo en la
G.723.1 compresin
G.729
Codificacin de la Voz
La codificacin de la
Estos tres grandes grupos
voz se subdivide, se caracterizan por:
segn:
codificacin por forma de
onda.
Vocoder (Voice CODER),
basado en el principio de
generacin de la voz.
Hbridos, se combinan los
dos anteriores, logrando lo
mejor de cada uno. (alta
calidad / bajo bitrate)
Codificacin por forma de onda
A este tipo de
codificadores
corresponden:

G.711 - PCM
G.721 - ADPCM
G.726 - ADPCM
G.711 - Pulse Code Modulation
Pertenece a los
codificadores por forma de Por el Teorema de
onda Nyquist, se debe cumplir
Es la codificacin por que:
excelencia en los sistemas Fs 2 * Fi
TDM,el mismo esta Por lo tanto la Fs
compuesto por: (frecuencia de sampling) o
muestreo muestreo se toma de 8
cuantificacin Khz.
uniforme
Lo cual arroja un numero
logartmica
de 8000 muestras de la
codificacin
seal de entrada por cada
Para el canal telefnico de segundo.
4 Khz de ancho de banda.
La seal de entrada es
muestreada a Fs.
G.711 - Pulse Code Modulation
Por lo tanto a la salida del
muestreador tendremos: Uniforme: se dividen
las posibles
combinaciones
binarias en forma
Luego dichas muestras simtrica entre los
deben ser cuantificadas, distintos niveles de la
para lo cual tendremos en
principio dos opciones: muestra.
cuantificacin uniforme
cuantificacin logartmica
G.711 - Pulse Code Modulation
Logartmica: se aplica una La cual presentan leves
asignacin no lineal entre diferencias en la
codificacin disponible y correspondencia de
niveles de las muestras, niveles.
buscando con esto un Siendo la Ley A empleada
mejor comportamiento en Europa y la Ley m en
ante seales de entrada de USA.
bajo nivel. En los casos de llamadas
Este proceso alineal sigue internacionales nos vemos
una transferencia del tipo en la obligacin de
logartmica, la cual la ITU realizar la conversin
pasa a llamar: entre Ley m - Ley A, el
Ley A cual ha sido fijado por la
Ley m ITU como responsabilidad
del pas de Ley m.
G.721 - ADPCM
ADPCM (Adaptative Por lo tanto se logra una
Diferential Pulse Code menor dispersin en la
Modulation), variante del diferencia de las muestras
PCM, que busca optimizar que con las muestras
la velocidad.
mismas.
La seal PCM presenta
una gran correlacin entre Dada la baja dispersin, se
las muestras. La cual puede utilizar un nivel de
dependiendo de la codificacin inferior,
variacin de la seal de reduciendo as, la cantidad
entrada puede llegar a ser de bits a emplear.
bastante importante.
G.721 - ADPCM
ADPCM, utiliza para la
codificacin de la
diferencia de las muestras
solamente 4 bits. La parte adaptativa de
El predictor, cumple la mtodo permite,
funcin de estimar la trabajar en dos modos,
salida en base a: segn la seal de
6 variaciones anteriores
2 diferencias de muestras
entrada:
Dado que los valores rpido voz
mencionados estn en lento datos
funcin de la velocidad de
variacin de la seal de
entrada, se busca poder
adaptar los mismos a
dicha seal.
G.721 - ADPCM
Por qu comprimir?

Algunos se preguntarn porque es necesaria


la compresin de la voz, si en las redes
analgicas no se realiza dicha tcnica e
inclusive 64 Kb/s no parece demasiado?
Por qu comprimir?
He aqu un breve ejemplo
numrico que servir para
aclarar las cosas. Las muestras se toman a 8 Khz, lo
cual corresponde a 125 ms cada
Debemos convertir la una.
seal de entrada analgica Cada muestra se codifica con 8
en bits sobre la red para lo bits, lo cual nos queda:
cual emplearemos G.711. 8000 m/s * 8 bits/m = 64 Kb/s
Luego debemos insertar cada
El proceso simplificado muestra en un paquete para su
ser en siguiente: transmisin en la red, (por lo tanto
muestrear el encabezado ser de 58 bytes)
1 byte muestra + 58 encabezado
cuantificar
Debo enviar 1 paquete por cada
codificar muestra
paquetizar
transmitir a la red
Por qu comprimir?
El error esta en el proceso
Con lo cual tenemos: de paquetizado, en el cual
1 seg. = 8000 muestras por cada muestra, debido a
1 muestra = 1 paquete los protocolos a emplear
1 paquete = 59 bytes (Eth/IP/UDP/RTP), cada
1 byte = 8 bits paquete posee un
1 seg. = 8000 * 59 * 8 encabezado de 58 bytes.
1seg = 3.776.000 bits Los cuales resultan
G.711 => 3,77 Mb/s absurdos comparados con
nuestra carga.
Por lo tanto con este
sistema no podremos La solucin entonces es
enviar ni un solo canal en aumentar la carga de
una trama E1. manera de equilibrar la
relacin
carga/encabezado.
Por qu comprimir ?
Las soluciones al
Periodo de paquetizado: se problema encontrado
denomina al tiempo pasan por:
transcurrido en la reducir la velocidad de
obtencin de n tramas, codificacin
para el posterior emplear varias muestras por
paquetizado. cada paquete a enviar
reducir el overhead del
Dicho numero aparece en paquete, de manera de
las recomendaciones de la optimizar el transporte.
ITU, pero segn el caso Veremos ms adelante que
puede ser modificado a cada opcin posee
criterio del usuario. ventajas y desventajas, las
cuales deben ser
cuidadosamente
estudiadas
Otras tcnicas de Codificacin
A difererencia de las tcnicas de codificacin por
forma de onda, las cuales han probado su utilidad,
con la difusin del G.711 y dems.
El mercado demandaba una compresin aun
mayor, poder transmitir voz con velocidades aptas
a interfaces seriales de baja velocidad.
Era claro que la tcnica de codificacin por forma
de onda no provea la solucin, dado que la
calidad de voz se degrada fuertemente con la
reduccin de velocidad.
Dicho requerimiento requiri un estudio, ms
profundo de las seales y capacidades de
procesamiento en MIPS, cada ves ms
importantes.
Anlisis de la voz
Segn lo visto anteriormente, resulta fundamental poder
comprimir la voz, para lograr bit rates menores, del
anlisis temporal de la voz humana, surgen algunos
elementos que pueden ayudar en la compresin.
La naturaleza repetitiva (peridica) de la voz.
Anlisis de la voz
Las pausas realizadas en la misma conversacin.
Anlisis de la voz
Por lo que se Con lo cual nos
comienza un estudio encontramos con las
exhaustivo de la voz y componentes
sus propiedades, esenciales y
buscando factores que composicin de la voz,
ayuden a la tomando esta como
compresin de la una conversacin
misma. normal en un dialogo
telefnico.
Codificacin VOCODER
El principio de Se ataca el problema
codificacin, es el de
enviar solamente los mediante el estudio de
parmetros que permitan la generacin de la
la sntesis de la seal en el voz.
otro extremo y que esta (al
odo humano) resulte Se busca un modelo
similar a la seal de matemtico cuyo
origen. comportamiento se
El hecho de que resulte asemeje al sistema del
similar al odo se debe a
que en el proceso de habla.
anlisis y posterior
sntesis,las formas de onda
Vocoder LPC
El flujo de aire enviado de los
pulmones genera las
modificaciones en el volumen. Lo que se busca es
Las cuerdas vocales vibran, poder extraer
generando los sonidos, siendo coeficientes que
responsables del tono del
mismo. permitan generar los
Variaciones en el sonido son sonidos y a la vez
logradas por cambios en la requieran menos
forma del tracto vocal
troughput para su
Dicho anlisis de los
componentes humanos envo.
involucrados en el habla, se
modelizan matemticamente.
El modelo matemtico
empleado es:
Vocoder LPC
Este sistema permite el
llamado LPC (Linear
Prediction Coding)
Las muestras se Todas las variables de
determinan como una estado estn contenidas en
funcin lineal de una A.
secuencia de excitacin, Los valores
para lo cual se emplean representativos de A, se
tambin muestras reducen a 13 y estos a su
anteriores. vez son enviados en
Los coeficientes A, son tramas a razn de 50
enviados a destino tramas por segundo.
A contienen La informacin brindada
informacin del filtro LPC por A, permite al filtro
(sus 10 polos), la LPC, generar una seal
ganancia, variacin y similar a la de origen.
duracin.
Vocoder LPC
La tcnica VOCODER,
permite bajos bitrates, los
cuales oscilan entre 3 a 8
Kb/s
Lo que presenta una
notable mejora en
comparacin con las
tcnicas de codificacin
de forma de onda
El inconveniente quizs
con esta tcnica es que el
sonido logrado por sntesis
en el extremo opuesto,
pierde el tinte de la voz,
Codificacin Hbrida
A este tipo de
codificadores
corresponden:

G.723.1, MPC-
MLQ
G.728, LD-CELP
G.729, CS-CELP
Codificacin Hbrida
Se basa en utilizar los dos VSELP (Vector Sum
mtodos anteriores, Excited Linear Prediction)
buscando la alta calidad de RPE-LTP (Regular Pulse
Excitation - Long Term
la codificacin por forma Prediction)
de onda y los bajos
bitrates de la codificacin Luego tenemos a su vez
Vocoder. leves variantes dentro de
cada tipo, pero a fines de
Se los subdivide en: no complicar en exceso el
RELP (Residual Excited anlisis, nos centraremos
Linear Prediction Coding)
en los procesos
MPC (Multiple Pulse
Coding)
involucrados en VoIP, los
CELP (Code Excited Linear
cuales son: CELP y MPC
Prediction)
Hbrida CELP
El Filtro predictivo, es
Al ser una tcnica hbrida, como en LPC, de orden
se usa la prediccin lineal 10, y responde a la seales
(LPC) y adems se formadoras de la voz de
analizan las muestras bajo retardo.
convirtiendolas en Las componentes de alto
vectores con un peso retardo, son modeladas
asignado. mediante un diccionario
CELP de u tratamiento adaptativo.
diferenciado a las La incorporacin del
componentes segn su anlisis de alto retardo
retardo, dividiendolas en: busca mantener el timbre
bajo retardo (pitch) de la seal original,
alto retardo de manera de subir el
ndice MOS.
Hbrida CELP
De ambas seales se CELP enva al otro
obtiene la seal de error extremo solamente los
de prediccin. ndices de las tablas, las
Dicha seal es codificada ganancias de cada seal
mediante el uso de otro formadora y los
diccionario, el cual coeficientes del filtro
contiene muestras de ruido LPC.
blanco aleatorio. El decodificador
El hecho de trabajar con obviamente posee dichas
diccionarios, o sea en tablas y ajusta los niveles
definitiva tablas cuyos de ganancia, permitiendo
valores estn indexados, junto con el predictor
me permite reducir la lineal, sintetizar la seal
informacin a enviar. original.
Hbrida CELP
El hecho que en el
transmisor se compare la
seal sintetizada y la seal
original, obteniendo el No menos de 15
error entre ambas y luego millones de
realimentando dicho error operaciones por
en el sintetizador de segundo (MIPS)
manera de minimizar el 6 KB de memoria
error, no s asegura una
RAM
mejora notable en la
calidad. con retardos de unos
Pero cabe destacar que el 15 ms, en el
CELP requiere gran procesamiento.
cantidad de
procesamiento, lo que
exige al DSP:
Hbrida CELP
Calidad de la voz
El hecho que los
codificadores hbridos y
Vocoder, generen seales
MOS (mean opinion score)
por sntesis las cuales
DAM (diagnostic
puede diferir en la forma acceptability measure)
de onda, pero generan un
percepcin similar por
El mtodo de evaluacin
parte de la persona que
ms utilizado es el MOS,
recibe el dialogo, nos
el cual se basa en escuchas
fuerza a cambiar los
realizadas por expertos
mtodos tradicionales de
audiofilos, los cuales son
medicin de calidad.
sometidos a escuchas,
Pasamos entonces a evaluando las mismas con
basarnos en mtodos un puntaje entre 1 y 5
subjetivos de percepcin, siendo malo y muy buenos
como ser: respectivamente.
Calidad de la voz
Si comparamos entre s las Luego si comparamos
tres tcnicas de
compresin, nos entre s, los distintos
encontraremos con: mtodos de Velocidad MOS
Norma
compresin 64
G.711 4,1
G.726 32 3,85
obtendremos: 16 3,61
G.728
G.729 8 3,92
G.729A 8 3,7
G.723.1 (MPC-MLQ) 6,3 3,9
G.723.1 (ACELP) 5,3 3,65
Procesamiento de la seal
Como es de suponer, todo
este preprocesamiento y
post procesamiento de la Si bien los cdigos y
seal, incorpora retardos a procesadores difieren
la misma. en capacidades y
Retardo que dependen velocidades, los
directamente del tamao
del cdigo a implementar
retardos tpicos estn
en el DSP, la potencia del ya tabulados y sobre
mismo, utilizacin de estos trabajaremos.
memoria y dems
parametros que son
evaluados a la hora de
elegir una u otra
codificacin.
Comparativa de codificaciones
A modo de ejemplo veremos como las distintas codificaciones alteran la calidad del
patrn de prueba.
Permitiendo realizar una comparativa similar a la realizada por MOS.

Muestra Norma Tamao Codificacin


Patrn 2,39 MB PCM, 48 Khz, 16 bits, mono
G.711, ley A 198 KB PCM, 8 Khz, 8 bits
G.711, ley mu 198 KB PCM, 8 Khz, 8 bits
G.721 102 KB ADPCM, 8 Khz, 4 bits
G.729 102 KB CS-CELP

Vous aimerez peut-être aussi