Vous êtes sur la page 1sur 16

2.

VOZ SOBRE IP: PROTOCOLOS Y


CDECS
2.1. Introduccin
En este apartado se presenta una breve descripcin de VoIP junto
con el conjunto de funcionalidades que hacen su uso ventajoso con respecto
a la telefona conmutada. Adems, se presentan los distintos estndares
sobre los que se sustenta la solucin estudiada y el conjunto de cdecs que
van a ser utilizados en la codificacin de las seales de audio.

2.2. Definicin de VoIP


Voz sobre IP [3] es una tecnologa que permite realizar una
conversacin oral haciendo uso de la red de conmutacin de paquetes
mediante el empleo del protocolo IP y conjugndolo con el protocolo RTP
[4], el cual permite ejecutar aplicaciones en tiempo real. Los pasos bsicos
para la generacin de una llamada telefnica a travs de Internet consisten
en la conversin de la voz analgica a un formato digital y la compresin y
empaquetamiento de la seal obtenida para su transmisin. En el extremo
opuesto se realiza el proceso inverso para recuperar la seal vocal. En
cuanto a los dispositivos necesarios para llevar a cabo este proceso pueden
ser tanto un ordenador, un telfono VoIP como un telfono tradicional con
o sin adaptador, dependiendo del tipo de servicio deseado.
Entre las funcionalidades aportadas podemos destacar la posibilidad
de realizar varias llamadas de forma simultnea, la
inclusin
de
protocolos que permiten cifrar y autenticar la trama de datos (Secure RTP)
[5], la integracin con otros servicios disponibles en la red de Internet o el
hecho de que la movilidad es completamente transparente. Adems, desde
el enfoque empresarial, se ha verificado que el uso de la telefona sobre IP
aumenta la productividad y ocasiona costes operacionales ms bajos,
14

debido a que es necesaria una nica red para la transmisin de voz y datos.
Tal es as, que segn el informe de Cisco [6], el gasto de realizacin de
videoconferencias se reducen un 30% con respecto a la telefona
tradicional.
Como ventajas aadidas, mencionar la capacidad de usar protocolos
de encaminamientos dinmicos, que permiten que los paquetes converjan
hacia la mejor ruta, y aplicaciones de monitorizacin, cualidad aadida que
permite a los administradores de red controlar el uso de la misma.

2.3. Estndares
El hecho de usar una red de conmutacin de paquetes hace necesario
solventar ciertos problemas, que surgen de la naturaleza inherente de la
misma, relativos a la comunicacin en tiempo real. Tal es as, que la red ha
ido optimizndose para eliminar, dentro de lo posible, la congestin de la
red y la prdida de paquetes asociada. Sin embargo, todava se est
trabajando en la robustez de la misma y la calidad del sonido transportado.
Es por ello, que los estndares establecidos se centran en tres pilares
bsicamente: los cdecs de audio, los protocolos de transporte y los
servicios de directorio.
As, en el ao 1996, la ITU defini la especificacin H.323, la cual
se basaba en el uso de RTP/RTCP, que determinaba cmo el trfico de voz,
datos y video debe ser transportado sobre una red local basada en IP.
Dentro del conjunto de recomendaciones que compone H.323, se halla el
estndar G.729 para cdec de audio. No obstante, ms adelante se llega al
acuerdo de sacrificar parte de la calidad del sonido en beneficio del ancho
de banda usado. Tal es as que se implanta G.723.1, el cual requiere 6.3
kbps frente a los 8 kbps necesarios anteriormente.
En cuanto a RTP, es un protocolo que permite sincronizar diferentes
flujos de datos pertenecientes a aplicaciones en tiempo real. Sin embargo,
no incluye mecanismos para entregar los paquetes a tiempo, para recuperar
paquetes perdidos o para asegurar la calidad de servicio (QoS). Finalmente,

15

el protocolo LDAP prevalece como candidato para los servicios de


directorios.

2.4. Codificacin de la voz


Las redes de datos, como es el caso de la red IP sobre la que se
soporta este tipo de telefona, son redes digitales. Esto significa que el caso
de transportar seales vocales, originalmente analgicas, requiere que en
algn punto de la red se realice la digitalizacin de la seal de audio. De
esta forma, una seal continua en el tiempo y que toma infinidad de valores
es convertida y cuantificada a una secuencia de nmeros discretos. Esta
tarea suele realizarse, generalmente, en los propios terminales y el
elemento vital involucrado de forma directa es el cdec.
Inicialmente, los cdecs se basaron en codificar de la manera ms
eficiente posible la forma de onda de la seal de entrada, haciendo uso de
caractersticas de la voz y el odo humano (por ejemplo, ha sido
comprobado que el odo es ms sensible a ruidos y distorsiones en seales
de baja amplitud que en aquellas de mayor amplitud). Con el paso del
tiempo, con el objetivo de reducir el ancho de banda consumido en la
transmisin, se comenzaron a utilizar tcnicas predictivas. Estas tcnicas
consisten en predecir los valores de las muestras en funcin de la
extrapolacin obtenidas de las muestras previas, y codificar exclusivamente
la diferencia entre el valor predicho y el valor real de la muestra.
Posteriormente, se aade una nueva idea en la codificacin de la voz. Se
trata de generar voz sinttica la cual emula la produccin de voz en el
aparato fonador humano. En este tema se han diseado modelos vlidos
basados en un generador de impulsos y un filtro lineal ambos variables con
el tiempo.
La voz humana puede incluir tonos que alcancen hasta los 20 KHz,
que est directamente relacionado con el lmite de frecuencias que es capaz
de percibir el odo. Sin embargo, la mayor parte de la energa se concentra
en las frecuencias ms bajas, por debajo de los 4 KHz. Es por ello que la
mayor parte de los cdecs utilizados, considerados de banda estrecha, se
centran en el tratamiento de la voz en ese intervalo. No obstante, se han
16

desarrollados cdecs que cubren un espectro ms amplio a cambio de


ocupar un mayor ancho de banda en la transmisin de los datos a travs de
la red.

2.4.1. Digitalizacin y codificacin


La digitalizacin es el primer paso en el proceso de la transmisin de
voz a travs de la red de paquetes. Esta tarea consiste en la conversin de
una seal de naturaleza analgica en una seal que toma valores discretos.
Para conseguir tal efecto se divide este proceso en dos etapas: muestreo y
cuantificacin.
La tarea de codificacin es la pieza clave donde toma relevancia el
cdec de voz. Se basa en la traduccin de los valores discretos a numricos
para su transmisin.

2.4.1.1. Muestreo
La finalidad del muestreo consiste en tomar muestras de la seal
vocal de manera peridica. La periodicidad de las muestras debe satisfacer
el Teorema de Nyquist. Teorema fundamental de la teora de la
informacin que establece que la mnima frecuencia a la que puede ser
muestreada una seal para que pueda ser reconstruida sin perder
informacin debe duplicar la frecuencia mxima de la seal.
Debido a lo expuesto anteriormente, es plausible filtrar la voz
humana a 3,4 KHz sin dejar de ser entendible por el receptor. De tal
manera, y basndose en el mencionado teorema, para que sea posible
reconstruir esta seal a partir de sus muestras, la tasa de muestreo debe ser,
como mnimo, de 6,8 KHz. Teniendo en cuenta que los filtros reales no
pueden implementar cortes abruptos tal cual los tericos, se ha establecido
de manera extendida en la telefona una frecuencia de muestreo de 8 KHz,
lo que equivale a tomar una muestra de voz cada 125 microsegundos.

17

En la siguiente ilustracin se representa una porcin de una seal


analgica que posee una frecuencia mxima
, que al ser combinada
con un tren de pulsos de una periodicidad

, donde

designa

la frecuencia de muestreo, se consigue una seal muestreada vlida para su


posterior reconstruccin en el extremo receptor de la comunicacin.

Figura 2. Muestreo de una seal analgica.

2.4.1.2. Cuantificacin
Una vez se ha obtenido las muestras a partir de la seal original, el
siguiente paso consiste en la cuantificacin. Este proceso consiste en
convertir las muestras analgicas en muestras que tomen un conjunto de
valores discretos. As, se completa el proceso de la digitalizacin. En la
siguiente figura se muestra un sencillo ejemplo del resultado de este
proceso.

18

Figura 3. Cuantificacin de una seal muestreada.

Como es de esperar, al transformar los infinitos valores que puede


tomar una seal analgica a un conjunto discreto, se produce una distorsin
conocida como ruido de cuantificacin. A pesar de su nombre, esta
distorsin no es propiamente un ruido, pues no proviene de factores
externos, sino que es intrnseco a esta tarea. Existe una relacin directa
entre la cantidad de valores discretos, la distorsin asociada y el ancho de
banda necesario. Esta relacin se basa en que cuanto ms valores discretos
se usen en el proceso de la cuantificacin, menor ser la distorsin pero
mayor la cantidad de informacin que es necesaria transmitir.
A modo de ejemplo, se representa en la siguiente ilustracin el error
cometido en la cuantificacin de una muestra. De modo que se puede
observar la diferencia existente entre el valor tomado por la seal analgica
y el nivel de cuantificacin correspondiente para su muestra.

Figura 4. Error de cuantificacin.

19

2.4.1.3. Codificacin
A pesar de ya disponer de una seal digital es necesario codificar los
valores discretos, es decir, asignarles valores numricos, para que sea
posible su empaquetamiento y posterior transmisin. Para llevar a cabo
esta operacin y su inversa se utilizan los cdecs (codificadores /
decodificadores).

2.4.2. Cdecs
Los cdecs pueden ser clasificados en base a distintos factores que
los caracterizan, como pueden ser su tasa de bits, la calidad del audio
codificado, su complejidad, el tipo de tecnologa que usan o el retardo que
introducen.
Originariamente, los cdecs fueron diseados para ser usados en el
rango de frecuencias donde se concentra la mayor parte de energa, entre
los 300 Hz y los 3,4 KHz. Estos cdecs se conocen como de banda estrecha
(NB, NarrowBand). Con posterioridad, se han incluido cdecs capaces de
trabajar en rangos ms amplios, entre 50 Hz y 7 KHz, considerados de
banda ancha (WB, WideBand). Actualmente, la ITU-T ha estandarizado
cdecs de banda superancha (SWB, SuperWideBand), para el rango
comprendido entre 50 Hz y 14 KHz, y de banda completa (FB, FullBand),
para el intervalo de frecuencias de 50 Hz a 20 KHz [7].
Un conjunto de cdecs de banda estrecha se detallan con mayor
profundidad en los siguientes epgrafes, pues son los que se utilizan en la
codificacin de los ficheros de audio usados en este proyecto. Este tipo de
cdecs son los ms usados hoy en da en la telefona mvil y fija.
En cuanto a los de banda ancha se presentan los cdecs ms
representativos en el mbito de la transmisin de audio. La mayor parte
derivan de los cdecs de banda estrecha, aunque se presentan nuevas
alternativas en funcin de su utilizacin. Se estn haciendo ms presentes

20

debido al hecho de que los operadores mviles estn desarrollando nuevos


servicios en sus redes como el denominado voz en alta definicin.
Los cdecs de banda superancha no son muy numerosos debido a su
reciente inclusin en la transmisin de audio de alta calidad. En general,
son extensiones incluidas en los anexos de cdecs de banda ancha
estandarizados por la ITU-T, a excepcin de SILK desarrollado por Skype.
Por ltimo se han desarrollado los cdecs de banda completa. Estos
presentan una nueva experiencia en la transmisin del audio que no slo
busca proporcionar una alta calidad en la voz humana sino que pretende
captar el sonido ambiental. Los dos ms recientes son las extensiones de
G.711.1 y G.722 [8].
En la tabla 1 se recoge una comparativa de la calidad de audio
esperada para los distintos tipos de cdec, atendiendo a la banda de
frecuencias de funcionamiento. Estas conclusiones junto con las grficas
comparativas presentadas a continuacin han sido extradas por el equipo
de investigacin de Nokia [9].

Tipo de cdec
NB
WB
SWB
FB

Banda de frecuencias
(Hz)
300 - 3400
50 - 7000
50 - 14000
20 - 20000

Calidad esperada
Telfono
Radio AM
Radio FM
CD

Tabla 1. Calidad esperada segn el tipo de cdec.

El siguiente conjunto de tablas muestran los cdecs de voz ms


representativos pertenecientes a cada tipo de cdec, segn la clasificacin
establecida. En ellas se recoge las tasas de bit y el retraso generado en la
codificacin, y su aplicacin bsica en las comunicaciones.

21

Cdec

Nombre

Tasa de
bit
(Kbps)

G.711

PCM: Pulse Code


Modulation

64 / 56

0,125

G.723.1

Hybrid MPC-MLQ
and ACELP

6,3 / 5,3

37,5

40 / 16 /
12,8 / 9,6

1,25

G.728

G.729

AMR
iLBC

LD-CELP:
LowDelay Code Excited
Linear Prediction
CS-ACELP:
Conjugate Structure
Algebraic Codebook
Excited
Linear
Prediction
Adaptative
Multi
Rate
internet Low Bitrate
Cdec

Retardo
(ms)

11,8 / 8 /
6,4

15

12,2 a
4,75

20

15,2 /
13,33

20 / 30

Comentarios
Utiliza dos posibles leyes de
compresin: -law y A-law
[10]
Desarrollado
inicialmente
para videoconferencias en la
PSTN. Se utiliza actualmente
en VoIP [11]
Diseado para aplicaciones
DCME
(Digital
Circuit
Multiplex Encoding) [12]
Ampliamente utilizado en
aplicaciones de VoIP, a 8
KHz [13]
Utilizado en redes celulares
GSM [14]
Utilizado en VoIP por su
robustez ante prdida de
paquetes [15]

Tabla 2. Cdecs de banda estrecha.

Figura 5. Comparacin entre AMR y cdecs de la serie G de la ITU-T.

22

La comparacin entre AMR y la serie G de la ITU-T (figura 5),


revela que el primero de ellos es ligeramente mejor, en cuanto a calidad del
sonido, para tasa de bits similares.

Cdec

Tasa de
bit
(Kbps)

Nombre

Retardo
(ms)

64 / 56 /
48

G.722.1 Transform Coder

32 / 24

40

G.711.1 WideBand G.711

96 / 80 /
64

11,875

G.729.1 WideBand G.729

8 a 32

49

G.722.2 AMR-WB

23,85 a
6,6

25,9375

G.722

Sub-band ADPCM

Comentarios
Originalmente creado para
audio y videoconferencias.
Actualmente utilizado en
servicios de telefona de
banda ancha en VoIP [16]
Usado
en
audio
y
videoconferencias [17]
Ampla el ancho de banda del
cdec G.711, optimizando su
uso para VoIP [18]
Ampla el ancho de banda del
cdec G.729, optimizando su
uso para VoIP con audio de
alta calidad [19]
Estndar en comn con 3GPP
[20]

Tabla 3. Cdecs de banda ancha.

Figura 6. Comparativa entre cdecs de banda ancha.

23

De nuevo, puede apreciarse que, en la mayor parte de los casos, el


cdec AMR de banda ancha sigue proporcionando mejor calidad de audio
que el resto de los cdecs analizados.

Cdec
G.711.1
SWB
G.722
SWB

Nombre
G.711.1
Superwideband
G.722
Superwideband

G.722.1C Anexo C de G.722.1


SILK

SILK

Tasa de
bit
(Kbps)

Retardo
(ms)

128 a 96

12,8125

96 / 80 /
64
48 / 32 /
24
8 a 24

12,3125
40
25

Comentarios
Extensin interoperable con
G711 y G711.1 [21]
Extensin interoperable con
G.722 [22]
Optimizado para su uso en
tiempo real [23]
Utilizado por Skype [24]

Tabla 4. Cdecs de banda superancha.

Figura 7. Comparativa de cdecs de banda superancha.

En la anterior grfica se comprueba que AMR de banda ancha


extendido, AMR-WB+ [25], contina siendo el cdec que aporta mayor
calidad a la comunicacin. No obstante, no se ha incluido en la tabla 4
24

como una opcin vlida pues presenta un alto retardo para la telefona en
tiempo real.

Cdec

G.719

Nombre
Low-complexity,
full-band

Tasa de
bit
(Kbps)

Retardo
(ms)

Comentarios

32 a 128

40

Primer
cdec
fullband
estandarizado por la ITU-T
[26]

Tabla 5. Cdec de banda completa.

2.4.2.1. G711
La recomendacin G.711 [10] recoge el cdec bsico en telefona
estandarizado por la ITU-T. Conocido formalmente como Pulse Code
Modulation (PCM) es un cdec del tipo de forma de onda.
G.711 es un estndar para la representacin de seales de audio en la
banda de frecuencias conocida como banda estrecha a partir de una seal
muestreada a una tasa de 8000 muestras por segundo. Teniendo en cuenta
que en la cuantificacin logartmica no uniforme se utilizan 8 bits para
representar cada muestra, se obtiene una tasa de bit de 64 kbit/s.
Por otro lado, el proceso de cuantificacin est implementado
mediante un algoritmo no lineal, debido al comportamiento del odo
humano, minimizando la cantidad de niveles de cuantificacin. Este
algoritmo se basa en aportar pequeas distorsiones para amplitudes
pequeas de seal y un aumento de las mimas con respecto a la amplitud de
la seal.
Se distinguen dos algoritmos principales, la ley , usada en Norte
Amrica y Japn, y la ley A, usada en Europa y el resto del mundo. Ambas
leyes estn compuestas de 256 niveles no lineales de cuantificacin,
correspondiente a los 8 bits disponibles. El primero de ellos permite una
mayor resolucin para elevados rango de seal y hace uso de 15 segmentos
de recta para aproximarse a la curva real, mientras que la segunda
25

proporciona ms niveles de cuantificacin para amplitudes de seal ms


reducidas y slo utiliza 13 segmentos de recta.

2.4.2.2. G.729
El cdec G.729 [13] es un estndar de codificacin de seales
vocales desarrollado por la ITU-T. Est caracterizado por generar una tasa
de bit de 8 kbit/s utilizando el algoritmo CS-ACELP (Conjugate-Structure
Algebraic-Code-Excited Linear-Prediction).
Se enmarca dentro de los cdecs basados en el modelo de sntesis de
voz. Utiliza un mecanismo consistente en dos generadores de impulsos
combinados que se seleccionan de una lista predeterminada (codebook).
Esta tcnica se conoce como CELP. En ella se utilizan ventanas de audio
de 10 ms con una cabida para 80 muestras, puesto que la frecuencia de
muestreo coincide con el caso anterior (8000 muestras por segundo). De tal
manera que cada 10 ms se extraen los parmetros del modelo CELP:
coeficientes del filtro lineal predictivo (LPC), punteros a la tabla de
impulsos adaptativos y fijos (codebook) y ganancias. A partir de los
mencionados coeficientes se obtienen parmetros equivalentes, llamados
LSP (Line Spectrum Pairs), y se cuantifican utilizando vectores predictivos
de dos etapas (VQ).
G.729 es comnmente utilizado en aplicaciones de VoIP debido que
presenta unos requerimientos de ancho de banda considerablemente
inferiores a otros cdecs pertenecientes a la misma familia, vese tabla 2.
Tal como ha sido comentado anteriormente, este estndar opera a una tasa
de bit de 8 kbit/s y genera tramas de 10 ms, por lo que se necesitan de 80
bits para codificar cada ventana de audio. No obstante, existen extensiones
que permiten incrementar o disminuir la calidad de la conversacin pues
stas ofrecen tasas de bit de 11,8 kbit/s y 6,4 kbit/s, respectivamente.
El anexo A de esta recomendacin define un nuevo algoritmo
denominado G.729a con una complejidad menor que G.729 y totalmente
interoperable. Esta reduccin de la complejidad se consigue mediante
simplificaciones en los algoritmos empleados con respecto a la versin
original, que implican la sustitucin de algunos bloques de procesamiento
26

por otros ms sencillos y la fijacin de ciertos parmetros que en la versin


completa varan en base al audio a codificar. En contraposicin, la calidad
de la conversacin es empeorada.
En el anexo B se proporciona un esquema para la deteccin de
actividad vocal (VAD, Voice Activity Detection) y supresin de silencios
mediante el uso de las conocidas tramas SID. Gracias a este modelo es
posible realizar una transmisin discontinua (DTX) en la cual se decide
si se transmite voz o se genera ruido de confort (CNG). En caso de generar
ruido de confort, la actualizacin de los parmetros de ruido de fondo es
empaquetada en las mencionadas tramas SID. De tal forma que en el
extremo receptor se distinguen si las tramas recibidas son activas o de
silencio. Esta nueva implementacin permite la reduccin del ancho de
banda total utilizado, ya que no se transmiten muestras durante los perodos
de silencio, excepto la informacin de actualizacin del ruido de confort.

2.4.2.3. AMR
El cdec AMR (Adaptative Multi Rate) [14], a diferencia de los
anteriores, est estandarizado por el organismo 3GPP y es utilizado
tpicamente en redes celulares GSM. En comn con el cdec G.729
presenta la capacidad de hacer uso de las tecnologas DTX, VAD y CNG,
descritos anteriormente.
El nombre adoptado por este cdec proviene de la variedad de
posibilidades de tasa de bit a las que puede operar. Estos regmenes
binarios son los siguientes 12,20; 10,20; 7,95; 6,70; 5,90; 5,15 y 4,75
kbit/s. De forma similar a G.729, su funcionamiento tambin se basa en el
modelo CELP, pero en este caso las ventanas de audio son de 20 ms. De
nuevo la frecuencia de muestreo es de 8000 muestras por segundo por lo
que en cada ventana de audio caben una cantidad de 160 muestras. Cada
ventana, a su vez, se divide en cuatro de 5 ms (40 muestras) cada una.
En base a las velocidades de transmisin el tamao de las tramas
pueden tomar los siguientes valores: 244, 204, 159, 148, 134, 118, 103 95
bits, respectivamente.

27

2.4.2.4. iLBC
iLBC (internet Low Bitrate Cdec) es un cdec de voz desarrollado
por Global IP Solutions [15]. Es muy adecuado para aplicaciones de voz
sobre IP, sobre todo en condiciones de prdida de tramas elevada. Las
causas principales de la existencia de tramas perdidas suelen ser la prdida
o el retraso de los paquetes IP. La mayor parte de los cdecs aprovechan las
dependencias entre tramas de voz, lo que conlleva una propagacin del
error cuando ocurren estos fenmenos. En cambio, las tramas codificadas
mediante el cdec iLBC son totalmente independientes, erradicando el
problema presentado.
En la siguiente figura se muestra una comparacin entre la calidad de
voz en la escala MOS codificada mediante el cdec iLBC frente a dos
cdecs de la ITU-T, G.729 y G.723.1, en funcin de la prdida de paquetes.
En ella se demuestra que al aumentar la prdida de paquetes la calidad
ofrecida por iLBC supera ampliamente a las otras dos alternativas.

Figura 8. Comparativa de calidad de iLBC frente a G.729 y G.723.1.

28

Est diseado para la voz en banda estrecha y permite trabajar a dos


tasas de bit que generan dos tamaos de trama distintos, 30 ms para una
tasa de 13,33 kbit/s y 20 ms para 15,20 kbit/s. De tal manera que una trama
de 20 ms contiene 304 bits, mientras que una de 30 ms est formada por
400 bits. La frecuencia de muestreo sigue siendo de 8000 muestras por
segundo por lo que se codifican 160 muestras para tramas de 20 ms y 240
muestras para tramas de 30 ms.

29

Vous aimerez peut-être aussi