Académique Documents
Professionnel Documents
Culture Documents
debido a que es necesaria una nica red para la transmisin de voz y datos.
Tal es as, que segn el informe de Cisco [6], el gasto de realizacin de
videoconferencias se reducen un 30% con respecto a la telefona
tradicional.
Como ventajas aadidas, mencionar la capacidad de usar protocolos
de encaminamientos dinmicos, que permiten que los paquetes converjan
hacia la mejor ruta, y aplicaciones de monitorizacin, cualidad aadida que
permite a los administradores de red controlar el uso de la misma.
2.3. Estndares
El hecho de usar una red de conmutacin de paquetes hace necesario
solventar ciertos problemas, que surgen de la naturaleza inherente de la
misma, relativos a la comunicacin en tiempo real. Tal es as, que la red ha
ido optimizndose para eliminar, dentro de lo posible, la congestin de la
red y la prdida de paquetes asociada. Sin embargo, todava se est
trabajando en la robustez de la misma y la calidad del sonido transportado.
Es por ello, que los estndares establecidos se centran en tres pilares
bsicamente: los cdecs de audio, los protocolos de transporte y los
servicios de directorio.
As, en el ao 1996, la ITU defini la especificacin H.323, la cual
se basaba en el uso de RTP/RTCP, que determinaba cmo el trfico de voz,
datos y video debe ser transportado sobre una red local basada en IP.
Dentro del conjunto de recomendaciones que compone H.323, se halla el
estndar G.729 para cdec de audio. No obstante, ms adelante se llega al
acuerdo de sacrificar parte de la calidad del sonido en beneficio del ancho
de banda usado. Tal es as que se implanta G.723.1, el cual requiere 6.3
kbps frente a los 8 kbps necesarios anteriormente.
En cuanto a RTP, es un protocolo que permite sincronizar diferentes
flujos de datos pertenecientes a aplicaciones en tiempo real. Sin embargo,
no incluye mecanismos para entregar los paquetes a tiempo, para recuperar
paquetes perdidos o para asegurar la calidad de servicio (QoS). Finalmente,
15
2.4.1.1. Muestreo
La finalidad del muestreo consiste en tomar muestras de la seal
vocal de manera peridica. La periodicidad de las muestras debe satisfacer
el Teorema de Nyquist. Teorema fundamental de la teora de la
informacin que establece que la mnima frecuencia a la que puede ser
muestreada una seal para que pueda ser reconstruida sin perder
informacin debe duplicar la frecuencia mxima de la seal.
Debido a lo expuesto anteriormente, es plausible filtrar la voz
humana a 3,4 KHz sin dejar de ser entendible por el receptor. De tal
manera, y basndose en el mencionado teorema, para que sea posible
reconstruir esta seal a partir de sus muestras, la tasa de muestreo debe ser,
como mnimo, de 6,8 KHz. Teniendo en cuenta que los filtros reales no
pueden implementar cortes abruptos tal cual los tericos, se ha establecido
de manera extendida en la telefona una frecuencia de muestreo de 8 KHz,
lo que equivale a tomar una muestra de voz cada 125 microsegundos.
17
, donde
designa
2.4.1.2. Cuantificacin
Una vez se ha obtenido las muestras a partir de la seal original, el
siguiente paso consiste en la cuantificacin. Este proceso consiste en
convertir las muestras analgicas en muestras que tomen un conjunto de
valores discretos. As, se completa el proceso de la digitalizacin. En la
siguiente figura se muestra un sencillo ejemplo del resultado de este
proceso.
18
19
2.4.1.3. Codificacin
A pesar de ya disponer de una seal digital es necesario codificar los
valores discretos, es decir, asignarles valores numricos, para que sea
posible su empaquetamiento y posterior transmisin. Para llevar a cabo
esta operacin y su inversa se utilizan los cdecs (codificadores /
decodificadores).
2.4.2. Cdecs
Los cdecs pueden ser clasificados en base a distintos factores que
los caracterizan, como pueden ser su tasa de bits, la calidad del audio
codificado, su complejidad, el tipo de tecnologa que usan o el retardo que
introducen.
Originariamente, los cdecs fueron diseados para ser usados en el
rango de frecuencias donde se concentra la mayor parte de energa, entre
los 300 Hz y los 3,4 KHz. Estos cdecs se conocen como de banda estrecha
(NB, NarrowBand). Con posterioridad, se han incluido cdecs capaces de
trabajar en rangos ms amplios, entre 50 Hz y 7 KHz, considerados de
banda ancha (WB, WideBand). Actualmente, la ITU-T ha estandarizado
cdecs de banda superancha (SWB, SuperWideBand), para el rango
comprendido entre 50 Hz y 14 KHz, y de banda completa (FB, FullBand),
para el intervalo de frecuencias de 50 Hz a 20 KHz [7].
Un conjunto de cdecs de banda estrecha se detallan con mayor
profundidad en los siguientes epgrafes, pues son los que se utilizan en la
codificacin de los ficheros de audio usados en este proyecto. Este tipo de
cdecs son los ms usados hoy en da en la telefona mvil y fija.
En cuanto a los de banda ancha se presentan los cdecs ms
representativos en el mbito de la transmisin de audio. La mayor parte
derivan de los cdecs de banda estrecha, aunque se presentan nuevas
alternativas en funcin de su utilizacin. Se estn haciendo ms presentes
20
Tipo de cdec
NB
WB
SWB
FB
Banda de frecuencias
(Hz)
300 - 3400
50 - 7000
50 - 14000
20 - 20000
Calidad esperada
Telfono
Radio AM
Radio FM
CD
21
Cdec
Nombre
Tasa de
bit
(Kbps)
G.711
64 / 56
0,125
G.723.1
Hybrid MPC-MLQ
and ACELP
6,3 / 5,3
37,5
40 / 16 /
12,8 / 9,6
1,25
G.728
G.729
AMR
iLBC
LD-CELP:
LowDelay Code Excited
Linear Prediction
CS-ACELP:
Conjugate Structure
Algebraic Codebook
Excited
Linear
Prediction
Adaptative
Multi
Rate
internet Low Bitrate
Cdec
Retardo
(ms)
11,8 / 8 /
6,4
15
12,2 a
4,75
20
15,2 /
13,33
20 / 30
Comentarios
Utiliza dos posibles leyes de
compresin: -law y A-law
[10]
Desarrollado
inicialmente
para videoconferencias en la
PSTN. Se utiliza actualmente
en VoIP [11]
Diseado para aplicaciones
DCME
(Digital
Circuit
Multiplex Encoding) [12]
Ampliamente utilizado en
aplicaciones de VoIP, a 8
KHz [13]
Utilizado en redes celulares
GSM [14]
Utilizado en VoIP por su
robustez ante prdida de
paquetes [15]
22
Cdec
Tasa de
bit
(Kbps)
Nombre
Retardo
(ms)
64 / 56 /
48
32 / 24
40
96 / 80 /
64
11,875
8 a 32
49
G.722.2 AMR-WB
23,85 a
6,6
25,9375
G.722
Sub-band ADPCM
Comentarios
Originalmente creado para
audio y videoconferencias.
Actualmente utilizado en
servicios de telefona de
banda ancha en VoIP [16]
Usado
en
audio
y
videoconferencias [17]
Ampla el ancho de banda del
cdec G.711, optimizando su
uso para VoIP [18]
Ampla el ancho de banda del
cdec G.729, optimizando su
uso para VoIP con audio de
alta calidad [19]
Estndar en comn con 3GPP
[20]
23
Cdec
G.711.1
SWB
G.722
SWB
Nombre
G.711.1
Superwideband
G.722
Superwideband
SILK
Tasa de
bit
(Kbps)
Retardo
(ms)
128 a 96
12,8125
96 / 80 /
64
48 / 32 /
24
8 a 24
12,3125
40
25
Comentarios
Extensin interoperable con
G711 y G711.1 [21]
Extensin interoperable con
G.722 [22]
Optimizado para su uso en
tiempo real [23]
Utilizado por Skype [24]
como una opcin vlida pues presenta un alto retardo para la telefona en
tiempo real.
Cdec
G.719
Nombre
Low-complexity,
full-band
Tasa de
bit
(Kbps)
Retardo
(ms)
Comentarios
32 a 128
40
Primer
cdec
fullband
estandarizado por la ITU-T
[26]
2.4.2.1. G711
La recomendacin G.711 [10] recoge el cdec bsico en telefona
estandarizado por la ITU-T. Conocido formalmente como Pulse Code
Modulation (PCM) es un cdec del tipo de forma de onda.
G.711 es un estndar para la representacin de seales de audio en la
banda de frecuencias conocida como banda estrecha a partir de una seal
muestreada a una tasa de 8000 muestras por segundo. Teniendo en cuenta
que en la cuantificacin logartmica no uniforme se utilizan 8 bits para
representar cada muestra, se obtiene una tasa de bit de 64 kbit/s.
Por otro lado, el proceso de cuantificacin est implementado
mediante un algoritmo no lineal, debido al comportamiento del odo
humano, minimizando la cantidad de niveles de cuantificacin. Este
algoritmo se basa en aportar pequeas distorsiones para amplitudes
pequeas de seal y un aumento de las mimas con respecto a la amplitud de
la seal.
Se distinguen dos algoritmos principales, la ley , usada en Norte
Amrica y Japn, y la ley A, usada en Europa y el resto del mundo. Ambas
leyes estn compuestas de 256 niveles no lineales de cuantificacin,
correspondiente a los 8 bits disponibles. El primero de ellos permite una
mayor resolucin para elevados rango de seal y hace uso de 15 segmentos
de recta para aproximarse a la curva real, mientras que la segunda
25
2.4.2.2. G.729
El cdec G.729 [13] es un estndar de codificacin de seales
vocales desarrollado por la ITU-T. Est caracterizado por generar una tasa
de bit de 8 kbit/s utilizando el algoritmo CS-ACELP (Conjugate-Structure
Algebraic-Code-Excited Linear-Prediction).
Se enmarca dentro de los cdecs basados en el modelo de sntesis de
voz. Utiliza un mecanismo consistente en dos generadores de impulsos
combinados que se seleccionan de una lista predeterminada (codebook).
Esta tcnica se conoce como CELP. En ella se utilizan ventanas de audio
de 10 ms con una cabida para 80 muestras, puesto que la frecuencia de
muestreo coincide con el caso anterior (8000 muestras por segundo). De tal
manera que cada 10 ms se extraen los parmetros del modelo CELP:
coeficientes del filtro lineal predictivo (LPC), punteros a la tabla de
impulsos adaptativos y fijos (codebook) y ganancias. A partir de los
mencionados coeficientes se obtienen parmetros equivalentes, llamados
LSP (Line Spectrum Pairs), y se cuantifican utilizando vectores predictivos
de dos etapas (VQ).
G.729 es comnmente utilizado en aplicaciones de VoIP debido que
presenta unos requerimientos de ancho de banda considerablemente
inferiores a otros cdecs pertenecientes a la misma familia, vese tabla 2.
Tal como ha sido comentado anteriormente, este estndar opera a una tasa
de bit de 8 kbit/s y genera tramas de 10 ms, por lo que se necesitan de 80
bits para codificar cada ventana de audio. No obstante, existen extensiones
que permiten incrementar o disminuir la calidad de la conversacin pues
stas ofrecen tasas de bit de 11,8 kbit/s y 6,4 kbit/s, respectivamente.
El anexo A de esta recomendacin define un nuevo algoritmo
denominado G.729a con una complejidad menor que G.729 y totalmente
interoperable. Esta reduccin de la complejidad se consigue mediante
simplificaciones en los algoritmos empleados con respecto a la versin
original, que implican la sustitucin de algunos bloques de procesamiento
26
2.4.2.3. AMR
El cdec AMR (Adaptative Multi Rate) [14], a diferencia de los
anteriores, est estandarizado por el organismo 3GPP y es utilizado
tpicamente en redes celulares GSM. En comn con el cdec G.729
presenta la capacidad de hacer uso de las tecnologas DTX, VAD y CNG,
descritos anteriormente.
El nombre adoptado por este cdec proviene de la variedad de
posibilidades de tasa de bit a las que puede operar. Estos regmenes
binarios son los siguientes 12,20; 10,20; 7,95; 6,70; 5,90; 5,15 y 4,75
kbit/s. De forma similar a G.729, su funcionamiento tambin se basa en el
modelo CELP, pero en este caso las ventanas de audio son de 20 ms. De
nuevo la frecuencia de muestreo es de 8000 muestras por segundo por lo
que en cada ventana de audio caben una cantidad de 160 muestras. Cada
ventana, a su vez, se divide en cuatro de 5 ms (40 muestras) cada una.
En base a las velocidades de transmisin el tamao de las tramas
pueden tomar los siguientes valores: 244, 204, 159, 148, 134, 118, 103 95
bits, respectivamente.
27
2.4.2.4. iLBC
iLBC (internet Low Bitrate Cdec) es un cdec de voz desarrollado
por Global IP Solutions [15]. Es muy adecuado para aplicaciones de voz
sobre IP, sobre todo en condiciones de prdida de tramas elevada. Las
causas principales de la existencia de tramas perdidas suelen ser la prdida
o el retraso de los paquetes IP. La mayor parte de los cdecs aprovechan las
dependencias entre tramas de voz, lo que conlleva una propagacin del
error cuando ocurren estos fenmenos. En cambio, las tramas codificadas
mediante el cdec iLBC son totalmente independientes, erradicando el
problema presentado.
En la siguiente figura se muestra una comparacin entre la calidad de
voz en la escala MOS codificada mediante el cdec iLBC frente a dos
cdecs de la ITU-T, G.729 y G.723.1, en funcin de la prdida de paquetes.
En ella se demuestra que al aumentar la prdida de paquetes la calidad
ofrecida por iLBC supera ampliamente a las otras dos alternativas.
28
29