Vous êtes sur la page 1sur 34

Compresin de datos

de vdeo y audio

If

5.1 . Introduccion
Los servicios de radio y televisin denominados digitales se distinguen de los
analgicos clsicos por su condicin de multiservicio y por el aumento de la calidad del sonido y de la imagen reproducidos en los receptores. Estn basados en
procedimientos de compresin de sus datos para que el flujo resultante se pueda
ubicar en los anchos de banda establecidos. Una excepcin es la radio digital del
sistema DAB, para la que se han establecido nuevos canales en bandas diferentes
de las tradicionales de FM (88-108 MHz), pero la televisin digital est situada
espectralmente en espacios radioelctricos abandonados o prximos a los de la
televisin analgica, independientemente de su medio de propagacin por enlaces de tierra o satlite. As, en el ancho de banda de un canal analgico se puede
ubicar una diversidad de programas digitales con ms calidad que los analgicos,
lo que parece una paradoja. Naturalmente, entre ellos estn los procesos digitales
de compresin de datos.
La compresin en los medios audiovisuales actuales est basada en la supresin
de la redundancia de los datos correspondientes a las muestras digitales de la imagen y el sonido con procedimientos establecidos, primero por el JPEG (Joint
Photographic Expert Group) y despus por el MPEG (Motion Picture Experts
Group), grupos estos de expertos procedentes de instituciones acadmicas, radiodifusores y de la industria privada de la electrnica de consumo que desarrollaron
un conjunto de medios (herramientas, como se describen comnmente en la literatura tcnica) para reducir de modo muy considerable el flujo binario de los datos
correspondientes al mensaje audiovisual y con ello el ancho de banda necesario.
Sin tales procedimientos, los nuevos canales ocuparian un espacio radioelctrico

Compresin de datos de vdeo y audio

mucho mayor del establecido y la radio y la televisin digitales no habran podido


salir de los laboratorios.

Entropia y redundancia
La compresin persigue reducir el flujo binario del mensaje sin prdida apreciable de su calidad subjetiva. Se cuantifica con el factor de compresin, que corresponde al cociente resultante de los flujos de datos de entrada y salida. As:
ni
C:-
n2
donde,
ni = Cantidad de datos originales.
n2 = Cantidad de datos despus del proceso de codificacin.
El entramado de procedimientos que se ha desarrollado para permitir la necesaria reduccin del flujo binario y as facilitar el establecimiento de la radio y la
televisin digitales, tiene como base fundamental las condiciones de la vista y el
odo del ser humano.
Estudios llevados a cabo sobre nuestra capacidad sensorial para la captacin de
imgenes y estmulos sonoros han puesto de manifiesto condiciones favorables
para la compresin. As, en cuanto a la imagen reproducida en un transductor, a
esta se le puede suprimir un cierto nmero de detalles sin que provoque en nosotros prdida apreciable de calidad. Del mismo modo, los niveles de brillo y color
pueden reducirse en nmero sin que se aprecie defecto o carencia de calidad por
las condiciones de sensibilidad sensorial. El valor en que se debe incrementar el
brillo, por ejemplo, para captar el cambio es conocido, cuantificado y aprovechado en los procesos de compresin de datos.
En cuanto al sonido Se dan condiciones para la compresin en los momentos de
enmarcaramiento que se producen cuando se solapan en el tiempo seales de
procedencias diferentes (por ejemplo de diferentes instrumentos musicales), ante
seales de tiempo muy corto y con seales que tienen un nivel inferior al del
umbral del odo humano. Tales condiciones permiten un factor de compresin
muy elevado.
En la compresin de datos digitales sin prdida apreciable de la calidad subjetiva, se dan dos conceptos fundamentales, que son la entropa y la redundancia.
Ante un mensaje convencional a transmitir, la entropa se define como la mnima informacin necesaria que hay que trasladar al receptor, para que ste lo
interprete en su totalidad. La entropa determina, por tanto, la longitud mnima
del mensaje, lo que equivale al flujo de datos temporal de una determinada
informacin.

_?

Compresin de datos de vdeo y audio

En cuanto a la redundancia, sta se define como la repeticin de los hechos, lo


que se traduce en la aparicin de detalles iguales o muy prximos, lo que permite suprimir los redundantes para no transmitirlos y que los regenere el receptor
con la informacin adicional que se enva. Por ejemplo, surge redundancia en los
detalles de imagen adyacentes de un campo (redundancia espacial) y entre los
sucesivos campos (redundancia temporal). El nmero de los detalles de imagen
redundantes y de la redundancia entre campos depende, como es obvio, de la
naturaleza del espacio de televisin de que se trate, de tal modo que el nmero es
grande ante telenovelas y similares y pequeo en encuentros deportivos, en los
que el movimiento de los elementos en escena es constante.

Redundancia espacial y temporal


La redundancia espacial es referida a las muestras de la seal de imagen cuyo
valor es igual o muy prximo entre s para poder apreciarlas, lo que permite su
supresin durante el proceso de codificacin, con la consiguiente recuperacin en
la descodifcacin que tiene lugar en el receptor.
Los procedimientos para la compresin en el espacio fueron desarrollados por
el JPEG, cuya pretensin inicial era crear las bases tecnolgicas de la fotografa
digital (imagen fija).

i
l

A diferencia de la redundancia espacial, la temporal es la que se produce entre


imgenes (campos) sucesivas. Es una extensin del JPEG que fue desarrollada por
el MPEG para el tratamiento de seales de vdeo de condicin continua, como las
de la televisin.
Si en la situacin espacial se analiza el histograma de una imagen para hallar y
suprimir los pxeles que se consideren redundantes, los cuales son muy abundantes en las imgenes cotidianas, enla redundancia temporal se analizan las diferencias entre las sucesivas imgenes con la finalidad de codificar para transmitir slo
los cambios observados, que pueden tener principalmente las tres siguientes condiciones:
1. En la imagen actual, respecto dela anterior, han aparecido nuevos objetos en

escena.
2. No hay nuevos objetos, pero han cambiado sus coordenadas de posicin o
tamao respecto de la imagen anterior.
3. No se han producido cambios.
Las diferencias, si las hay, son las que se codifican. Si no hay cambios entre las
sucesivas imgenes, se considera que la nueva imagen es completamente redundante.

L_

Compresin de datos de vid Y 0Ud

25.4. Imagen digital para el proceso de compresin


La informacin de vdeo correspondiente a la imagen a procesar para comprimir su flujo de datos tiene que tener condicin discreta y formato matricial para
que sus detalles de imagen o pxeles puedan ser identificados en los ejes x, y.
La condicin discreta est asegurada por la digitalizacin de la seal de video,
que se muestrea de modo ortogonal en los formatos ya descritos 4:2:2 4:2:0 y
cuyas muestras se cuantifican a 8 bits cada una de sus componentes YUV.
Los datos as obtenidos corresponden a las lneas (eje x) con las que se forman
campos o cuadros (eje y), de tal forma que, conforme a la Recomendacin 601 del
CCIR, para una imagen de relacin 4:3 con 720 detalles de imagen por lnea y 576
lneas activas por cuadro, el nmero de bits para las tres componentes de la seal
de vdeo es el siguiente:
720 x 576 x 8 x 3 = 9'95 Mbitfs
Y, por segundo de seal de vdeo en un sistema de 50 campos (25 cuadros), el
nmero es:
9'95 x 25 = 24875 Mbit/s
El flujo de datos sufre dos procesos antes de ser aplicado al transmisor: el inicial de formateado de vdeo a 4:2:2 o 4:2:0 y el final de codificacin MPEG destinado a reducirlo al rango de 1-5 Mbit/s, cantidad que depende de la naturaieza
de la imagen (poca o mucha redundancia espacial y temporal) y de la calidad de
reproduccin elegida por el radiodifusor.
La condicin matricial de la imagen para poder localizar los pxeles mediante las
coordenadas x e y tambin est asegurada por la discretizacin de la seal y por
la organizacin en lneas sucesivas, independientemente de que el barrido se lleve
a cabo de modo entrelazado o progresivo.
As, considrese la figura 5.1, en la que se han representado los pxeles con un
valor que puede estar situado entre 0 para el negro y el 256 para el 100% blanco
(En la realidad, el negro ocupa la posicin 16 y el 100% blanco la 235, ver parmetro del formato de vdeo digital).

lo

o 114114 zoo zoo 124 124 iso

o 1141141ao1so1241241so

Figura 5.1. Estructura matricial de la imagen cuantificada en 8 bits.

T
i
i

Compresin de datos de vdeo y audio

ii

Esta estructura de datos digitales constituye el campo de accin del sistema de


compresin propuesto por el MPEG, en el cual se lleva a cabo el histograma de la
imagen 0 sector de ella para determinar el nmero de veces en la que aparecen
los diferentes niveles que la componen.

Con la informacin estadstica se procede a codificar con pocos bits los pxeles
ms frecuentes de la escena en estudio y con mucha mayor cantidad los menos
frecuentes o nuevos, ya que es preciso resaltarlos. Esta codificacin con longitud
variable es una de las caractersticas destacadas del sistema.

1.5.5. Compresin de vdeo MPEG


ii

En la compresin de video intervienen dos procesos cuya unin da lugar al flujo


de datos MPEG: la supresin de la redundancia espacial y, por tanto, con incidencia dentro de una imagen y la redundancia temporal referida al movimiento entre
imgenes.
La primera es denominada intracuadro y la segunda intercuadro. Ambas imgenes dan lugar a procedimientos diferentes con una base comn.

4
|
I

DGT

oETERiv1iNAciN
cooiriciciu
j 'l DELUMBHAL i"` Hurnvirm

FL10
'DATOS

Figura 5.2. Diagrama bsico de bloques del proceso de compresin.

;1,,e,f1\_L_=1__e,intresyeire
La compresin de datos de carcter espacial se obtiene por eliminacin de la
redundancia de una imagen. El diagrama de bloques correspondiente a los procesos que intervienen es el mostrado en la figura 5.2, cuya descripcin por funciones corresponde a los siguientes apartados.

Imagen
La imagen a procesar se considera digitalizada con muestreo lineal y codificacin de 8 bits y no procede del tiempo real, ya que est contenida temporalmente en una memoria de tipo FIFO o similar. Es, a efectos de los procesos siguientes,
69

L..

Compresin de datos de video y audio

una imagen digital formada por matrices cuadradas de 8 x 8 pxeles denominadas


bloques en la organizacin de los datos.
As, para una imagen del estndar de 625 lneas con 576 lneas activas de 720
pxeles, el nmero de bloques que la componen es de 6480 para la luminancia y
3240 para cada componente diferencia de color (C, Cb).
Cada pxel de luminancia est cuantificado desde el nivel 16 para el negro al 235
para el 100% blanco y de -128 a + 127 para las componentes Cr Cb.
Los bloques indicados de 8 x 8 pxeles de la imagen se leen en orden sucesivo
para aplicarlos al siguiente proceso.
DCT
La DCT (Discrete Cosine Transform o Transformada Discreta del Coseno) es una
aplicacin dela Transformada de Fourier, que se caracteriza por su capacidad para
descomponer cualquier seal de condicin peridica en una serie de funciones
armnicas de tipo seno y coseno. La DTC es una funcin totalmente real, a diferencia de la Fourier, que opera con nmeros complejos.

1
1
.
5,.

,I

:ll
.ii
.,.
ii

ll

lil

Se puede considerar de modo simple que la DCT convierte los valores en forma
de amplitud de los pxeles en coeficientes de distribucin de frecuencia, de tal
modo que los coeficientes obtenidos presentan la condicin de que los primeros
valores son altos pero, conforme crece su orden, el valor absoluto decrece.
As, el primer coeficiente de cada bloque corresponde al valor medio dela serie
y los siguientes, con frecuencia cada vez ms alta, disminuyen su valor progresivamente hasta hacerse cero. De esto se concluye que la informacin est contenida
en slo algunos coeficientes de la serie.
La figura 5.3 muestra comparativamente un bloque de 64 pxeles con sus valores absolutos en correspondencia con su condicin de cuantificacin (izquierda) y
los 64 coeficientes obtenidos despus de la aplicacin de la DCT (derecha).

i
:-e!=i^#.:..'sr-._*

-f. _i-=.:-n= u-

_. nu... ,_. _.

El primer coeficiente tiene un nivel alto que indica la referencia del valor medio
dela serie (bloque), tal como se ha sealado, pero los restantes tienen valores muy
bajos.
Es de tener en cuenta que la DCT no es el proceso en el que se elimina la redundancia espacial. Lo que persigue esta transformada particular, a diferencia dela de
Fourier, es distribuir adecuadamente los valores de los coeficientes para permitir
su eliminacin en otro proceso posterior.
La DCT, estadsticamente, genera muchos coeficientes nulos que dan lugar a
una elevada compresin. A ello contribuye su posterior lectura en el modo denominado zig-zag para aproximarlos en valora efectos de su posterior supresin. La
figura 5.4 muestra tal modo de lectura.

l
i

Compresin de datos de video y audio

;s42199l44s`j3s2l`342
112` 31 l`_ 22 r
i
isslisi 181 264" se @_jn4 l j 3 lj
l\142l2si
zisij si lj 2? 1 ss 21
_

3` 2

mijas 211`sol`s\s

1412

`_

. .___.

`___. __ .`

Fisisozpi-_~ :"2'`:l`:"f`-.ij:'i`:lj'1i":
i
-_ii - _
12`9l`s`112\o
l

. _

. _

Dwlsorporla
matriz de
cuantificacin

i 5 l 6 lis l 4 E2 iii oGioi


0
2 pl 3 `l 3__) 1 _l U _l U,_i lll

Dwlsorporla
escala de
cuantificacin

lll

i58"120B0

40j41i`i1l`2I`lJ
i

`2

ljsoljiziai

22 aoljiljoljij

`1l`4l`2lj1`jo`jo

i22` zslj 2

33 24 51

44 si

i 4

i 2

l.i`ii0

Uj

ol]

o p n ::o::lj::o::"::o::`

COEFICIENTES DCT
DE SALIDA

COEFICIENTES DCT
DE ENTRADA

o lj
lol
,l j

?1383i0i2`j01iJ

izl

K'111l133 159`119l se 65
x
l
l
l
_

_ .

j\___f .__
,
_

l
l

lj a ` ial
Z is 22 za*Cl 2? 29 34K

l
i

,_
,l_ Y
,i
`
l
j
`l
, 1` ,HU 221 Mi 2? " Mi 3?*

i
l
l

19 lj 22 26 i 2? ` 29 34 i 34 i aa
i

H 22 22 l 25

i_ 1
`

2? 29 l 34 l 3? lj 40 l
i
i -i
-i
26 j 21 j 29 j 32 j as fio 4a

, 22
ja jr`

_ l Eseaia
_ de_

E __sia Cl? l

Cdigo cuanncacin cua iiicacin


"
lineal
gif* no ineali U

Al

ll 1

i 6
i 20

-_
l

__

fas jzr z29 fi32 ss 4a as pss)


l
j 25 2: lp 29 p 34 lp_ sai 4s_`_ se l_j se

1 2? 29 l j ss lj ss i i 4a l` ss i j es * ss i

16

lj

40

32

j
i
__

p 24 i`
lr` ze `j

48
se

si

ez

MATRIZ oe _
cuAN'r|F|cAcioN

"i

2440

56
es

l`
j

112

l
l,`

ESCALA DE
cuANTiFicAciN

Figura 5.3. Bloques de pixeles antes y despus del proceso DCI (Philips).

\ \ ti\
\i
\ \\_ \ @
"
i

/'

\\

\
\
\
\/ \\
_

ta\\ \\3\ \\s


\
\ \ \ \ si
\\

X \\

ix ix
\\

ii\

__;

Figura 5.4. Modo de lectura en zig-zag.


-

ii
l.'

_j
ff)

Compresin de datos de video y audio

i-__

ii.

As se agrupan y cuantifican muchos coeficientes nulos entre dos no nulos, lo


que permite su codificacin como un nico dato.
-r

Determinacron del umbral


La determinacin del umbral permite poner a cero los coeficientes representativos de amplitudes menores que las que pueda captar el ojo humano.
Es conocida la capacidad sensorial del ojo y su umbral de estimulo. Para que
ste pueda percibir una sensacin de cambio, el elemento iluminante debe incrementar (o decrementar) su valor en una cierta magnitud. Valores inferiores no causan efecto visual, por lo que sus pxeles correspondientes pueden igualarse a cero
con relacin a los adyacentes anteriores, considerndolos por tanto redundantes.
La cuantificacin del umbral (incremento mnimo del cambio para que sea tenido en cuenta) a aplicar determina el factor de compresin del sistema. Este parmetro integrante del proceso es denominado tambin redundancia psicovisual.

Codificacin Huffman
La supresin de la redundancia en los trminos expuestos anteriormente corresponde a esta codificacin de condicin entrpica denominada VLC (Variable
Lenght Code).

iii
l.
[I

ilil '
Ii

I'

I;

'I

;i

'f

ii'
I

I 5

Esta codificacin de longitud variable est basada en la probabilidad de aparicin que tienen los elementos del segmento de imagen en tratamiento, de tal
modo que el sistema asigna pocos bits a los elementos cuya aparicin es frecuente y mayor longitud a los de poca presencia. El resultado es un flujo de datos considerablemente inferior al original de entrada.
Es de tener en cuenta que la informacin del bloque est concentrada en unos
pocos coeficientes suministrados por la DCT y el resto tienen mucha redundancia,
lo que permite aproximarse al flujo entrpico (mnima longitud del mensaje).

ii:
l
il

-_?5;-nm-1 ei-_

= =-:-sa- _-

-.-._.\-A+

i
i
i

La codificacin VLC empleada en los medios audiovisuales digitales recurre al


algoritmo del matemtico Huffman, el cual requiere el anlisis previo del segmento de imagen a tratar para conocer la probabilidad de aparicin de cada detalle de
imagen, tras el que se llevan a cabo los siguientes procesos:
1. Se clasifican en orden creciente los elementos de imagen segn sus probabilidades de aparicin.
2. Se reagrupan los dos elementos que presentan mayor probabilidad de aparicin para obtener uno nuevo que contenga la condicin de suma probabilistica de ambos. Se significa con un cero al de menor probabilidad y con un
uno al otro elemento.
3. Se suprime un elemento de imagen y se contina reagrupando el obtenido
con el siguiente de menor probabilidad de aparicin y as hasta que se tratan
todos.

Compresin de datos de vdeo y audio

Se consigue con este procedimiento un rbol de codificacin, en el que cada


elemento est representado por el cdigo que se ha obtenido del modo indicado.
Posteriormente se serializan todos los bits. El resultado final es una tabla de cdigo de Huffman.
As, a modo de ejemplo, considrese la siguiente tabla:

PRoaAB|upAo oe APAR|c|N
45%
-

25%

`.

coloo RESULTANTE
0
j

io

6%

i ioi

3%

|ii1

|
_
'

No se entra en los detalles matemticos de demostracin por estar fuera del


alcance de este tratado.

1
'

La figura 5.5 muestra un diagrama de bloques ampliado en relacin al bsico


de la figura 5.2 de los procesos llevados a cabo en la compresin espacial.

| tu DE

-<

'

semi.

com/Enrioon
A/D

aH.s

DNI

DCT

Q +
Reounomcm

VLC

R^

CONTROL DE
VELOClDAD
l

Figura 5.5. Diagrama avanzado de bloques del proceso de compresin.


|
I I

Conversion AID
El vdeo de naturaleza analgica es muestreado de modo lineal y cuantificado
en 8 bits.
Si la seal fuente es vdeo compuesto, ste tiene que ser desmodulado para obtener las componentes YUV, a las que es preciso aplicar el formateado a 4:2:2 ~4:2:0.
5

'

En ambos modos de formateado la seal de luminancia se muestrea a 13'75


MHz, pero no las componentes de croma, cuya frecuencia es de 6'75 MHZ para el
modo 4:2:2 y de 3'375 MHZ (13'75 MHz/4) para el 4:2:0.

'73

f ~-

----

Compresin de daras de video y audio

DCT
La DCT es la aplicacin de la transformada discreta del coseno para convertir los
valores absolutos representativos de las muestras (pxeles) de la imagen en tratamiento en coeficientes de funcin armnica y por tanto de distribucin de frecuencia. Opera con bloques de 8 x 8 pxeies de la imagen para el propsito indicado.
La respuesta al proceso corresponde a bloques de 64 coeficientes, en los que la
informacin de imagen est concentrada en los primeros elementos.

Q + Redundancia
Corresponde a la etapa del proceso de compresin en la que se aplica un determinado umbral de cambio mnimo de nivel de los elementos de la imagen para
que sean tenidos en cuenta.
El umbral a aplicar est determinado por la sensibilidad del ojo humano, tal
como se ha indicado anteriormente.
Este bloque es tambin denominado supresor de la redundancia psicovisual, en
referencia a la informacin que se puede anular por la insensibilidad sensorial
humana.
VLC
Codificacin de longitud variable, que corresponde al proceso en el que realmente se reduce el flujo binario del mensaje a transmitir. Los bloques anteriores
adecuan los datos para este propsito.
Recurre este sistema de codificacin al algoritmo de Huffman para asignar
pocos bits a los elementos de la imagen que son muy frecuentes y ms a los de
escasa aparicin.
La concentracin de la informacin solamente en algunos coeficientes del bloque suministrado por la DCT facilita la labor de este proceso.
RAM
Memoria temporal empleada para regular el flujo binario a travs del control
de velocidad.

Control de velocidad
Este bloque de control y su memoria RAM asociada persiguen mantener lo ms
constante posible la velocidad del flujo de datos de salida, lo que constituye una
condicin para que el receptor pueda identificar los contenidos, separarlos y desmodularlos para su presentacin en la pantalla.
ts74.

,___

Compresin de datos de video y audio

Es de tener en cuenta que el VLC codifica con longitud variable y que, por tanto,
su flujo de salida es un fiel reflejo de la naturaleza de la imagen, de la entropa
correspondiente.
El sistema acta sobre los factores de escala de la codificacin. Si se produce
sobrecarga en la memoria RAM, opera sobre ellos para reducir el flujo.
As, si la entropa eleva su valor como consecuencia de la naturaleza de la imagen en proceso, por ejemplo ante imgenes de mucho cambio como son las
correspondientes a los espacios deportivos, el sistema reduce los niveles de cuantificacin, los factores de escala, y con ello el flujo de datos.
Como es de suponer, al reducir el nivel de cuantificacin aumenta el ruido, por
lo que el sistema tiene como lmite la capacidad de integracin sensorial.
El sistema descrito de compresin intracuadro (dentro del cuadro) corresponde
a la que se aplica a la imagen fija de un campo de televisin y por tanto perteneciente al conjunto de procedimientos JPEG para la fotografa digital y similares.

i
l.
|

Se cita aqui porque es la base de la compresin MPEG, de la que se ocupa el


siguiente apartado.

1-;_2_ C9n1erSi<'r1 i_3ef_s!a_dr9


Pertenecen a esta compresin los procedimientos de supresin de la redundancia temporal que se produce entre imgenes sucesivas, como las de televisin (50
60 campos por segundo). Es, por tanto, la base del MPEG, en el que se aplican
los procedimientos (o herramientas) para el tratamiento de las seales de vdeo,
las que presentan movimiento en el espacio y en el tiempo.
Se basa esta compresin en la comparacin entre dos imgenes sucesivas, de
las que se obtienen dos informaciones fundamentales del sistema, que son las
siguientes:

0 Datos correspondientes a la diferencia entre ambas imgenes comparadas.


~ Vectores que significan y cuantifican el movimiento producido entre ellas.
La figura 5.6 muestra un ejemplo bsico de tal proceso de comparacin. Se
puede observar que las imgenes tienen formato de 16 x 16 pxeles, que son denominadas macrobloque y que corresponden a ocho bloques de los descritos anteriormente.
La comparacin entre las imgenes n y n+1 genera como consecuencia las
denominadas imgenes P y B, que son las que el sistema entrelaza y transmite
junto con las del tipo I como flujo de datos.
Con el conjunto de las tres imgenes que intervienen se forman los denominados GOP (Group Of Picture), con los que se estructura la informacin a transmitir.

j
_______

vs

ir"
Compresin de datos de video y audio

n+1

il

ii

ill

ji

COMPARADOR

GENERADOR

DE PAGINAS

I. B y F!

DATOS

Figura 5.6. Comparacin entre las imgenes n y n+1.

l
i

l
l

Las condiciones de tales imgenes son indicadas a continuacin:

imgenes il

Las imgenes I (intracuadro) se generan con la referencia a la imagen en curso y


contienen la entropa de la imagen, tal como se ha indicado en el apartado anterior.
Suponen estas imgenes el inicio de la secuencia de datos y se repiten peridicamente para servir de referencia, ya que su contenido es real, a diferencia de la
condicin predictiva de las del tipo P y B.
La figura 5.7 muestra un ejemplo dela secuencia de imgenes I, P y B. Los detalles de estas dos ltimas se describen a continuacin.
La capacidad de compresin que se consigue de las imgenes I es baja respecto de las P y B, pues las dos ltimas no son reales sino de contenido obtenido por
prediccin.

_, 76 ,_-1_
i

'

AJ

Compresin de datos de video y audio

,,,l0|0 `lj

i
0

49
1
A

Figura 5.7. Secuencia de imgenes l, B y P.

Imgenes P
Las imgenes P (Predictive Coded Picture) tienen condicin predictiva, conforme
a su denominacin, y no real como la anterior.
Se forman con la informacin correspondiente a la diferencia entre la imagen
actual y una de referencia, que puede ser del tipo l o bien otra P y, asimismo, con
informacin del movimiento producido entre ambas imgenes.
Se puede considerar que el contenido de las imgenes P da al descodificador
MPEG de los receptores la informacin necesaria para reconstruir la imagen que
se ha calculado por probabilidad como la siguiente imagen.
Los denominados vectores de movimiento que incluyen las imgenes P, correspondientes a los macrobloques en proceso, facilitan informacin de sentido y
tamao de los objetos en escena que han cambiado respecto de la referencia. Con
tales vectores, los circuitos del descodificador del receptor modifican la imagen de
referencia que tienen retenida temporalmente en memoria para obtener asi una
imagen reconstruida. Es ste el denominado proceso de compensacin de movimiento que facilita la reconstruccin de imgenes con una gran aproximacin con
las reales.
La figura 5.8 muestra un ejemplo de imgenes P situadas entre las del tipo I y B.
is

l
-1

---2,77
_

_.

__

<'.

*__

fi

Compresin de datos de video y audio

rrrrrrrn
'`

'l'

'`

'l`

k''jI'*`L'7*"L'
Figura 5.8. Detalle de imgenes P entre las del tipo B.

Como se ha indicado, las imgenes P se obtienen por referencia de imgenes


reales del tipo I o de otra P.
Las flechas que se han incluido en la figura indican el origen de las referencias.
Dada la naturaleza de su contenido, estas imgenes aportan una gran redundancia de datos, ya que su flujo de datos es muy bajo.

imgenes B
Las imgenes B (Bidirectionally Coded Picture) son de naturaleza bidireccional
porque su informacin corresponde a los datos complementarios necesarios para
generar una nueva imagen con los de otras anteriores y posteriores, que pueden
ser del tipo I (reales) o P (predictivas). Son, por tal condicin, las que presentan el
flujo de datos ms bajo.

Paeoicciiy

HAciA DETRAS

VECTOH DE
MOVIMIENTO

Paeoicciiv

\ 6 'P

B|o|REccioNAL

Figura 5.9. Detalle de formacin de imgenes B a partir de las P.

78
L_

.f

Compresin de datos de video y audio

Conforme a lo indicado, se considera que el descodificador dispone previamente de una imagen por prediccin hacia adelante, la cual se calcula a partir de la
imagen anterior (que puede serlo P), y otra, tambin obtenida por prediccin, de
procedencia hacia atrs lograda con la inmediatamente posterior a la que est en
curso de tratamiento. La figura 5.9 muestra un detalle de lo indicado.
La B es, por tanto, portadora dela informacin necesaria para obtener una imagen a partir de las de condicin pasado y futuro. Las flechas indican la correspondencia que tienen con las imgenes pasadas (hacia otras) y futuras (hacia adelante). La unin de ambas, junto con la informacin complementaria que transportan las B, permite crear una nueva imagen, todo ello con un flujo de datos muy
bajo, que es el objetivo perseguido.

5-,S-'-23 E_stt_9stura als! sedtisador

La codificacin de video a MPEG requiere una compleja circuitera y un conjunto de algoritmos en los que intervienen variables determinadas por los niveles y
perfiles elegidos para la transmisin de la seal. Estas condiciones estn recogidas
en dos normas internacionales, que son las siguientes:
0 lSO/lEC
0 lSO/lEC

13818-1
13818-2

MPEG-2 Sistema
Codificacin de vdeo

El codificador MPEG adopta la configuracin de circuitos que muestra de modo


bsico la figura 5.10, dela que se describe a continuacin la funcin bsica de las
diferentes etapas del proceso.
cuANTi_ricAciN
os Piinmxiernos
COEFIGENTES

ENTRADA

--

F0RMATEA_
VIDEO

e-
IMAGEN

Pniaoictivn
ESTIMADOH
DE
MOVIMIENTO

,
cAivi o 1
coiviPENsAcioiv I
P
DE Movimiento
Pon Priizoiccioii 1 MEMORIA

cooiricixoos
i/

A En-I
un
.
'

0
_)

VECTORES DE
MOVIMIENTO

Figura 5.10. Diagrama de bloques del codificador MPEG.

__

i-

Lr79i,

Ii_|
.I

Compresin de datos de video y audio

Formateador de video

i
,.i
i

Al sistema se le aplica una seal de vdeo analgico en cualquiera de sus formatos, lo que requiere dos acciones bsicas antes de aplicar la informacin de imagen al proceso especifico de compresin:

I: _

0 lvluestreado de las componentes analgicas YUV en cualquiera de los formatos 4:2:2 o 4:2:0, siendo este ltimo el ms utilizado en la televisin digital
domstica.
- Conversin a formato digital y posterior cuantificacin en ocho bits lineales.
El siguiente paso en el proceso de codificacin consiste en organizar las imgenes de vdeo en bloques de 8 x 8 pxeles, y stos a su vez en macrobloques de 16
x 16 pxeles con los que se forman los grupos de imgenes I, P y B a comprimir del
modo indicado. La figura 5.11 muestra un detalle de sta organizacin.

MAcHoBLoouE
BLOQUE

------

im

--III__

-4-

.I-

GRUPO DE iiviGENEs
l l l Il

-1
|_. _. _i

GOP
4

D-

Figura 5.11. Formacin de los grupos de imgenes

Un conjunto de macrobloques forma la denominada rebanada (slice), que


corresponde a la unidad mnima imprescindible para poder recuperar los errores
producidos, ya que aporta los mecanismos necesarios para ello. Un nmero determinado de rebanadas forma una imagen.

Estimacin y compensacin de movimiento


Si se tiene en cuenta que en una sucesin de imgenes cotidianas el cambio
corresponde al desplazamiento de los objetos en la escena, la prediccin de im-.i

_ao .--

mCompresin de datos de video y audio

genes para el propsito de compresin de datos se puede llevar a cabo con tcnicas de compensacin de movimiento, lo que permite predecir la imagen actual a
partir de la imagen codificada previamente para obtener el movimiento resultante entre dos imgenes adyacentes. El clculo aproximado del movimiento es lo que
se codifica.
En la figura 5.10 se puede observar el bloque DCT* (la inversa de la
Transformada Discreta del Coseno) que proporciona la imagen anterior codificada
a efectos de comparacin y prediccin del movimiento.
Las memorias RAM asociadas permiten almacenar temporalmente imgenes
para considerarlas "del pasado".
El clculo del movimiento global de los objetos de la imagen de referencia bajo
anlisis, genera como resultado vectores de movimiento que indican las coordenadas de dicho movimiento.
Asi, la imagen de referencia analizada y los denominados vectores de movimiento obtenidos se unen para formar la nueva imagen a codificar que, conforme a su
denominacin, tiene "compensacin de movimiento".
La nueva imagen puede tener errores (de prediccin), los cuales pueden ser
suprimidos mediante compresin posterior con la DCT, pues elimina la correlacin
espacial.
El flujo de datos de salida de este bloque corresponde a imgenes del tipo l, P
y B, las cuales estn afectadas por el proceso de compresin de datos mediante la
operacin DCT y la posterior codificacin de longitud variable.

-_;5_-____t_f_Utura_ de les dats


Los datos de salida del proceso de codificacin estn fuertemente jerarquizados. Su estructura ms alta corresponde a la secuencia, cuyo comienzo consta de
una cabecera de 32 bits que indica sus condiciones y finaliza con el cdigo, tambin de 32 bits, de fin de secuencia, que corresponde a la condicin lgica 1B7H
y que est destinado al descodificador del receptor. En tal secuencia estn contenidas las imgenes I, P y B del modo que se indica a continuacin.

Cabecera de secuencia
Corresponde esta cabecera a un cdigo informativo de los parmetros de los
datos contenidos en la secuencia. Con l se informa al receptor de la relacin de
aspecto de la imagen (413 16:9), relacin de bits, relacin de imagen, etc.

GOP
El "Group Of Pictures" o grupo de imgenes, que es su denominacin, est formado por imgenes del tipo I, P y B que ya han sido descritas anteriormente.
ff'

----__.'=-ii
__i_

Compresin de datos de video y audio

El nmero de imgenes del GOP en MPEG-2 es bajo para facilitar la fidelidad de


la imagen. La figura 5.12 muestra, a modo de ejemplo, un GOP = 4.
I
I I I I F- il|
I

ll

""'l

'._

L____4

_1__4
I

GOP = 4

-4

Figura 5.12. Grupo de imgenes.


i

Cada GOP incorpora su correspondiente cabecera con la que se informa al


receptor de los parmetros que lo definen, lo que es imprescindible para poder
interpretar los datos y descodificarIos_

Rebanadas
Las rebanadas o "slices", trmino generalmente empleado en la literatura tcnica, corresponden a conjuntos de nmero variable de macrobloques de 16 x 16
pixeles de la imagen.
La denominacin de rebanada viene dada por su correspondencia con un segmento horizontal de la imagen, cuya anchura en vertical es de 16 x 16 pxeles, con
longitud variable. Su cabecera informa de sus condiciones internas a efectos de
identificacin.
;-_ :_ ~,._i:_;. rf- _'

Macrobloque
Las rebanadas descritas estn formadas por macrobloques de 16 x 16 pixeles de
la imagen, con su informacin correspondiente de luminancia y croma (YUV), en
forma 4:2:2 o 4:2:0.
1-1
=';
l
i

Los macrobloques a su vez corresponden a la exploracin de la imagen en el orden


convencional de izquierda a derecha y de arriba a abajo. Contienen primero la luminancia de todo el macrobloque y despus las seales diferencia de color UV.
Como en todos los paquetes de datos anteriores, el grupo de macrobloques
incorpora una cabecera con ia informacin de su composicin para poder interpretarlos en el receptor.

Compresin de datos de video y audio

Bloque
La unidad ms elemental de la secuencia es el bloque, que corresponde a 8 x 8
pxeles de la imagen.
Existen bloques independientes para las tres componentes de la imagen (YUV),
los cuales sufren el proceso de la DCT y la posterior codificacin.

-5:5- livslss si perfiles


La calidad de la imagen a obtener en el receptor con los datos codificados en
MPEG recibidos, depende de la velocidad del flujo binario, y sta la puede determinar el radiodifusor mediante la eleccin de los niveles y perfiles.
De modo simplista se puede considerar que los niveles determinan el nmero
de pxeles dela imagen y los perfiles su calidad.

Niveles
Con el nivel elegido se establece el nmero de pxeles por lnea de imagen a
codificar. En el siguiente cuadro se indican los cuatro niveles que se contemplan,
el nmero de pxeles y lneas activas correspondientes que se codifican y la velocidad de flujo a que da lugar.

Nivisi.
I i~iuesnAsiLiNEAs'Ac1ivAs'_
HIGH (HL)
mo X i isz
Hioi-i-1440 (Hi-iL) i44o X i i52

vEi.ocii:'Ao
ao Misis
eo Mi.-vs

MAIN (ML)

720 x 576

IS Mbls

LOW (LL)

352 x 288

4 Mbls

El nivel bajo ("low") es empleado en MPEG-1, el principal ("main") es el recurso de los medios audiovisuales actuales y los altos ("high") estn destinados a la
televisin de alta definicin.

Perfiles
Corresponde a los perfiles la seleccin de las posibilidades del sistema. Se definen como el juego de medios o herramientas empleados para llevar a cabo los
procesos de compresin. Tienen la condicin de compatibilidad ascendente, lo
que permite a los receptores desmodularlos y descodificarlos desde el propio del
91..

__ _s 3,1

.=..i'

.___;

_ __ __

Compresin de datos de video y audio

equipo hacia abajo. La eleccin de perfil por parte del radiodifusor constituye un
compromiso entre las variables de capacidad de compresin y costo del equipamiento. El siguiente cuadro indica las caractersticas de los cinco perfiles que contempla el sistema.

Pisnm

cARAciarisicAs

SIMPLE (SP)

Muestreo de video del modo 4:2:0. No utiliza


imgenes B.

I MAIN (MP)

SNR SCALABLE (SNR)

l Muestreo de vdeo del modo 4:2:0. Utiliza imgenes I, P y B.


Aporta las mismas caracteristicas que el MP
ms la posibilidad de separar los datos en dos j
i pt-; por ejemplo, como seal base y seal de
Admite la escalabilidad dela resolucin espacial.

3
SPATIALLY SCALABLE (SSP)
l

Perll de jerarqua que aporta otro modo de 1 l


divisin de la seal. Sus algoritmos superan el
nivel de este tratado.

l.
ll
';
ii..
i

i-iiGi-iT HP

i Muestreo de vdeo a 4:2:2 4:2:0, empleo de

l imgenes i, P y B Y transmisin sscaiaisis si\iR Y

` espacial.

La escalabilidad en las dos versiones indicadas, corresponde a la posibilidad de


transmitir de inicio una capa de baja calidad destinada a los receptores de todas
las versiones y posteriormente otra que refuerce a la primera, la cual slo podr
recibirse en los receptores con compatibilidad para esta caracterstica. La unin de
ambas capas da la misma calidad que la versin MAIN (principal), que es la ms
empleada.
La figura 5.13 muestra un detalle de los niveles y perfiles descritos. Se sealan
con sus iniciales, comenzando por el nivel. As, si el formato elegido para ambos
es el MAIN, se significa como ML@MP.

i
i
l
\ .

i
.i
i

*
Compresin de datos de video y audio

HPl'lL

MP@l'll

__
HPQML

High

Relacion

spsiaiiy ssaisiiis

mxima de

SNR Scalahle

Mal"

Perfiles

Simple
High

High - lll-40

Main

Low

Niveles

Figura 5.13. Detalle de los perfiles y niveles.

*5.6. Compresin de audio


Las seales de audio son igualmente susceptibles de ser comprimidas para reducir
su velocidad binaria y con ello limitar de modo muy considerable el ancho de banda
necesario. Los estudios psicoacsticos llevados a cabo han puesto de manifiesto las
tres condiciones de la audicin humana que lo permiten, que son las siguientes:

Enmascaramiento frecuencial
Corresponde esta condicin a la propiedad que tiene el odo humano de presentar una curva de silencio tipo campana alrededor de los tonos prximos en frecuencia y de menor volumen del dominante escuchado.
La figura 5.14 muestra ese detalle, que corresponde a la curva de los principios
psicoacsticos estudiados y publicados por E. Zvvicker. En la figura se puede observar la indicada campana del sonido dominante que enmascara los tonos prximos
de menor amplitud del conjunto de un mensaje.

i
ri

Compresin de datos de video y audio

nivel (de)
Curva del umbral de audicin

_
Tonos complementarios

- Seria! de escucha
_______.___

Senal por debajo

del umbral
de audicin
_________

[___
0.02

o,os

0,1

0.2

0,5

10

20

Frecuencia o altura de tono (kHz)

Figura 5.14. Curva de enmascaramiento del sonido.

Relacin del rango dinmico con la frecuencia


El rango de niveles que el odo humano capta tiene relacin con la frecuencia
de los tonos. As, ante frecuencias centrales del orden de 2-3 KHz, el rango es alto,
pero no asi para las bajas y altas frecuencias del espectro audible, para las que el
rango de niveles es bajo.

Enmascaramiento temporal
La presencia de un sonido de elevada amplitud enmascara temporalmente otros
sonidos prximos menores.
;_`_-_1:u_, _-. _$.1-.

ii=

Se considera que el inicio y la posterior extincin del sonido no tienen efecto


instantneo para el odo humano, por lo que aparece un tiempo de silencio en
ambos extremos que produce el indicado enmascaramiento.

ii

,J
l`l

'ii

Las tres condiciones indicadas permiten suprimir datos a efectos de compresin.


Para ello slo es necesario conocer las curvas de respuesta y los algoritmos de control adecuados. En el enmascaramiento frecuencia! es posible suprimir todo el
contenido del espacio de la campana, ya que sera imperceptible por el odo
humano; en el enmascaramiento temporal se puede suprimir toda la informacin
existente inmediatamente alrededor del sonido dominante de mxima amplitud y
en el rango dinmico es posible aplicar una codificacin con factor de escala
variable en funcin de la frecuencia de ios tonos.

._":'._. z-4 .

ll;
l`ll

lil

_L_L86_

lg

.J

ii

ii
"ai .

-_--4 s.__,._.. _.__A_ ,__ __..____ _ _

j,
i

Compresin de datos de video y audio

5.6.1 Codificacin perceptual


El conocimiento de las condiciones psicoacsticas del odo humano ha permitido crear procedimientos de supresin de informacin no til para rebajar con ello
la velocidad del flujo binario del audio que acompaa al vdeo digital descrito
anteriormente. Es de tener en cuenta que el flujo de datos representativo del sistema DVB y otros similares est formado por un multiplexado en el tiempo de
datos de vdeo y audio.

Un procedimiento ampliamente utilizado para tal finalidad es la compresin


perceptual, la cual est basada en la codificacin sub-banda. Para ello el espectro
de audio a transmitir se divide en 32 sub-bandas de 750 Hz y, posteriormente, a
cada una se le aplica un algoritmo representativo de sus caracteristicas. La figura
5.15 muestra un detalle de lo indicado.

FFT

seiiiit

i3Aivo DE

32 Fii_TRos
Pour/-\sE

CU^T'F'C^C'0N
VARIABLE

coNi=ioL oc
ENMASCA
FiAMiENTo

sALioA

MULTIPLEXOH

iviooiato
i=sicoAcusTico
Figura 5.15. Diagrama de bloques de la codificacin del audio.

Como se ha indicado, los filtros tipo polifase, que son idnticos entre si en sus
caractersticas de fase y amplitud, realizan una transformada rpida de Fourier
(FFT) para dividir el espectro de audio en las indicadas 32 sub-bandas, a las que se
aplica seguidamente un proceso de cuantificacin variable en correspondencia
con sus caractersticas especficas de rango dinmico y enmascaramiento. Supone
este hecho, por tanto, la aplicacin de un factor de escala con mltiples niveles de
cuantificacin. El modelo psicoacstico contenido en una memoria tipo ROM o
similar constituye el algoritmo de control de este proceso.
El muestreo que se lleva a cabo es denominado sub-banda y corresponde a 32
muestras de los datos de entrada en formato digital PCM. Es, por tanto, la informacin de salida del banco de filtros, aunque con el efecto dela cuantificacin de
longitud variable en correspondencia con las caractersticas psicoacsticas de cada
muestra de la informacin de audio.

li

li'

lf

fli

Compresin de datos de video y audio

El siguiente bloque, que est igualmente controlado por el algoritmo psicoacstico, identifica y controla las reas de enmascaramiento para suprimirlas a efectos
de compresin de los datos.
i

Se completa el proceso con la incorporacin un multiplexor de datos que proporciona una salida en formato serie, la cual constituye el flujo de datos a multiplexar a su vez con los de vdeo para conseguir el flujo de transporte.

_f?____2;___9_ELfLa_SlS1_1,_lY|J_S
La codificacin MPEG aprovecha los principios descritos anteriormente, pero
recurre a un formato distinto de muestreado y empaquetado de los datos respecto al empleado en los procesos de vdeo.
Sus datos de salida estn en formato trama y el sistema tiene tres capas para
adaptarse a otras tantas aplicaciones prcticas en los equipos audiovisuales.

El trmino capa se refiere aqu a los procedimientos de compresin empleados


y por tanto a la organizacin del flujo de datos de las tramas de salida.
El sistema de compresin de datos MPEG est regulado por la norma ISO
11172-3 y sus tres capas asociadas tienen las siguientes caractersticas bsicas:

Capa 1
Esta capa empiea el algoritmo de codificacin de naturaleza perceptual denominada PACS (Precision Adaptive Sub-band Coding) de Philips con el que se divide el espectro de audio de entrada en 32 sub-bandas y se codifican con estructura de trama,
con 12 muestras por sub-banda. Su flujo binario es de 192 Kbit/s por canal de condicin Hi-Fi de los dos que admite (384 Kbit/s de canal para sonido estreo), aunque el
valor de su flujo de datos se puede seleccionar entre 32 a 448 Kbit/s, en 14 niveles.
I

ilF
1i

la
2',
,_
ri'

._

Capa 2
Versin que ofrece ms complejidad que la anterior en el proceso de compresin.
Es la capa de MPEG adoptada para el sonido de condicin multicanal de la radio digital de la norma DAB y de la televisin de la DVB. Se conoce generalmente como
MUSlCAM (Masking Pattern Universal Sub-band integrated Coding and Multiplexing).
El patrn psicoacstico en que est basada esta capa es el mismo que el de la
anterior. La diferencia radica nicamente en que las tramas de datos de la capa 2
tienen una duracin triple, lo que reduce an ms el flujo de datos necesario para
la transmisin (se pueden reagrupar tres muestras de sub-banda para codificarlas
como un solo coeficiente). Por ejemplo, para transmitir sonido de calidad Hi-Fi de
dos canales (estreo o bilinge), el flujo de datos requerido es de slo 256 Kbit/s
(128 Kbit/s por canal), a diferencia de los 384 Kbit/s necesarios en la codificacin
de la capa 1. No obstante, el flujo lo puede seleccionar el radiodifusor entre los
valores 32 y 196 Kbit/s por canal.

l'i
Li;
-

;
.E.i

,ii

Compresin de datos de video y audio

Capa 3
Es la capa ms actual y por tanto la ms avanzada tecnolgicamente.
Aprovecha los ltimos avances en procesos de compresin para conseguir ms
capacidad de supresin de datos, por ejemplo, consigue la calidad de sonido HiFi con un flujo de datos de solo 64 Kbit,/s por canal.
Naturalmente, el incremento de la capacidad de compresin (aproximadamente el doble del permitido por la capa 2) se consigue aumentando la complejidad
del sistema, para lo que recurre al proceso de la DCT descrito anteriormente para
el vdeo y a la codificacin Huffman, tambin con aplicacin en vdeo, a diferencia de la codificacin sub-banda de las capas anteriores.
Su flujo de datos de transmisin es variable para adaptar esta capa a aplicaciones
tan diversas como las redes de baja velocidad para internet o bien para el MP-3.
La condicin de compatibilidad entre las capas citadas es en sentido ascendente, de tal forma que, por ejemplo, un descodificador preparado para tratar la capa
3, puede tambin soportar las dos inferiores.
Como resumen del proceso de audio, las figuras 5.16 y 5.17 muestran respectivamente los diagramas de bloques del codificador y descodificador, los cuales se
consideran suficientemente explicativos por si mismos.

iviooeto
i>sicoAcusico
l

01

G---

BANCO

ENTRADA
PCM

DE
32 PUROS

D --J

iviuLTiPLExoi=i
03

__)

TREN
MPEG DE
Auoio

1
0

'

032
1

cuANTiF|cAciN

coNi=ioL

j
i

Figura 5.16. Diagrama de bloques del codificador MPEG.


i_

__@-*_

_____

_______

Compresin de datos de video y audio

cuANTiFiCACiN
QI

Ql

TREN
MPEG
DE _.I oEMuLTiP|_Exoi=i I
AUDIO

--+ G

BANCO
DE

O1

SAUDA

32 HLTROS

DE AUDIO
s--ip-D

gi
it
ii
s

'

Q'32

CONTROL

Figura 5.17. Diagrama de bloques del descodificador MPEG.

5.6.3. Organizacin clelasgtra'n_as__d,e audio


Los datos de audio se organizan en tramas, las cuales constituyen la unidad elemental de acceso para un canal. Estn formadas por cuatro secciones de datos,
que son las siguientes:
0 Cabecera de 32 bits
Contiene informacin de sincronizacin y del sistema. Su contenido es el
siguiente:

* CAMPO '

DESCRIPCIN,-'CONTENIDO

Sincronismo
`

ID

FFFh
__ _

Capa
_
_,
Proteccion
- _
_,
.
Indice de relacion de bit

a l para MPEG-l
_
I=lI
2=l0
3=0l

N DE BIT

_ l2

j
;2

Se incorpora redundancia = 0
.
__
No se incorpora _ I
i 15 valores, desde 0000 a lll0 (esta l
pmhbd0 e| U
4

9<_luL_z

7'

Compresin de datos de video y audio

'

` CAMPO
_
Frecuencia de muestreo
_
l

Relleno de bit

*_ oEscRii=cioNicoNTENioo

p N i:e

Brr

1 44`l KHz=00
2
48KHz=0l
I 32 KHz = IO
I
i
I .. I .. para ajuste
.
- de l
a la frecuencia
muestreo de 44'! KHz
Uso libre

l` Privado

Moa@

oo

estreo

0IU'

bilinge

unin (canales juntos)


mono

II
Extemn de modo
_
Copyright

Margen de las sub-bandas e intensidad


2
j de estreo
j` _
_

O '
l = l
Cgga: 0

'

,
.
_
Preenfasis

No = 00
50/75 us = 0|
reservado : O

ji7=ii

* I
_ __
1

Privacidad de 16 bits
Su contenido corresponde a cdigos de redundancia cclica (CRC) para prote-

ger la informacin. Esta seccin es opcional.


0 Datos de audio
Datos cuya longitud depende de la capa empleada.
0 Datos de auxiliares
Espacio reservado a ciertas informaciones complementarias. Cada trama de
datos, independiente de la capa asociada, incluye las cuatro secciones, pero
el contenido de las tres primeras capas cambia entre ellas, como se describe
a continuacin.

Capa 1
En la capa 1, la trama tiene una duracin que depende de la frecuencia de
muestreo aplicada al audio a transmitir. Sus valores son los siguientes:
0 12 ms para frecuencia de muestreo de 32 KHz.
~ 8,7 ms para frecuencia de muestreo 44,1 KHz.
- 8 ms para frecuencia de muestreo 48 KHz.
i

.-__

Compresin de datos de video y audio

Cada trama contiene 384 muestras de audio y su estructura se muestra en la


figura 5.18.

audio

1'
`

cabecera

32 bus

'I'

CFlC_

'l'

|\,.1T.B -Lgg

'I

I 16 bus] 264 bus' 6 bars'

12x32 muesifas

auf'gfeS

E
4 bits

Figura 5.18. Formato de los datos

Comienza con la indicada cabecera de 32 bits para sincronizacin y datos del


sistema y contina con las palabras de paridad de proteccin (CRC) y con las
siguientes informaciones adicionales:
0 MT-SB

Campo para definir la resolucin de codificacin de las muestras correspondientes a las sub-bandas.
0 FACTOR DE ESCALA

Campo de 6 bits que indica el factor de escala aplicado durante la codificacin a cada sub-banda del audio.
12x32

Campo con 324 muestras de audio.


0 DATOS AUXIUARES

Campo de 4 bits, cuya finalidad ya se ha descrito.

Capa 2
Esta capa, adoptada para las normas de radio digital DAB y de televisin DVB,
est formada por tramas de 96 muestras caracterizadas por la codificacin en un
nico coeficiente representativo de grupos de tres muestras, lo que aumenta considerablemente la capacidad de compresin de datos del sistema. Su tiempo
depende de la frecuencia de muestreo del audio empleada, como se indica a continuacin:
0 36 ms para frecuencia de muestreo de 32 KHz.
26"l ms para frecuencia de muestreo de 44'1 KHz.
I 24 ms para frecuencia de muestreo 48 KH2.

A.

'-

__

.il


Compresin de datos de video y audio

Su estructura de datos es ms compleja que la de la capa anterior, principalmente por la cantidad de opciones de codificacin que permite.
Los campos de cabecera, CRC, MT-BS, factor de escala y datos adicionales, coinciden con los indicados para la capa 1, diferencindose la capa 2 en el contenido
de las muestras de audio y en el campo SCFSI (Scale Factor Selection Information),
que informa de si elnivel de escala de sub-banda aplicado es sobre la trama actual
y de si existen otros factores. El SCFSl puede indicar si el factor multiplicador del
campo factor de escala se aplica a toda la trama o slo al segmento que define.

Multiplexado de seales de vdeo y audio


Las capas de compresin descritas anteriormente generan un flujo de datos denominado elemental ES (Elementary Stream), cuyo tratamiento para empaquetar y multiplexar da lugar a la capa de sistema, que constituye el final del proceso.
La capa de sistema puede tener estructura de programa (PS o "Program
Stream), si los datos estn destinados a un soporte fijo, como el DVD, o estructura de transporte (TS "Transport Stream) si es para radiodifusin, en cuyo caso
debe incorporar proteccin para darle rigidez ante los ruidos o similares que se
puedan introducir. La figura 5.19 muestra un ejemplo.

VDEO

CODIFICADOR DE

voeo

Es

AUD@

coD|F|cADon DE
Auoio

EMPAQUETADO DE

DATOS

PEC

`
1

1 MUWPLE-
* MuLr|PLE*OR
xon
DE
I1`> p S
DE
|:> Ts
PRUGHAMA
TRANSPORTE,

EMPAQUET;-xoo DE
DATOS

Figura 5.19. Multiplexado de audio y video


l
i

Cada codificador proporciona su flujo de datos elemental (ES), cuyos datos son
organizados para constituir paquetes PEC (Packetized Elementary Strem), que se
,

g.______. _ .

A .

Compresin de datos de vdeo y audio

caracterizan por la posibilidad de tener longitud variable si estn destinados al servicio PS (Programa) y longitud fija de 188 octetos para TS (Transporte).
La sucesin de PEC se aplica a la unidad de multiplexado en el tiempo, que
corresponda a la aplicacin de destino para generar con ello el flujo PS o el TS.
Cada PEC procede de un nico ES al que se aade una cabecera que da informacin de su longitud, que puede ser variable, dependiendo de si los datos corresponden a audio o a vdeo y del nmero de ES al que pertenece el paquete. La figura 5.20 muestra una sucesin de PEC.
|

ES

DATOS

J CI

DATOS

1 CI'

DATOS

- - -

mi

PEC

C = cabecera del PEC


Figura 5.20. Formacin de los PEC.

Se puede observar en la citada figura la correspondencia entre los datos del PEC
con el ES y la inclusin de la cabecera (C) para el propsito indicado.
En cada PEC hay dos capas: la de compresin para los datos y la de sistema para
la cabecera. No obstante, el conjunto se considera de sistema a efectos de las normas sobre MPEG.

Z;!;,_E__tE!&u1es!s__<1=J_t_e__s!e.e_a_=s,r_91_e),
El flujo de datos PS (Program Streem) corresponde a un multiplexado de paquetes PEC de audio y vdeo (o de una naturaleza solamente) de un programa destinado a un soporte que se considera libre de la posible introduccin de ruido, como
el registro en formato DVD o similar. Sus paquetes PEC pueden tener longitud
variable, lo que se cuantifica en su cabecera.
La figura 5.21 muestra un flujo de datos PS compuesto por el multiplexado en
el tiempo de paquetes de datos de audio y vdeo.

Pes

Auolo 1

PES

vioeo 1

*Pes

, Aunio 2

paquete
C=cabecero de paquete
c=cabecera de PES
Figura 5.21. Multiplexado de paquetes de audio y vdeo.

L._

Pes

vioiao 1

rV'

Compresin de datos de vdeo y audio

El multiplexado PS comienza con una cabecera de paquete de sistema que da


informacin de las caracteristicas de su contenido y contina con un conjunto de
PES de audio y video de un solo programa, cada uno con su correspondiente cabecera de identificacin sobre su naturaleza (audio, vdeo, etc.).

5.7.2. TS (Flujo. de datos de transporte)


A diferencia del PS, el flujo TS puede contener diferentes programas de audio y
vdeo mediante el multiplexado de sus PES, y est destinado a radiodifusin o similar, para entornos en los que es previsible la aparicin de ruido que provoque prdidas de informacin. Tal condicin implica la necesidad de introducir proteccin
mediante cdigos CRC y, con ello, el compromiso de longitud fija de sus paquetes
de datos, los cuales pasan a contener invariablemente 188 octetos.
La estructura del TS permite la identifican -y posterior separacin de los
paquetes de datos asociados al programa elegido por. el usuario del receptor, formando con ello un PS de un programa.

fi mi
,

l + l i~ l

common De
comiuuimo
cournoi.
DE cmpo

CONTROL
DE CIFWIDO

Pin
PRIORIDAD
`
`
r

INDICADOR
DE ARRANQUE
INDICADOR
DE ERROR

- SINCRONISMO

Figura 5.22. Flujo de datos de transporte.

La figura 5.22 muestra un paquete de datos de TS compuesto por una cabecera de 4 octetos redundantes para deteccin y correccin en el receptor de los errores producidos por el enlace.

#_J__

Y-,<

Compresin de datos de video y audio

Los datos redundantes permiten la aplicacin del procedimiento de correccin


de-errores denominado FEC ("ForWard Error Correction" o correccin de errores
hacia adelante).

r. =u._=-E,

La cabecera contiene ocho campos, tal como muestra la indicada figura 5.22,
cuya finalidad es ia indicada en el siguiente cuadro:

-_.-,v-;=v_z

CAMPO
_
_
Smcmmsmo

--

-i:EscR|Pc|N-

TAMAO (bie)

~ Octe to de s i nc r onismo
'
'
'
dest'mado a sincronizar

j el reloj del receptor. Su contenido es 4'/H.


.
_ I n d icador de error

_ Indicador de arranque

Bit que indica el inicio del PES en el paquete.

lH

_ _
` Pnondad

Bit que indica mxima prioridad ante otros


paquetes con el mismo PID.

i PID

J _

* Bit que indica la presencia de un error no correl` g|be


_
en E! paquete

_
Control de cifrado

informacin de paquete (Packet Information).


Corresponde a un cdigo que define el progra-
ma asociado al paquete.
l_
informacin que dene el cifrado (scramblng) de \
transporte
_

I3

; Control de campo

Bit que
de si existe un campo de adaptadn
en informa
e paqueta

i Contador de continuidad
j

informacin destinada a efectuar un computo i


peridico por cada PID. Se emplea para detectar _
paquetes perdidos.

1
.

La cabecera descrita en el cuadro anterior puede contener campos de adaptacin (el control de campo seala esta posibilidad), de los cuales unos son simples
bits (banderas) para dar informacin de situaciones (como prdida de sincronizacin del reloj, prioridad de contenido, etc.) y otros son datos para la referencia del
reloj del programa para la cuenta hacia atrs ante las operaciones de corte o
empalme, contenido de transporte privado, etc.

'ii

La condicin multiprograrna de la estructura TS implica la necesidad de incorporar en su flujo de datos informacin de identificacin para el receptor del usuario, la cual se inserta en las denominadas tablas de identificacin que se incluyen
como PES peridicos con su correspondiente cabecera. Las mencionadas tablas
son las siguientes:

\
.11

,
l

T'
Compresin de datos de vdeo y audio

Tabla de mapa de programa


La PMT (Program Map Table) incorpora informacin de las ES (datos elementales) y el modo de relacin entre ellos. Para tal funcin emplea los denominados
descriptores, que son conjuntos de bits con los que se indica el tipo de codificacin de video (video stream descriptor), el de audio y su capa asociada (audio
estream descriptor),-el modo de alineamiento de los ES (data stream alignment
descriptor), el acceso condicional (conditional access descriptor), el texto en pantalla para discapacitados auditivos (lenguaje descriptor), el reloj patrn empleado
(system clock descriptor), el rgimen binario (maximun bitrate descriptor), etc.

Tabla de asociacin de programas


Corresponde esta tabla denominada PAT (Program Association Table) a un directorio que relaciona el nmero de programas de los transportados por el multiplex
TS con el PID de los paquetes correspondientes sealados por la tabla de mapa de
programa (PlVlT)_

Tabla de acceso condicional


La CAT (Conditional Access Table) est presente en el multiplex cuando alguno
de los programas contenido en el flujo TS es de acceso condicional. indica, asimismo, el mtodo necesario para recuperar la informacin.

Tabla de informacin de red


La NIT (Network Information Table) es opcional por parte del radiodifusor. Se
emplea para dar informacin sobre los programas en red o para el envo de datos
privados.
Como se ha indicado anteriormente, los campos PID permiten identificar por su
condicin lgica las tablas y su contenido.

|
l

A modo de resumen, la figura 5.23 muestra el doble multiplexado en el tiempo


que tiene lugar en el proceso: el primero entre los PES de un programa y su tabla
de mapa de programa (PIVIT), con el que se obtiene el flujo inicial TS de un programa, y el segundo entre los diferentes TS de los programas a transportar y las
tablas adicionales PAT, CAT y NTl_ La salida de datos del segundo multiplexor constituye el flujo final de transporte que se aplica al modulador del sistema para su
radiacin.

97

__

Compresin de daras de video y audio

ES

AUDIO

MUX

TS1

TS2
TS3

TS

T'Sn

i
si
la II@-JI ii I
Figura 5.23. Multiplexado de paquetes ES y TS.

-._-

si:_~