Académique Documents
Professionnel Documents
Culture Documents
.:~ I L \..,o
INSTITUTO OFICIAL DE
RADIO Y TELEVISiN
r+
NDICE
PBCAPiTULO 1: LA SEAL DE ViDEO
21
1. Un poco de historia
.
2. Caractersticas de la visin humana
21
22
23
23
24
24
....
2.3. El iris
2.4. La retina
.
2.4.1. Funcionalidad de la retina
2.4.2. Percepcion cromtica ..
2.5. Resolucion espacial lumnica y cromtica
25
26
27
...
30
30
31
32
. .....
2:
EL COLOR . . .
35
37
38
__
__ ...
ISBN: 84--88788-60-6
Depsito legal: M. 15_ J 13-2005
Imprime: Neografis, S. L.
40
43
43
43
43
44
44
45
33
34
34
28
29
46
47
JlliJiIT
P<H"
Pg.
3:
1. Introduccin
. . . . . . .
2. El sistema NTSC . . .
2.1. Atenuacin de las componentes
2.2. Modulacin en cuadratura de fases
2.3. Formacin de la seal compuesta
2.4. Descripcin matemtica ....
.. .
2.5. El vector de crominancia . . . .. . ..
2.6. Suma de luminancia y crominancia
. . ..
3. Un formato intermedio: Y / C
4-. Un sistema PAL
.
4-. 1. Los errores de fase . . .
4-.2. Alternancia de la polaridad de "V"
.. .
.
4-.3. El codificador PAL .
. . . .
4-.4-. El decoficador PAL
.
5. El sistema SECAM
. .. . . . . . .. . . . . . .. .
6. Eleccin de la frecuencia de la subportadora de color
. . .
. ..
7. La secuencia PAL de 8 campos
8. Tipos de seal de vdeo . . . . .
9. Espectro de la seal de vdeo. .,.
9. l. Patrones visuales y frecuencias
9.2. Espectro de las seales complejas ..
. .,
10. Listado de normas de televisin por pases
. ..
. . .
10.1 Variantes de sistema PAL
Resumen
. . . . .
.
. ..
. ..
. ..
...
. ..
..,
. .,
. ..
.
.
2.
3.
4.
.
.
.
. ....
. ..
. ..
.
.
.
.
CAPITULO 4: LA DIGITALIZACiN
l.
. ....
.
.
.
.
.
96
.
.
48
48
49
50
50
53
59
62
64
65
67
67
67
68
68
69
71
71
73
73
74
75
75
77
78
79
80
81
82
84
84
85
87
92
92
95
95
96
.
.
.
97
100
100
4.2. Digital
Conversin A/D
5.1. El muestreo
5.2. A]ossing
5.3. La cuantificacin
.
5.
6.
7.
5.4. El dither . .
.
El filtro de reconstruccin ..
El diagrama del ojo
.. . . .
. . .
4:2:2
...
. ..
1. Introduccin......
. ..
2. La norma 4:2:2 . . . . . . . . .
2. 1. Eleccin de la frecuencia de muestreo .
....
2.5.2. Lanorma4x4
.
.
3. Interfaces para 4: 2: 2
3.1. El interfaz paralelo para seal 4: 2: 2 . . . . . . .
. . . . . . .. .
.
.
.
4. Datos auxiliares
.
CAPiTULO
5:
Resumen
LA NORMA
102
102
103
106
109
110
1J 1
112
114
115
116
119
119
120
120
120
122
123
125
126
128
130
131
132
132
133
134
135
136
137
138
139
140
140
142
143
144
145
145
146
147
148
Indice
Pg
Po
CAPITULO
6:
151
151
152
. 153
.
155
.
157
.
160
. 162
. 164
. 167
. 167
CAPITULO 7: COMPRESIN EN VIDEO . . . . . . . . . . . . . . . . . . . . . .
171
1. Introduccin............................................
171
2. Para qu comprimir?
. 172
. 173
3. Teora de la informacin
3.1. Tipos de compresin
. 174
. 174
3.2. Entropla vs redundancia
. 176
4. Redundancias y entropla en las imgenes de televisin
. 176
4. l. Redundancia estadlstica
4.2. Redundancia percentual
. 176
4.3. Entropla de las imgenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
4.4. Redundancia en tres dimensiones
. 177
5. Tcnicas de reduccin de datos
. 179
6. Tcnicas de compresin sin prdidas
. 180
. 180
6. 1. Supresin de borrados
6.2. Codificacin de secuencias
181
6.3. Codificacin de longitud variable
. 182
6.3.1. El cdigo HuIfman
. 183
. 184
6.3.2. La codificacin aritmtica
. 185
6.4. Introduccin a la DCT
7. Tcnicas de compresin con prdidas
. 186
7.1. Codificacin diferencial (DPCM)
. 186
7.1.1. DPCM con prediccin adaptativa
. 187
. 188
7.1.2. Combinar DPCM yVLC
. 190
7.2. El submuestreo
. 19]
8. Codificacin pro transformacin
8.1. Transformada de Fourier
. ]92
. 193
8.2. Teora de la DCT
8.2.1. Interpretacin de la DCT
. 195
8.2.2. La DCT no comprime: ayuda a comprimir!
. 197
8.2.3. Lectura en "zigzag"
. 199
9. Recuantificacin de los coeficientes
. 201
1.
2.
Introduccin
Eleccin de la frecuencia de muestreo . . . . . . . . . . .
.
2. l. Muestras por lnea
. . . . . . . . . . . . . . . . . . . .. .
2.2. Fase de muestreo
3. Rango de amplitudes
.
4. Numeracin de las muestras
5. Referencia temporal de identificacin
6. El campo digital
7. Caractersticas de los interfaces
Resumen
.
.
d.
10
203
205
206
207
208
210
211
212
212
213
213
213
214
217
217
217
219
221
222
223
224
225
226
226
227
228
229
231
232
233
236
237
239
241
244
246
248
251
252
254
256
257
11
ps
Ps
4.4.
4.5.
El MPEG-7
El MPEG-21
258
259
259
260
261
262
263
265
269
269
269
270
2.
2.
3.
9: EL AUDIO ANAlGICO
3.4.
3.5.
3.6.
Resumcn
CAPITULO
1.
2.
10:
270
271
272
273
274
275
275
275
275
276
276
276
. ..
El AUDIO DIGITAL
Conceptos generales
Conversin A/D ..
2. 1.
J2
El muestreo
.
.
. ..
..,.
278
278
280
282
282
283
. 284
285
286
288
288
288
289
289
293
293
295
296
298
2.1.1.
2. I .2.
2. 1.3.
CAPITULO
l.
2.
3.
4.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Introduccin
.
.
1.1. Utilidad de la compresin en audio
1.2. Redundancia................... .
Anatoma del odo . . . . . . . . . . . . . . . . . ..
.
"
2.1 . Divisin funcional del odo
.
2.1 .1 . El odo externo
2. I .2. El odo medio
.
2.1.3. El odo interno
2.2. Fenmenos de enmascaramiento ....
2.2.1 . Enmascaramiento frecuencial
2.2.2. Enmascaramiento temporal
. ..
Divisin en subbandas . . ..
3.1 . Divisin mediante filtros . . . . .
. ..
3.2. Codificacin de las subbandas
. ...
. ....
3.3. Divisin por transformacin.
3.3.1. El efecto de pre-eco
. ..
3.4. Toma de decisiones. ..
Los sistemas de compresin
.
.
.
.
.
.
.
299
301
303
305
30&
310
311
312
314
315
316
316
318
318
319
320
321
322
323
324
325
326
329
329
330
331
332
332
332
332
333
333
334
337
338
338
340
341
342
343
343
13
Po
4.1.
4.2.
4.3.
4.4.
Resumen ....
14
"
'"
.
.
.
.
.
.
.
.
.
.
.
.
.
"
344
345
356
357
360
360
361
362
363
365
366
367
368
370
372
A mi bijo Carlos
Agradecimientos
Mi primer y ms grande expresin de gratitud es para mi empresa, RTVE,
porque aqu he aprendido la mayor parte de lo que s sobre tecnologa de tele
visin, tanto en mi primera etapa como tcnico en TVE, como despus en el
Instituto Oficial de Radio y Televisin. Creo que este libro no hubiera sido posi
ble sin el aporte de quienes han asistido a mis clases, ya sea en los cursillos impar
tidos en el IORTV o en otras instituciones. Ellos me han obligado a organizar y
sistematizar los conocimientos y a encontrar mejores ejemplos y explicaciones.
Tambin debo dar las gracias a quienes me han facilitado informacin, desde
compaeros de RTVE hasta colegas de empresas como Sony o Panasonic. POl
ltimo, sera injusto si no tuviera en consideracin y agradeciera la paciencia
mostrada por mi propia familia. Escribir un libro es algo muy gratificante, pero
roba muchas horas de asueto.
17
Presentacin
Los aos treinta del siglo pasado vieron el nacimiento de la televisin, los sesen
ta la llegada del color y ahora, con el nuevo milenio, se generaliza la televisin digi
tal. Con la tercera ola de tecnologa, se est produciendo una verdadera revolucin
en la forma de producir televisin. Esto es consecuencia no solo de la natural
madurez de la tcnica y la ingeniera, sino tambin de la confluencia de tres secto
res clave, que hasta ahora evolucionaban por separado: las telecomunicaciones, la
informtica y la televisin. Estos tres campos se unen para crear algo nuevo: el
mercado audiovisual digital.
En la actualidad, estn cambiando la forma en que se generan los contenidos, la
forma en que se postproducen y sobre todo el modo en que se distribuyen. Muy
pronto los c1ips de video y audio se movern dentro y fuera de los centros de pro
duccin en forma de archivos informticos (AAF, MXF ... ), por redes LAN o WAN
(Ethernet, Fiber Channel ... ). Pero cuando un estudiante de imagen y sonido o un
ingeniero de telecomunicaciones intentan comprender el ltimo sistema de com
presin de video o el ms moderno interfaz para transmisin de datos audiovisua
les, a menudo se encuentra con que les falta un conocimiento preciso de las sea
les de video y audio. Para comprender los sistemas de compresin avanzados hay
que conocer la seal digital sin comprimir. Para comprender la seal digital, hay
que dominar primero la analgica. Para entender la seal analgica es necesario
conocer los principios bsicos de la colorimetra y la percepcin visual y auditiva.
El conocimiento siempre se asienta en otros conocimientos previos ms bsicos.
En este libro se ha intentado estructurar los conocimientos sobre tecnologa de
televisin, desde los condicionantes de la percepcin visual y auditiva humana,
hasta los sistemas avanzados de compresin de video y audio digital. El co
nocimiento sobre tecnologa de televisin no termina, ni mucho menos con el lti
mo captulo de este libro. Ms all hay temas relacionados con el tratamiento
matemtico de la informacin digital, como cdigos de canal y tratamiento de
errores o sobre equipamiento digital profesional: cmaras, magnetoscopios, equi
pos de postproduccin ... o con la utilizacin de equipos informticos en la pro
duccin de televisin: discos duros y servidores de video/audio, sin olvidar la
prxima revolucin: Televisin en Alta Definicin Digital y Cinematografa Elec
trnica.
19
Por tanto, este libro trata sobre la tecnologa convencional de televisin; la que
actualmente se esta aplicando en la produccin de programas. Se ha intentado
actualizar al maximo los contenidos, de forma que abarquen cualquier conoci
miento tcnico actualmente aplicado en la generacin, produccin, post
produccin), distribucin de los programas de televisin.
El libro se inicia con tres captulos dedicados a la seal analgica: un captulo
dedicado al sistema de percepcin visual)' a la seal en blanco)' negro; un captu
lo donde se tratan los principios de la colorimetra), la formacin de las seales de
color en televisin y un captulo dedicado a los tres sistemas bsicos de televisin
en color actuales: PAL, SECAM y NTSC. El captulo cuatro es, probablemente, el
ms tcnico y trata sobre la digitalizacin de las seales de video. Aunque es el de
ms contenido matemtico hay pocas frmulas ya que en general se han evitado en
la medida de lo posible en todo el libro; el experto en matemticas no las necesi
ta y al que no las entiende solo le confunden.
Los captulos 5 y 6 se dedican a las dos normas actuales de televisin digital; La
norma por componentes recogida en la Rec. 601 y conocida como 4:2:2 y la
norma de video digital compuesto conocida como 4fsc. El captulo 7 es lll10 de los
ms extensos y trata la teora en que se fundamentan los sistemas de compresi6n
de video. El captulo 8, por su lado explica los sistemas reales de compresi6n de
video, es decir la aplicacin prctica de las explicaciones del captulo 7, desde los
sistemas MPEG hasta la compresi6n YCPRO.
Los captulos 9 al 11 estn dedicados al audio y siguen la lgica progresi6n de:
audio analgico, audio digital y compresin de audio. En este ltimo captulo se
recogen los mas modernos sistemas de compresin: el MPEG-AAC, e! AC-3 de
Dolby, el ATRAC de Sony, o las normas APT-X.
El propsito de este libro es el de proporcionar, en un solo volumen los cono
cimientos que toda aquella persona relacionada con la tecnologa de television
debera dominar. Si en alguna medida esto se consigue, el autor se considerar sufi
cientemente compensado.
20
CAPTULO
La seal de vdeo
1. Un poco de historia
La television, tal y como la conocemos hoy en da, naci y se defini en los aos
30, una poca de rpidos avances tecnol6gicos. Aunque ya han pasado ms de
sesenta aos, las normas y sistemas actuales de televisin sufren, en parte, las limi
taciones tecnolgicas de aquella poca. Las soluciones adoptadas por los pioneros
de la televisi6n no s6lo estaban limitadas por la tecnologa existente, sino que deb
an ser, adems, econ6micamente aceptables, tanto para e! radiodifusor como para
el espectador. Por otro lado, no todos los avances tecnol6gicos posteriores pudie
ron ser aplicados, ya que cualquier innovacin deba ser, adems, compatible con
los millones de receptores instalados en todo el mundo.
La historia del desarrollo de la te!evisi6n ha sido, en esencia, la historia de la
bsqueda de lll1 dispositivo adecuado para explorar imgenes. El primero fue e!lIa
mado disco Nipkow, patentado por e! inventor alemn Paul Gottlieb Nipkow en
1884. Era un disco plano y circular, que estaba perforado por una serie de peque
os agujeros dispuestos en forma de espiral partiendo desde el centro. Al hacer
girar el disco delante del objeto, e! agujero ms alejado de! centro exploraba una
franja en la parte ms alta de la imagen y as sucesivamente, hasta explorar toda la
imagen. Sin embargo, debido a su naturaleza mecnica, e! disco Nipkow no fun
cionaba eficazmente con tamaos grandes y altas velocidades de giro, necesarios
para conseguir una mejor definici6n y lll1a buena reproducci6n de! movimiento.
Despus de muchos experimentos poco satisfactorios con elementos mecni
cos, aparecieron, a mediados de los aos 30, los primeros sistemas basados en la
exploraci6n e1ectr6nica de la imagen. Estos sistemas, denominados entonces de
"alta resoluci6n" iniciaron sus emisiones de forma casi simultnea en Inglaterra,
Francia y Alemania. Las imgenes de aquella poca tenan una resoluci6n vertical
de lll1as 400 lneas (405 en Inglaterra y 441 en Francia y Alemania). En los Estados
Unidos de Amrica, despus de experimentar con distintos sistemas e!ectronicos
21
La
de 300 a 400 lneas, se opt en 1941 por el sistema de la National Te!evision System
Committee (NTSC) de 525 lneas, que, con pequeas modificaciones, se ha man
tenido hasta la actualidad. La relacin de aspecto (relacin entre la anchura y la
altura de la pantalla) fue desde un principio, y en todos los casos, de 4: 3. Esta rela
cion de aspecto se mantiene en los sistemas actuales convencionales.
Despus de la segunda guerra mundial, Inglaterra continu con su sistema de
405 lneas y Francia con el suyo de 441 lneas. En 1948 Francia adopto un sistema
de 819 lneas, que, al menos por el nmero de lneas de exploracin, podra con
siderane como el predecesor de la HDTY. Alemania y e! resto de Europa adopta
ron el sistema de 625 lneas.
Los Estados Unidos de Amrica introdujeron el color en 1953 (sistema NTSC),
mientras que en 1968 naci el sistema de color PAL, adoptado por la mayora de
los pases europeos y de otros continentes. Francia dise su propio sistema de
codificacin de! color (SECAM), que tambin adoptaron muchos de los pases del
este de Europa y de! norte de frica. Durante aos no solamente haba en Europa
tres sistemas de exploracin y dos mtodos de codificacin del color, sino que,
adems, convivan siete normas de transmisin incompatibles entre ellas. Esta
situacin se corrigi en parte durante los aos 80, cuando Francia e Inglaterra
abandonaron sus sistemas de 819 y 405 lneas, respectivamente, en favor del siste
ma de 625 lneas. Esto demuestra lo difcil que es cambiar un sistema de televisin;
los arcaicos sistemas de los aos 30 tardaron cincuenta aos en ser sustituidos.
Actualmente en Europa slo hay dos sistemas de televisin en color: e! PAL Y
el SECAM, ambos con 625 lneas. Puede darse cuenta el lector de que todos los
sistemas, actuales o no, utilizan un nmero impar de lneas. La explicacin se ver
un poco ms adelante.
La figura 1.1 muestra las partes ms importantes de! ojo humano. En primer
lugar podemos apreciar la crnea, que junto con el cristalino forman el sistema de
lentes de! ojo. Mientras que la crnea puede considerarse como una lente de lon
gitud focal fija, el cristalino, gracias a su capacidad para variar de curvatura, ofre
ce una longitud focal variable. En efecto, de forma automtica e imperceptible, e!
cristalino, gobernado por los msculos ciliares, adapta su curvatura para formar
siempre una imagen ntida sobre e! fondo del ojo. Cuando miramos un objeto cer
cano, el cristalino, que est formado por una serie de capas transparentes (como
una cebolla), se redondea para acortar su longitud focal. En el caso contrario, es
decir, cuando miramos algo lejano, la longitud focal aumenta, como consecuencia
de que e! cristalino se aplana. El proceso de adaptacin de la longitud focal, es
decir, de la curvatura del cristalino, se denomina acomodacion. Cuando una per
sona envejece, el cristalino pierde flexibilidad y disminuye su capacidad de aco
modacin. Entre la cornea y el cristalino se encuentra una zona llena de lquido vis
coso denominado humor acuoso. De la misma forma, e! interior de! globo ocular,
entre el cristalino y e! fondo del ojo, est ocupado por e! humor vtreo.
2.2. La acomodacin
Una persona joven puede enfocar sin dificultad desde unos 15 cm hasta infini
to. A esta distancia de 15 cm se le llama "punto prximo", mientras que a unos
RETINA
(Detalle de la
capa pigmentaria
22
de vdeo
CRNEA
s~al
[l
CONO
::~:
BASTN
~
~'k
o(
11:
o(
"
(Oetalle de la
capa pigmentaria
en la zona perifrica)
NERVIO OPTICO
HUMOR ACUOSO
Figura 1.1.
(derecha).
23
/~-
0:::
w
Cf).
Ww
2.4. La retina
La retina es la superficie interior sensible del ojo humano. Se u-ata de un complejo
sistema de terminaciones nerviosas, formada por dos clases de clulas sensitivas, llama
das conos y bastoncillos, capaces de convertir la luz en impulsos elctricos.
Adems de los conos y los bastoncillos, otros tipos de clulas retinianas, como
las bipolares, horizontales, amacrinas y ganglionares, llevan a cabo una serie de pro
cesos de tratamiento de la informacin, antes de enviarla a traves del nervio ptico
al cerebro. Entre estos procesos destacan: la deteccin del movimiento y su direc
cin, el realce de bordes, la intensificaci6n por contraste y la compresion o reduc
cin de la cantidad ele informacin. As, la retina, en lugar de sacar un mapa punti
llista de la imagen que sobre ella se forma y enviar la informacin punto a punto al
cerebro, extrae de dicha informacin todo lo importante, optimizando la va de
enlace con el cerebro, que es el nervio 6ptico.
24
11
0
f-
W:J
1I I
0::: 0
o:::
2.3. El iris
0...0:::
0...
0
W_
OZ
PUNTO CIEGO
1\
\
\
--
" ---
/"
80
40
40
80
DESPLAZAMIENTO ANGULAR
DE LA RETINA (EN GRADOS)
BASTONES
-
CONOS
Figura 1.2.
Disposicin dc conos y bastuncs
en la retina. La mxima densidad
dc fotorreceptores se concentra
en la fvea, coincidiendo con el
eje visual.
La seal de "ideo
A pesar de que cada retina contiene unos 170 millones de clulas sensitivas,
entre conos y bastones, slo dispone de un un milln de fibras para enviar la infor
macin al cerebro. As pues, la retina ha de comprimir la informacin antes de
conectarla al nervio ptico. De esto se encargan las clulas bipolares, las cuales
conectan varias clulas sensitivas a una sola fibra del nervio ptico. En e! centro de
la retina, es decir, en la fvea, cada clula sensitiva, sea sta cono o bastn, est
conectada a una fibra, mientras que e! nmero de clulas sensitivas conectadas a
una misma fibra del nervio ptico aumenta a medida que nos acercamos a la peri
feria.
Las clulas amacrinas y horizontales trabajan transversalmente, sumando y res
tando la informacin proporcionada por distintas clulas sensitivas, ms o menos
cercanas, para procesar la informacin, resaltando bordes o detectando movi
miento.
SENSIBILIDAD ESCOTPICA
//-.. . . ,/"'\.
'
2':
1,0
I
I
w 0,75 i
/'
oa::
0'5
Q:l 035
Z
/
(J)'
(J)
SENSIBILIDAD
FOTPICA
I
"
/,
I
/
0'
400
------"c
500
600
(NANMETROS)
700
Figura 1. 3.
Curvas de sensibilidad fotpica )'
escotpica.
___La sdl.-t<lk,Ihk
'R'
,r;,
Nv =_1_
<,,-j
OJO IZQUIERDO
IMAGEN
RETINIANA
TU8~RCUlO
SUPERIOR
as fueron diseados teniendo en cuenta esta agudeza visual de 1 ' Yasumiendo una dis
tancia de visionado eCluivalente a seis veces la altura de la pantalla. La relacin entre el
nmero de elementos de imagen que pueden resolverse, en funcin dc una altura de
imagen y una distancia de visionado determinada, es:
J:~-JT"
I
011
OJO DERECHO
"
.-- ~Jwt,.~J1,t
......'-'\
NERVIO OPTICO
.;;r
-'
'
LATERAl (IZQUIERDO)
RADIACIONES
PTICAS
Figura 1.4.
CUERPO GENICUlADQ
LATERAl (OERECHO)
...
J ..
;.
'~:;."~~--:t...:)~~. "'C
1
+.'. ."'i ,t- . . ~r, '-..J
\!~"".:>~~ V;l,.~Jt>~ ,
-
CUERPO GENICUlAOO
QUIASMA. Opnco
CORTEX VISUAL
EXTRlADO .
rk:~
L
.e
~::"r
~::~" '~.
u~
7
;'
....~
. REA"
VISUAL
".
~--;-
Diversos nervios motores actan sobre los msculos que regulan el movimien
to del globo ocular y ele! parpado superior. El nervio ptico es un haz de finas fibras
conectado a la parte posterior de la retina, en una mancha un tanto descentrada
hacia la nariz, denominada punto ciego, ya que es insensible a la luz, por carecer
de clulas sensitivas. Dibujando una cruz en el centro de la pgina de la izquierda
de un cuaderno y un crculo negro en el centro de la pagina de la derecha es posi
ble detectar la presencia del punto ciego. Basta con cerrar el ojo i~quierdo y,
mirando la cruz, alejar y acercar e! cuaderno hasta que e! crculo desaparece, pues
to que su imagen est cayendo justamente en el punto ciego del ojo derecho. Es
sorprendente cmo el sistema de percepcin visual se "inventa un trozo de imagen"
para compensar e! efecto del punto ciego.
Nv
1
(6 x 2,91 x 10-')
~ 570 [{neas
TIpo de imagen
Frecuencia de
Exhibicin (Hz)
Imgenes por
segundo
Umbral de parpadeo
(cd/m')
48
SO
60
24
2S
30
68
100
600
PELfCULAS
TELEVISiN (SO Hz)
TELEVISiN (60 Hz)
3. La seal de vdeo
Una imagen de television puede ser considerada como una informacion que
fluye simultneamente en tres direcciones: horizontal, vertical y temporal. Puesto
que la seal de vdeo solo puede discurrir en una direccion (el tiempo), se hace
necesario descomponer la imagen en dos de sus tres dimensiones.
Desde los inicios de la televisin se opto por analizar el contenido de la imagen
siguiendo un patrn de lneas, de izquierda a derecha y de arriba abajo. El proceso
se realiza de forma similar a como los humanos leemos la informacin de una pgi
na impresa: comenzamos por la esquina superior izquierda y avanzamos hasta la
parte derecha. A continuacin volvemos la vista rpidamente a la izquierda y un
poco ms abajo para comenzar la lnea siguiente y as sucesivamente hasta termi
nar la pgina. A cada punto de la imagen le corresponde un valor de coniente elc
trica proporcional al brillo de ese punto si se trata de blanco y negro o tres valo
res distintos si se trata de una imagen de color. Una vez terminada una imagen, se
analiza la siguiente y as sucesivamente.
La sea I de vdeo
que simplifica el diseo del receptor, al tiempo que, al ser la frecuencia de la red
mltiplo exacto de la frecuencia de imagen, cualquier interferencia que, provenien
te de la red, se produzca sobre la imagen se mostrar como estacionaria, lo cual es
subjetivamente menos molesto que una interferencia movil. En segundo lugar, 25
ips est muy cerca de los 24 fotogramas que se emplean en cine, de manera que el
material filmado se puede pasar directamente por televisin.
CAMPO 1
LINEA
ESCRITURA
CAMPO 2
LINEA
313
:E==El "'~
315
~"
2,
315
3
".
",
RETRAZADO
30
313
31;~
'.
3. 1. Frecuencia de cuadro
Para comenzar es necesario determinar cuntas imgenes se han de analizar en
un segundo. De esto depende la suavidad y naturalidad con que ser reproducido
el movimiento.
Como se ha visto en el apartado anterior, en cine profesional (que es anterior al naci
miento de la television) se trabaja con 24 fotogramas por segundo (fPs), cadencia sufi
ciente para una buena reproduccin de las imgenes en movimiento. En televisin se
opto por 25 imgenes por segundo (ips) en Europa y 30 en Estados Unidos.
La razn de emplear una frecuencia de imagen (se suele llamar frecuencia de
cuadro) de 25 ips es doble. En primer lugar, permite sincronizar la frecuencia de
imagen con la frecuencia de la red elctrica (50 Hz es justo el doble de 25 Hz), lo
CUADRO
,~RITURA
RETRAZADO
====
....
-==-;;;===
~
Figura 1.5.
31
Dado que la imagen de televisin est descompuesta en lneas, una solucin inteli
gente para resolver e! problema del parpadeo sin aumentar el ancho de banda podra ser
sta: en lugar de transmitir las lneas en su secuencia natural, es decir, primero la lnea
1, despus la 2, despus la 3, etc., hasta terminar con la 625, se d\;de la imagen en dos
partes llamadas "campos", cada uno de los cuales tiene 312,5 lneas. El primer campo
contiene W1a de cada dos lneas, que se numeran en el orden en que son transmitidas y
que van de la 1 a la 312, ms la primera mitad de la 313. El segundo campo contiene las
lneas intercaladas, no transmitidas en e! primero, comienza a la mitad de la lnea 313 y
termina al final de la 625. As pues, tal como se ven en la pantalla de! TRC, a la lnea 1
no le sigue la 2, sino la 314. Las lneas de los dos campos se transmiten intercaladas o
entrelazadas. (Vase figura 1.5.)
De esta forma se obtiene una frecuencia de repeticin de 50 Hz (frecuencia de
campo), sin incrementar e! nmero de imgenes totales, que sigue siendo de 25, y
sin incrementar, por tanto, el ancho de banda. A este proceso se le denomina
"entrelazado de campos".
~~t,-
Figura 1.6.
La agudeza visual humana se cifra en l' de grado.
"na
Existe
relacjn-s'ellcilla-~e1 numero de lneas.pru:.imagen-*--elnmcro
de imgenes e9r s~do (625
2~)-.tl~q!!~ simplifica el "istema.
~~o que-un<:l.-~~gt':1l.~~c.:-;~p;~de6_2SIineas.}'Ullcuadm-(-Goseampos}.se-pw
lucecaaaT72~egun~~afr~~~_~c.:i.a:_geJ!I}_e.~cr.Lf2.S._?<_25:.::::.15,625 Bz. _
/. Cf-/:JAI-To
La seal de yidco
dura un poco ms que la europea (52,856 )1s), mientras que el borrado de lnea en
la norma americana es de 10,7 JS.
Dentro del borrado de lneaE9_?~mos distinguir: los prticos anteriol:J'_posterior,
los cuales estn al nivel de borrado (OY), el sincronismo deJllleiid'1l.l.l.r.s.L..o..~~
color", el cual slo estar E~s=-r:t:._c:~~c:.::_~~a sea~ de co!~r.
Nivel de blanco
O.7V~
90% ( J
(~90%
0,
NIVEL DE BlANCO (100%)
________o.. !!."
PRTICO ANTERIOR
10,5 JS
1,5iO.31.15
F=
0.3%;0,11-15
E:::PRTlCO POSTERIOR
"'----""
5.8 JS
DS~~f:E~~~~~~~s
(30%]
G=O.2:l0.1 IJS
''---'O
T[~
l.
I
FONDO DE
SINCRONISMOS
(0%)
BORRADO O
SUPRESiN DE LINEA
"~I
PERIDO ACTIVO
DE LINEA
Figura 1.7.
Oscilograma mostrando una lnea de televisin, con los valores de tensin y tiempo ms
importantes (norma 625/50).
34
F y G .. Ilempo de formacin
de los nancos IInlro el
D=IMPUlSO DE
..-QdV.
.I:l
r--------....J~~~,1t;-.-:.
NIVEL
DE NEGROS
.....'J'Io
F=
0,3;,1:0,1
".__
)10%
10%\
OV__
... )
-O.3V____
toO )
Nivel de
borrado
10 Yel 90%
G=O.2:l0.1 IJs
1~-=-_~ __ X()~~E.~"~ln_Cr()rliSmOS
>
~
~
Figura 1.8.
Detalle del borrado de lnea (para una seal de blanco y negro, en la norma 625/50). Cualquier
medida temporal sobre la lnea de televisin se realiza con respecto al instante OH, el cual se defi
ne como el punto de media amplitud del flanco anterior del impulso de sincronizacin horizontal.
Comparando las figuras 1.8 Y 1.9, as como analizando la tabla 1.2 puede verse que
la seal de vdeo de la norma americana de 525 lneas y 60 campos presenta algunas
diferencias notables con respecto a la norma europea de 625 lneas y 50 campos. No
slo las duraciones son distintas. Adems los niveles de tensin del pico de blanco y del
35
La scil.l! de \'dC:Q
Nivel de Blanco
0,71~
~O%
90%6
PARA METRO
0"
Nivel de blanco
Nivel de negro (pedestal)
Nivel de borrado
Fondo de sincronismos
ANTERIOR.
1.5O.1~S
F..o,14
O,02IJS
10%
mv1-
_t-JIV.el.d.e.~egr()S'lmmmmm
D.IMPULSO DE
SINCRONIZACiN
DE LINEA . 7O.1~S
lo
E-PORTICO POSTERIOR
. 5~S
_'m
G"'O.14~
.O,285Y
"-----"
sg
Tabla 1.4 Niveles de tensin de la seal de vdeo en blanco y negro para las normas
525/60 y 625/50.
F.O.14
O.02~S
NORMA 625/50
700 mV
O IRE (O V)
--40 IRE (-285,7 mV)
OV
OV
-300 mV
__ r~fr;~gg
F Y G = tiempo de lormaci6n
de los flancos entre el
10 y el 90%.
1~14O,02IJS
NORMA 525/60
Fondo de Sincronismos
Figura 1.9.
Detalle del borrado de linea (para una seal de blanco y negro, en la norma 525/60).
Cualquier medida temporal sobre la linea de television se realiza con respecto al instante OH,
el cual se define como el punto de media amplitud del nanco anterior del impulso de sincTO
nizacion horizontal.
37
,f
__ -----.f>.E~J-~f_A~~q~_? __n~~__
...-
La seal de vdeo
~ .~~
r---------------;o
SINCRONISMO
DE CAMPO O
SINCRONISMO
VERTICAL
BORRADO DE CAMPO
"r
Figura 1.10.
muestra ms detallado el
borrado de campo.
2,5 H
2,5 H
--j."
PRIMERA LINEAACTJVA
DEl CAMPO SIGUIENTE,
1,7V.
2,5 H
----'Xn nn'~T~nn~~"""r'
j
~i
uuuuu~ ~ ~ ~ ~ ~ ~ ~ ~. ~ ~ l. _lO,3V
-
80~fu\_.Q...Qf__&tt>.P~1:L!__.JlllL~
-------
--~J
38
}.
- - -- -
- -~'- ~ - - - -- - - -- - -- -
",", PERFIL DE ENERGIA DE LAS
LINEAS DEL CAMPO 2
...,
Figura 1.11 .
:} -- -- -- -- -
... ...
1 __
1.6
\-
,.
"" 5,5MHz
0,181 J.1S
U)
6~0
tia
'
./
//
:3o
300
200
~ 100
lY
o1/1 2 3 4 5 6 7 8
ANCHO DE BANDA EN MHz
Figura 1.12.
Relaci6n entre lneas de resoluci6n y
ancho de banda, Para pasar de una a otra
medida, multiplicar o dividir por 80,
39
LJ_~cJl~ !.1.h.lJ.t,k
Los tres sistemas de televisin actuales son: NTSC (EE.UU" Sudamrica )'
pases del Pacfico), SECAM (Francia, Europa del este)' norte de frica) )'
PAL en el resto del mundo. PAL y SECAM utilizan 625 lneas)' 50 campos;
NTSC utiliza 525 Hneas )' 60 campos.
Para entender los parametros en que se basa la televisin es necesario cono
cer las caractersticas de la visin humana, en especial la anatoma y funciona
lidad de la retina. La resolucin espacial lumnica se cifra, para un espectador
medio, en un minuto de grado. Esta resolucin slo se obtiene en el centro
de la retina, en una zona denominada fvea,
Otra caracterstica visual muy importante es la persistencia visual, la cual se
cifra, en condiciones normales de observacin, en l/lOs. Sin embargo, para
obtener una reproduccin suave de! movimiento es necesario trabajar con una
frecuencia de imagen por encima de 20 ips. En cinl" se opt por 24 ips, mien
tras que en televisin se eligi una frecuencia de imagen de 2S ips en la norma
europea y de 30 ips en la americana,
Aunque 2S ips (30 ips en e! sistema americano) es suficiente para reproduci' el
movimiento de forma suave, a esta frecuencia de exhibicin se produce un fuer
te parpadeo de la imagen. La solucin adoptada en televisin es el "intercalado
de campos". De esta forma se evita el parpadeo sin aumentar el ancho de banda.
As, la frecuencia de refresco de la pantalla a la frecuencia de campo 50 Hz
en la norma europea y 60 Hz en la americana.
El entrelazado de campos fue una buena solucin en su momento, aunque,
por otro lado, introduce sus propios defectos y artificios. Los futuros sistemas
de televisin digital para multiprogramacin y HDTV utilizarn, seguramen
te, exploracin no entrelazada, tamhin llamada "progresiva".
En la norma europea se emplean 625 lneas por imagen (312,5 lneas por
campo), mientras que en la norma americana se utilizan 525 (262,5 por
campo). En cada campo de la norma europea se utilizan 25 lneas para el
borrado vertical, de forma que el nmero de lneas activas por imagen es de
575. En la norma americana se utilizan 20 lneas POl- campo para el bOlTado
vertical, siendo el nmero de lneas activas por imagen de 485.
La resolucin vertical efectiva es menor que el nmero de lneas activas, ya
que se ve afectada por el factor de Kell, quedando en 430 lneas en la norma
europea y 360 en la americana. Teniendo en cuenta la relacin dI" aspecto, una
resolucin horizontal equivalente dara 574 lneas por anchura de imagen en
la norma europea y 480 en la americana.
(, ~"? '."
-:-- l .
La frecuencia de lnea se deduce multiplicando la frecuencia de imagen por el
nmero de lneas que componen cada imagen y es de 15,625 Hz en la nOl'ma
europea y de 15.734 Hz en la americana. En todas las normas de televisin
convencional se utiliza una relacin de aspecto de 4: 3,
64 IJS (en 625/50) y de 1/15.734
La duracin de una lnea es de 1/15.625
= 63,55 I1S (en 525/60). El borrado de lnea en la norma europea es de 12
mS, lo que deja 52 I1S para la lnea activa. En la norma americana el borrado
de lnea dural0,07 IJS y la lnea activa 52,85 I1S.
Los niveles de amplitud de la seal de vdeo en blanco y negro se extien
Por tanto:
A"
d;-de:
Z"IRT
Kx575,
K = factor de Kell = 0,75
A"
ancho de Banda en MHz
Tabla 1,5 Parmetros ms importantes de las normas de televisin de 525 y 625 lineas
PARAMETRO
NORMA 525/60
59,94 (1)
40
52,856
de banda del
Relacin de resolucin HN
0,933
;'
NORMA 625/50
625
312,5
4:3
25
50
625 x 25 = 15,625
25
50
575
64
12 0,3
52
5,5
430/5,5 = 78
de banda del
canal = 5 MHz)
0,907
(1) En el sistema americano (normas M) la frecuencia de campo para blanco y negro era de 60 Hz, A par
tir de la -introduccin del color en el sistema americano NTSC en 1953, la frecuencia de campo pas a ser, de
59,97002996 (y ms decimales], Este cambio se hizo con la intencin de que 11LnUElya,pQ[tadQra de color no
interfirerac:onlaportadora t~ sonido:
' - .
(2) Dato terico no normalizado, a partir del cual se puede calcuiar el ancho de banda
(3) Es frecuente hacer una traslacin entre lneas de resolucin y ancho de banda, Dividiendo las lneas de
resoiucin por 80 se obtiene el ancho de banda en MHz, Igualmente, si conocemos el ancho de banda de un canal,
podremos saber qu resolucin horizontai puede proporcionar multiplicando el ancho de banda expresado en MHz
por el factor fijo 80, Puede verse Que esto es vlido tanto para el sistema 525/60 como para el 625/50,
Resumen
La televisin naci y se defini en los aos 30, Muchas de las caractersticas y
limitaciones de los sistemas actuales son consecuencia de la necesidad de
compatibilidad con aquellos sistemas pioneros.
41
40
~
0,7+0,3
o
= lV
I
f
~
CAPTULO
i,
El color
42
Son tres: matiz, saturacin y brillo, ninguno susceptible de ser medido directa
mente.
o Por matiz entendemos la sensacin de color por la cual distinguimos las par
tes del espectro: rojo, azul verde, amarillo, etc. El equivalente f1sico del matiz
es la longitud de onda dominante de la luz para cada color.
o Saturacin es e! grado de pureza de un color, es decir, la medida en que est
43
Saturacin
pureza
c-oma
Brillo
luminosidad = valor
=
=
Figura 2. J.
Mezcla aditiva.
Siempre que trabajamos con luces (como en el caso de la televisin) se dice que
estamos empicando mezcla aditiva de colores. En efecto, si sobre una pantalla
blanca de una habitacin a oscuras proyectamos un haz de luz roja, tendremos una
cierta cantidad de luz. Si a continuacin hacemos converger sobre la mancha de luz
roja otra de luz verde, obtendremos la suma de la luz de ambos proyectores (la
pantalla refleja la luz roja y tambin la luz verde). Cada vez que aadimos luz, el
color resultante es mas luminoso.
45
El color
quemas tres proyectores, uno rojo, otro verde y otro azul de igual potencia, a la
izquierda de una cartulina blanca doblada, tal como muestra la figura 2.2. A la
aJ_~ sig.uie.I1!~s__p.o~iciQnes:
v
tt
ROJO
VERDE
,I
Figura 2.3.
Mezcla sustractiva.
I
AZUL
tt
LUZ
BLANCA
\
\
\, i
','
""~--'
OBSERVADOR
i,
~
,~
f
~
Figura 2.2.
Igualacin del blanco mediante proyectores R, G Y B.
por luz verde (59%), algo de radiacin roja (30%) y muy poca azul (lIro)
La conclusin es que cada vez que aadimos un nuevo color pigmento estamos qui
tando luz. Por tante;. este tipo de mezcla de colores se denomina mezcla sustractiva.
Los colores cin, magenta y amarillo, que son secundarios en mezcla aditiva, pasan
a ser primarios en mezcla sustractiva. Si queremos pintar un cuadro a todo color con
slo tres tubos de pintura, sern precisamente cin, magenta y amarillo los que debe
remos elegir. Jos Mara Parramn, un excelente pintor dedicado a la enseanza,
recomienda el amarillo de cadmio, el carmn de Garanza oscuro y el azul de Prusia
para aquellos que quieran hacer la prueba de pintar un cuadro con slo tres tubos de
color. Si se trata de pintura al leo, por ser pigmentos opacos, deber emplearse, ade
ms, pintura blanca para rebajar o mermar la saturacin de los colores. Los tres colo
res de pintura de Parramn son los ms parecidos, dentro de los catlogos de fabri
cante de tubos de leo, a cin, magenta y amarillo.
Lo importante es no confundir los colores luz (mezcla aditiva) con los colores
pigmento (mezcla sustractiva).
..1
47
El crculo ecuatorial posee los colores en tintes puros (saturados), variando del
rojo al naranja, al amarillo, al verde, al cin, etc., de manera que viajando a lo largo
del ccuador iramos "ariando el matiz. Los dos polos estn conectados por meri
dianos, que cruzan el ecuador y los paralelos.
Puesto que se trata de un objeto slido, podemos definir tres ejes, los cuales se
relacionarn con Jos tres aspectos psicofsicos del color: el eje que conecta los dos
polos es el eje del brillo (o luminancia), de mancra que los colores se van hacien
do ms oscuros a medida que nos movemos hacia el polo sur.
La saturacin vara desde el centro de la csfera hacia la periferia, de forma que
en el ncleo encontraramos tonos grises, mientras que los colores saturados puros
habria que buscarlos en la periferia. En realidad, tales colores puros slo estaran
presentes en el circulo ecuatorial, ya que se desaturaran hacia blanco si nos move
mos por la superficie hacia el polo norte y hacia negro si lo hacemos hacia el polo
sur. Las variaciones de matiz las vamos a encontrar movindonos radial mente a lo
largo de un mismo paralelo.
Las figuras 2.4 (a) y 2.4 (b) representan dos vistas de la esfera de Runge; una
pone al descubierto el polo norte y la otra el polo sur. La figura 2.4 (c) es un corte
de la esfera a lo largo de un meridiano, de manera que vemos aumentar el brillo
del sur al norte. La figura 2.4 (d) 'epresenta un corte a lo largo del ecuador, mos
trando que, para una altitud determinada, deberamos encontrar niveles de gris
unifonne
La ventaja del modelo de Runge est en su atractivo visual y en su simplicidad.
Sin embargo, adolece de varios defectos:
1. Si se observan todos los eampos de color se ver que en algunas regiones los
matices cambian muy rpidamente, mientras que en otras parece haber
zonas demasiado grandes de color constante.
2. Aunque en este sistema el brillo crece de sur a norte, si nos movemos por
un paralelo determinado no encontramos los mismos niveles ele gris, ya que
en los matices amarillos, por ejemplo, el brillo es muy superior al corres
pondiente a los azulcs.
3. Situados en el ecuador y a una cierta distancia del centro de la esfera debe
ramos encontrar los mismos grados de sensacin de pureza o saturacin. Sin
embargo, el rojo aparece como ms saturado y puro <ue su complementario
el cin.
NARANJA
V!."RDE
ROJO
AMARilLO
MAGENTA
(b)
Fue ideado por Albert H. Munsell, pintor y profesor de arte, y consiste en una
serie de muestras de color dispuestas ordenadamente. Parti del sistema de Runge,
como idea general, pero no se bas en la forma de la esfera. El modelo de Munsell
se parece ms a un rbol y de hecho as lo denomin el propio autor.
, Munsell utiliza tres caractersticas del color: matiz, croma o intensiclad y valor.
Estos son aproximadamente equivalentes a los aspectos psicofsicos estudiados
(matiz, saturacin y brillo). Los matices se disponen en orden espectral alrededor
de un crculo, cuyo eje es una escala de diez valores de brillo, desde el O para el
VERDE
(e)
MAGENTA
Figura 2.4.
Representacion de los colores en
el espacio de atto Runge.
49
,t
VALOR O
BRILLO
\~
,~~ ~-"
SATURACION
TONO
"~
COLOR CLARO
I,
,f
oc~9D
O
sDD
~ 7DUD
ii
6 bhll:iEl~[ill
5
al3
// //
"
-~SATURACIN
/>'
\ / / '
'''-~----
Figura 2.5.
El rbol de Munsell.
El color
VERDE
,BLANCO
~
i
t
EJE
MONOCRO
MTICO
NEGRO
ROJO
Figura 2.6.
so
CIN
MAGENTA
-, AZUL
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ Ll color
= =
FUENTE.
~_
. __
BLANCO
c::=(]) =t ~
DE.. LUZ
\.(
"'\
.--.
-- -
r~
Figura 2.7.
R+G+B
g=
R+G+B
B
b=----
(1)
R+G+B
EJE
.EJE "y"
I .~--VERDE
0,7-
f.MARILLO
ClAN
,.,//
0,6
/
/
05-1 ..
0,4
.".
BLANCO
0,3
RruO
I
~
AZUL
52
\
MAGENTA
J.
~ET
0,2-
Figura 2.8.
Sistema de representacin basado en
coordenadas x" u y".
U
0.1jJ~UL
ROJO
.. B
0-
'EJE'"
r'
Figura 2.9.
Representacin basada en coordenadas
r"~ u g", "bU.
53
Un problema que presenta el sistema de la figura 2.9 es que hay ciertos colores
que no pueden ser igualados con los tres primarios de referencia ur", ug" y ub". Por
ejemplo, supongamos que deseamos obtener un cierto color cin sumando luces
verde (g) y azul (b) Yque no encontramos ninguna combinacin de cantielades ele
verde y azul que lo logren. Entonces deberiamos escribir:
e = g + b - kr
Siendo uc" el color que se quiere igualar. Ahora bien, resulta que si, por ejemplo,
le sumamos una cierta cantidael de rojo al color que queremos igualar, tal iguala
cin s es posible, ele elonde:
c .. g+b
Siendo "la" una cierta cantidad de rojo.
Igualmente poelemos escribir:
1,0
..-J
VERDE
ROJO
06
'
I \---+-t-
I \
o:: 0,4
=t
~ 0,2
=>
a..
(j)
La ecuacin anterior significa que para poder igualar cualquier color puede
ser necesario sumar cantidades positivas y negativas ele los primarios "1''', "g" y
"b". Hay que notar que se trata de un truco matemtico, ya que desde el punto
de vista f1sico no tiene sentido sumar luces negativas. Sin embargo, en matem
ticas no presenta ningn problema trabajar con cantidades negativas y, en reali
dad, el sistema de representacin basado en coorelenadas cartesianas lo permite
perfectamente.
Volviendo al experimento de igualacin de colores (figura 2.10), el obsetvador mira
un pequeo campo circular de luz. El campo est dividido en dos mitaeles, de manera
que el color que se desea igualar (e) ocupa una ele ellas, mientras que una mezcla regu
lable de primarios ur", "g" y "b" ocupa la otra mitad. Estos primarios pueden ser cualquier
conjunto, siempre que ninguno ele ellos pueela obtenerse por suma ele los otros elos. El
experimentaelor ajusta las cantielaeles de los tres primarios hasta que logra igualar (a jui
cio del observador) e! color ele prueba (c).
Para ciertos colores de prueba resulta imposible lograr la igualacin' con cantida
des positivas ele primarios, as que se ha ele redisear el experimento de forma que
uno o ms ele los primarios puedan ser sumados al color de prueba. En este caso la
cantidad de! primario sumado al color en prueba se entiende como una cantidad nega
tiva de tal primario necesaria pa'a igualar el color de prueba.
(j)
o:: -0,2
-0,4
380
420
460
500
540
580
620
660
700
Figura 2. I 1.
Cantidades relativas de primarios necesarios para generar todos los colores del espectro.
Las funciones ele igualacin de la figura anterior muestran cantidades negativas
para los tres primarios, indicando que muchos colores espectrales caen fuera de!
rango de colores obtenido mediante mezcla positiva de los tres primarios. Si qui
siramos dibujar un tringulo como e! de la figura 2.9, pero teniendo en cuenta
estas cantidades negativas, obtendramos la representacin de la figura 2.12.
Colocando en este grfico todos los colores espectrales se nos formara un espacio
en forma de herradura.
Otra caracterstica interesante de las leyes de Grassman es el concepto de que
cualqUier conjunto de primarios puede ser igualado mediante otro conjunto dife
rente, esto es, que cualquier conjunto de primarios es una transformacin lineal de
cualquier otro. Supongamos que definimos un nuevo conjunto de primarios que
denominamos XYZ. Ahora podemos escribir una ecuacin matricial que relacione
este nuevo conjunto con el conjunto original RGB.
COLOR DE
PRUEBA
54
AZUL
:; 0,8
e + kr = g + b
Figura 2. IO.
Igualacin de colores.
Xr
Xg
Yr
Yg
Zr
Zg
:H~]
donde
El color
+g
... 2.0
- 1.8
520
510
r--.:. "----.
1.6
"----.530
1.4
1,2
540~1
500 \
I 0.8~560
: "'" 550
490
'~
480"
-r... -'
-1.2
-,1__
-1,0
06
i'
~570
'" 580
, 0.4
0,2
"'- 600
, _ _
"'" 700
47L~I--~
0.8 1,0
-'~~-,
~L 8 ~-0.6
,----,-0.4
-0,2
t
,
02
_g
-.
0.4
--~
+r
0,6
Figura 2,12.
Localizacin del espectro (espectrus Jocus) basaelo en coordenadas rgb posi
O, 8
y..
P""535
520
V
-, --,--r,",---''"
l'
31 '
,
r \
':
,
, I:
'
Fuen'. o (6500 K)
'=3127
57~
~' 680
20000 K '/
'f~4
70
1"
I \450,
~"
400
Fuente E
,eO.3333
yo 0.3333
'-'-~""590-hOO
2.000 K
5,600 K
I "~i)
,700
./"'C R~
l.,
._i. 0,4:I
0, ]'0.2 0,3
yo 329\
-l e ,-,,
10 000 K'
'9~
1180
'~a'-'
i '.
i
['
i 485\1 Be~
0,11
,\
!
'1=0.3163
"30ooK
0,21 \ I rf>{
Figura 2.14.
Diagrama de cromaticidad CIE- J 931.
\_:.
495
Fue"te
e
JI; " 0.3101
550
l' "~60
0'_
041
\1.
1',' I
/-
1,
1
6505
~
o,51 \500
Gc - \ I
510
" "0,4476
y OA074
FU9nte B
l(" 0,3485
y=0.J517
I "", 530
0.7 (, - 1--- \~~.O
tivas y negativas.
FUlll1te A
"
0,5
0,6 0.7
0,8
x
lo largo de la curva exterior. Las coordenadas "x" e "y" son magnitudes dimensio
nales, a partir de las cuales puede determinarse tanto el tono o matiz como la satu
racin de cualquier color. En la recta que sirve de base al tringulo se representan
los colores no espectrales (los prpuras). El brillo o luminancia (suele represen
tarse por la letra "Y") no est representado en el tringulo. Los puntos situados
sobre la curva exterior corresponden a colores saturados, mientras los puntos inte
riores representan colores no saturados (contaminados de blanco). El punto "E" es
el centro del tringulo de color (x == 0,33; Y 0,33) Yrepresenta un blanco ideal,
es decir, un blanco para el que todos los colores del espectro aportan igual canti
dad de energa (blanco equienergtico).
Si nos fijamos (figura 2.14) en la lnea PE, P (x
0,195; Y 0,78) representa
un color verde totalmente saturado (longitud de onda = 535 nm). El punto Gc
Figura 2, 13,
56
57
representa e! mismo color, pero menos saturado. La saturacin en este caso queda
definida por:
E
Gc
X 100%
85%
=-PE
:f
1
CUALQUIER
MEZCLA ENTRE
D Y E SE SITA
ENDE
Figura 2.17.
Primarios empleados en TY.
y
LA LONGITUD DE ONDA
DOMINANTE DE "L" ES "N"
PUREZA DEL _ LD
COLOR "L" - DJ
"O" Y "P" SON COMPLE
MENTARIOS. PUESTO
QUE O+P = BlANCO
...........
---
---.---------., X
............-:
Figura 2.15.
nacional".
~K
!
t
COLORES NO ESPECTRALES
(PRPURAS O MAGENTAS)
------~ X
Figura 2.16.
Colores no espectrales.
Se sabe que, en teora, cualquier color puede ser obtenido mediante la mezcla
aditiva de tres colores primarios en las proporciones adecuadas. Como colores pri
marios han sido elegidos el rojo, el verde y el azul (normalmente nos referiremos
a ellos mediante sus iniciales en ingls R, G, B), debido a varias consideraciones.
Una de ellas es que los colores no deben estar situados en el espectro uno cerca de
otro, ya que en este caso sera necesario sumar cantidades negativas de algunos de
los primarios para obtener ciertos colores, y otra razn es que los primarios ele
gidos debern corresponder, preferiblemente, a los fsforos disponibles en los
1
58
59
[J loL~r
tubos del televisor. Adems los conos de la retina humana, que son responsables de
la visin en color, estn divididos en tres grupos, cada uno de los cuales presenta
su mxima sensibilidad en el rojo, el verde y el azul, respectivamente.
En una cmara de televisin en color la imagen es dividida, mediante el prisma
o espejo dicroico, segn el caso, en estos tres colores primarios y enviada a tres
sensores CCO de la cmara (uno para cada color). Estos tres sensores determinan
la intensidad de cada color y suministran las seales R, G Y B.
A comienzo de los aos 50 el Comit Federal de Comunicaciones de los Estados
Unidos de Norteamrica encarg a un grupo de expertos la creacin de un siste
ma de televisin en color. El Comit Federal impuso al grupo de expertos dos pre
misas:
1. Compatibilidad directa e inversa. La seal de color debera poder ser vista
en los receptores de blanco y negro, aunque, por supuesto, en blanco y
negro. Adems las emisiones que se siguieran haciendo en blanco y negro
deberan poder ser mostradas por el televisor de color, aunque, como es
lgico, en blanco y negro.
2. El sistema de televisin en color nuevo no debera ocupar ms ancho de
banda que el viejo sistema de blanco y negro. Esto significa que para la tele
visin en color se seguiran utilizando los mismos canales de radiodifusin
que haban sido otorgados a la televisin en blanco y negro.
De las premisas anteriores se deduce que la nueva seal de color debera ser una
"seudoseal de blanco y negro", en el sentido de que al televisor de blanco y negro
le siguiera pareciendo una seal de blanco y negro y que las nuevas informaciones
le pasaran inadvertidas. El televisor de color, por su parte, sera capaz de separar la
informacin de blanco y negro de la informacin nueva y, procesndolas, obtener
los valores de R, G YB. En cierto sentido se puede decir que en los sistemas actua
les de televisin la informacin de color est "escondida" o "disfrazada" en la infor
macin de blanco y negro.
Como sabemos, la luz blanca (por ejemplo, la que nos llega del Sol) no es otra
cosa que la suma de luces de muchos colores. Es posible comprobar esto ltimo
descomponiendo la luz blanca mediante un prisma u observando el arco iris.
Parecera lgico que si queremos obtener luz blanca a partir de tres primarios R,
G YB, deberamos mezclar estos a partes iguales, es decir, 33% R + 33% G + 33%
B. Sin embargo, si nos fijamos en la distribucin espectral de la luz blanca veremos
que est formada por mucha ms radiacin verde que roja y por muy poca radia
cin azul.
Si queremos obtener una seal de blanco y negro (y la necesitamos para cum
plir con la compatibilidad) a partir de las seales R, G Y B proporcionadas por la
cmara de color, deberemos sumar stas en las proporciones: 30% R + 59% G +
11 % B (vase experimento del la figura 2.2). La seal as obtenida (prcticamente
idntica a la que proporcionara una cmara de blanco y negro) se denomina "Iumi
nancia" y se abrevia como "Y" (figura 2. 18). Por tanto:
Y = 0,3 R
+ 0,59 G + 0,11 B
(2)
pero el televisor de color necesita saber cunto rojo, cunto verde y cunto azul
contiene cada punto de la escena. A la seal de luminancia hay que aadir, por
tanto, una informacin adicional que permita al televisor de color conocer los
valores de R, G Y B. Esta seal adicional se llama "crominancia".
Puesto que la seal "Y" se obtiene sumando, aunque de forma ponderada, las sea
les R, G YB Ypuesto que tenemos que enviar forzosamente la seal "Y" para cumplir
con la compatibilidad, ser suficiente enviar, adems, dos de los tres sumandos. El ter
cero podr ser deducido en el televisor restando de "Y" la suma de los otros dos.
SEPARADOR
CROMATICO
.,---SENSOR CCD
ff
--- "-,-
~O
~
ROJO
30%
O~
VERDE
LUMINANCIA
O~I~
"Y"
59%
'"
Figura 2.18.
Obtencin de la seal de luminancia a partir de los primarios RGB.
La seal G es la que ms contribuye al valor de Y (59%). Por tanto, podramos
enviar como informacin adicional R y B. Sin embargo, resulta ms apropiado
enviar "R - Y" Y"B - Y", es decir, e! valor de! "rojo-menos-luminancia" y el valor
de! azul-menos-Iuminancia. En e! televisor ser suficiente volver a sumar "Y" para
obtener "R" y "B". Por otro lado, restando "R" + "B" de "Y" (respetando las ponde
raciones) obtendramos e! valor de "G". En e! fondo, Y, R - Y Y B - Y no son ms
que otra forma de expresar R, G Y B. Matemticamente:
0,59 G - 0,11 B; B - Y
+ 0,89 B
=-0,3
Igualmente:
R Y + (R - y); G Y-O, 509 (R - Y) - 0, 194 (B - y); B = Y -- (B -Y)
Lo anterior puede representarse tambin mediante las siguientes matrices (aqu
los coeficientes se han expresado con precisin de tres decimales):
[ ~ =[MJIX[R~Y =[:
B
B-Y
- 0,509
O
o~ 941]X[R ~ y]
1
B-Y
61
2. 1. La correccin de gamma
Uno de los primeros pasos que sufre la seal de vdeo, ya sea en blanco y,negro
o en color, es una "predistorsin" conocida como "correccin de gamma". Esta es
consecuencia de las caractersticas de transferencia electro-ptica del TRC (tubo
de rayos catdicos) del televisor; el brillo proporcionado por la pantalla no es line
almente proporcional a la tensin suministrada al tubo (la seal de vdeo). Para
conseguir una transferencia global lineal, es decir, para que los incrementos de bri
llo de la escena se traduzcan en incrementos iguales en la pantalla del televisor es
necesario introducir en el sistema una compensacin no lineal.
62
El color
I
1
Y
11
-l-----l
I
~ o,a/ ~g~~~~~~~_I
y=xo,..
LL.
~ 0,6
a::
0,4'
UJ
0,2,
...J
v......-----==
0,2
0,4
0,6
0,8
TEN810N DE CONTROL DEL TRC
(SEAL DE ViDEO)
X.
Figura 2.19.
Las curvas de gamma de cmara y del
TRC se compensan mutuamente. La
correccin de gamma en la cmara
equivale a "estirar los negros" y
"comprimir los blancos", En el
receptor de televisin se produce el
efecto complementario.
63
E'
----[RETA3OOJ -.-_l'.J
E'y
E'
E'
~
E'
RETARDO
SALIDA
ViDEO
COMPUESTO
-1 SUMADOR
MATRIZ
E'R_Y
LPF
.1
GENERADOR DE
SUBPORTADORA
Figura 2.20.
E'
2- ...
DEMODULADOR
VIDEO
COMPUESTO
FILTRO
sy
~
DEMODULADOR
R:::Y
T~~
E'B-Y
E'R_Y~
MATRIZ
lE'~ ..
..
lE'
__B
..
Figura 2.21.
Diagrama de blocues simplificado del decodificador de la seal de color compuesta.
Resumen
Tres son los atributos psicofisicos del color: matiz, saturacin y brillo. Por
matiz entendemos la sensacin de color por la cual distinguimos las partes del
espectro: rojo, azul verde, amarillo, etc. Saturacin es el grado de pureza de
un color, es decir, la medida en que est contaminado de blanco, gris o negro.
El brillo es la sensacin de luminosidad de un color. Est asociado con la can
tidad de luz y la sensacin visual.
La mezcla aditiva se basa en sumar luces. Cada vez que se aade un nuevo
color el resultado es una mezcla ms luminosa. Los colores primarios en mez
cla aditiva son el rojo, el verde y el azul.
Las leyes de Grasmann rigen los principios bsicos de la mezcla de colores:
dos radiaciones cromticamente equivalentes a una tercera son equivalentes
entre s. Si sobre el ojo actan varias radiaciones simultneamente, es posible
sustituir una o varias de estas radiaciones por radiaciones cromticamente
eqUivalentes. Si dos reas visuales producen la misma sensacin de color, esta
no cambia si en ambas se disminuye la luminosidad o brillo sin cambiar el
matiz ni la saturacin. La luminancia de un color es igual a la suma de las lumi
nancias de sus componentes espectrales.
En mezcla sustractiva se utilizan pigmentos. Los colores primarios en mezcla
sustractiva son: cin, magenta y amarillo.
65
64
Las escalas normalizadas se utilizan para garantizar que las pruebas de per
cepcin de! color se realizan en condiciones objetivas. Un factor muy impor
tante es la iluminacin, ya que los resultados son distintos, segn sea e! tipo
de aqulla (natural, artificial, incandescente, etc.).
o Entre los sistemas histricamente ms importantes de normalizacin de!
color destacan: el sistema Runge, e! Munsell y e! Ostwald. Todos ellos se
basan, con pequeas diferencias, en la ordenacin de los tres parmetros psi
cofsicos de! color (matiz, saturacin y brillo).
o En televisin es de especial importancia e! sistema de! CIE conocido como
"tringulo internacional de colores". Este sistema slo informa de dos de los
tres atributos de! color: matiz y saturacin. El brillo se trata por separado y
esto es perfectamente consistente con la forma en que trabaja la televisin.
o Las componentes de color se basan en la utilizacin de tres seales separadas:
una seal de luminancia "Y" y dos seales diferencia de color "R - Y" Y"B -Y".
Esto tiene sus orgenes en los inicios de la televisin en color, cuando uno de
los requisitos ms importantes era e! de la compatibilidad entre la seal en
blanco y negro y la seal en color.
o La seal de luminancia "Y" se obtiene sumando los primarios rojo, verde y
azul en las siguientes proporciones: Y 0,3 R + 0,59 G + 0,11 B. Puesto que
la seal "Y" se obtiene sumando, aunque de forma ponderada, las seales R,
G Y B Y puesto que tenemos que enviar forzosamente la seal "Y" para cum
plir con la compatibilidad, ser suficiente enviar, adems, dos de los tres
sumandos.
o B - Y representa la cantidad de azul menos su propia luminancia y lo mismo
sucede con R - Y. La eleccin de R - Y Y B - Y como seales de crominancia
se basa en los siguientes postulados: cualquier seal monocroma (en blanco y
negro) dar valores nulos tanto para R -y como para B - Y, es decir, valdrn
O. Los valores modulares de R - Y YB - Y, es decir, el valor absoluto sin tener
en cuenta e! signo, resultarn proporcionales a la saturacin o purez3<de los
colores.
o La correccin de gamma sirve para compensar la falta de linealidad del TRC
y consiste en predistorsionar la seal de vdeo de forma complementaria a
como lo hace el tubo de! televisor. La gamma de! TRC se ha normalizado a
2,2 y, por tanto, la gamma de cmara ser de 0,45.
o En los sistemas de televisin compuestos las componentes de color son mul
tiplexadas en frecuencia (de una forma distinta en cada sistema), para formar
una nica seal de vdeo que se graba o se transmite por un nico canal. En
el mltiplex la seal de luminancia se transmite con todo su ancho de banda,
mientras que las seales diferencia de color se transmiten o se graban con un
ancho de banda reducido.
o
CAPTULO
2. El sistema NTSC
NTSC son las siglas de dos grupos de normalizacin americanos (National
Television Standards Commitee y National Television 5ystem Committee) , e! primero de los
cuales estableci (en 194-0) el sistema de 525 lneas y 60 campos, mientras que el
segundo diseo y normaliz (en 1953) e! sistema de color que lleva su nombre.
66
67
TELE\'J),~I(",\N,-'
Los sistema:-
S-Y
ORIGINAL
SUSPORTADORA
(le- lelcQsin
R-Y
ORIGINAL
MUESTREAR AQU!
PARA S-Y (R-Y = O)
/)/-\\
\\
MUESTREAR AQul
PARA R-Y (S-Y = O)
Figura 3.1.
y viccversa.
en ese mismo instante, en cero (figura 3.1). Esto se conoce como "modulacion en
cuadratura de fases".
Midiendo, o muestreando, la subportadora de color (que es la suma de dos
senoides desfasadas 90 grados) en los momentos adecuados, el receptor puede
recomponer los valores individuales de R -- Y Y B - Y a partir de la seal de cro
minancia. A este proceso se le denomina "demodulacion sincrnica".
Para que el proceso de demodulacion funcione correctamente, el receptor
necesita conocer en que momentos debe muestrear la seal de crominancia. Esta
informacin la proporciona el "bUTst".
El receptor de TY dispone de un oscilador local que trabaja, aproximadamente,
a la misma frecuencia que el oscilador que genera la subportadora de la cmara.
Cada 64 flS en PAL o cada 63,5 flS en NTSC, es decir, una vez por cada lnea de TV,
el bUTst resincroniza en frecuencia y en fase el oscilador local del televisor.
PAL
BURST
(S ciclos de
subportadora)
,,-
gL ~~
>!
El
>'
E:
81
M'
Y
,
i
~3,3S IJSJ
l2.51 IJS
(S.1/3,58 Mhz)
(10.1/4.43 Mhz)
Figura 3.2,
El bum sirve para resincronizar e! oscilador local de subportadora de color de! televisor. El
bum slo est presente en las seales de vdeo de color. Comprese la figura 3.2 con la 1,8,
reducimos e! control de color a mnimo, lo que veremos ser una escala de grises,
ROJO
+V
(11)
, l
"
SEAL DE
CROMINANGIA
MAGENTA
/)
(61)
'--+
SEAL DE
0,59
10,44
\
,~
-U-----------
~)
i \
0,59
VERDE
Figura 3.3.
Formacin en el codificador y descomposicin en e! receptor de la seal compuesta de vdeo,
70
AZUL
(347)
(241)
,.
-V
Figura 3.4.
Representacin vectorial de las barras de
color normalizadas.
71
TECNOLOGr\ r\CTU:'~L-,[)"L,-,'-,[~LE"-'\,-,'I",S1",,6,,N
K=.JU~+V~
Igualmente es posible calcular el angulo (eL)
U
a = arctg-
V
En e! sistema NTSC no se utilizan las componentes de color "U" y "V", sino que
en su lugar se transmiten las componentes ''1'' y "Q". Estas coordenadas "Y" y "Q"
se obtienen girando 33 grados U y Y en sentido antihorario. La intenci6n de este
giro de los ejes "U" y "Y" es la de optimizar el ancho de banda de la crominancia.
El eje ''I'' coincide con la mxima resoluci6n del ojo humano al color, en trminos
de discernimiento o separaci6n de matices cercanos y, como puede verse en la
figura 3.5, se situa en el eje rojo-cian. Por el contrario, el eje "Q" coincide con la
mnima resoluci6n cromatica de! sistema visual humano en e! eje verde-magenta.
Podemos escribir las siguientes equivalencias:
1 = Y x cos33 ~ U x sen33
Q =Y x sen33 + U x cos33
1\
MATRIZ
"
, FILTRO
PASO
BAJO
: 0.5 MHz
I ,',
-o,
I "'1
-1
33'
LT~88~R~E
u -,o
J
!
MODU. I
LADOR 1
[------ --,,---~--
(SUMADOR!
"_'
--- ..'
., CVBS
>SUMADOR! NTSCo
1-'A.
"...
\ _ _;{_~ __ ---.J
. fFsc =33'
i
I
OSCILADOR
I GENERADOR '
1DE SUBPOR-', ,.. DE BORRADOS ,
Amarillo
I MODU-
I
.IRETARDO:....
LADOR _,
I 0,6 ~s I
I
I
fFsc= 123'..
fFSC=O' ,
Magenta
BAJO :-"
1
1 1,3 MHz:
~~~>,
IV.!
',FILTRO',
1 ; PASO!
'----~~'
r-
"'1
IRETARDO:
1 ~s
,- - i
33+90
=123'
j
Rojo
Seal 1 = J ,3 MHz
lY~IN_CRONIS_f<1<:S!
I,G,NE,AA,D,O,R,
DEL BURST J
r-
,J
Figura 3.6.
Azul
3. Un formato intermedio: Y le
Verde
Figura 3,5.
72
Magnetoscopio
~ /LUzi illOo::
eL
o:
'.t
O
w
:::E B
C/)
:5
C/)
<
1-
Receptor
o::
;i' LUZ
f-O
~I
Betacam
Mil
, YUV
Figura 3.7.
El formato y I e puede considerarse como un estado intermedio entre "componentes" y "com
puesto".
dos cables o vas de comunicacin separadas. Esto aporta una serie de ventajas con
4. El sistema PAL
En 1962 la UER form un grupo de trabajo cuya misin era escoger el que
debera ser el sistema europeo de televisin en color. Para entonces Francia ya
tena desarrollado su propio sistema: el SECAM. Un ao ms tarde, Walter Bruch,
74
'r
i
,
Lus si;lCmas d_~~~~.G2
que es justamente la fase media de! bum, es decir, 180 grados). Al llegar al televisor,
ex' de K valdr 76,6+10 = 86,6, mientras que ex*' de K* valdr -76,6+10" =
-66,6. El receptor cambiar la polaridad de la componente V correspondiente a los
vectores K*, de manera que lo que obtendr sern vectores con angulas de 66,6 y
86,6, que se alternarn a frecuencia de linea. Vease figura 3.8.
De esta manera, si todas las lneas pares (n) de una imagen determinada tienen
un ex' que excede en + 10" Y todas las lneas impares (n + 1) tienen un ex*' que no
llega a a por - 10", e! resultado ser que el color ele las lneas pares ser ligera
mente morado, mientras que el de las lneas impares aparecera ligeramente ama
rillento.
Si un observaelor situado a suficiente distancia observa un conjunto de lneas
que tira ligeramente a morado, intercalado con otro conjunto que tira a amari
llento, lo que realmente observar ser e! color rojo puro.
Este proceso no es perfecto, ya que produce, por un lado, perdida de resolucin
c'omtica vertical, al basarse en el promediado de lneas, lo cual es perfectamente
asumible, y, por otro, ligeras desaturaciones del color, pero stas son mucho menos
molestas que los errores de matiz.
Es necesario que el receptor sepa qu lneas le estn llegando con un vector K
y qu otras con K*. Tambin de esto se encarga el burst. En lugar de enviar siem
pre el burst con fase 180, como en NTSC (se mide con respecto a U), en PAL se
ANTES DE LA
TRANSMISiN
DESPUES DE LA
TRANSMISiN
K
86.6',\
.':~
8ursl
-u
Burst
INVERSOR DE
I~-~f~
SIGNO DE OV"
.!
K'
86 6' V
4~.
.6~f"
10' ' .
I
I
SINCRONISMOS
...J
PUERTA
BURST
,.
MODULADOR
CON SUBPOR,
TADORA
SUPRIMIDA
-.11_
V
K
med,ado
BANDERA
DEL BURST
(K)
~-
}\.
B~'st~~.~II
__ U
16.6" ~
Vec'nop<o' _
. __
RESULTADO
FINAL
Figura 3.8.
Eliminacin automatica de los errores de fase en el sistema PAL. Los angulas estn medidos
con respecto a -U, es decir, en funcin de la fase del burst. "w" es el elemento (por ejemplo la
76
------ U
..
Bursl __
SALIDA
5ENAL
COMPUESTA
~-:l ~
o'
-76.6"
K(
w
(a = 10)
Bur~ ,,'
\~I
Burs~
. .
a *. .
4_LU,_
das y atenuadas, modulan sendas subportadoras. La seal "U" modula una porta
dora de 4,43 MHz, cuya fase se toma como referencia y se etiqueta como O. La
seal "V" modula la misma portadora de 4',43 MHz, pero desfasada 90 con res
pecto a la portadora de "U" en una lnea, 270 en la siguiente, 90 en la siguiente,
etc.
A continuacin las dos subportadoras moduladas son sumadas, para ohtener as
la seal de crominancia. Para que el receptor sepa en qu lneas "V" est modulada
666"
Bursl
_K~~:_lInea n
-7~66'
decodlficado en
linea "n+1"
V~clor
K 8~6'6'VI
linea "n'
'
DESPUES DE LA
INVERSiN
Vector deco
dificado en
~o. ~- ~
P----- 180'
-1-::0 'C:::..
" I
H~
p~dO
Figura 3.9.
77
'f
con [ase 90
yen qu otras con 270, se alterna la fase del bum entre J 80 _ 450 Y
0
180 + 45 AS, la fase media del burst sigue siendo de 180 0 , lo que permite utili
zar el bum para medir la fase de la subportadora de color. Por otro lado, las varia
ciones con respecto a la fase media sirven para detectar la polaridad del vector de
color "V". Puede verse, en la va del burst, un bloque etiquetado como "puerta del
burst". Se trata de una "puerta" que se cierra durante unas pocas lneas del borrado
vertical (concretamente 9 por campo). Las lneas concretas que no contienen burst
varan de un campo a otro, formando una secuencia de cuatro campos. Esto se hace
para simplificar e! trabajo del receptor, ya que as la primera lnea que contiene
E'y
SEAl DE
ViDEO
COMPUESTA
SEPARADOR
DE
SINCROS
GENERADOR
DE LA PUERTA
DEL BURST
FILTRO
PASO
BANDA
SEPARADORl
DEL
P,LL
(resincroniza
el oscilador
local)
OSCILADOR
LOCAL
A4,43 MHz
,f--l---------."
Figura 3.10.
Ei'R
Los
sist~mas
de tcJerisin
'
i
5. El sistema SECAM
En Francia, en 1959, a partir de los resultados y de las experiencias de Henry
France, se puso en marcha el sistema de televisin en color denominado SECAM.
Al igual que e! PAL, el sistema SECAM fue creado despus que el NTSC y supone
una mejora, con respecto a ste, en lo referente a los errores de fase. Tambin,
igual que el PAL, e! SECAM se basa en la presuncin de que la crominancia de dos
lneas consecutivas no cambia mucho y, si lo hace, el ojo humano no es capaz de
apreciarlo. As, en e! sistema SECAM las dos seales diferencia de color no se trans
miten simultneamente. Por el contrario, ambas seales se alternan lnea a lnea,
es decir, durante una lnea slo se transmite informacin de R - Y, durante la
siguiente B - Y, luego R - Y, etc. En e! receptor se necesita una memoria de una
lnea, ya que es necesario sumar ambas componentes para obtener el color correc
to de la escena. Transmitiendo las componentes por separado se elimina la posibi
lidad de errores de fase, ya que en realidad no existe un factor de color, sino dos
seales separadas, que en todo caso sern afectadas de igual forma durante la
transmisin. Las dos seales diferencia de color modulan en frecuencia y por sepa
rado sendas portadoras. Vase figura 3. 11.
SECAM es e! acrnimo de "Sequentiel Avec Memom" (color secuencial basado en
memorias). Aunque el sistema SECAM es muy bueno en condiciones de transmi
sin de trayectoria mltiple, no puede procesarse como consecuencia de la modu
lacin en frecuencia (FM) de la croma, es decir, no es posible 0, por lo menos, no
resulta prctico posproducir en SECAM. La idiosincrasia del sistema SECAM ha
llevado a la interpretacin alternativa de su acrnimo: "Sistema Esencialmente
Contra los Americanos".
78
79
x-J
R-Y
S-Y
MATRIZ
FB_~
L,D4~S
=r:~S~~~~
------.---- r
MODULADOR
FM
fH/2
fF
l]
B Y
}F -
i:1I
~-~'I~,
FR_Y
SUMADOR - - - -
Borrados
y sincros
{-
MODULADORFM
I-.. R-Y
Figura 3.11.
<lud-c<;JOI1
~~~Ui~- ~B-Y
f H/2
",..
Lo~ ;;;iSlCllliJ5
fSC PAL
1.135fL
+ ~v =4,43361875MHz
= 4,43361875MHz
81
25
177.334,75
I
...., '.B~
I'n"-~
1,
, i 'I
~;
ii)--,~~
III
JI
./'=
IB
!---
u.
,.R' YJ LPF
"llt,[!
r'
I
~
LA +"
~ .f0rMDD
1I .. DE.~
i
::;3 . ! I
..
'--$-~
I~ ~ ~
H.r~r-'i-~--i-
,l z
'
?~ fi ~ ~~y
CABEZA DE CMARA
LPF
l"
DOR
CROMI I
NANCiAI
.'
J .. ~
IeM'~
I
III
,- -
RGB
COMPONENTES
SENAl
COMPUESTA
Figura 3.12.
La reduccin del ancho de banda de las seales diferencia de color supone que
la resolucion de croma ser inferior a la de luminancia, pero esto no debe preocu
par, ya que e! sistema de percepcin visual humano presenta muy poca capacidad
para resolver o separar pequeos detalles que slo difieren en su cromaticidad.
Dicho de otra forma, la resolucion visual cromtica es mucho menor que la lum
nica. Los magnetoscopios "Betacam", "MIl", "D-l", "O-S", "Betacam Digital",
"DVC-PRO", "DVCAM", "DIGITAL-S", "BETACAM-SX" Y "MPEG-IMX" graban
por separado las seales de componentes "Y", "R - Y" Y"B - y".
Un ltimo formato (hasta ahora e! ms utilizado) lo constituye la seal de "vdeo
compuesto". A diferencia de los dos formatos anteriores, que necesitan dc tres
cables o vas, e! formato compuesto se procesa y encamina a traves dc una nica
va. Se trata de la seal codificada PAL o NTSC, donde las seales de luminancia y
crominancia se multiplexan en frecuencia, presentando la luminancia un ancho de
banda total (o casi total) y, las seales diferencia de color anchos de banda muy
reducidos (1 1,3 MHz). Este es el tipo de seal que utilizan los formatos llama
dos "compuestos", como los "Pulgada-B", "Pulgada-C", "U-matic", "D-2" y "D-3".
Tambin es, hoy por hoy, el formato obligado en las emisiones analgicas conven
cionales.
83
(a)
(b)
(e)
Figura 3.13.
84
plo de la frecuencia de lneas, pero que estn prximas a ella. Dicho de otra forma, la
energa de la seal de vdeo tiende a agruparse en torno a mltiplos de la frecuencia
de lnea. Se trata de un hecho estadstico que depende del contenido de la imagen.
La figura 3.14a muestra el espectro correspondiente al movimiento (ms a la
izquierda) y a los detalles de orientacin horizontal. En la figura 3.14b se aprecia
la forma en que la energa tiende a agruparse en torno a mltiplos de la frecuen
cia de lneas. La figura 3.14 (c) muestra el espectro completo, desde O a 5,5 MHz
de la seal de blanco y negro.
El anlisis del espectro de la seal compuesta es algo ms complicado.
Esencialmente se trata de los espectros de la luminancia y la crominancia entrela
zados, o intercalados, uno con otro.
En NTSC la frecuencia de la subportadora es igual a 227,5 veces la frecuencia
de lneas (figura 3.1 S (a. Puesto que la subportadora de color est modulada en
amplitud por el vector de crominancia, se producen bandas laterales a la izquierda
y a la derecha de la frecuencia de la subportadora de color. Gracias a los vacos
existentes en el espectro de la seal de luminancia es posible ubicar en l la seal
de crominancia, de forma que despus puedan separarse en el receptor.
50 Hz
100 Hz
\IIII~
200 Hz
(b)
2 fl
3fl
LUMINANCIA
(e)
=5,5 Mhz
R-Y
S-y
lllli!)ljulli~)
o~JUlLil)ll!~~;)
Figura 3.14.
86
fL
ka\1
.,.'.'.'0
v.u.u.u
..
.
2 fL 3 fL 4 fL ...
Figura 3.1 S.
4 fl
(bl
111111.
fl
La figura 3.1 S (b) muestra el espectro de la seal PAL. El] este sistema la fre
cuencia de la subportadora de color es de 283,7516 veces la frecuencia de lneas.
Como consecuencia de la inversin de R -y lnea a lnea, se dividen en dos las fre- /
cuencias espectrales; en una lnea R - Y produce un espectro similar al de B - Y Y
en la lnea siguiente desplazado media lnea, es decir, como el <;le "Y".
Por esta razn no es posible utilizar un cjJset o desplazamiento de 112 ciclo por
lnea como en NTSC. En cambio, el desplazamiento de 3/4 de ciclo permite e!
entrelazado de los espectros de la luminancia y la crominancia.
(a)
LOl; si.stnlli~~!::1c,:SI()Il
PAIs
Afganistn
Argelia
Alemania (Rep Federal)
Angola
Antillas Neerlandesas
Arabia Saudita
Argentina
Australia
Austria
Baherein (Estado de)
Bangladesh
Blgica
Benin (Rep. Pop.)
Bermudas
Birmania (Rep. Soc.)
Bolivia
Botswana
Brasil
Brunei (Darussalam)
Bulgaria
Burkina Faso
Burundi
Camern
Canad
Cabo Verde
Centroafricana (Rep.)
Chile
China (Rep. Pop.)
Chipre
Colombia
Comoras (Rep. Islm.)
Congo
Corea
Costa Rica
Cote d'lvoire
Cuba
Dinamarca!
Groenlandia!
Islas Feroe
Djibouti
Egipto
El Salvador
Emiratos rabes
Espaa
Estados Unidos Amr.
Etiopa
Finlandia
Francia
Gabonesa (Rep.)
Gambia
Ghana
Gibraltar
Grecia
Guinea
88
BANDA 1/11I
O/SECAM
B/PAL
B/PAL
IIPAL
M
B/SECAM, PAL
N/PAL
B/PAL
B/PAL
B/PAL
B/PAL
B/PAL
K1/SECAM
M/NTSC
M/NTSC
BANDA IV/V
G/PAL
G/PAL
I/PAL
M/NTSC
K1/SECAM
K1/SECAM
M/NTSG
D/PAL
B/SECAM
M/NTSC
K1/SECAM
K1/SECAM
M/NTSC
M/NTSC
K1/SECAM
M/NTSC
B/PAL
B/SECAM
B/SECAM
M/NTSC
B/PAL
B/PAL
M/NTSC
B,G/PAL
B/PAL
USECAM
K1/SECAM
I/PAL
B/PAL
B/PAL
B/SECAM
K1/SECAM, PAL
G/SECAM
N/PAL
B/PAL
G/PAL
G/PAL
H/PAL
K1/SECAM
M/NTSC
I/PAL
M/PAL
/PAL
D/SECAM
K1/SECAM
K1/SECAM
B/PAL
M/NTSC
IIPAL
M/PAL
K/SECAM
K1/SECAM
K1/SECAM
G/PAL
M/NTSC
K1/SECAM
K1/SECAM
M/NTSC
O/PAL
G/SECAM
M
K1/SECAM
K1/SECAM
M/NTSC
M/NTSC
K1/SECAM
M/NTSC
G/PAL
G/SECAM
G/PAL
G/PAL
M/NTSC
G/PAL
G/PAL
USECAM
K1/SECAM
I/PAL
B/PAL
G/PAL
G/SECAM
K1/PAL
PAIs
BANDA 1/11I
Guinea-Bissau
Guinea Ecuatorial
Hong Kong
Hungra
India
Indonesia
Irak (Rep. Islmica)
Irn (Rep. Islmica)
Irlanda
Islandia
Israel
Italia
Jamaica
Japn
Jordania
Kenya
Kuwait
Lesotho
Libera
Libia
Luxemburgo
Madagascar
Malasia
Malawi
Maldivas
Mali
Malta
Marruecos
Mauricio
Mauritania
Mxico
Mnaco
Mongolia
Montserrat
Mozambique
Namibia
Niger
Nigeria
Noruega
Nueva Zelanda
Omn (Sultana)
Uganda
Pakistn
Panam
Pases Bajos
Papa Nueva Guinea
Per
Polonia
Portugal
Qatar
Rep. rabe de Siria
Rep. Democ. Alemana
Rep. Popular Corea
Rumania
I/PAL
B/PAL
O/SECAM
B/PAL
B/PAL
B/SECAM
B,G/SECAM
I/PAL
B/PAL
B/PAL
B/PAL
N
M/NTSC
B
B/PAL
B/PAL
l/PAL
B/PAL
B,G/PAL
B/PAL
K1
B/PAL
B/PAL
B/PAL
B/SECAM
B/PAL
B,G/SECAM
B,G/SECAM
B/SECAM
M/NTSC
USECAM
D/SECAM
M/NTSC
G/PAL
I/PAL
K1/SECAM
B/PAL
B/PAL
B/PAL
B/PAL
B/PAL
B/PAL
M/NTSC
B/PAL
B/PAL
M/NTSC
D/SECAM
B/PAL
B/PAL
B/PAL
B/SECAM
D/PAL
O/PAL
BANDA IV/V
I/PAL
G/PAL
I/PAL
K/SECAM
G/SECAM
G/SECAM
IIPAL
G
G/PAL
G/PAL
M/NTSC
G
B,G/PAL
G/PAL
IIPAL
G/PAL
B,G/PAL
G/PAL, USECAM
K1/SECAM
G/PAL
I/PAL
G/SECAM
G/SECAM
B,G/SECAM
B/SECAM
M/NTSC
G/PAL, G/SECAM
G/PAL
I/PAL
K1/SECAM
I/PAL
G/PAL
G/PAL
G/PAL
G/PAL
M/NTSC
GIPAL
G/PAL
M/NTSC
K/SECAM
G/PAL
G/PAL
G/PAL
G/SECAM
K/PAL
K/PAL
89
PA!S
Reino Unidol
Irlanda del Norte
Ruanda
San Cristbal y
Nieves
Santo Tom y Prncipe
Senegal
Seychelles
Sierra Leona
Singapur
Somalia
Sudn
Sri Lanka (Rep. Soc.)
Sudafricana (Rep.)
Suecia
Suiza
Suriname (Rep.)
Tanzania
Chad (Rep.)
Checoslovaca (Rep.)
Tailandia
Togolesa (Rep.)
Tnez
Turqua
URSS (Rusia y otros
excomponentes)
Uruguay
Venezuela
Vietnam
Vrgenes (Brit. Islas)
Yemen (Rep. rabe)
Yemen (Rep Dem. Pop.)
Yugoslavia
Zaire
Zambia
Zimbabwe
BANDA 11/11
BANDA IVIV
K1/SECAM
I/PAL
K1/SECAM
Smbolo
M/NTSC
B/PAL
K1/SECAM
B/PAL
B/PAL
B/PAL
B/PAL
B/PAL
B
I/PAL
B/PAL
B/PAL
M/NTSC
I/PAL
K1/SECAM
D/SECAM
B/PAL
K1/SECAM
B/SECAM, PAL
B/PAL
D/SECAM
N/PAL
M/NTSC
D/SECAM
M/NTSC
B/PAL
B/PAL
B/PAL
K1/SECAM
GlPAL
G/PAL
I/PAL
G/PAL
G/PAL
I/PAL
K1/SECAM
KlSECAM
G/PAL
K1/SECAM
GlSECAM, PAL
G/PAL
N (2)
63,492
(63,5555)
64
64
B, G, H,I,
D,K,Kl,L
10,2 a 11,4
(10,9 0,2)
10,24 a
11,52
(12 0,3)
12 0,3
8,9 a 10,3
(9,2 a 10,3)
8,96 a 10,24
(10,5)
10,5
1,27 a 2,54
(1,27 a 2,22)
1,28 a 2,56
(1,5 0,3)
1,5 0,3
4,19 a 5,71
(4,7 0,1)
4,22 a 5,76
(4,70,2)
4,70,2
16,667(2)
(16,6833)
20
20
3H
3H
(2,5 H)
2,5 H
3H
3H
(2,5 H)
2,5 H
3H
3H
(2,5 H)
2,5 H
KlSECAM
KlSECAM
G/PAL
M (1)
K1/SECAM
G/PAL
G/PAL
G/PAL
G/PAL
Caractersticas
(1) Los valores que figuran entre parntesis en esta columna se aplican a los sistemas M/NTSC.
(2) Los valores entre parntesis en esta columna se apiican al sistema N/PAL utilizado en Argentina y
Uruguay.
G/PAL
KlSECAM
G/PAL
G/PAL
OH
,..j
""--',....--""'"1,....--""'"1"""'''''''
~I
r--------.
r-------"\
r7 h .------, ~
LJLJLJLJL
Figura 3.16.
90
ID
Figura 3.17.
tabla 3.2.
Resumen
El primer paso para convertir las componentes en seal compuesta consiste
en atenuar B - Y al 49% y R - Y al 88%. las seales diferencia de color, as
atenuadas, pasan a llamarse U y V en e! sistema PAl e I y Q en e! sistema
NTSC. Esto se hace para que, cuando finalmente se sumen a la luminancia, la
seal compuesta no supere el 33% el pico de blanco ni quede por debajo de!
33% del nivel de negro.
En e! sistema NTSC, I y Q modulan, por separado, dos subportadoras de color.
Ambas subportadoras son idnticas en amplitud y frecuencia (3,58 MHz en e!
sistema NTSC), pero difieren en fase: estn desfasadas 90 grados. Las dos sub
portadoras moduladas por R -y YB -y ponderadas son sumadas a continuacin.
Midiendo, o muestreando, la subportadora de color en los momentos ade
cuados, e! receptor puede recomponer los valores individuales de R - Y Y
B .- Y a partir de la seal de crominancia. A este proceso se le denomina
"demodulacin sincrnica". El receptor conoce cuales son estos momentos
adecuados gracias al burst.
Puesto que B -y Y R -y han modulado dos portadoras en cuadratura de fases,
la suma de ambas genera un vector, cuya amplitud puede calcularse como:
K YU1 + tl.'Igualmente es posible calcular e! angulo o fase de dicho vector:
a =
areta
JL
V
En NTSC los ejes B - Y Y R - Y son rotados 33 grados en sentido antihorario,
para optimizar el ancho de banda de la crominancia y adaptarlo mejor al sis
tema de percepcin visual humano.
92
I
CAPTULO
La digitalizacin
1. Ventajas de los sistemas digitales
El cambio de la televisin analgica a la televisin digital no se produce porque
esta ltima sea ms novedosa o ms sofisticada. Se produce porque la televisin
digital aporta ventajas notables con respecto a la televisin analgica:
TEcNICAS
ECONMICAS
El precio de los componentes digitales se reduce cada ao.
(1) Mientras que las degradaciones de la seal de vldeo anal6gica (ruido, distorsin, intermoduladn, errores de tiempo, etc.)
son acumulativas y dificiles de distinguir de la propia seal, la posibilidad de regenerar el tren de pulsos digitales hace que la. seal digi
ta.l sea virtualmente inmune a taJes defectos. Una. seal binaria slo puede presentar dos valores posibles, de forma que cualquier otro
valor de ilmplitud puede ser considerado como una degradacin producida por el canal de transmisin o grabacin. Esto hace
que, a diferencia de 10 que sucede con ta. seal Ulalgica, las alteraciones de la amplitud de la seal sean separables de la infor
macin origInal. Por la misma razn es posible separar el ruido de la informacin tiL Puesto que el cambio de estado de la seal
binaria slo puede ocurrir en determinados momentos, tambin IOIi errores de tiempo (}Juer) son separables de la propia seal.
En definitiva, un bit es un bit con independenCia de su forma!
(2) Es posible "modelar" el espectro del canal de grabadon o de transmisin mediante el procesado de los datos (aleatori2.a
dn). Esto supone una utilizacin ptima del canal digital.
(3) La compresin de datos se basa. en la eliminadn de la redwl<ianda, la cual es mucho ms fici.l de detectar en el dominio digital.
94
95
La digit-lj/.J.ch'm
TECNOlOGlt\ AC1U\L Dl rlLEV)SI;:",--'
PRODUCCIN
Muy aJ'Gnzado: Existe todo tipo de equipos y normas digitales: En la actuali
No necesita ajustcs.
Sinergia informtica (4).
Tipo de
Informacin
Cdigo
natural
1920
1940
1950
1970
1990
VOZ
MSICA
Frecuenc~s Frecuenc~s
TEXTO
DATOS
IMAGEN
FIJA
IMAGEN
MVIL
Cdigo
numrico
Frecuencias
visuales
Frecuencias
yisuales
espaciotemporales
--
Analgico
Analgico
Digital
Digital
Analgico
Analgico
Analgico
Digital
acsticas
acsticas
Cdigo
alfabtico
Analgico
Analgico
Analgico
Digital
Digital
Analgico
Analgico
Analgico
Digital
Digital
Digital
Digital
Digital
Digital
Digital
Digital
(4) Los equipos basados en "pe" resultan mucho ms econmic05 que Jos "dedicados", Muy pronto veremos un pe 3.!>ocia.
do a prcticamente cualquie:T proceso de produccin o posproduccin de televisin
TRANSMISIN
Medianamente OI'a nzado : El CCIT recomienda los niveles "L3" (34 Mb / s) )'
EMISIN
Poco avanzado: S610 algunas propuestas y sistemas en fase de inicio: ATSC en
EE. UU. y OVB en Europa. La emisi6n digital supone un cambio de normas
96
"J
La dipitah'laci6n
ECNOl-oclA ACfUAl DE TELEVISI/)N
:}~
la1 , 1,
"R"[
["8"
INVERSOR
SEALES DIFERENCIA
DE COLOR CON ANCHO
DE BANDA REDUCIDO
(MAS
D~}1~:'HZ)
"BY"
JUL
'.~
l''
~-
1..
(j..J-4:ot-...,:::>o::
Z=!ljOCZo!:;!C!J
~~ ~~Ci ~
"':>
'"
'"
ROJO
OOZW<O-'O
:>
"R-Y"
JL
COMPUESTO
COMPONENTES
PRIMARIOS RGB
1,33
+T.7-
.
,,0
-0.7--
VERDE
+O#89~_MODULADOR EN
CUADRATURA
(PALO NTSC)
SUBPORTADORA
+ SINCRDS
B-Y
SEAL COMPUESTA
NTSC O PAL
(ENTRE 4,2 Y 5.5 MHz)
Figura 4-.1.
cmara, es decir, sin filtrar. Esto supone unos 8 MHz por primario. Para una seal
por componentes "Y", R - Y, B -Y, el ancho de banda estara en torno a los 10 MHz
como mnimo (5 MHz para la luminancia y la mitad para cada una de las seales
diferencia de color). Una seal compuesta PAL ocupa s610 5 6 5,5 MHz.
En la actualidad la tendencia es tomar imgenes en RGB, procesarlas y grabar
las en componentes y emitirlas en compuesto. De esta manera se obtiene la mxi
ma calidad en los procesos de produccin y posproduccin y el mayor ahorro de
ancho de banda en la emisin. Los futuros mtodos de compresin permitirn la
emisin digital por componentes.
La conversin a componentes es una forma de reduccin de la informacin,
basada en la limitada resolucin cromtica del sistema de percepcin visual huma
no. Dicho de otra manera, las componentes digitales son una forma de compresin
analgica.
Reduciendo an ms la informacin de crominancia e intercalando los espectros
de luminancia y crominancia, se obtienen los sistemas compuestos. Estos sistemas
se basan en la compatibilidad con la seal de blanco y negro y, aunque fueron una
buena solucin en su momento, en la actualidad tienden a desaparecer. De todas
formas, an pueden subsistir durante un perodo que puede llegar a los 10 aos.
Vamos a ver, como ejemplo, las barras de color en formato RGB, componentes
y compuesto:
Las ocho barras de color pueden entenderse como combinaciones binarias de
los tres primarios RGB: En la tabla siguiente, un "1" en una columna determinada
98
-O 89
AZUL
Figura 4-,2.
R G B
BLANCO
AMARILLO
ClAN
VERDE
MAGENTA
ROJO
AZUL
NEGRO
1
O
1
O 1 O
1 O 1
1
1
1
1
O O 1
O O
La dlfltJJiza.C'n
o--,
O
--l
<t:
-.J
c::o ,
(1)
Z
W
(1) ,
LONGITUD DE ONDA
Figura 4.3.
Sensibilidad relativa a los primarios RGB.
AUDIO
~
1m- l 11//1
~~
[1
TIEMPO
~J
()'
r~!1
I rr/~
r~~h.. ,. /.~
-~.
'c.
0''
ri''V
x-0 /
_ TlEM~__ ...
Figura 4.4.
100
l\ !\
1/' V \
::"'"
ces
VDEO
....
::-:----..
~
-
,
,
.
..
~ ... ,~
ces
Figura 4.5.
101
La digitalizacin
Tl:CN( lLOGIA hCflV\L l)E"JEt E\'1~16N
15
14 __
4.2. Digital
El texto, en cambio, es una informacin digital, ya que est representada
mediante un cdigo. En el texto slo hay informacin all donde existe una letra
(si consideramos la direccin horizontal) o all donde existe una lnea (si conside
ramos la direccin vertical). Adems cada letra slo puede tomar uno entre 25
valores permitidos, ue manera que la informacin digital es discreta o discontinua,
tanto en el tiempo (que en este caso corresponde al espacio) como en las amplitu
des (que corresponden al alfabeto en el ejemplo del texto).
El texto es una informacin codificada. Responde a un cdigo bien definido y
perfectamente conocido por el emisor y el receptor, exactamente igual que el
vdeo o el audio digital. A menudo es interesante pensar en las caractersticas, ven
tajas y problemas de la comunicacin oral o escrita para entender mejor las sea
les digitales.
Si fotocopiamos repetidamente la fotografia y el texto nos encontraremos con que
al cabo de pocas generaciones la fotografia se habr convertido en una mancha borro
sa, mientras que el texto (que tambin habn\ degenerado) sigue teniendo el mismo
significado. Fotografiar la fotocopia de la fotografia no sirve de nada, mientras que el
texto se puede volver a rescrihir en cada nueva generacin. Siempre que se hace una
copia "de digital a digital" la informacin se regenera totalmente. Esto es lo que hacen
los magnetoscopios digitales cuando se realiza una copia o una edicin e!ectrrca: en
lugar de copiar directamente los bits que le entrega el reproductor, la mquina graba
dora genera bits nuevos, a partir de los antiguos, antes de grabarlos en cinta.
S. Conversin A/D
La mayora de las imgenes son en su origen analgicas, por lo que se necesita
convertirlas a digital, en un proceso denominado "conversin AjD", "digi~aliza
cin" y, en ocasiones, "codificacin":
El proceso de conversin AjO se logra en dos pasos:
El muestreo.
La cuantificacin.
El muestreo discretiza (convierte en muestras instantneas) la dimensin tem
poral de la seal anal6gica de entrada, mientras que la cuantificacin discretiza e!
rango de voltajes. El proceso completo puede entenderse como si alguien midiera
la amplitud de la seal de entrada a intervalos regulares de tiempo y expresara el
resultado con un nmero limitado de dgitos.
Por tanto, hay que tomar dos decisiones:
Cuntas muestras por segundo?
Cuntos bits por muestra?
El nmero de muestras por segundo, es decir, la frecuencia de muestreo, est
relacionado con el "ancho de banda", mientras que el nmero de bits por muestra
depende de! rango dinmico de la seal a codificar.
En la figura 4.6 puede verse una forma de onda que es muestreada o medida a
intervalos regulares. A continuacin cada muestra se convierte en un cdigo binario.
13
12.
. 11
. 10
r~
4-
:;(1
3
2
~.
0\ 1
>!
0--1
T1
11
11
11
T2 T3 T4
1I
11
11
T5 T6 T7
11
re
11
11
11
11
11
II
II
II
l'
".
T9 TlO T11 T12 T13 T14 T15 T16 T17 n8
3-...
t1. . L J .. . l rfi. ,~ ~ .L .1-...i.-l ~- ,LQ .11 - .1Q. JL .L
0101011001110111011'0110010'0100001101110100 01111001 10111011 1011 1010 1000
TIEMPO
--------.,
Figura 4.6.
5.1. El muestreo
El proceso de muestreo puede entenderse como la multiplicacin de la seal de
entrada por una seal impulsiva (la seal muestreante), que vale cero en todo
momento, excepto en los instantes de muestreo, en que vale uno (figura 4.7).
O,
:>
SEAL
DE ENTRADA
:J
lL
::
TIEMPO
IJJ_UJ._LL1Jl\lJJ-~
SEAL
MUESTREANTE
TIEMPO
RESULTADO DEL
MUESTREO
TIEMPO
Figura 4-.7.
Arriba se muestra la seal de entrada, mientras que en el centro puede verse la seal mues
treante, consistente en un tren de impulsos. Si ambas seales se multiplican, el resultado es un
tren de impulsos modulados (Pulse Amplirude Modulation).
103
102
TCCNOLOGIA ACTLJ:'\L DE
Tn"I~:\J;'JSl!'IC~)N~'
FACTOR IMAGINARIO
Un impulso rectangular puede considerarse como una funci6n par (simtrica),
en la que f(t) = f( -t), de forma que los coeficientes bn son cero, quedando slo los
trminos en coseno (factor real).
; t(t)
fl
I
I;l
-IL_Ji_J
,
Figura 4.8.
La seal impulsiva muestreante puede entenderse como una
funci6n par.
~2.-.J
2T
3T
4T
5T
Cuando la duracin del impulso tiende a cero, todas las componentes adquieren
1/1',
lneas espectrales situadas en los armnicos de la frecuencia de muestreo fa
todas ellas de la misma amplitud.
Puesto que los impulsos rectangulares no poseen valores negativos, aparecer
una componente continua en el espectro, de frecuencia cero.
La teora de los prrafos anteriores puede entenderse mejor con ayuda de la
figura 4.10. A la izquierda puede verse, a modo de ejemplo, -la formacin de una
onda cuadrada, a partir de cosenoides de frecuencia creciente. Eneste caso la onda
cuadrada se obtiene sumando una cosenoide de la misma frecuencia y aml;m:ud que
la onda cuadrada, ms el tercer armnico con un poco menos de amplitud, ms el
quinto armnico con amplitud an menor ...
ONDA IMPULSIVA
Cualquier seal peridica
se puede descomponer en
seales senoidales o
cosenoidales puras
ONDA CUADRADA
JV\I\.I\NVVV'
+
.J\f\.I\.NI.NVV
~
I_L l_l LL L.LL
r,I1
~!J:~til.il(JQU
6T
7T
Figura 4.9.
+ / \ .! \
+
+
i " :' \
\, \
: ' " \
i \
: \. / \
"o
\.
\./
\ ....
+ !\lVWVIMlM!\IVIMf\lINI!\f\!lr\,~NWJWIfI!WiJlfV\i\i\
+ :W\i'vW,MnlJ\I\!\rJ\fIJIJ\IWi!V\IV'I'\n!l!vWVV\M~,f,IIMi\1\
+ MrVIMNV\fI!WJ\fIf,I\jr1,WII\'WvWIMIWilf',WJWV'II\M/VI
=llll
JJ .
11.J_J J.
IIJ._
FRECUENCIA
Figura 4.10.
Descomposici6n de ondas complejas en series senoidales.
A la derecha de la figura 4.10 se muestra como obtener una seal impulsiva (que es
la que nos interesa) a partir de sei'ales eosenoidales. Aqu, adems de la cosenoide fim
damental, intervienen todos los arm6nicos y todas ellas eon igual amplitud.
Si una sei'al impulsiva se obtiene sumando todas las cosenoides, puede deducirse que
tal onda impulsiva puede descomponerse en eosenoides. En nuestro caso, la onda impul
siva es la seal muestreante que multiplica a la sei'al anal6gica de entrada.
En la figura 4.11 (a) puede verse el espectro de la seal de muestreo, el cual est
formado por rayas espectrales de igual amplitud, que se suceden a mltiplos de la fre
cuencia de muestreo. En 4.11 (b) se muestra el espectro de la seal de vdeo, la cual,
una vez muestreada, presenta el espectro de 4.11 (e), donde aparecen "copias" de la
104
lOS
(a)
..
L __.L L L_~~PE~;~~~:T~~EAL
Fo
O'
..
'.REcUENCIA
5.S MHz
APARENTE
ti
5.5 MHz I
Fo-5,5 MHz
(d)
(e)
Fo
t '\
2Fo
-~J
JFo
.Fo
2Fo-5,5 Mttl:
3Fo-5.5 Mkz ..
SI LA FRECUENCIA DE
MUESTREO ES INFERIOR
AL DOBLE DEL ANCHO
DE BANDA DE LA SEAL
A MUESTREAR, SE
PRODUCE SOLAPAMIENTO
ENTRE LAS COMPONENTES
DE ALIAS, EL CUAL
SE DENOMINA AllASSING
Figura 4.11.
Razones por las que puede producirse a]asin8 durante el muestreo.
seal de vdeo de banda base por encima y por debajo de las rayas espectrales de la
seal de muestreo. Estas "copias" se denominan "alias". Si la frecuencia de muestreo es
superior al doble de! ancho de banda de la seal muestreada, las copias o alias no se
solaparn entre ellas, ni tampoco con la seal de banda base, que vuelve a aparecer en
el espectro de la seal muestreada.
Durante la conversin digital-analgico se hace pasar la seal digital por un fil
tro paso-bajo como el mostrado en 4.11 (c). Este filtro permite individuali'lar la
seal de banda base, eliminando las alias. Puesto que no es posible o, al menos, no
es fcil construir filtros de corte abrupto, conviene dejar algo de espacio entre la
seal de banda base y la banda lateral inferior de FO. Si se mantiene e! ancho de
banda de la seal de vdeo, pero se reduce la frecuencia de muestreo, la seal de
banda base y la banda lateral inferior de FO, al igual gue las bandas laterales supe
riores e inferiores de los distintos mltiplos de la frecuencia de muestreo se sola
paran entre ellos. Este solapamiento se conoce como aliassina (figura 4. l1-d) Y da
lugar a la aparicin de "bajas frecuencias fantasma", que se Suman a la imagen. Un
diseo inadecuado del filtro paso-bajo de reconstruccin puede igualmente gene
rar aliassing (figura 4 .11-e).
5.2. Aliassing
El aliassina se produce siempre por una frecuencia de muestreo insuficiente. La
figura 4.12(a) muestra un ejemplo de aliassing espacial. En (a 1) podemos ver una ima
gen que contiene altas frecuencias en todas las orientaciones radiales, mientras que
15'"1_
30'
-"1
45
"(b1L~I~I~]-~1
ALIAS
... '.
~-...--
(a1 )
htn tfjbl~-----cn------..ESPE~~~~~R~~EAL
O
ALlASSING TEMPORAL
GIRO
"Fa"
ESPECTRO DE LA SEAL
~DE ViDEO
(C)
3Fo
2Fo
ALlASSING ESPACIAL
FRECUENCIA
J.
(b)
La dipitalizacin
(a2)
GIRO
...@
('3)
.30'r
(b2)1f.1~1!]~1
Figura 4.12,
106
\07
_____ liLili,gll~JllilciQ.B
(a)
\)
"
2.
/\ 1\ /\ /\
\)
(b)
i
1
,1"
UNIDAD ARBITRARIA DE TIEMPO .
r,
(C)
L__ ~
FRECUENCIA
0,5
1
1,5
FRECUENCIA (KHz)
0,75 KHz
(T=1,33 ms)
F...
A
0,5
1
1,5
FRECUENCIA (KHz)
FRECUENCIA
2. 4 6
e ()t'1oII1l'e1021}421i2B.103234)f;JII'IHH4(64~
FRECUENCIA
2..6
J.. .
,1.
e 1)t2'W1U3]oD}42{;:M:~m,}4lEiJIHO~.u~6Cl
FRECUENCIA
Figura 4.13.
Fs
iI
(b)
T
lJly.~
~A!\~tA~1A~~A
llllliUilili
2. ~ r; '!"'l?'I4'1'i'fl1l121tifi2ll)O:R;UlL\J11 40414HIHIJ
'. 1,
. L . ..LJ__
(a)
~
~ 6 8 tl'QWti":JIZ;>"'ifi2llXll1~36lUO~2.u"43
l.
\/ 1\)
(perlodo"r = 1 msl
1..
/\1:'
,
"
I "
"
"
'
,y
I I "i '
I 1,",":
I '
: 1
I
,
0,25 KHz
(T=4ms)
0,75 KHz
(T=1,33ms)
"1
,
"
"
1
i":'
'! 1
!'
,
1
,;
'
\' I
'",
'\'
~LJJ
0,5
1
1,5
FRECUENCIA (KHz)
i il i
F"
F. Fs
F"
0 . 7 5 , _ --" , . . ...
(T=1 33 ms)
0,5
1
1,5
2
,"
1
F. Fs
F"
FRECUENCIA (KHz)
Figura 4,14,
Relacin entre la frecuencia de la seal de entrada
Diferentes frecucncias de origen pueden gcnerar los mismos trenes de impulsos de salida si
no se toman las precauciones adecuadas.
de muestreo (Fs). Sin embargo, tambin la frecuencia (c) pasa por los puntos de
muestreo y sera, en principio, una solucin vlida.
Una forma de deshacer esta incertidumbre consiste en asegurar que antes
del proceso de muestreo ninguna seal contenga frecuencias superiores a la
mitad de la frecuencia de muestreo. Dicho de otra forma: asegurar que'cada
ciclo de la seal de entrada est representado por, al menos, dos muestras. Si
esto es as, durante el proceso de reconstruccin de la seal (conversin digi
tal-analgico) slo existir una forma de onda senoidal capaz de pasar por los
puntos de muestreo representados por los valores digitales. Si queremos
representar adecuadamente la forma de onda (c), deberemos aumentar la fre
cuencia de muestreo, tal como se hace en la figura 4. 13 (d).
Resulta interesante analizar la relacin entre la frecuencia de la seal de entrada y
las frecuencias de alias que pueden producirse. Adems de la propia seal de entrada,
cada tren de impulsos es capaz de generar dos seales "fantasma" o de "alias": una de
frecuencia igual a la frecuencia de muestreo menos la frecuencia de la seal de entra.
da y otra de frecuencia igual a la frecuencia de muestreo ms la frecuencia de la seal
de entrada. En realidad encontraramos infinitas seales de alias como las anteriores.
Concretamente, si llamamos "S" a la frecuencia de muestreo, "F" a la frecuencia de
entrada, "N" a cualquier nmero entero y "Fa" a la nueva frecuencia de alias, entonces
encontraremos Fa = NS F.
En el ejemplo de la figura 4.14 se ha utilizado una frecuencia de muestreo
de 1 KHz. Una seal de entrada de 0,75 KHz (la cual est por encima dellmi
te de Nyquist) generar los puntos de muestreo, indicados mediante pequeos
crculos en (b). El problema es que una seal de 0,25 KHz (c) generara tam
bin los mismos valores en los instantes de muestreo, de manera que sera
imposible saber si tales valores corresponden a la seal (b) o a la (c)
La frecuencia de la seal (c) es igual a la frecuencia de muestreo menos la fre
0,25 KHz). Si la seal de
cuencia de la seal de entrada (1 KHz - 0,75 KHz
entrada es menor que la mitad de la frecuencia de muestreo, la resta siempre ser
mayor que la seal de entrada, de manera que un filtro paso-bajo podr separar la
seal de entrada de la seal de alias. Adems se produce otra seal de alias en Fs +
F'N = 1KHz + 0,75 KHz = 1,75 KHz, pero sta es menos importante, ya que su
frecuencia est por encima de la de la seal de entrada, con lo que se puede sepa
rar fcilmente.
5,3, La cuantificacin
Una vez muestreada la seal, es necesario expresar el valor de cada muestra
mediante un cdigo (normalmente una palabra binaria) de longitud limitada. De
la misma forma que el muestreo representa la dimensin temporal, la cuantifica
cin sirve para preservar las amplitudes. Puesto que se utilizan palabras de longi
tud limitada, la precisin ser tambin limitada, por lo que la cuantificacin no
puede ser nunca exacta; en el mejor de los casos, ser una buena aproximacin al
valor analgico.
108
109
La dipitalizacin
"Ji-
15_
,I
13
U)12
---
~10
~ 9
a-: 8
~I
...J)
~ l-~I~
O 3
...J
~:1
:>
-- -
- I ---- ----/--.-1---1---
--~-----
~-= ~ ~~--
--- -
---
-0
. . . -----. ..
-- -
ERROR DE CUANTIFICACiN
TI T2 T3 T4
T5 T6 T7
'O
U)
--
I ~ T --------W!
;tI
-..:
(e)
4 BITS
:+F: 1'
lj-:--'-:-"-,
o.I-+~::l::
il~lt-c 1
Ill~
6ftE
TIEMPO
TIEMPO
~~<~~q~~~~~~q~~~
ERROR DE CUANTIFICACiN
ERROR DE CUANTIFICACiN
ERROR DE CUANTIFICACiN
!I 8f1j------
(b)
3 BITS
TIEMPO
14
(a)
2 BITS
U)
...J
;?
(l)
::E
;:)
...
L~LLL~5~~~4~~a~~LL
t1;MP-.O
Figura 4.) 5.
-_.-
-~-
--_.
Figura 4.16.
El error de cuantificacin decrece a medida que se aumenta el nmero de bits con que se
----~
\1 S/N
= 6n + 10,8 dB
'
En la figura 4. J6(a) se han utilizado dos bits para representar el valor de la seal
analgica, con lo que el peldao de ouantificacin "q" es igual a 1/4 del valor de la
seal "S". El error de cuantificacin ser J/8S. En 4.16 (b) se emplean tres bits,
lo que da ocho valores posibles, siendo el error de cuantificacin de 1/ 16S. Con
cuatro bits (4. J 6-c), el error de cuantificacin se reduce a 1/32S. Por tanto, cada
vez que se aade un bit se reduce a la mitad el error de cuantificacin.
Podemos entender el error de cuantificacin como una seal indeseada que se
suma a la seal til y que estar presente incluso despus de la conversin digital
analgico. Se habla, por tanto, de "ruido de cuantificacin".~oderdeterminar
5.4. El dither
~---,--------
El dicher es una seal de bajo nivel, tipicamente ruido blanco con una amplitud
de un nivel de cuantificacin pico-a-pico, que en algunas ocasiones se suma a la
seal analgica antes de ser muestreada. El diCher asegura que incluso la seal ms
pequea cruzar, al menos, un nivel de cuantificacin, de manera que los perodos
adyacentes correspondern a niveles de cuantificacin diferentes (figura 4.17)
I JO
111
.1,._~_shp~117_~C~l!
-~-,--.,- .~..!..!~~ -~-
.~--
---------
SIN DITHER
-"
0vf
-l-=/
JL
Lr
_ _ . _. _.. . _.
"'z
w-Q
.~
'"
>~8
::<0
::>w
Figura 4. 17.
Aunque parezca extrao, un poco de ruido bicn calculado puede mejorar el proceso de digi
talizacin.
-L
\' l .
(a)
112
M"'""'''''''
~.'
.....
'
<1':\ ~t ~
\)\)
,1'
\ '.<
\ ,.
.-cc=---- PUNTOS DE
( ('.tJ
"Y:
-/
..
:NODOS
INNECESARIOS
\j"> },.
'r'
\~\
MAL
,.,'
".~"'-"IIr- ....
r-. --.--T"
~\~
INFLEXiN
e,'
(e)
FORMA DE ONDA
J--'
1ENSGl-'ES
(b)
ORIGINAL
--F.ORMA.
. DEONDA
. '
TENSORES
ASIMTRICOS c-.
6. El filtro de reconstruccin
Una duda que suele presentarse en lo referente al proceso de muestreo es: qu
pasa con la informacin de la seal original, en los puntos comprendidos entre los
instantes de muestreo? Como es posible saber, durante la conversin digital-ana
logico, cual era el valor original de estos puntos no muestreados?
S-L
-- ., '
\~C-.\.' . __ ...I~_'<C
->'
BIEN
I
Figura 4.18.
113
La di:Jitali~acjn
(/igw'a 4.19-a), a la salida obtendremos una seal de tipo senoidal cuya amplitud ir
decayendo paulatinamente (figura 4.19-b). Una caracterstica especialmente intere
sante de esta seal sen x/x es que vale cero en todos los puntos de muestreo, excep
to en el correspondiente al del pulso que la ha provocado, en el cual su valor es justa
mente el de dicho pulso. De esta forma la suma de todas las funciones sen x/x recom
pondr la forma de onda original, ya que en cada instante de muestreo la nica fun
cin sen x/x que aportar su valor es la del impulso correspondiente, mientras que
en los tiempos intermedios sern las otras funciones sen x/x las que proporcionarn
el suavizado necesario. Dicho de otra forma, cuando se eliminan de la seal escalona
da las altas frecuencias, lo que se obtiene es la seal suavizada original (figura 4. 19-c).
En la prctica este filtro paso-bajo de reconstruccin no presenta un corte
abrupto a la mitad de la frecuencia de muestreo. Por el contrario, se caracteriza
por una pendiente de atenuacin relativamente suave, lo que obliga a que las fre
cuencias ms altas permitidas en la seal de entrada sean algo inferiores a la mitad
de la frecuencia de muestreo.
-1
(a)
~
__~ILI
(b)
"
_"
"
~
+
+
+
110110111 - -
000100100~~
COMBINACION DE
TRANSICIONES
'--- FORMA
DE OJO
LOS ERRORES DE
AMPLITUD CIERRAN
EL OJO EN LA
DIRECCION VERTICAL
EFECTO COMBINA,
~~--~~--LPF
-;
LOS ERRORES DE ~
TIEMPO CIERRAN
EL OJO EN LA
DJRECCION HORIZONTAL
El diagrama de ojo es una forma sencilla y clara de medir la calidad de una seal
digital. Como en la mayora de las mediciones electrnicas, el eje horizontal repre
senta el tiempo, mientras que el vertical representa las amplitudes o voltajes.
L-.!
'"
001001000
110111011
"
001000100
--.j
-./ \
....- -
-/--~--~-\; - - - ; - - - -
'-"
r-/
----'
--t
(e)
Figura 4.19.
Un impulso rectangular pasado por el filtro paso-bajo se convierte en una funcin del tipo
sen x/x.
D~~;J:L~~~~S:>Mi
y DE TIEMPO
* * * * k
K:
Figura 4.20.
La suma de seales rectangulares filtradas genera una especie de "forma de ojo" que permite
COMPUESTO:
114
115
TELL\"I:,r"~N,-'
Resumen
Los sistemas digitales presentan ventajas, tanto econmicas como tcnicas,
con respecto a los sistemas analgicos.
Actualmente todos los tipos de informacin pueden convertirse a formato
digital, compartiendo as los mismos canales de grabacin y transmisin.
La televisin digital est muy desarrollada en las fases de produccin y trans
116
________________________________________ ~L2~l.gi1!111L..vi2!.!
CAPTULO
La norma 4:2:2
1. Introduccin
Al igual que sucede en el mundo analgico, tambin en digital hay dos formas
bsicas de codificar la seal de televisin: "en compuesto" y "por componentes".
Histricamente, la primera en normalizarse fue la seal de vdeo digital por com
ponentes y ser la primera que veremos aqu.
En un sistema analogico por componentes la informacion de la imagen viene
representada mediante infinitas variaciones de las amplitudes de los primarios
RGB o, ms comnmente, de las componentes Y, R -Y, B - Y, dentro de los lmi
tes fijados para cada seal. Es una caracterstica propia de los sistemas analogicos
que la degradacion de la seal a la salida es igual a la suma de todas las degrada
ciones introducidas por cada una de las etapas que tiene que atravesar. Esto supo
ne un lmite en el nmero de etapas que cada componente puede atravesar, antes
de que la calidad se deteriore tanto, que resulte inservible.
Tres son los tipos de distorsion que pueden empeorar la calidad de la seal ana
logica: distorsiones lineales, distorsiones no lineales y ruido. A stas habra que
aadir las inestabilidades de tiempo. En ambos casos una buena prctica tcnica
puede disminuir los efectos negativos sobre la seal de vdeo, pero nunca elimi
narlos completamente.
Por otro lado, la utilizacin de las componentes en el estudio, durante la pro
duccion y posproduccin, puede eliminar o disminuir algunos de los efectos inde
seables de la distorsiones, asociados a la seal compuesta. El precio que hay que
pagar es una mayor complejidad y coste en los equipos, en comparacion con los
basados en la seal compuesta.
Trabajando en digital, los defectos introducidos en la cadena de produccion
pueden limitarse a los generados por los procesos de conversin AID y DI A,
suponiendo que la seal es procesada, grabada y distribuida en formato digital y
119
TreNOl..oGi.".
AcrU.'\l DE - lL[V!SO:-:
que la codificacin a seal compuesta analgica se realiza una sola vez, justo ~ntes
de atacar al emisor de UHE En un sistema digital bien diseado las conversJOnes
A/D y D/ A (que son las que pueden introducir distorsiones) pueden limitarse ~n
solo paso, es decir, convertir a digital, hacer todo el trabajo en digital y convertir,
finalmente, a analgico.
La alternativa a la digitalizacin de las componentes es la "seal digital com
puesta", que se ver ms adelante en el prximo capitulo. Esta alternativa pudo
resultar atractiva en otro tiempo, como sistema econmico para evolucionar hacia
las componentes digitales. Actualmente el eqUipamiento en componentes digitales
es cada vez ms completo y asequible. Adems hay una tendencia hacia la distribu
cin e incluso la emisin en componentes digitales, ya sea con o sin compresin.
2. La norma 4:2:2
A principios de los SO la UER (Unin Europea de Radiodifusin) y la SMPTE
(su equivalente americano) se unieron para redactar una norma de televisin digi.
tal comn para todo el mundo, en un esfuerzo de unificacin sin precedentes. El
resultado fue una norma digital por componentes, conocida como 4:2:2, a partir
de la cual se derivan otras normas de la misma familia, tal como se ver ms ade
lante en este mismo captulo.
La norma 4:2:2 fue sometida a la aprobacin del CCIR (Comit Consultivo
Internacional para la Radiodifusin) y publicada por este organismo en 1982 con
el ttulo: Recomendacin 601: Parmetros de codificacin de televisin diBital para estudios.
Por esta razn la norma 4:2:2 se conoce tambin como "Rec 601" o "CCIR-601".
En 1993 se disolvi el CCIR y sus funciones fueron asumidas por otro organismo
ya existente: la "ITU- R", de manera que tambin es posible encontrar esta norma
bajo el epgrafe "ITU-R 601" (sobre todo en las publicaciones ms recientes).
Tambin suele emplearse la abreviatura DI, aunque esto es un tanto incorr~cto, ya
que DI corresponde a un formato de magnetoscopio digital.
En el documento inicial se recomendaba una resolucin de 8 bits por mues:
tra, aunque en la actualidad la tendencia es a utilizar 10 bits/muestra de forma
casi universal. Puesto que todava hay (y se sigue fabricando) mucho equipa
miento que utiliza S bits/muestra, en este libro se mostrarn ambos casos.
La
n~)rm;:_.:Ll~.(
pIXEL
._! .
...
-J
<{
u
::::
o::
UJ
>
'?-v
"'<v~<:(
0-' .
J:I
-*
~ 11
l_
'el :".1 [1
:. ,r 1, I f l ' : - ,
._ _-" l. J '-------' ,-----' 1_ L_ _
:':
[1 U II
[I.C:
-' :.1 :..1.1 ~j U ,. i~ L. L ::
_1
HORIZONTAL
,- I
=-~
:JLJ_~i-:,U
e; L' ...
l'.'
f--
1-'-
....1
~
Figura 5.1.
La frecuencia de muestreo elegida debe proporcionar una parrilla de muestras que se alineen
ortogonalmente, tanto en el espacio eomo en el tiempo, y esto para las dos normas basicas de
l. La frecuencia de muestreo dcbe ser, por lo menos, igual al doble del ancho
de banda de la seal a muestrear (critcrio dc Nyquist). Puesto que hay nor
mas de televisin en que la luminancia alcanza los 6 MHz (L/SECAM y
](/SECAM), se necesita que la frecuencia de muestreo sea al mcnos de12
MHz.
2. Para facilitar el procesado en generadores de efectos, conversores de nor
mas, etc., es conveniente que las muestras se alineen formando parrillas de
filas y columnas (muestreo ortogonal). Esto significa que la frecuencia de
muestreo debe ser un mltiplo entero de la frecuencia de lnea. Dicho de
otra forma, la frecuencia de muestreo debe ser tal que una lnea contenga un
nmero exacto de perodos de muestreo.
3 .Par..Qbtener .una frecuencia de 1ll.~~jTt;Q.ivf:!:J.._~l.il.d!:.bg.s.e.r.m..ltiplv
detodas-las-frecucncias de lnea exi;tente.LeILelUlJ.ln<:IQ. _En la actualidad
existen dos normas bsicas: una con 525 lneas y 29,97 cuadros/ s y otra con
625 lneas y 25 cuadros/s, lo que corresponde a frecuencias de lnea de
15.734,26573 y 15.625 Hz, respectivamente.
NOTA: En el sistema americano de blanco y negro la frecuencia de lnea era exactamente de 15.750 Hz (30 x 525).
Cuando se introdujo el sistema NTSC se hizo de forma que la frecuencia de la 5ubportadora de color fuera un mltiplo
impar de la mitad de la frecuencia de lnea (455 X fL/2) y, adems, que la portadora de sonido se situara en un mltiplo
de l. mit.d de l. frecuencia de lineas por encima de l. ,ubport.dor. de color f,onido '" fcolor + 117 fl/2 '" 4,5 MHz.
Debido a la segunda condicion, la frecuencia de lincas no pudo mantenerse y se retoco a 15.734,26573 Hz, garantizn
dose aSl la compatibilidad. La cifra anterior est expresada con un error inferior a 10- 7 %.
Para poder generar una parrilla de pxel ortogonal, tanto en la norma america
na como en la europea, hay que encontrar un mltiplo comn de las dos frecuen
cias de lnea. E~ comn ml!!.?J~ui~J.h711.L(ji?LLll,62.u-t3.s~
121
1 a norma 4:2:2
.!~~~~a norma de 525 lneas y 864 mll~stra~P9r .lnea c0:r:!pJ~t<i. en la norma de 625
lneas.Veasefigura5. 2.
=2,25 MHz)
fLINTSC)
fl(PALJ
'"""''''''''' " 11
~-~_--~------r
864 MUESTRAS (625)
= 858
= 864
fL(NTSC)
fL(PAL)
Figura 5.3.
Disposicin de las muestras de luminancia y diferencia de color, en la norma 4:2 2.
Aunque la abreviatura 4: 2: 2 hace referencia a las frecuencias de muestreo de Y,
CB y CR, tambin podra entenderse como "por cada 4 muestras de Y, 2 de CB y
2 de CR" (vase figura 5.3). Por tanto, esta norma se caracteriza por presentar el
doble de resolucin horizontal de luminancia que de crominancia, mientras que la
resolucin vertical es la misma en ambos casos (CB y CR estn en todas las filas,
pero slo en una de cada dos columnas).
@X@)X@)X@X@)X
@X@)X@X@X@X
@)X@)X@)X@)X@X
@)X@X@)X@X@X
@)X@)X@X@)X@)X Ox LUMINANCIA
S-Y
@X@X@X@X@X O R-Y
lOO_m\'
S-y
R-Y
La n(Jnlla ..~L2_. . 2
3~0__r:nV
OV
-350 mV
Figura 5.4.
Niveles de amplitud de las seales analgicas por componentes, correspondientes a las barras
de color normalizadas del 100% de amplitud, segn la norma EBU-! O, utilizada, por ejem
plo, por el Betacam-SP (625/50).
NIVELES DIGITALES
DECIMAL
HEXADECIMAL
BINARIO
FF
11111111
23S - E 8
8LANCO- 11101011
255
~~
~
~~
~
LUMINANCIA .y"
16 -
_255
C.~
0,5643 x (B-Y)
""'.;""
~ 1[-
::>'"
u::>
w~
NEGRO -
FF
240-FO
MAxIMO -
g~
0001 0000
00000000
11111111
11110000
",:$
1a
'\2 ~
uw
,"-00
1000 0000
~ ~9
f!J:3 o
~~
n.
Figura 5.5.
Niveles de cuantificacin de las seales de luminancia y diferencia de color, en el caso de las
barras normalizadas, expresadas con 8 bits por muestra. Se muestran los valores en notacin
decimal, hexadecimal (base 16) y en binario.
__TQ~ERANCIA
O- -
lJ
DE NEGRO
-47.9-NIVEL MINIMO
'--i--+-R\_NG.o1:l~51'RVMQ_B'\Rt..INCRQ!'ijZAGl!,iT--51.1
-48,7
r ~'~~
16-10
NIVEL
_y
~~<f
124
( Expresado de
(, forma entera
~n.
~~
CERO
--
0:,\
10
PERMITIDO
oo
BITS
Figura 5.6.
Detalle de la relacin entre la seal analgica de luminancia (Y), correspondiente a las barras de
color normalizadas del 100% Ysu representacin con 8 y 10 bits, en notacin decimal y hexade
cimal. Los niveles digitales 00 y FF, en el caso de utilizar 8 bits y 000, 001,002,003, 3FC, 3FD,
3FE Y3FFj en el caso de 10 bits, no estn permitidos para la representacin de las muestras_
125
La norma 4:2:2
NIVELES DIGITALES
i~~'! ,-
~~~,V
I
- Ri>.jllQB~@j\i,,,,-PARSI!:'CRDNliACQN
.
NIVELES
ANALGICOS
(ENmV)
~ :~:~.~
--==---i6i:ffiANC;;-
NIVEL MAXIMO
PERMITIDO
NiVEL MXIMO
DE CROMA
S-y
128
80
128.00
C;~g:~
'.
512 200
0.0 . _.... NIVEL CERO
DE CROMA
,--'-'. NIVEL MINIMO
\
DE CROMA
... _.lQLEAA'".N".C'"IA".-.--.-_.--_-._.-r- :~~~t.NlVEL MINIMO
vu
0001
fu_".!
_
DI oQ011,
---~-_._--~._--~
----~---
~(iQ.Rl'-.~~-llliIZA~
-3977
PERMITIDO
-400:0
figura 5.7.
Detalle de la relacin entre la seal analgica de CB' correspondiente a las barras de color nor
malizadas del 100% Y su representacin con 8 y 10 bits, en notacin decimal y hexadecimal.
Los niveles digitales 00 y FF, en el caso de utilizar 8 bits yODO, 001,002,003, 3FC, 3FD, 3FE
Y 3FF; en el caso de 10 bits, no estn permitidos para la representacin de las muestras.
NIVELES DIGITALES
Hr--~~~~~-------1
12,0
R-Y
128
80
128.00
512 200
0.0
_ NIVEL CERO
r-r'l
~~",-- F -l
DE CROMA
i6 00
(001~.7~
[-16Tl0'
l' 01
Oaci Hexa
1;00
' 64
4
-----..u=ij\W;!~-.----L396.9.N~~~M~6~o
040\ -.
-L-.--...
0041
,
. NIVEL MINIMO
'\.350.0 DE CROMA
-.-..--.--.-.IQC..
~ Hexa
:3: [-!W!~()B~i'BVf,JlQJ>;W;StNcilQ~ _~ ~~~:~
Decimal
l_.8_BIT~J_1QI3IJ~=
Figura 5.8.
Detalle de la relacin entre la seal analgica de CR, correspondiente a las barras de color nor
Los niveles digitales 00 y FF, en el caso de utilizar 8 bits yODO, 00\,002,003, 3FC, 3FD, 3FE
7~Q+r!-:I32--1~---.~-.
0,9 fls
I
_._---_... _--9,8 fls
-.
720_.
53,3 fls
~_._--_.-.-..
64
_.---
.. - - .
~J.2
...
PERODOS
DE
MUESTREO
....-----"
0,9 fl
-
TIEMPO
EN IJs
Figura 5.9.
Representacin de la Enea digital para las normas de 625 Hneas y 50 campos. Los periodos de
muestreo estn representados en funcin de un reloj de I 3,5 MHz, es decir, en base a la seal
de luminancia.
126
127
f
~J LC.,rOlOGIA .,",CTUAL DE rI:LE\'J.\J()N
La nornJ.1 ,t:2:2
OH .... --
~.s
~"""C~-~
63,55
-
----~-
~-
.~~
_. __
_._~
...
SISTEMA
525 LfNEAS/60 CAMPOS 625 LfNEAS/50 CAMPOS
1. Seales codificadas
,I
11\:
MUESTREO
LJ
I
1
, - - - -720
-
1,18~ti.-I~O~2--"~__~
53,3 As
63,55 AS
/
fe------
TIEMPO
--o
.....
EN
~S
Ji
I
PER~~DOS I
:16
O,g:s_
Figura 5. IO.
858
864
429
132
3. Estructura de muestreo
122
--~~-----------
Representacin de la linea digital para las normas de 525 lneas y 60 campos, Los perodos de
muestreo estn representados en funcin de un reloj de 13,5 MHz, es decir, en base a la seal
de luminancia.
128
Y, (R-Y), (B-Y)
4. Frecuencia de muestreo
- Luminancia
- Cada seal diferencia de color
13,5 MHz
6,75 MHz
Cuantificacin lineal de 8 bits (opcional 10 bits), para
la luminancia y para cada seal diferencia de color
5. Codificacin
6. Nmero de muestras activas
por lnea digital
- Luminancia
- Cada seal diferencia de color
7. Correspondencia entre los niveles
de vdeo y de cuantificacin
- Luminancia
- Cada seal diferencia de color
720
360
625 LINEAS/50
CAMPOS/MUESTRAS//ls
122/9,037
132/9,778
720/53,33
16/1,185
858/63,555
720/53,33
12/0,889
864/64
La norma 4:2:2
'""~\~ -: I
IU-~RETARDO~
I""~~ '"", t."I
1O.7~J ."']12 dB -
-. -40 da'.-:-
_-=-:iJ=~
---
S.S MHz
, MH, --'.. !
'67SMHz
'(fSl21
R-vl
B-vl-u
1O.5~43
Figura 5. I J
-40 d l' .
-
.1'-
__ 1
S MHz
3'~~sI2l
"O
::~-Jr
~rl
2,7~~~Z-)':3.~~~HZ
2.75 MHz
--
Diagrama de bloques del codificador 4:2:2, resaltando la respuesta de los filtros previos a la
digitalizacin.
4:4:4
4x4
(405 Mb/s)
(540 Mb/s)
@)([:jI)(@J@@@@@@l)
@@@@@@@@@@
@@@@@@@@@@
@@@@@@@@@@
@@@@@@@@@@
II@@@@@@@@@@
4:2:2 (270 Mb/s)
xxxxx
xxxxx
xxxxx
xxxxx
xxxxx o
xxxxx o
x LUMINANCIA
NOTA: LA FRECUENCIA
BINARIA SE HA CAlCULADO
EN BASE A '0 BITS
POR MUESTRA
S-y
R-Y
o TRANSPARENCIA
Figura 5. 12.
131
2.5.2. La norma 4
En los generadores de efectos y paletas grficas puede ser necesario que cada
pxel est representado mediante una palabra para Y, otra para R _ Y, otra B _ Y Y
una cuarta como valor de llave o de transparencia (valor K), de manera que se pue
dan mezclar distintas imgenes, pero de forma que la imagen de fondo "se vea" a
travs de la imagen de primer plano. Es frecuente ver este efecto en los marcado
res de los programas deportivos.
Puesto que en este caso cada pxcl est definido por cuatro valores (Y, CB, CR y K),
esta norma se conoce como 4:4:4:4 o, abreviadamente, 4 x 4. El ltimo valor es una
variable, que puede ir desde O (totalmente opaco) hasta 255 (totalmente transparente).
En ocasiones el valor de transparencia se conoce como "canal alfa".
4:2:0/4:0:2
(202,5 Mb/s)
~x~x~x~x~x
@x@x@x@x@x
@x@x@x@x@x
Figura 5.13.
Familia de normas "hacia abajo" derivadas de la 4: 2: 2.
~x~x~x~x~x
@x@x@x@x@x
~X~X~x~X~X
J,----.!LuXl! 1-.L1,;f_2
4: 1: 1 (202,5 Mb/s)
@xxx@XXX@X II @
@XXX@xxx@x @
@xXX@XXX@X @
@xxx@xxx@x @
@xxx@XXX@X!I@
@xxx@xxxxj
x lUMINANCIA
OB-Y
o R-Y
o TRANSPARENCIA
132
133
La norma 4-:2:2
= 2.160 muestras/lnea.
Una lnea
720 (Y) + 720 (CB) + 720 (CR) + 720 (K)
2.880 mues
tras/lnea.
X 576
1.658.880 muestraslimagen.
X 25 imgenes/s
41.472.000 muestras/seg.
X 8 bits/muestra = 331.776.000 bits/s o aprox. 332 Mbits/s (el doble que
la 4:2:2).
O bien,
10 bits/muestra
= 415 Mbits/s.
D-1
D-5
Betacam-Digital
DVCPRO-50
MPEG-IMX
Betacam-SX
DIGITAL-S
OV
DVCAM
OVCPRO-25
VER
COMPONENTES 1983/1985
1) EBU paralfel interface for 625-line digital video signals - Techn 3246-E.
2) EBU serial interface for 625-line digital video signals - Techn 3247-E.
Como puede verse en la tabla anterior, el DVCPRO-25 (un formato muy pen
sado para informativos) utiliza una estructura de muestreo 4: 1: 1. En el caso de DV
y DVCAM la estructura de muestreo es 4: 1: 1 en Amrica (525/60) y 4:2:0 en
Europa (625/50).
Hay que reconocer que la estructura 4:2:0 es, cuando menos, ms elegante que
la 4: 1: 1 (estn mejor igualadas las resoluciones horizontal y vertical de croma). Por
esto la 4: 2:0 es preferida cuando no se ha de convertir de digital a seal compues
ta (PAL o NTSC) para su emisin.
Algunos sistemas que utilizan 4:2:0 como esquema bsico de muestreo son:
DVD (Digital Versatil Disk), el sistema de compresin MPEG-2 y DVB (Digital Video
Bradeasting) .
Sera difcil, incluso para un experto, notar la diferencia entre una imagen
4:2 :2, otra 4: 1: 1 y otra 4:2:0; la calidad visual aparente es prcticamente la misma.
La diferencia est en la capacidad para ser posproducida: La norma 4:2:2 dispone
de croma en todas las lneas y de suficiente calidad de color como para hacer croma
keys correctos, aunque no ideales. En 4: 1: 1 la resolucin horizontal de croma no
permite hacer eroma-keJs aceptables.
La 4:2:0 no tiene crominancia en todas las lneas, lo que dificulta el procesado
en mezcladores, generadores de efectos, etc.
COMPONENTES 1991
1) EBU interfaces for 625-line digital video signals al the 4:2:2Ievel of CCIR Recomendation
601. Tech 3267-E.
2) EBU interfaces for 625-line digital video signals al the 4:4:4 level of CCIR Rec. 601. Tech
3268-E.
SMPTE
COMPONENTES
625-50
525/60
4:2:0
4:2:0
4:1 :1
4:1 :1
COMPUESTO
4:1 :1
4:1 :1
134
135
encargan los interfaces de comunicacin digital. Teniendo en cuenta que se puede tra
bajar con sei'ales compuestas o por componentes y que la conexin puede ser del tipo
serie o paralelo, aparecen, en principio, cuatro tipos de posibles interfaces. A conti
nuacin se muestran las principales normas relacionadas con los interfaces para sea
les digitales de televisin.
PIN N
1
2
3
4
5
6
7
8
9
10
11
12
13
PIN N
FUNCiN
14
RELOJ +
15
TIERRA
16
DATO 7 (MSB)+
17
DATO 6+
18
DATO 5+
19
DATO 4+
20
DATO 3+
21
DATO 2+
22
DATO 1+
23
DATO 0+
24
DATO -1+
} SLOEN
25
DATO -2+ SISTEMAS
MALLA
DE 10 BITS
FUNCiN
RELOJ TIERRA
DATO 7 (MSB)
DATO 6
DATO 5
DATO 4
DATO 3
DATO 2
DATO 1
DATO 0
SLOEN
DATO -1 SISTEMAS
DATO -2 DE '0 BITS
Figura 5.14-.
3.1.1. Nive14:2:2
El interfaz 4: 2: 2 consiste en una conexin unidireccional entre dos equipos,
formado por 11 pares de hilos (10 de datos mas 1 de reloj).
La norma 4:2:2
+ 6,75
En la norma 4:4:4 todos los pixeles tienen un valor para la luminancia, otro
para C. y otro para C R. En la norma 4:4:4:4 ( 4 x 4), los pixel es tienen, adems,
un valor de incrustacin o transparencia "K".
--==:...----=-==:.:.=---==---=:=====----=--'-_.
--~--~.~
--=~--=2-lll1--L
La conexin unidireccional en estos niveles comprende dos cables como los uti
lizados en la norma 4: 2: 2, de manera que la mitad de los datos circular por una
conexin paralelo estndar, mientras que la otra mitad lo har por una conexin
paralelo extra. Opcionalmente se pueden transportar las seales primarias R, G, B,
en lugar de Y, C R , C.
Los datos de vdeo se multiplexan a una frecuencia de 27 MHz y en el orden
siguiente:
Conexin A: C.o,Y o, CRO,Y" C""Y" C."Y" CR"Y., C""Y, ...
Conexin B: C,," K o, C. K" C,," K" C RH K" C,," K., C R" K, ...
"
Como puede verse en la figura
5.16, la conexin B transporta la seal de trans
parencia o llave "K", asi como las muestras correspondientes a las se'iales diferen
cia de color que faltan en la conexin A. Si se utiliza este interfaz para encaminar
se'iales primarias RGB, la disposicin de las muestras se obtiene cambiando G por
Y, R por C Ry B por C R. Si el valor "K" no se emplea (como en el caso de una seal
4:4:4), este se pondr a cero.
oXOxoxOxoxOxoxO
NIVELES 4:4:4 Y 4
C'VC'VC'VC'VC'VC'VC'VC'l
@XX@x@x@x
J
@lx@lx(@Jx(@Jx(@Jx
DO
N" DE
MUESTRA
X x x x @l x F:02
01
(@Jx(@Jx(@Jx(@x@lx
---03
D4
@l x (@J x x x (@J x
~g
iIQh
lIeV
X ili5lI X ili5lI X
lIeV
4:2:2
Figura 5. 15.
:::
I!'?!!
07
01
COMPONENTES Y. C,. C.
PRIMARIOS R, G. B
NaDE
MUESTRA
T- 1/27 MHz
_ 37 ns
~;LOJ~
CONEXiN 8
CONEXiN 8
Figura 5.16.
138
139
La 119il1hl..1.,1_1
PRIMER CAMPO
eo~AAOO DE.CAMPO_ANAL~~~O E:i~~E,A.S ~ \ B~O~~OO O~_ ~~~E!1__
TIEMPO DE REFERENCIA
PARA EL ANAlISIS
DE UNA LINEA
.
j.
f10RR.&.DQ
rOH
_L1r- E~NIIL()G_'.C_A
i
BYTES ... ~
24
---
PRIMER OCTETO
ACTIVO
SEAL DE
REFERENCIA
TEMPORAL
t-
264 BYTES
lA4(j
-~'
-~
.--- [
1II
,
,
'i
__
24
BYTES
V!g:6~~~"l
F 11
V 00
-BY!ErlJS~_---TEMPORAL
11
11
ti _~o __----..!.o_
__;,J._..J
'
11 l
--'I--- _ J
.L
fljl
'---v------'
L.."RI~EA CAMI'OOlGITAl
-_._------
SEAL DE
REFERENCIA
.J
'---v------'
O[lINUo
OIGlT"l
11
11
~o
------~------
00
11
_10
00
11
00
11
~~ __ ~o
00
H
10
_.
00
11
'0
OAfOSOE
vlOEOOtGlTAl
00
11
10
DO
11
10.
00
11
10
00
11
10
00
11
l~
00
11
_10_
00 00
11
"
'_~ .. !~
OQ
11
__ ~?_
00
00
'_0_
00
00
.10
;~i,
INICIO
DE i
..4BYTES
.:
4 BYTES
!
,"C
-___
_L!NEA DIGITAL
._. TOTAL
.. _ .. _
l""
D~~~:l
SEGUNDO CAMPO
{FIN DE LA
Figura 5.17.
Relacin temporal entre la lnea analgica y la digital en la norma 4:2:2.
00
00
H 10
00
11
00
11
"
" "
" "
"
" " "" " "" " " " . ,'0
11
11
10
10
11
11
10
Figura 5.18.
norma 4:2:2, para la norma de 625 lineas y 50 campos. Ntese la forma en cambiar la secuen
para la representacin de las muestras activas, de forma que cuando tales secuen
cias binarias aparezcan, el equipo sabr gue se est iniciando una secuencia de sin
cronizacin. En los interfaces digitales estas secuencias se conocen como Time
Riference SiBnals o TRS.
Existen dos seales de referencia temporal por cada lnea digital. La pri
mera se localiza al inicio de la lnea digital y se denomina EAV (End eif Active
Video). La segunda se localiza al inicio de la parte activa de la lnea digital y se
denomina SAV (Start eif Active Video). Ambas se encuentran, por tanto, en el
borrado de la lnea digital y ambas estn formadas por cuatro palabras, gue
podrn ser de ocho o diez bts. El espacio comprendido entre EAV y SAV
puede usarse para datos auxiliares, tales como audio digital, datos de identifi
cacin de equipos o sistemas de comprobacin de errores. Si se emplean 10
140
141
bits, los dos menos significativos no se tienen en cuenta. Las cuatro palabras
de referencia temporal tienen los valores hexadecimales siguientes: FF 00 00
XY, donde las tres primeras palabras forman un prembulo fijo, mientras que
la ltima es una variable, en la que el primer bit es un" 1" fijo. A continuacin
aparecen los bits "F", "V" Y "H", los cuales tienen el siguiente significado:
O durante el primer campo.
F
V = 1 durante el borrado de campo.
H = 1 al inicio del borrado de lnea.
Por tanto, trabajando con 8 bits la secuencia completa sera:
1111 11110000000000000000 IFVH P, P, P, Po
Los bits P, a Po son bits de proteccin de F, V Y H, que, mediante un cdigo de
Hamming, permiten la correccin de errores sencillos y la deteccin de errores
dobles. De todas formas, puesto que la informacin de F, V Y H se repite cada cua
dm, se puede proceder tambi<~n a una deteccin/correccin de errores por mayora.
La norma 4:2:2
mente cuando se conecte de forma directa a una salida cuyos voltajes extremos
correspondan a los del emisor.
Entrada mnima.-El receptor deber interpretar correctamente datos que apa
rezcan aleatoriamente y que produzcan las condiciones representadas en el diagra
ma de ojo de la figura 5.20.
M:E~~C'r~ ~~R'~~-~_:~:::~
T~AAA
,o: -:
~ ",~'~~:"-',
____
::~:~:~:
-1.79V.
DIAGRAMA DE OJO
}NIVEL BAJO
RELOJ
MEDIDO
ENTRE POLOS
':
..-u,
llOIDlI
ti.+
.
I
DE 0.8
A2V
'
DATOS
~-+--.
F
---
DURANTE EL
PRIMER CAMPO
-------._--
IV
DURANTE PERIODO
ACTIVO DE CAMPO
-_._--_._-._--
AL FINAL DEL
BORRADO DE LINEA
._.
TRs ( E A V ) V T R S (SAV)
4 PALABRAS"
4 PALABRAS
--~""
DURANTE EL
SEGUNDO CAMPO
------------~-~-
DURANTE BORRADO
DE CAMPO
-_._----------
rr
~
/ - -
280 Bms
-o
~~
FFOO OOn
AL INICIO DEL
BORRADO DE LINEA
't
~
"
1 F V H P3 P2 P 1 Po
:t 11
os
T= 11(1728 FI) = 37 ns
DE08
A2 V
L_T,J
DURACiN DEL
IMPULSO DE RELOJ
= 18,5 ns
-2
1<
13
S"
FASE DE lOS
DATOS DE SALIDA
td = 18,5 ns 3 ns
Tmln = 22 ns
Vmin = 100 mV
Td
=Tmin/2 =11 ns
Figura 5.20.
'--v--J
Figura 5.19.
'
I
-j~--
.._oo
1>n.
MEDIDO
ENTRE POLOS
... _Tmin ~
}NIVELALTO
RELOJ
Retardo diferencial reloj-datos.-El receptor deber interpretar correctamente los
tencia de 110 ohms conectada a los terminales de salida, sin lnea de transmisin.
El tiempo de subida y bajada, entre los puntos del 20% Y el 80% de amplitud,
Todos los parmetros del interfaz serie (las seales de vdeo, las seales de refe
rencia temporal, los datos auxiliares y las seales de sincronizacin) coinciden con
los del interfaz paralelo. La nica diferencia es la forma en que se transmiten los
datos y las caractersticas elctricas. Este interfaz consiste en una conexin unidi
reccional entre dos equipos, en la que las palabras de 10 bits (si se parte de palabras
de 8 bits los dos bits menos significativos se ponen acero), se transmiten formando
un nico tren binario, por un cable coaxial de un slo conductor. La velocidad bina
ria del interfaz serie ser: 27 Mpalabras/ s x 10 bits = 270 Mbits/ s. El bit de menor
peso de cada palabra es el que se transmite primero. Esto puede verse en la figura
5.21, donde MSB significa "Most Significant Bit" y LSB "Least Significant Bit".
142
143
_ _ _ _ _ _ _ _ _ _ _ ~ngLill.<L1:2: 4
,.
.,.
@x@Jx@Jx@Jx@x'
@x@x@Jx@x@Jx
@x@x@lx@x@x
@x@x@x@x@x
@x@x@x@x@x
@lX@lx@x@x@x
6~
B~
33
~~
0'"
Figura 5.21.
G2 (x)
=x' + 1
pos de sul)ida 'j ba)acla (entre ellO 'j el ~O% de amplitud) se situaran entre O,7S 'j
1,5 ns. La inestabilidad de los flancos ser inferior a O,l ns.
Los conectores utilizados debern ser de tipo ENe y sern capaces de tratar fre
cuencias de hasta 500 MHz.
NOTA: En l. primera definicin del interfaz serie. cuando se trabajaba exciu.,;"amente con 8 bits, se especific6 un
c6digo de can.1 de conversin directa "8-9 bits". Con la ap.ricin de los interf.ces para 10 bits en 1991 se .bandon el
cdigo de canal de conversin directa en favor del cdigo de canal aleatorizador.
NO CONTIENE BAJAS
1 o
oo
oo o,
oo 1,
o11,
1 o
,,
FRECUENCIAS Y ES
AUTOSINCRONIZABlE
10000010110001111101
110001001000\110100
U1fLJlf LJUUUl
REGISTRO DE
NRZ
DESPLAZAMIENTO
CONVfRS()l1
PARALELO-SERIE
\/U\JUUI \J\
G1(X) =x+x+1
ALfAr()l1IZNJ011
l1000\OOlOClQll10100
lflSlILJ
N~2(X)=X+1
CQNVfRSOII
NMLFUWCO
~
NRZI
DATOS DE
SALIDA
SERIE A
270 Mbls
RELOJ A 27 MHz
Figura 5.22.
Ejemplo de conversion de palabras de vdeo en paralelo en datos de canal serie en la norma 4:2:2.
4. Datos auxiliares
Se definen como datos auxiliares todos aquellos que pueden ser ubicados en un
interfaz de vdeo y que no representan informacin de la imagen activa o de sin
cronizacin-identificacin de vdeo. El nmero de aplicaciones que se puede dar a
los datos auxiliares es ilimitado. Por el momento, se han definido y normalizado
cuatro aplicaciones: audio insertado en vdeo, SDTI (una ampliacin de! SDl para
144
145
La norma 4:2:2
Mbits/ s, lo que supone un 21 % o, si se prefiere, una quinta parte del total de datos
del SOl. Esto permitira hasta i 36 canales de audio digital insertado! o 18 pares
AES/EBU, aunque nadie utiliza tal capacidad.
DATOS _~
AUXILIARES ')
iiiiiii'
~g{.-=
"''''
g~
.1/
(a)
C/)
w
C/)
Q?~
a.. <t:
<t:
:J
VfDEO
ACTIVO
a. :J j .
ox~
O:J
<t:<t:
...J
l'
c'
oc fw
O Z
a.. w
Zo
Oz
a..
01
(b)
ViDEO
ACTIVO
...J
C/)
:JO
C/)
VANC
C/)
'Z
C/)C/)
'z
w
DATOS
.~ AUXILIARES - - - - )
ViDEO
ACTIVO
PRTICO
ANTERIQ~/ l- '\..-ATOS-
~:I:
VANC
E
SAV
ViDEO
ACTIVO
,
,
>..
PRTICO
----
Figura 5.23.
Capacidad para transportar datos auxiliares en las seales digitales compuesta y por compo
nentes.
4. 1. Capacidad de almacenamiento
,
SEAL COMPUESTA.-En el caso de la seal compuesta (PAlo NTSC) los datos
auxiliares se ubican en los pulsos de sincronizacin horizontal y vertical. Ntese en
la figura (a) que no se utiliza todo el espacio dejado por los borrados, sino slo los
sincronismos en s mismos. En cada sincronismo de lnea se pueden ubicar hasta 64
palabras (de 8 10 bits). En cada impulso de sincronizacin vertical cabe un mxi
mo de 932 palabras y en los impulsos de preigualacin y postigualacin hasta 46
palabras. Si se hace un clculo de la capacidad total obtendremos unos 10 mega
bits/ s, en los cuales se debe incluir la informacin de identificacin, numeracin
de bloques y paridad para comprobacin de errores. Estos 10 megabits/s permi
ten incluir en el interfaz de vdeo hasta 4 canales de audio digital (2 pares
AES/EBU).
SEAL POR COMPONENTES.-En este caso los datos auxiliares (HANC) se ubi
can entre las seales de referencia temporal EAV y SAV, ocupando la prctica tota
lidad del borrado horizontal, como muestra la figura 5.23. Tambin la mayor parte
del borrado vertical es ocupado por los datos auxiliares, que en este caso se deno
minan VANC. As la capacidad total, sumando HANC yVANC, se eleva a unos 56
BANDERA DE DATOS
SUMA DE
IDENTIFICADOR (1 PALABRA)
N0 DE BLOQUE (1 PALABRA)
j j
ADF
DID
COMPROBACiN
(1 PALABRA)
DATOS DE USUARIO
(255 PALABRAS MXIMO)
CHS
DBN DCN
L{AUDIO DIGITAL: FF H
EDH: F4 H
CDIGO DE TIEMPO: 60 H
Figura 5.24.
Los datos auxiliares se estructuran en paquetes, formados por una cabecera, una zona de carga
146
147
LJ
Resumen
o
148
norl1la~LZ
En la norma 4:4:4 todos los pxe!es tienen un valor para la luminancia, otro
para CB y otro para CR. En la norma 4:4:4:4 (o 4 x 4), los pxcles tienen,
adems, un valor de incrustacin o transparencia "K". La conexin se logra
mediante dos cables como los utilizados en 4: 2: 2, que trabajan en paralelo.
Los datos de vdeo se multiplexan a una frecuencia de 27 MHz y en el orden
siguiente:
Conexin A: Cuo,Y o, CRO,Y" Cn"Y" CR"Y" Cn.,Y., CR.,Y , .
Conexin B: Cn" Ko, CR" K" CRl, K" CR" K" C." K., CR" K, .
El borrado del campo digital" 1" dura 24 lneas, mientras que el borrado del
campo digital "2" dura 25 lneas. Por esto el nmero de lneas activas de la
imagen digital es de 576 y no 575 como en el caso analgico
La sincronizacin de lnea y campo se logra mediante la llamada TRS (Time
Rifrence SiBnal). Esta, a su vez, se divide en EAV (End <f Active Video) y SAV
(Start rfActive Video). Estas palabras de sincronizacin van colocadas al inicio y
al final de! borrado de lnea.
EAV y SAV estn formadas por cuatro palabras de 8 10 bits cada una de
ellas. Las primeras tres palabras son un prembulo fijo, mientras que la lti
ma informa sobre si estarnos en el primer o segundo campos, si estamos en
una linea activa o en una de! borrado vertical y si nos encontramos al inicio o
al final del borrado de lnea.
Todos los parmetros de! interfaz serie (las seales de vdeo, las seales de
referencia temporal, los datos auxiliares y las seales de sincronizacin) cain
149
ciden con los del interfaz paralelo. La nica diferencia es la forma en que se
transmiten los datos y las caractersticas elctricas.
Este interfaz consiste en una conexin unidireccional entre dos equipos, en la
que las palabras de 10 bits (si se parte de palabras de 8 bits los dos bits menos
significativos se ponen acero), se transmiten formando un nico tren binario,
por un cable coaxial de un solo conductor.
Para evitar largas secuencias de ceros o de unos, que presentaran problemas
de propagacin por el cable coaxial del interfaz serie, se aplica a la seal digi
tal un barajado seudoaleatorio. A continuacin los "unos" se convierten en
transiciones y los "ceros" en no-transiciones.
CAPTULO
La sciial JifitaG;~UD_-P~\t.:st.!
TlCNOlOGiA r\CTU-\l DE TELE\,ISIN
l~
LS.6~
""
l _ .1";;",J.A:
SENOIOE DE CROMA
ORIGINAL
56 n5 -
56 ns
----
69 ns
69-~SMU~~~~EOA 4 fe
69 ns
-PAL
SUMA PONDERADA
DE A YB (A'BY')
i i i i
INSTANTES DE MUESTREO
SENOIDE DE CROMA
( \ DESFASADA 160" (2T)
DESFASE
DE2T
i i
RESTA PONDERADA
DE A YB (A-BY21
...
~1
i i
INSTANTES DE MUESTREO
Figura 6.1.
lurninancia y la crominancia.
152
na un total de 4 x 227,5
910 muestras/lnea completa. En esta norma la lnea
digital activa acomoda 768 muestras, mientras que las 142 restantes se localizan en
el borrado horizontal.
En la norma PAL no es posible obtener un nmero entero de muestras por
lnea, como consecuencia de la suma del desplazamiento vertical a la frecuencia de
subportadora. En efecto, en esta norma la frecuencia de subportadora es igual a
283,75 veces la frecuencia de lnea, ms N 12 (N es la frecuencia de campo 50
Hz). El ltimo trmino "N 12" (desplazamiento vertical) equivale a sumar 25 Hz,
es decir, un ciclo completo por imagen o, lo que es lo mismo, 180 grados por
campo. De esta forma se producen 4 x 283,75
1.135 muestras/lnea ms 4 x
1ciclo/625 lneas
1.135,0064 muestras/lnea. Sin embargo, resulta convenien
te tratar la imagen como si cada lnea comprendiera un nmero entero de mues
tras (muestreo ortogonal), de manera que se hace como si cada lnea estuviera for
mada por 1.135 muestras/lnea exactamente. Puesto que en realidad tenemos cua
tro muestras ms por imagen, lo que se hace es despreciar dos muestras en cada
borrado de campo.
Las muestras de vdeo deben sealar la fase de la subportadora de color. Por
esto se hace coincidir la fase de muestreo con la fase del burst ( 135 grados). Las
otras dos muestras se toman a 45 grados. De esta forma se obtienen muestras a
45, 135, 215 Y 305 grados. Si la fase de muestreo del burst es la correcta, se obtie
nen los valores mostrados en la figura 6.2, abajo. Cualquier diferencia entre los
valores intermedios del burst y el nivel de borrado (64) se entender como un error
de la fase de muestreo. Dicho error generar una tensin capaz de reposicionar la
fase del convertidor analgico-digital.
.90"
EJE J
+1230
VECTOR DE
CROMINANCIA
33
" ~.--=----+'
EJE
...33 0
~ ..
/\~\
--
Figura 6.3.
Diagrama polar mostrando la relacin
entre los vectores de color 1 y Q por
un lado y R - Y YB - Y por otro.
,.
EJE BYO"
(REFERENCIA)
FASE DEL
BURST .180
INSTANTES DE MUESTREO
u+v
I
-SUBPS::~
+U
REFERENCIA GENERADA
A PARTIR DEL BURST
VALORES CUANDO EL
BURST SE MUESTREA
CORRECTAMENTE (8 BITS)
-v
FASES DE MUESTREO (PAL)
Figura 6.2.
0
+1350 +225 +315 +45
Figura 6.4.
l5S
154
La seal dig.!J.-.LcompUc;;lJ
OH
100%
100%
50%
50%
0%
rn
01
R-Y
,',
'\\
o'
+90 0
28,2_D~.~
1.."5"6A os
---'" I ..
0%
. '"
+-Numero de muestra
45 GradoS-rJ : 28.2 ns
BURST
+18Do
O'l
ril11iJl
B-Y
/:'. .
..
OH
NTSC
PAL
IMPULSOS DE
MUESTREO A
4fsc. T= 56.4 os
.Q
oQ
-1
~ _Numero de mue!llra
.Q
-<-1
.Q
.1
J_L_LLLllL
33
Gr;~dos
.... --~--
:..
23,3 __os
.. 46,6
n!;.
~: ~~_
,,_
,.:
34.9 ns
IMPULSOS DE
MUESTREO A
4fsc. T= 69,8 os
Figura 6.6.
.:
,
i
O'
La fase de muestreo dc la scal compuesta se define cn funcin dcl punto de media amplitud
del flanco anterior del impulso de sincronizacin de lnea. Aqui se muestran los instantes de
'.
BURST
,'.
+90 0 +180:
'.
j-
I
+123
3. Rango de amplitudes
,)
Q
+213 +303
-,
-Q
I
Q
+33 0 +123 +213 +303
INSTANTES DE MUESTREO
-Q
+330
+123
Figura 6.5.
Instantes de muestreo de la seal compuesta NTSC, en funcin de los ejes de crominancia I
y Q (ahajo).
Aunque se trate de una norma digital, sigue siendo una seal PAL, por lo que
NTSC). Para esto se define la fase de los impulsos de muestreo en funcin del
punto O" de la seal analgica (relacin Sc/H). Este punto corresponde al punto
En estc punto OH la fase de la subportadora de la seal PAL debe ser de cero grados
cuando se est codific.ando el inicio de la linea uno del campo uno. En estas circunstan
cias la fase de muestreo ser tal que el punto O" quedar ubicado exactamente entre dos
instantes de muestreo, es decir, el punto O" quedar a igual distancia de los dos instantes
de muestreo de ambos lados (vase figura 6.6 izquierda). En el caso de la seal NTSC,
la relacin SclH se define tambin en funcin del punto de media amplitud del impul
so de sincroniz.acin horizontal, pero referido a la linea 10 del primer campo. Ntese,
en la figura 6.6 derecha, que el desplazamiento de 33 de los ejes 1 y Q con respecto a
la subportadora reconstruida a partir del burst provoca que los instantes de muestreo no
estn exactamente centrados con respecto al instante O".
En la figura 6.7 puede verse la relacin entre los niveles de la seal analgica
NTSC y los niveles digitales correspondientes en notacin decimal y hexadecimal,
expresados con 10 bits por muestra. En este caso se trata de las barras de color del
100% de amplitud de croma. Ms concretamente, esta seal de prueba se deno
mina "100/7,5/100/7,5", donde e! primer nmero describe el nivel de los colo
res primarios durante la transmisin de la barra blanca. El segundo nmero se
refiere al nivel de los primarios durante la transmisin de la barra negra. El terce
ro identifica el nivel de los primarios durante la transmisin de la mxima modu
lacin de croma, mientras que el cuarto se refiere al nivel de los primarios duran
te la transmisin de! nivel mnimo de crominancia. Por tanto, e! "7,5" indica la pre
sencia del llamado "pedestal" o tambin set-up, tpico de la seal NTSC.
En esta norma se ha definido la utilizacin de 10 bits por muestra, lo que propor
ciona 1,024 niveles, numerados del O al 1.023 en decimal, o del 000 al 3FF en hexa
decimaL Al igual que sucede en la seal por componentes, los valores 000, 001,002,
003, 3FC, 3FD, 3FE Y 3FF estn prohibidos para la representacin de las muestras, ya
que se reservan para propsitos de sincronizacin y referencia temporal. Esto pro
porciona 1.016 niveles para la codificacin de las muestras, que, expresados en deci
mal, van desde el 4 hasta el 1. O19, Y en hexadecimal, desde el 004 hasta el 3FB. Al
fondo de sincronismos se le asigna el valor decimal 16, correspondiente al O10 hexa
decimaL El nivel ms alto de la seal, que corresponde al amarillo y al cin, se codifi
ca con e! valor decimal 972 (3CC,,). Esta norma proporciona un pequeo margen de
tolerancia en los niveles bajos, desde el nivel decimal 4 hasta el 16 (004" a 010,,), Y en
los niveles altos, desde el 972 al 1.019 en decimal (3CC" A 3FB,,). La tolerancia total
156
157
Niveles
analgicos
mV
IRE
Niveles
digitales
TOLERANCIA
Osc Hexa
998,1
139,1
1023
3FF _o.
994,2
992,9
139,2
139,0
1020
934,3
130,8
912
3FC RE::;RVADO
3F8.
_
3CC IQb~~_i'J~IA
714.3
100,0
1019
NIveles
analgicos
NNeles
digitales
mV
Oaci Hexa
913,0
909,2
-.-_
320.
.--.--------------
700.0
800
3FF
3FC RESERVADO
:~~:: ---~~;_9-~TOLERAN9IANEGATlv~~-~~~Oxl;l~~n~:e~~~:~lficado
1023
1020
>4C
iii
ro
ro
11
"I~
"1"'E~
U
53,b
1.5
282
240
-285,7
-300,7
-40,0
,.
-'42,1
-302,3
-306,1
-112,3
--42,8
Nivel de borrado
010 - __ L-J.
004 mL~RANGlA
003
000
240
~ Ig. 13
a: 1l
llA
oFO
13
~"'12.~
OFO
Nivel da brrado
1:;
1l
g,
~
z"
Fondo de sincronismo
.__ .
11 ~
Figura 6.8.
Rango de amplitudes de la
seal digital compuesta PAL.
-300,0
004
-301 ;l
003 -
-3.04,8
Fondo de sincronismo
_.-_... - -
-----
000 RESERII.'\JJQ - - .
RES~RYADO::-'::======---
-----~
----
Figura 6.7.
INSTANTES DE MUESTREO
-U+V
-U-V
u-v
U+V
+135or----,-~T-l+45
+2250 +315
SUBPORTADORA DE
REFERENCIA GENERADA
0
._-~
16I"-__ J
'", _
---
Nivel de
luminancia
-- - ,; O.6-2V-
1.0,886V'\
Barra
amarilla da1100%
Figura 6.9 .
Los instantes de muestreo de la
barra amarilla del 100% de ampli
tud, nunca alcanzan el mximo de
excursin de la seal analgica.
159
158
100%
FLANCO ANTERIOR
DEL IMPULSO DE
SINCRONIZACiN
50%
~
(b)
I
4'
O%L-
DE LINEA
NUMERO DE MUESTRA
LINEA 624
44.2 ns
_69.8 os
(b)
(a)
L1NEAACTIVA DIGITAL (\
(768 MUES7RAS)
'"
I (
LINEA 1
Ui
l' );
Hu'
'.
.... (O:.!6!L_17,6.a:9!l!Ji
(0.909)'
BORRADO DIGITAL
DE LINEA
(142 MUESTRAS)
Figura 6.10.
Numeracin de las muestras de la lnea digital compuesta NTSC.
160
(kINEAl
Sil .
i 1
. ..
JQ.:J!47L
(O, 1.134)
~(948.'134J.
BORRADO DIGITAL
DE LINEA
(187 MUESTRAS)
LiN'ECOMPLETA (6~~)-'
Figura 6.11.
["'AJf,
NUMERO DE MUESTRA
\ I
= 910 muestras/lnea
FLANCO ANTERIOR
DEL IMPULSO DE
SINCRONIZACN
DE LINEA
LINEA 525
~NEA625
(a)
La lnea digital activa acomoda exactamente 768 muestras. Las 142 muestras
restantes forman el intervalo de borrado horizontal. En la figura 6.10 puede verse
la numeracin de las muestras de la seal digital NTSC. El punto de media ampli
tud, de! flanco anterior del sincronismo de lnea analgica, debe caer entre los ins
LINEA 524
= 17,734465 MHz /
La fraccin 0,0064 significa que en una lnea se habrn producido 0,0064 mues
tras extra y despues de un campo completo: 312,5 x 0,0064 = 2 muestras extra.
Dicho de otra forma, si se entiende que cada lnea tiene exactamente 1.135 mues
tras, entonces la ltima debera tener 1.137 (dos ms) para compensar el pequeo
acarreo de 0,0064 muestras de cada lnea.
Puesto que la numeracin no puede pasar de 1.134 (el cero tambien cuenta), la
penltima muestra de la ltima lnea debera ser la nmero uno y la ltima la nme
ro dos. Esto hara que la primera muestra de la lnea siguiente fuera la nmero tres y
no la uno, como debe ser. El truco para mantener constante la numeracin de las
muestras, a nivel de la referencia temporal de la lnea digital, consiste en no numerar
las dos ltimas muestras de la ltima lnea de cada campo. Estas dos muestras no se
borran: permanecen en su sitio, pero no reciben numeracin. La primera de las 1.135
muestras corresponde a la primera muestra de la lnea activa, es decir, la numeracin
de las muestras comienza despues del borrado de lnea. Esta muestra se numera "O".
La ltima muestra, numerada 1.034, se localiza al final del borrado de linea de la lnea
analgica siguiente. Esto es distinto a lo que sucede en el caso de la seal digital por
componentes. Las muestras a 947, ambas inclusive, contienen la lnea digital activa.
Si se multiplica el perodo de muestreo (1/17,734475 MHz 56,38 ns) por el
nmero de muestras de la linea activa digital se ver que la duracin de la lnea acti
va digital es superior a la de la lnea activa analgica (53,45 .ts vs 52 .ts), pero, al
igual que sucede con la seal compuesta, esto no supone ningn problema, ya que
durante la conversin digital-analgico se borran las muestras necesarias para
reconstruir la duracin correcta de la lnea analgica.
161
Tabla 6.2 Sealizacin de linea en el sistema NTSC, mediante cinco bits de la palabra
TRS.
La seilal digital compuesta incorpora informacin de sincronizacin (referencia
temporal) e identificacin. Esta informacin aparece slo despus de cada flanco
anterior de cada impulso de sincronizacin de lnea (a diferencia de la seal por
componentes, en que aparece dos veces por cada borrado de lnea). La seal de
referencia temporal (TRS) est formada por cuatro palabras de 10 bits, con valo
res hexadecimales: 3FF, 000, 000, 000. En la seal NTSC estas palabras se locali
zan en las muestras 790, 791, 792 Y 793 (vase figura 6.12). Despus de las pala
bras TRS se encuentra una palabra de 10 bits (muestra 794).
BIT6
O
O
O
O
O
O
O
O
B"5
O
B"4
O
ffiT3
O
0 1 1
1
O
1
O
1
1
Tabla 6.1 Sealizacin de campo en el sistema NTSC mediante tres bits de la palabra
TRS. Las combinaciones decimales 4, 5, 6 Y 7 no se aplican en este caso, ya
N.O DE LINEA
No utilizado
1 (264)
2 (265)
3 (266)
29 (292)
30 (293)
2:31 (2:294)
BIT 1
O
BIT O
O
O
O
1
1
1
1
11
(14E H ) - - -. .
.......
784 (OA4 H )
~~~------50%
C--785 (044 H )
767-782
(OFOH )
1
I
(010,) ~I
',1
'1
787
790
791
f92
.---"--.. ..---"----,.
793
TRS.
SEALIZACiN DE CAMPO EN PAL
PATRN FIJO DE
REFERENCIA TEMPORAL
Figura 6. J 2.
BIT2
BIT 1
BIT O
NMERO DE CAMPO
O
O
O
O
O
O
O
1
1
2
1
1
O
O
1
1
O
1
O
1
3
4
5
6
7
8
909~
. 111
'1
1
1
1
1
INICIO DE LA LINEA
~ DIGITAL ACTIVA
1854
1850
I~
794
A~
",
Tabla 6.3 Sealizacin de campo en el sistema PAL mediante tres bits de la palabra
TRSID I
DATOS
;.rr79S-849 UXILlARES
~.'',_""'' ' ,_ .,t'f:~;.";;,,,~
(55 palabras)
r-"----..
FIN DE LA LlNEAACTlVAANALGICA
0-
En la seal PAL las palabras TRS se localizan en las muestras 967, 968, 969 Y
970 (vase figura 6.13). Despus de las palabras TRS se encuentra una palabra de
ID bits (muestra 971 en PAL y 794 en NTSC) con datos de identificacin, segn
1 3
0
O
NMERO DE CAMPO
O
1
Tabla 6.4 Sealizacin de lnea en el sistema PAL mediante cinco bits de la palabra
TRS.
SEALIZACiN DE LNEA PAL
BIT 7
BIT6
O
O
O
O
O
O
O
BIT 5
BIT 4
BIT 3
N.O DE LINEA
O
O
O
O
O
1
O
1
O
011
No utilizado
1 (314)
2 (315)
3 (316)
O
1
29 (342)
30 (343)
2:31 (2:344)
163
11 siill-!ii.gjt~lJ!J2-q9.!
Tl5-'NOI.OGiA "CTU!\l DE TEU\'I.. . 10:-
IN DE LA LINEA ACTIVAANALOGICA
FIN DE LA LINEA ACTIVA DIGITAL
. .
(HE")
'.
957 (09B")
---- 50%
958 (069,,)
948-954
(100")
18;~ado
~~a;~~~i1g~
1.1340
'1~
e
:CIO DE LA LINEA
:VDIGITALACTIVA
;*
~{
(004") 967~
TRS.:!,O
, :1.038
1.037
'1.036
-=
DATOS
.Jt~f972-1.03S-AUXlllARES
~",'w~lP",,::-. ~
,(.64 palabras)
968
969 970
PATRN FIJO DE
REFERENCIA TEMPORAL
la milad
-"fi3()rrado digital
-.i--.e campo
~ .. '"
11 .,.l.~
!1'i.
~\'
"'=~
Campos de video
Ac1ivos (11 y IV)
-P.ue~~
Anal~gleo
Figura 6.13.
De la mitad de la
~cuadm
,~,!"
:~
.,'1-",
El campo digital activo NTSC excede al campo analgico activo, ya que empie
za antes y termina despus. En los campos impares el intervalo de borrado verti
cal digital se extiende desde la muestra 768 de la lnea 525 hasta la muestra 767 de
la lnea 9, ambas inclusive. En los campos pares el borrado abarca desde la mues
tra 313 de la lnea 263 hasta la muestra 767 de la linea 272. La figura 6.14 mues
tra la relacin entre los perodos activos de los campos analgico y digital de la
seal compuesta NTSC.
Al igual que sucede con los campos, tambin la duracin de la linea digital acti
va excede a la duracin de la lnea activa analgica, sobrepasndola, tanto en su ini
cio como en su final. Por tanto, la lnea activa digital incluye los bordes del borra
do analgico de linea. Esto ayuda a enmascarar los posibles efectos de rizado y
Isobreimpulsos, generados por el limitado ancho de banda del filtro de reconstruc
in del convertidor DI A, como consecuencia de los rpidos cambios de nivel que
;lo
de la linea 263
IDENTIFICACiN
(PALABRA VARIABLE)
6. El campo digital
Del InicIO de la
Ifnea 10
Pb7 b6 b5b~4-b3-b2-b1-b~O
El bit 8 forma paridad con los bits Oa 7. El bit 9 es el negado del 8. Los bits Oa 2 indi
can la secuenda PAL de 8 campos, mientra~ que los bit~ 3 al 7 indican la cuenta de linea
en las proximidades del sincronismo vertical, es decir, de la lnea 1 a la 30 (o entre la 314
y la 343, si se trata del segundo campo). Las lineas de numeradn superior a 30 (o 343)
tienen todas el mismo indicador en la sealizadn de linea. Puede verse que el TRS de la
seal compuesta contiene una palabra 000 extra con respecto a la palabraTRS para com
ponentes. Esto puede usarse como "identificador de tipo" en un sistema de interfaces,
donde se combinen seales de diferentes normas.
A,:,a.l~gco
Del mIC'O de la
019~tal
971
j5
Campos de video
aclfVOS (1 y 111)
-lmp;,tes
Hnel!l 21 8 la mrlad
dI! la linea 263
~~~~~~,,"~1r. _U;;'~"".""",,_~
967
v . ::?
d.gilal
de campo
21~Bt'~"
HORIZONTAL DIGITAL
962
11
BonadoI
1.0
~'1':
525 _ _ .
Del~:~~273
a la linea 525
(ambas inclusive)
'\'11
1(1"'f;,t, dig~tal
actIvo
~. DCU.d'~
analgICO
activo
Figura 6.14-.
Comparaci6n entre el cuadro anal6gico y el digital en la norma NTSC.
64
948 de la lnea 310 hasta la muestra 947 de la lnea 317. La figura 6.15 muestra la
relacin entre los perodos activos de los campos analgico y digital de la seal
compuesta PAL.
Al igual que sucede con los campos, tambin la duracin de la lnea digital activa
excede a la duracin de la lnea activa analgica, sobrepasndola, tanto en su inicio
como en su fina!. Por tanto, la lnea activa digital incluye los bordes del borrado ana
lgico de lnea. Esto ayuda a enmascarar los posibles efectos de rizado y sobreimpul
sos generados por el limitado ancho de banda del filtro de reconstruccin del conver
tidor DI A, como consecuencia de los rpidos cambios de nivel que se producen en
los lmites entre el borrado y la zona activa. El borrado de lnea digital se extiende
desde la muestra 948 hasta la muestra 1.134, ambas inclusive, de todas las lineas fuera
del intervalo de borrado vertical.
Puede resultar extraa la forma trapezoidal del campo digital activo PAL (figu
ra 6. 15). Esto es slo una representacin grfica y es consecuencia de que la fase
de muestreo est sincronizada con la fase de la subportadora de color y que, por
otro lado, la frecuencia de muestreo no es un mltiplo exacto de la frecuencia de
lneas. Lo anterior supone que una lnea digital contiene un cierto nmero de
muestras y un poco ms. En concreto, una lnea digital (total) PAL contiene
1.135,0064 muestras, de manera que el primer intervalo de muestro de la lnea
23-_
Borrado
an8/gico
decampo
FadO
2~aMI~'itj,t~.AAQana
1
5-
digital
de campo
24----
Campos de \l/deo
actIVos (1 y Ul)
-Irnpares-
Analgico
De la mitad de la
de la linea 310
De?~~:~la6
a la linea 310
(ambas inciu$Jve)
Borra~o
310
311~
312_
317
~_ _""''';<~~
-/f B~rr.8do
\ I dlgllal
31B-r.t:'':~$w;,
campo1335~_~
?._
analgIco
de
de campo
336~
337
Resumen
Ca~pos de video
-Pares-
Analgico
a la milad de la 623
De
1~:Pr::1 318
l la linea 623
(ambas ll'lcJuslve)
sn
Cuadro
..
.. digital
AD
iil.1iVO
cuadro
analgico
activo
Figura 6.15.
Comparacin entre el cuadro analgico
La norma digital compuesta surge para satisfacer las necesidades de! merca
do, que a mediados de los ochenta demandaba equipos ms econmicos y
directamente insertables en el entorno compuesto. Se trata de normas dise
adas inicialmente por fabricantes y recogidas despus por los organismos
reguladores.
Para facilitar el posterior tratamiento de la seal digital compuesta (separa
cin luminancia/crominancia, ajuste de niveles y retardos, etc.), resulta con
veniente que la frecuencia de muestreo est sincronizada con la frecuencia de
la subportadora de color.
166
167
Ll sCJ'laLili..giWsJ.~IJU1lIf:'i~
168
169
I
I
CAPTULO
Compresin en vdeo
1. Introduccin
La digitalizacin de las imgenes ofrece muchas y muy importantes ventajas,
algunas de ellas ya enumeradas en e! captulo 4. El mayor xito de! vdeo digital se
produjo en posproduccin, donde e! alto coste de los equipos quedaba compensa
do por la mayor calidad y la multigeneracin ilimitada sin perdidas.
Por otro lado, una produccin normal de TV genera unos 200 Mbits/ s. Tal fre
cuencia binaria requiere grandes capacidades de almacenamiento y enormes
anchos de banda para su transmisin. La utilizacin masiva del vdeo digital slo
ser un~ realidad si se reducen las necesidades de almacenamiento y de ancho de
banda. Este es justamente e! propsito de la compresin.
Casi todas las aplicaciones actuales emplean compresin. Formatos de magne
toscopios como el Betacam Digital, DVCPRO, DVCAM, DIGITAL-S, Betacam SX
o MPEG-IMX, soportes multimedia como el DVD, sistemas de televisin digital,
como ATSC o DVB, etc., todos ellos utilizan la compresin de datos para propor
cionar ms y mejores servicios. Es, por tanto, necesario conocer los principios
bsicos, las tcnicas y los trucos que permiten, por ejemplo, reducir desde 200
Mbits/ s a slo 6 Mbits/ s un tren binario sin que apenas sufra la calidad de la ima
gen en movimiento.
Estudiar los procesos que permiten comprimir las imagenes y sonidos no slo
es necesario, sino que, adems, puede resultar, para cualquier persona inquieta, un
ejercicio interesante y hasta fascinante.
La compresin permite al usuario elegir la combinacion de parmetros de
muestreo y factores de compresin que mejor se adapten a sus necesidades. Esta
nueva filosofa de "norma a la carta" esta desplazando a los viejos y rgidos concep
tos de "frecuencia de lneas", "frecuencia de campos" y "codificacin del color PAL,
171
Comj2fs.,<;jllS!L\l~!
64 Kb/s
2-4 Kb/s
5,07 Mb/s
8-16 Kb/s
64 Kb/s
4-16 Kb/s
10,13 Mb/s
64-768 Kb/s
1,5 Mb/s
64-128 Kb/s
30,41 Mb/s
1,5 Mb/s
2:1 :0
165,88 Mb/s
4-6 Mb/s
4:2:0
HDTV
1.920 x 1.152 pxeles;
8 bits/muest.
884,73 Mb/s
16-25 Mb/s
8:4:4
Voz: 8 Kmuestras/s;
8 bits/muestra
2. Para qu comprimir?
Vdeo en CD-ROM
352 x 288 pixels
Notas
Con compresin
Tal flexibilidad permite, por ejemplo, transmitir "deo digital por los cables de
cobre utilizados por las compaii.as telefonicas, por cables coaxiales o de fibra opti
ca, por los transmisores VHF /UHF o por satlites de comunicacin directa al usua
rio (D8S), cada uno de ellos con su propia tasa binaria y su propio nivel de calidad.
Otro factor de gran influencia es la aparicin de los ordenadores tipo PC, capa
ces de generar)' manipular imgenes a muy bajo coste. En el entorno de los estu
dios de televisin esta pequea maravilla, compacta, eficiente y verstil, est revo
lucionando las tcnicas de produccion. En la mayora de los casos el vdeo sobre PC
necesita la ayuda de la compresin.
Frecuencia binaria
Sin compresin
10 cuadros
segundo
Solo "V"
Para poder enviar ms programas sobre un mismo soporte: DVD, vdeo bajo
demanda, etc.
En la tabla 7.1 podemos ver algunas posibles aplicaciones de la compresin en
vdeo y audio.
Consideremos la transmision de una pgina grfica mediante FAX. El tamao de
la pgina suele ser el llamado DIN-A4 (297 x 210 mm). La resolucion ms frecuente
es de 200 puntos/pulgada. Puesto que cada punto solo puede ser blanco o negro, ste
puede codificarse con un solo bit, lo que genera 3,74 Mbits/pgina. Si se transmitie
ra esta informacion a travs de un modem de 14,4 Kbits/s, seran necesarios 5,62
minutos para transmitir la pgina completa. Gracias a la compresin, la transmisin
puede realizarse en slo 17 segundos, lo que supone reducir el coste a 1/20.
Consideremos ahora la reproduccin de vdeo a partir de un CD-ROM
(720 x 576 pxeles, 25 imgenes por segundo). Esta aplicacion genera una fre
cuencia binaria de algo ms de 20 Mbytes/segundo (166 Mbits/s exactamente). A
esta frecuencia binaria slo se podran almacenar 30 segundos de vdeo en los 650
Mbytes de capacidad de! CD-ROM. Aplicando compresin podemos almacenar
hasta 74 minutos de vdeo en movimiento (150 veces ms), aunque con una cierta
prdida de calidad.
172
3. Teora de la informacin
La informacion de las imgenes de vdeo puede dividirse en tres partes:
El elemento rcdundante: Informacin repetitiva o predecible. Una seal de vdeo
contiene mucha informacin redundante. Un pxel tiende a parecerse a sus
vecinos (redundancia espacial). Una imagen tiende a parecerse a la que le pre
cede y a la que le sigue (redundancia temporal).
El elemento irrclevante: Informacin que el ojo humano no es capaz de apreciar.
El clcmento bsico: Informacin que no es redundante ni irrelevante y que debe
retenerse.
La compresion pretende reducir (idealmente eliminar) tanto la redundancia
como la informacin irrelevante. Desgraciadamente, las fronteras entre estos
tres elementos son borrosas, en especial entre irrelevante y perceptualmente
bsica. La habilidad a la hora de separarlas depende de la "inteligencia" del codi
ficador, de la cantidad de memoria utilizada para el anlisis y del retardo per
mitido.
173
Compresin en ,"ideo
JlCN()1 O{;iA ACTUAl nE Tf:Ll:.\I~IO~
3. l. Tipos de compresin
Conceptualmente podemos dividir los sistemas de compresi6n en tres tipos: sin
prdidas, subjetivamente sin prdidas y subjetivamente con prdidas.
Tabla 7.2 Los tres tipos bsicos de compresin: sin prdidas reales, subjetivamente sin
prdidas y subjetivamente con prdidas.
TIPO
PRECISiN
Sin prdidas
reales
Subjetivamente
sin prdidas
Precisin
bit a bit
Errores no
perceptibles
Errores
perceptibles
pero tolerables
Subjetivamente
con pridas
FACTOR DE
COMPRESiN
APLICACiN
Bajo nivel de
compresin
Nivel medio de
compresin
Informtica
Alto nviel de
compresin
Comunicacin
Broadcast
SEPARACiN
ENTROpIA-REDUNDANCIA
CODIFICACiN
SIN P(RDIDAS
IMAGEN
ORIGINAL
REDUNDANCIA
ANCHO DE BANDA
*'"
l~l
FRECUENCIA
CODIFICACiN
CON P(RDIDAS
"
~1\Li~:~l
o
VALOR DE
LAS MUESTRAS
Figura 7.1.
Toda imagen est formada por eiertas cantidades de redundancia y ciertas otras de entropa.
La codificacion sin perdidas respeta toda la entropa mientras elimina la redundancia. La cDdi
174
de los valores digitales de los pxeles est polarizado hacia ciertos valores. Son estas
ca-actersticas de la seal las gue permiten la compresin
Por definicin, la comp-esin elimina la redundancia gue toda informacin con
tiene. Sin embargo, la redundancia es esencial para Iogra- gue los datos sean resisten
tes a los errores del canal de grabacin o transmisin. Los datos comprimidos son ms
propensos a presentar errores gue los no comprimidos. Por tanto, los sistemas guc
emplean compresin deben utilizar esguemas de proteccin contra errores ms
potentes. Por ejemplo, el Betacam-Digital Comp-ime ligeramente (2: 1) los datos
antes de grabarlos en cinta, por lo gue requiere un 20% ms de redundancia para pro
teccin contra errores que el D-S, que no comprime. Como norma, la compresin
de datos no se emplear gratuitamente; slo cuando sea necesaria.
La entropa, sobre la que ya se ha hablado en el apartado anterior, es una medi
da del desorden o de la impredictibilidad. Esto resulta un tanto raro para los tc
nicos de televisin, acostumbrados a asimilar el desorden con el ruido y la parte de
la seal gue no es ruido con la informacin. El concepto importante es el de la pre
dictibilidadj un mensaje perfectamente predecible no contiene ninguna informa
cin. Si sabemos Jo que va a decir un mensaje, nuestro almacn de informacin no
cambia despus de recibirlo. Si el mensaje es en alguna medida impredecible, ten
dremos ms informacin despus de recibirlo. Por tanto, entropa significa info'
macin nueva e impredecible.
4. 1. Redundancia estadstica
Prcticamente todas las imgenes contienen grandes cantidades de informacin
una imagen suele parecerse a la que le precede y a la que le sigue. En los dos pri
de redundancia temporal.
176
177
mm
mm
mm
iIDf
mm
mm
e{
U-'
Zc{
p@
c{u
Z""
i
I
:::lffi
o>
w
el::
U'?
'::v
::0~~O~
REDUNDANCIA
HORIZONTAL
:-tv~tv~
Figura 7.2.
La redundancia espacial puede apreciarse por la similitud entre elementos vecinos en una
misma imagen. Basta con observar un grupo de fotogramas de pelcula de cine, para ver que
las imgenes en movimiento contienen, adems, redundancia temporal.
~~,:.
-".l
Figura 7.3.
genes de televisin
178
I
I
ComDrcsin en video
figura contiene una gran cantidad de informacin relacionada con reas de bajas
frecuencias y muy poca informacin en reas de altas frecuencias.
Se puede concluir que cuando se procesa vdeo digital podramos asignar el
numero de bits en funcin de la frecuencia: ms bits en las zonas de baja frecuen
cia (que contienen la mayor parte de la informacin) y menos bits en las zonas de
altas frecuencias (que contienen muy poca informacin). Asignando adecuadamen
te el numero de bits en funcin de la frecuencia, se puede reducir considerable
mente la cantidad de datos que representan la imagen sin que sta se degrade. Sin
embargo, lo anterior se basa en supuestos estadsticos, de forma que nada asegura
que el contenido de informacin en las altas frecuencias sea siempre bajo.
INFORMACiN
ORIGINAL PCM
>1
JPEG
M-JPEG
MPEG-1
MPEG-2
DVCPRO
p-DIGITAL
DIGITAL-S
Figura 7'+.
Tcnicas de reduccin de datos, con y sin prdidas utilizadas en los sistemas de compresin
JPEG, MPEG YDVTRs.
179
Adems de las tcnicas mostradas en la figura 7.4, existen otTaS que o bien estn en
desarrollo o resultan difciles de aplicar a las imgenes de televisin, por lo que no sern
tratadas en este libro. Entre ellas cabe destacar la KLT (Transformada de Karhunen
Loeve), la WHT (transformada de Walsh-Hadamard), los lI'al'e/ets y los fractales.
Ninguna de las tcnicas que aparecen en la figura 7.4 es capaz, por s! sola, de
proporcionar una reduccin significativa de los datos en el tratamiento de las im
genes de televisin. Es la combinacin inteligente de muchas tcnicas y trucos lo
que permite reducir la tasa binaria, manteniendo el mximo de calidad. As!, por
ejemplo, los sistemas MPEG combinan en un mismo codificador todas las tcnicas
mostradas en la figura 7.4.
Resulta conveniente, a la hora de estudiar la tecnolog!a de la compresin de
imgenes, dividir las distintas tcnicas o herramientas en dos grupos: con prdidas
y sin prdidas, tal como se muestra en la figura 7.4. En los sistemas reales se
comienza por aplicar las herramientas de compresin con prdidas o compresin
perceptual, eliminando la informacin no apreciada por el ojo. La informacin
resultante es sometida a continuacin a los procesos de compresin sin prdidas, o
compresin entrpica. Sin embargo, desde el punto de vista didctico resulta ms
aconsejable estudiar primero los procesos de compresin sin prdidas y dejar para
el Hnalla compresin perceptual.
A continuacin se irn desgranando una a una las distintas tcnicas o herra
mientas de compresin; primero, las entrpicas (sin prdidas) y luego las percep
tivas (con prdidas). En esta primera aproximacin, cada tcnica es un mdulo de
estudio, independiente y aparentemente inconexo. Sin embargo, pronto se ver
que es la unin o combinacin de varias herramientas y trucos, lo que permite dis
poner de sistemas eficaces de compresin.
~\illJJli-~~(ll__L~!lJ_:iJ~
COLOR
CODIGO
;~-
DATOS
ORIGINALES
illiTilTrl-~Tilr'nnlGGQ
T['JilTiIq-pnTI
1Jll . . ] 1J]ltQ':t'I, , .11llL
l!L
_, _ ..}!J [1,.69 BITS
J
..
'-------~~'--~'---v----'
JO UNOS
26 'CEROS'
CODIFICACiN
f:U~~~EUNE~TC~~
~~~~~6~EN
24 'UNOS'
9 'CEROS'
r-.---- I
r
3'
~~OJ~~_~i~_' __]
~ ~MB6Cf~aJr.20
I'--'--'~-l
6. 1. Supresin de borrados
NEGRO
..... .-J
'T
r-
BITS
Figura 7.5.
El principio bsico de la RLC consiste en indicar el nmero de veces que un valor se repite
NOTA: Es necesario anadir informadn de sincronizacion para indicar cundo se inicia la descrlpcin de una cadena
de ceros o unos, especialmente cuando el nmero de bits que define cada cadena puede ser variable.
181
Com!Jresn en \'deo
SIMBDLO
PROBABILIDAD
0,50
0.22
0,14
0.06
0,05
0,03
DE LONGITUD VARIABLE
(a) 2
3
4
5
REGLA DE
CODIFICACiN
12
e
t
SIMBOLO
PROBABILlDAO
._
-
0,50
O
0,22
1
0,14 2
0,06
3
0,05
e t.
qz
(e)
--e_
--e
ALFABETO
Figura 7.6.
El cdigo Marse es un buen ejemplo de codificacin de longitud variable.
0.50
0,22
0,14~
0,06
0.05~
0,03
O.03~8
__
(e)
PROBABILIDAD
-----
--
ro
O
g::
O
1
(b) 2
3
4
5
--~
~--
~~ 6
SIMBOLO
SIMBOLO
CDIGO
O
10
1100
1101
1110
1111
1
2
3
4
5
(d)
Figura 7.7.
cada smbolo.
182
183
TLCNOLOGIA I\CTU:\L DE
TLllqSclc~N~
un uno a cada rama de una unin, con la condicin de que las dos ramas deben
tener cdigos opuestos.
En estas condiciones el cdigo correspondiente a cada smbolo S' obtendr
leyendo el valor (cero o uno) correspondiente a cada rama que se atraviesa, al ir
desde el punto de probabilidad unidad (a la derecha) hasta el smbolo que se quie
re codificar (en la izquiel-da). Puesto que se siguen caminos distintos, nunca un
cadigo corto podr ser prefijo de otro ms largo. La relacin entre los smbolos y
los cdigos que les corresponden puede establecerse de manera fija o actualizarse
peridicamente mediante tablas de consulta eue se envan al receptor.
La implementacin ms sencilla)' prctica del c6digo de Huffman consiste en
almacenar en unas memorias, tanto en el codificador como en el decodificador, la
correspondencia entre los valores de entrada y salida, realizando la conversin por
el mtodo de "look-up tahles" (consultar tablas).
HUFFMAN
sMBOLO PROBABILIDAD
a
b
e
d
e
f
x
MENSAJE:
0,05
0,2
0,1
0,05
0,3
0,2
0,1
CDIGO
CODIFICACiN ARITMTICA
SIMBOlO PROBABILIDAD
10101
01
100
10100
11i
00 \
1011
a
b
e
d
e
f
SUBINTFRVAlO
0,05
0,2
0,1
0,05
0,3
0,2
0,1
0,00-0,05
0,05-0,25
0,25-0,35
0,35-0,40
0,40-0,70
0,70-0.90
0,90-1,00
bbccfe
I
I
(TOTAl= 18 BITS)
(TOTAL= 16 BITS)
Figura 7.8,
La codificacin aritmetica es otra forma de codificacin de longitud variable, algo ms eficaz
que la de Huffman.
J 84
CQ!lll-llI~tQILl_Jid.h
)'
Tf:CNOI
ocIA
AC-TlIAI DE TElL:\,ISlN
Comnresin
tificadas con 8 bits, los coeficientes frecuenciales deben codificarse con una preci
sin de 12 a 13 bits/ coeficiente. Al contrario de lo que se cree: "la DCT no com
prime, sino todo lo contrario" y "la OCT, en s misma, no introduce prdidas". Lo
que sucede es que la OCT se utiliza como herramienta para ayudar a comprimir.
Siendo la DCT el ncleo o alma en torno a la cual giran las dems herramien
tas de compresin, nada ms ser dicho por ahora. Abriremos un poco ms ade
lante un apartado completo sobre ella.
26
25 24
23
22
21 20
--
-1
19 ,8 -
17
16
ddeo
'-.,"
-
.........
- - 1......... _
.........
'
"l"
15 14 -~
13 ,2
11
5 BITS POR
MUESTRA
-_._.-_ ....
Afortunadamente las imgenes de televisin, despus de descomprimidas, no
necesitan ser idnticas a como eran antes de la compresin: basta con que lo
parezcan! En comunicacin audiovisual, el decodificador final es siempre el
mismo: el espectador. Si para l la calidad de las imgenes y sonidos es apropiada,
entonces no importa en absoluto cuntos errores y redondeos se hayan cometido
en la codificacin.
'-/1"
/1/1
("1),
~-.-....._,._._.-.-,.-.-._,._--
..
PCM
20212222232625262423212120202019191817 16 15 1411 12
-O-PCM-[)N=(M--)-:.:-M
MO MI MI
..
3 BITS POR
MUESTRA 'F
.~
-- - -
- .
/1\
o' ./,-,'-.,/,
2-
_N+1
M23
+1 +1 0+1 +3 -1 +1-2 -1 -2
o 1 o o -1 o -1
oo~m
OPCM
,\V
-1 1 1 -1
~3
+1
~
Figura 7.9.
En la DPCM no se codifica el valor absoluto de las muestras, sino la diferencia entre el valor
186
187
Cun!l[~sil1
(a)
UN" N ,
@ @ @ @ @ @ @ @ @ @
LINEA N+1
@ @ @ @ @ @ @ @ @ @
LINEA N-1
(b)
LINEA N
L NEA
liNEA N+1
CODIFICACION
ABSOLUTA
I (!]
Vf"R_~1-t:(N13~(~~i!~~,~_
Al A3 - - - - - - - - - - - - - - - - - - - A25
A2 A4
A24
CODIFICACION
DIFERENCIAL
(x =1/2; Y=1/4)
m (!]j~) m (!]
N I @i PR~DI m (!] [A]
N+1 I m m-e@) m (!]
N-1 I
(d)
N-1
N
N+1
PROBABILIDAD
DE OCURRENCIA
5125
5/25
5/25
'id~..2
5/25
5/25
VALOR
PROBABILIDAD
DE OCURRENCIA
11/24
-1
6124
r--0PCM
Ll:Jr1"An-(An-1)
VALOR
(e)
VALOR
ell
m (!]e@) m (!]
@i'I~~EDlrn-@
(!] me@) m l!1
fi
1:
----.
(b) OIFEREN~CIA
ENTRE ADYACENTES
.01,
-2
D1 D3 - D2 D4
- -
D23
D22
4124
2/24
-2
1/24
Figura 7. 11.
Figura 7.10.
para e! valor de prediccin con el valor real de la muestra, de forma que la dife
rencia entre ambos se denomina "error de prediccin". Es este error de prediccin
el que finalmente se codifica con un nmero limitado de bits. La magnitud del
error de prediccin depende de cun acertada sea la prediccin, lo cual, a su vez,
depende del contenido de la escena. Por ejemplo, en zonas estticas de la imagen
una prediccin por promediado entre cuadros dara un error de prediccjn muy
pequeo (e incluso nulo), mientras que en zonas en movimiento sera ms apro
piado un promediado dentro de! mismo campo. La prediccin adaptativa vara el
esquema de prediccin en funcin de! contenido del programa. Suele distinguirse
entre tres esquemas de prediccin bsicos: intracampo, intercampo e intercuadro.
La conmutacin entre un modo y otro se hace por bloques de pxeles y se comu
nica al receptor mediante unos cuantos bits extra.
188
189
Comnresin en \-<ieo
la VLC se obtiene una reduccin importante de los datos y, en este caso, sin prdi
das o errores de codificacin.
Puede decirse que la DPCM produce una reduccin de la entropa de la seal
original. Muchos valores diferencia se concentran en o alrededor de cero, como
consecuencia de la alta probabilidad de encontrar zonas de color uniforme en las
imgenes. Por otro lado, en imgenes altamente detalladas seran posibles valores
diferencia incluso mayores que los valores absolutos. En tal caso podra utilizarse
una cuantificacin no lineal, donde las infrecuentes diferencias de gran valor (posi
tivas o negativas) se cuantificaran con poca precisin (peldaos de cuantificacin
grandes), mientras que los ms frecuentes valores pequeos se representaran con
mayor precisin. Se cometeran errores, pero stos seran infrecuentes y, adems,
el sistema de percepcin visual humano es poco sensible a tales errores, cometidos
en la codificacin de altas frecuencias, ya que pertenecen a elementos de imagen
contrastados, capaces de enmascararlos.
De los prrafos anteriores se sacan dos conclusiones:
La codificacin diferencial descorrelaciona los valores de amplitud de los
pxeles, preparndolos para aplicar otras herramientas, tales como la VLC.
Si se utiliza la DPCM de cuantificacin no lineal, los errores cometidos son
enmascarados por la propia imagen.
En la prctica la DPCM, tal y como se ha explicado aqu, no se utiliza en nin
gn sistema de compresin de imgenes de los que podramos llamar avanzados.
Sin embargo, los conceptos de la codificacin diferencial, de la polarizacin de la
probabilidad de ocurrencia unida a la codificacin de longitud variable y del
enmascarado por parte de sistema de percepcin visual de los errores de codifica
cin no lineal s que se aplican y son los que realmente hacen que los sistemas de
compresin funcionen. Como se ver en este mismo captulo, el concepto de codi
ficacin diferencial se transforma en "codificacin intercuadro" o en "transforma
da" DCT, pero eso vendr un poco ms adelante.
7.2. El submuestreo
Una forma sencilla y directa de reducir la cantidad de datos que representan una
imagen consiste en "submuestrear", es decir, eliminar selectivamente algunas de las
muestras que la componen. Es un mtodo eficaz de reduccin de datos, aunque
produce prdida de resolucin y puede generar componentes de aliasina, que pue
den degradar la calidad de la imagen original. Por esto el submuestreo no suele
aplicarse a la seal de luminancia. Slo las seales de crominancia son submuestre
adas, como sucede en las normas 4: 2:0 y 4: 1: 1. Estas dos variantes de la norma
4:2:2 se utilizan en ciertos formatos de magnetoscopios digitales con compresin,
mientras que los sistemas MPEG utilizan exclusivamente la variante 4:2:0 (si no se
tiene en cuenta un perfil especial 4:2:2 para aplicaciones profesionales).
Submuestreando de 4:2:2 a 4:2:0 o a 4: 1: 1 se obtiene un ahorro de aproxima
damente un 30% en la tasa binaria. Existe en la comunidad tcnica un debate no
cerrado sobre qu es mejor: submuestrear antes de comprimir y limitar el factor de
~.
(a)
A11TI
~)
lT11l1nnm,...
1~
4I1JlJJ,
. . . .
~.~~I~i~ IK 'L
FRECUENCIA
5,5 MHz
>.W<
MJC.
MJC
MAx.
DOMINIO DE LA FRECUENCIA
~A~h~IIL~~h'IL'.J\!~hhl.L,~fhJllll!M
... I=J--1~~fJ=~3
VVVVMrY',,"''''VVVI~T'Y~'1Il~~iV
J.&--n'~J.J- ~C;~~'!~_
Figura 7.12.
190
191
Comprcsivll
TECNOLOGA AC/ UAl /)[ '/ E/I",E"I'1;">1"/("'''''---/
' A
A
'
IW\
DIENTE
DE SIERRA
ONDA
CUADRADA
+
+
+
1:
ell yuc(~
AMPLITUD
r--~',.. .
! DEL COSENO
~~~-=--
J).J'
+
'
~
+
'
(e) - :
AMPLITUD
~t_'f__~EL SENO
MAM+~
:
~
"]fct
FUNCiN
SIMTRICA
FUNCiN
ASIMTRICA
(a)
(b)
.~;~k~~:~:~:to
vERDE
ClAN
AZUL
VIOLETA
(d)
Figura 7.13.
Menos utilizada que la representacin temporal, la frecuencial tiene, sin embargo, muchas
aplicaciones. La dispersin de la luz blanca al pasar por un prisma puede ser un ejemplo de
Conmn:sln en "deo
MUESTRAS
REPETIDAS
Y GIRADAS
MUESTRAS DE
ENTRADA
(a)_~r--jIDili; tU j~,_
EJE DE
SIMETRIA
LAS COMPONENTES
EN SENO
SE RESTAN
:JJ b
LAS COMPONENTES
EN COSENO
~E SUMAN
I I 11 I_IJ 1111111111
-- -:OOOw.rJJJifIJ.
.... -=
il~~~ll1mUN
:::;:;::::;~~~~
-8~
Figura 7.14.
La OCT se obtiene copiando especularmente los bloques de entrada antes de aplicar la OFT.
La copia especular cancela las componentes en seno, dejando slo las componentes en coseno.
ficientes en coseno. La figura 7.14 (b) muestra que la fase de todas las componen
tes de un bloque se oponen en direccin a las del otro. Esto significa que, cuando
se suman para proporcionar la tranformada del bloque doble, todas las componen
tes en seno se cancelan, dejando slo las componentes en coseno, que dan nombre
a la transformada. A pesar de que de esta forma se han de manipular el doble de
muestras, los clculos se simplifican mucho al poder trabajar slo con los compo
nentes en coseno. Por supuesto, cuando se realiza la transformada inversa, la parte
doblada e invertida de la forma de onda es descartada.
En el caso del procesado de imagen se necesita una transformacin bidimensio
nal, capaz de encontrar todas las frecuencias horizontales, para todas las frecuen
cias verticales, de manera que el nmero de bsquedas ser igual al nmero de fre
cuencias horizontales a buscar, multiplicado por el nmero de frecuencias vertica
les a buscar. La DCT permite realizar la transformacin bidireccional, haciendo el
cmputo en cada direccin separadamente.
Para comenzar, la imagen se divide en pequeos bloques de m por n muestras.
En principio puede utilizarse cualquier valor para m y para n, como, por ejemplo
4 x 4, 8 x 4, 8 x 8, 16 x 16, etc. Si se utilizan bloques de 8 x 8 pxeles, las fre
cuencias horizontales que podrn contener irn desde cero (nivel de DC) hasta 4
ciclos por anchura de bloque. Lo mismo sucede con las frecuencias verticales, que
irn tambin desde DC hasta 4 ciclos por altura de bloque. La combinacin de fre
cuencias horizontales y verticales proporciona los 64 posibles coeficientes que
pueden verse en la figura 7.15, donde las frecuencias horizontales crecen de
~;
loo-!
;
(b)
00 iXJj Ci@:
~~ - _.~~~((((
--
"
~~~fE9
:;moom
~~m~B
Figura 7.15.
Con la OCT la imagen se divide en pequeos bloques de 8 x 8 pxeles. A continuacin los 64
valores de amplitud se convierten en 64 valores, que representan las frecuencias presentes en
el bloque. La figura muestra los 64 coeficientes frecuenciales, con frecuencias horizontales
crecientes (de izquierda a derecha) y frecuencias verticales crecientes (de arriba abajo).
194
195
______
l_ill~.i2.Ds..n.TIdsQ
1I1I mJ~@]~ ;
IIII IJ~@]~ ;;
1I1I ~f~ ;j
(a) IIII ~~@]~ ~
1I1I lJf~~ o
1I1I ~@0]@]~ ~
1I1fI IJ~~ ~
1I1IJ lIJ~@]] z
"1
FRECUENCIAS HORIZONTALES
QUE INTERVIENEN EN LA SEAL
EN "DIENTE DE SIERRA"
Figura 7.16.
@jEJ0@)0EiJ00
00000000
000rol0000
(b) 00000000
00000000
00000000
00fOl0fOl01olioJ
00000000
~
~
~
~
I-~'\ ~ ~ ~ ~ ~ ~ ~ ~
+
~~43.50;, \
V V\ VV \AA WN lIi
40%
41%
~
~ ~o IN,RTIDO
~ _ ~
1.1%
INVERTIDO
~~
'J'l.
,._-.,
..ltJI#tbj:3M I
rt;P1:+t1=l:ttK~~9~
"1
'YolA)
BLOQUE
DEUN
8,8
plXELES
Figura 7.17.
COnlJ)resin en ddeo
823L
. . , ecturo en Z18ZQ8
..
ca\)
Del BIDIMENSIONAL
VALOR
MXIMO
; 32
'28
';24
',.
'20
"2
8
D/~~
4ftO~
CC1/y
I<:O/Yr"l(
000
Figura 7.18.
Ntese la polarizacin en la probabilidad de ocurrencia de valores altos en las bajas frecuen
cias de la representacin frecuencial.
LJUU;;J
CJOU~
GDD~
IIDDO~
mOUU2
~UOD~
IiiUUU~
0:5]@]~[50][6D]@J[6D]~
_
UJ
0~~~~~@J[6D]~
0:5]@]~~~@][6D]m
0:5]@]~~~~~~
lCJJlssJ@]~~~~~~
lCJJlssJ[25J~~~~~~
lCJJlssJ~~~@J~~
0lssJ~~~~~~~
G0EOJ0~ITJ@]ITJITJ
~ITJITJITJ0lCJJlCJJ0lCJJ
~ITJITJITJITJITJ00ITJ
~ITJITJ0000ITJ0
~lCJJ0lCJJlCJJ00lCJJ0
u
~~0lCJJlCJJlCJJlCJJlCJJlCJJ
en
UJ
::
~ o ~' o h' o~
l/o Va VOl l/o 170 170 170 170
43,5
FIN
..
UJ
0)/0 V~
o, l/o Va~
en
UJ
0;1/0~ Va Vo~ Va
0,,170 ~.
o l/o Va" Va Va
o l/o" V o
0)/0 V~
:=
UJ
-'
::
Figura 7. 19.
siguiendo una pauta en zigzag. Estadsticamente es la forma de asegurar que pronto se encon
199
_ _ _~C~O~l1"lp.r(':-;i('1Jl en ,ci..-'O
Cuando el bloque DCT representa la seal de luminancia de, por ejemplo, una
sei'ial 4:2:2, resulta ventajoso realizar la lectura o serializacin del bloque siguien
do una pauta en "zigzag", comenzando por el coeficiente de menor frecuencia
espacial (en la esquina superior izquierda) y terminando por el de mayor frecuen
cia espacial (en la esquina opuesta). De esta forma, en la mayoda de las imgenes,
la secuencia de coeficientes tiende a decrecer rpidamente e incluso en la mayora
de los bloques DCT se llega muy pronto a una situacin en que todos los coefi
cientes restantes son cero. Una vez que se alcanza esta situacin, resulta ms con
veniente transmitir un cdigo especial de FIN, en lugar de seguir enviando ceros
repetidamente. Esto es similar a la marca de final de archivo (EOF o End f!.f File)
que se coloca despus del ltimo byte de informacin real de un archivo de orde
nador. Un clster determinado del disco duro contendr muchos bytes despus de
la marca de EOF. Tales bytes fueron en su momento escritos por el sistema 'opera
tivo durante el formateo del disco, pero no contienen informacin real y no sern
ledos por el programa de aplicacin.
En la prctica pueden utilizarse dos pautas o esquemas para la lectura de los
coeficientes frecuenciales de la DCT. La pauta de la figura 7.20 (a) proporciona una
lectura simtrica de los coeficientes horizontales y verticales y es preferida en el
caso de imagenes no entrelazadas, es decir, cuado los bloques DCT pertenecen a
una imagen formada por un solo campo secuencial. La pauta (b) muestra una ten
dencia a Icer primero los coeficientes verticales y es preferida cuando hay mucha
informacin vertical, como sucede en el caso de imagenes entrelazadas, en que los
bloques codificados pertenecen a un campo concreto de los dos que forman la ima
gen. En tal caso las filas consecutivas de los valores de amplitud del bloque DCT
corresponden a lneas de televisin separadas en dos unidades en la imagen, por lo
que la probabilidad de aparicin de altas frecuencias verticales es mayor.
A V1
IV )
/
/
V1
VV ) IIV )V1
11
( Al ( Al
) ) ) 'V [) 'V /
/
1
11
/
I
1/
I
1/
0+10 dB
OdB-
o:::
W -10 dB
O
Z -20 dB
Q..
1/
-30 dB-
O -40 dB
::J -SO dB
o:::
-r-
(a)
Figura 7.20.
FRECUENCIA ESPACIAL
(b)
Los dos posibles esquemas de lectura de los coeficientes frecuenciales proporcionados por la DCT.
200
Figura 7.21.
La perceptibilidad del ruido depende de la frecuencia a la que se suma, mxima en las bajas
frecuencias
TH'NOLOGIA ACTUAl
1)[
1 El 1:\'ISIOj\.'
son divididos por cantidades que dependen de la posicin de cada valor en el blo
que de coeficientes. Los valores situados mas arriba y a la izquierda prcticamente
no son alterados, mientras que el factor de divisin aumenta de izquierda a dere
cha y de arriba abajo. Los coeficientes atenuados son a continuacin redondeados,
por truncamiento de decimales, a los valores normalizados ms prximos. Por otro
lado, el decodificador dispone de la tabla de coeficientes de divisin que se han
aplicado a los valores frecuenciales y lo que primero har es multiplicarlos por una
matriz inversa a la que utiliz el codificador. De esta forma lo que se pierde es pre
cisin en la representacin de los valores frecuenciales, especialmente en los
correspondientes a las altas frecuencias, aunque se respeta el valor de magnitud a
groso modo. En otras palabras, los coeficientes son recuantificados individualmente,
con peldaos cuyo tamao aumenta con la frecuencia. De esta forma se logra aho
rrar bits extra en la representacin de las altas frecuencias. Por tanto, el proceso
completo sera: divisin-truncada-reconstruccin. Estos conceptos pueden enten
derse mejor con un pequeo ejemplo:
Tabla 7.3 Ejemplo de recuantificacin por divisin. redondeo y escalado, basado en
cuatro zonas de frecuencia.
ZONA EN LA
TABLA OCT
Valor de DC
ORIGINAL PONDERACiN
RESULTADO
(Sin
desplazamiento)
= 111
(Desplazando 1
bit) = 110
PRECISiN
111
x1 =111
Frecuencias
bajas
111
x1/2=011
Free. mediasbajas
111
x1/4=001
Alto redondeo
Free. mediasaltas
(Desplazando 2
bits) = 100
111
x1/8=000
Frecuencias
altas
(Desplazando
3 bits) = 000
Se convjerte
en cero
111
x1/16=000
(Desplazando 4
bits) = 000
Se convierte
en cero
Total
Ligero
Redondeo
Por otro lado, cuando los valores de entrada son bajos y el redondeo fuerte
(como en el caso de las frecuencias medias-altas)' altas), el proceso anterior gene
rar largas cadenas de ceros, a las que se aplicar la codificacin de secuencias o el
cdigo especial de "final de bloque" (EOB). En la practica muchos sistemas de com
presin aplican un factor de divisin distinto para cada uno de los coeficientes espa
ciales del bloque DCT, como en el caso del ejemplo sigUiente:
16
12
14
14
18
24
49
72
11
12
13
17
22
35
64
92
10
14
16
22
37
55
78
95
16
19
24
29
56
64
87
98
24
26
40
51
68
81
103
112
40
58
57
87
109
104
121
100
51
60
69
80
103
113
120
103
61
55
56
62
77
92
101
99
La tabla anterior muestra los factores por los cuales son divididos los coeficien
tes de frecuencia proporcionados por la DCT para los bloques de luminancia en el
sistema de compl'esin de imagenes estaticas JPEG. Esta tabla representa unos
niveles de recuantificacin de los coeficientes muy agresivos (en JPEG se puede
escoger entre un conjunto muy variado de tablas en funcin del grado de compre
sin deseado). Utilizando esta tabla, las imagenes reconstruidas mostraran con
mucha probabilidad ciertas degradaciones. Para comenzar, la mxima precisin, o,
si se prefiere, la minima recuantificacin, se obtiene en (H
O, V 2) Y en (H
1, V = O), frecuencias espaciales a las cuales el sistema de percepcin visual huma
no presenta la mxima sensibilidad, Por la forma en que trahaja la DCT, dividir por
16 el valor de DC equivale a no perder precisin.
Lo anterior significa introducir errores en la representacin de la magnitud de
las altas frecuencias espaciales, es decir, sc introduce ruido en estas frecuencias,
pero, como se ha visto, en estos casos el ruido puede ser tolerado. Tambin puede
entenderse como una cierta prdida de resolucin en las altas frecuencias de la
imagen, con lo que se parece a los VTR analgicos, donde las seales de alta fre
cuencia son reproducidas con menor precisin que las de baja frecuencia como
resultado de la grabacin en FM.
202
203
l.8btS
10 bits ..
~ XI 231) 30 2)(]
!
I
f&4"~80"lJO.128"511
lJ
I}U
II
~2Oe~36--0~J9-t----:-!l4-~JI
((16.30':(481230))
0.10
.A8
o o o o o o 01
o -17 o 37 o .91
u IrI
Sb 1~ ~ I~ ~ 2~ ~
2
-25
-14
~I
o--.iJ
-54
01
o
87
16
27
"
L~_-----.J
Figura 7.22.
Esquema de un compresor intracuadro, desde la formacin de los bloques OCT a la entrada
hasta la salida de los paquetes comprimidos.
204
- -3
-138
.1J8 .25
II
-39
000000001
IMAGEN
:~g
13
5h4-208____
208
U
O~
I
I
~m~
JINFORMACIN IRRELEVANTE
INFORMACiN RELEVANTE
Figura 7.23.
La cantidad de informacian relevante que puede contener una sei'al de video vara en funcan
del tiempo.
20S
Compresin en vdco
""~"-"
Paquetes de informacin
....
~"_.--,-.-
Detector
de nivel
,: i('r
"1
~:;"
i:'~,~
t~-Jt
~;
..-".~
,--..
Buffer
La redundancia no slo existe dentro de las imgenes, sino tambin entre ellas.
Una secuencia de imgenes, representando una escena en movimiento, es un con
junto de muestras temporales. En una escena tpica los cuadros que representan las
muestras temporales tienden a mostrar un cierto grado de similitud. En otras pala
bras, se obtendra un cierto xito si se predijera una imagen a partir de otras im
genes ya disponibles. Esto significa que la nueva imagen contiene muy poca infor
macin real o, en trminos ms tcnicos, muy poca entropa.
~,
Figura 7.24.
Out
que pagar, en este caso, es un ancho de banda mucho ms elevado que en el caso
de los sistemas que emplean compresin.
Algunas apucaciones permiten tasas de bits variables, pero en el caso de los mag
netoscopios digitales y en la mayora de las aplicaciones de televisin es necesario que
la cantidad de bits grabados, procesados o transmitidos por unidad de tiempo sea esta
ble. Cmo convertir una informacin de complejidad variable en una tasa de salida
estable? La solucin consiste en disponer de un bt!fJer o almacn de salida que regule
en cada momento la "dureza" de la compresin. Se trata de evitar que el bt1Jer se vace
o se desborde. Si el bt1J est a punto de desbordarse, el factor de compresin se redu
ce; si est casi vaco, se aumenta. De esta forma es posible lograr una tasa de daros de
salida estable con una calidad de imagen "casi estable". Esto puede compararse a man
tener un bidn de agua con un llenado ptimo (sin que se vace ni se desborde), a
pesar de que los aportes de agua son variables en el tiempo.
En resumen, la "compresin intracuadro" consiste en la elaboracin de los valo
res DCT, seguida de la recuantificacin de los coeficientes y de la codificacin de
longitud variable. El control de llenado asegura una tasa de datos de salida estable,
forzando la recuantificacin si fuera necesario.
OCT
Figura 7.25.
Figura 7.26.
206
207
T;T1'\(n~)GA ,'CTlP'
,")Ie-.,-,1I~I",E~\",\"-Ic'J,,,~,-'
_
__
Figura 7.27.
Residuos obtenidos al restar dos im
genes consecutivas.
Si se hiciera la DCT de la imagen de la figura 7.27, est claro que todos coefi
cientes de todos los bloques correspondientes a las zonas del fondo valdran cero
(al menos en un caso ideal). Slo los bloques que incluyen el tiburn de primer
plano presentaran valores reales. Tan largas cadenas de ceros seran fcilmente tra
tadas por Jos pl"Ocesos de codificacin de longitud variable y codificacin de
secuencias.
COmpc>J,' Cl.Ul!l~
Figura 7.28.
a la "E".
diferencia es que como el bloque contiene muy pocos valol'es rcales y, en cualquier
caso, estos son muy pequeos, contendr igualmente muy pocos coeficientes de
frecuencia reales, los cuales sern, adems, de escasa energa. Ciertamente con esta
tcnica es necesario codificar, adems de los coeficientes DCT, los vectores de des
plazamiento, para lo cual se necesitan bits extras. Aun as, es eficaz. Slo se nece
sitan dos valores (uno para H y otro para V) para comunicar el movimiento de un
conjunto de 256 pxeles (16 x 16). Adems los vectores de desplazamiento pre
sentan una gran correlacin entre ellos, ya que son consecuencia del movimiento
de objetos slidos, por lo que se utiliza para ellos codificacin diferencial DPCM.
As pues, para cada bloque (en este ejemplo de 16 x 16 pxeles) se obtiene un
"vector de desplazamiento", formado por dos parmetros: desplazamiento hori
zontal y desplazamiento vertical del bloque. En las zonas estticas el vector valdr
cero, en las zonas en movimiento el valor del vector de desplazamiento servid. para
reconstruir la imagen "B" a partir de la "A".
Puede compararse la codificacin intercampo con las tcnicas DPCM estudia
das en apartados anteriores. En ambos casos no se procesan valores absolutos, sino
valores diferencia. Esto descorrelaciona la informacin, disminuyendo la entropa.
La situacin pintada en los prrafos anteriores es un tanto idlica. Para comen
zar, los objetos al moverse no slo cambian de posicin, sino tambin de tamao
cuando se acercan o se alejan de la cmara. Igualmente pueden girar, mostrando
partes nuevas, o desvelar, al moverse, zonas de la escena que no estahan presentes
anteriormente. Adems siempre est presente un cierto nivel de ruido, el cual, al
ser aleatorio, cambia de una imagen a otra.
El tiburn de la figura 7.26 probahlemente se aleje o se acerque a la cmara al
tiempo que se desplaza hacia la derecha, cambiando su tamao. Adems seguro que
los pececillos del fondo no se quedarn quietos. Al contrario, huirn rpidamente
y no todos en la misma direcci6n. En una situacin como sta hasta el pulso de!
operador de cmara introducir movimiento y, por tanto, descorrelaci6n entre
imgenes. As los vectores de movimiento de los distintos bloques de imagen sc
parecen menos entre ellos, a la vez que los bloques restados entre imgcnes no sue
len proporcionar residuos nulos, lo que significa que habr un cierto nmero de
coeficientes reales en los valores DCT.
208
209
ComDrL'~i6n en
"dlO
In
Out
14. Precompresin
Puede resultar muy til "preparar" o, al menos, "cuidar" las imgenes antes de
la compresin. De esta forma podr:in obtenerse factores de compresin elevados
con alta calidad de imagen. Aunque se trata de procesos previos a la compresion,
se han dejado deliberadamente para el final del captulo, ya que ahol'a puede enten
derse claramente su necesidad.
En general, las mejores imgenes para ser comprimidas son aquellas que pre
sentan el nivel ms alto de calidad con el mnimo de ruido o distorsiones. Entre los
artificios que afectan y perjudican a la compresin puede destacarse: ruido aleato
rio, restos de intermodulacin luminancia-crominancia (imgenes que proceden
de PAL) y correccin de apertura excesiva (DTL).
La figura 7.30 sera un ejemplo de imagen apropiada para la compresin.
Muestra zonas fciles, con poco detalle, y zonas ms difciles, pero es una imagen
limpia, sin ruido ni artificios.
Decodificacin locsl
OCT =
Figura 7.29.
Figura 7.30.
Una imagen "normal" con zonas de bajas frecuencias (cielo, agua, nieve) y de
211
COlllPresin en 'Ideu
14. 1. El ruido
De todos los artificios posibles, el peor es el 'uido aleatorio, ya que, por defi
nicion, no contiene redundancia. Los sistemas de compresion interpretan el ruido
como infonnacion bsica e intentan codificarlo con la mayor precision. As! limitan
el nmero de bits disponibles para codificar la parte realmente importante: la
informacin perceptualmente bsica. Las imgenes ruidosas son tan malas candi
datas a la codificacion con compresion, que estn apal'eciendo en el mercado equi
pos (no precisamente baratos) dedicados a la supresion o minimizacion de ruido,
especialmente para la compresion. Tambin los araazos y suciedad de las pelculas
de cine puede entenderse como ruido aleatorio, ya que no se sigue ninguna pauta
predefinida, producindose al azar.
Figura 7.32.
Figura 7.31.
COlllnrCSJn en \deo'
TLCNU! Ola.'\ ACTUAl DI" TJ~'-rU';J(')'\
Resumen
La compresin permite al usuario elegir la combinacin de parmetros de
muestreo y factores de compresin que mejor se adapten a sus necesidades.
Muchas aplicaciones actuales no seran posibles sin la compresin.
La informacin de las imgenes de vdeo puede dividirse en tres partes:
-- El elemento redundante: Informacin repetitiva o predecible. Una seal de
vdeo contiene mucha informacin redundante. Un pxel tiende a parecer
se a sus vecinos (redundancia espacial). Una imagen tiende a parecerse a la
que le precede ya la que le sigue (redundancia temporal).
- El elemento irrelevante: Informacin que el ojo humano no es capaz de apre
cIar.
-- El elemento bdsico: InforllJcin que no es redundante ni irrelevante y que
debe retenerse.
Toda imagen contiene una cierta cantidaJ de redundancia, la cual se define
como aquellos datos que son repetitivos o predecibles. La diferencia entre la
cantidad total de datos de un mensaje y su redundancia se conoce como
"entropra
, " .
,
Es posible encontrar redundancia tanto en el espacio como en el tiempo. Hay
EF y compensacin de movimiento.
numero de veces que un valor se repite hasta que aparece otro distinto.
La codificacin de longitud variable otorga cdigos cortos a los smbolos ms
frecuentes y cdigos largos a los menos frecuentes. Para que sea eficaz es
necesario que la probabilidad de ocurrencia est polarizada hacia ciertos valo
res. El Huffman es uno de los cdigos de longitud variable ms populares.
Tambin se utiliza la llamada "codificacin aritmtica".
La OCT, aplicada a imgenes de televisin, procesa bloques que representan
la amplitud de los de pxeles y los convierte en bloques de valores de fre
cuencia. En s misma, la DCT no introduce prdidas, siendo, por tanto, un
proceso totalmente reversible.
La OPCM no codifica el valor absoluto de las muestras, sino la medida en que
cada muestra difiere de la anterior. De esta forma se reduce considerable
mente la amplitud de los valores a codificar, lo que significa tener que emple
ar menos bits por muestra.
Una forma de detectar la redundancia y aislar la entropa consiste en trans
formar la seal desde el dominio de! tiempo hasta e! dominio de la frecuen
cia.
En el caso del procesado de imagen se necesita una transformacin bidimen
sional capaz de encontrar todas las frecuencias horizontales para todas las fre
cuencias verticales, de manera que el nmero de busquedas ser igual al
nmero de frecuencias horizontales a buscar, multiplicado por el numero de
frecuencias verticales a buscar.
La OCT polariza la probabilidad de ocurrencia de los distintos valores. Esta
polarizacin del valor de los componentes de frecuencia facilita la codifica
cin de longitud variable, de manera que podemos emplear palabras cortas
para la codificacin de los valores ms frecuentes y palabras largas para la
codificacin de los valores menos frecuentes.
215
214
CAPTULO
1. Introduccin
Afortunadamente no son muchos los sistemas de compresin de imgenes uti
lizados en televisin y, lo que es ms importante, parece haber una tendencia clara
a la simplificacin. Los sistemas de compresin de imgenes actuales se limitan a:
JPEG: para retoque fotogrfico de imgenes estticas.
M-JPEG: para compresin intracuadro de imgenes en movimiento.
MPEG-l Y MPEG-2: que forman una familia completa de normas de com
presin para todo tipo de aplicaciones.
Grupo DV: para compresin intracuadro aplicada a los magnetoscopios digi
tales DV, DVCAM, DVCPRO-2S, DIGITAL-S Y DVCPRO-SO.
A esto habra que aadir algn sistema de compresin para seales de contri
bucin (distribucin entre centros de produccin, transportadores de sea1cs,
etc.), tal como la Rec 723 del CCIR (ahora ITU-R I3T. 723). Por otro lado, el
grupo conjunto de expertos EBU-SMPTE recomienda la utilizacin de slo dos
familias de sistemas de compresin: MPEG y DV, siempre que sea posible.
2. El sistema JPEG
JPEG significa Joint Picture Experts Group (grupo unificado de expertos en im
genes). Es un formato de compresin de imgenes estticas, basado en la codifica
cin del dominio trasformado. La aplicacin inicial de este sistema era el retoque
fotogrfico, aunque, al ser durante aos el nico sistema ms o menos normaliza
do de compresin de imgenes, fue adoptado por los primeros equipos de pos
prodUCcin de vdeo, tales como editores no lineales y los llamados Slow-Motion
(discos duros para repeticin de jugadas deportivas).
Oficialmente el JPEG corresponde a la norma internacional ISO /IEC 10918- 1
216
(Diairal CompTeHion ond Codina l' Continous Tone Stilllmoaes). Tambin puede encon
trarse en la recomendacin ITU-TT.81. El texto de Jos documentos del ISO )' del
ITU -T es idntico.
Inicialmente se decidi que el ncleo bsico del sistema JPEG seran las imge
nes monocromas y que, en el caso de imgenes en color, la compresin se aplica
ra por separado a cada uno de los componentes de color. Si se parte de una ima
gen monocroma, con una resolucin de ent-ada de 8 bits/muestra, la meta origi
nal era lograr imgenes "reconocibles" con 0,25 bits/pxel; de calidad "excelente"
con 1,0 bits/pxel e "indistinguible" del original con 4 bits/pxel. A medida que se
fue avanzando, el comit JPEG se impuso metas ms exigentes, de manera que en
las pruebas finales se lograron los sigUientes resultados: 0,083 bits/pxel (recono
cible), 0,75 bits/pxel (excelente) y 2,25 bits/pxel (indistinguible). Se defini,
adems, un nuevo nivel de calidad de 0,25 bits/pxel, denominado "til". Aunque
en JPEG se puede escoger el factor de compresin desde, digamos, 2: 1, hasta ms
de 100: 1, se obtienen resultados muy interesantes y calidades "casi transparentes"
con factores de compresin hasta 15: 1.
Cuando JPEG se aplica a seales vdeo, antes de la compresin las imgenes se
pasan al espacio de las componentes de color. Si, POI- ejemplo, la imagen se ha ori
ginado en RGB, se realiza una transformacin (mediante una matriz de multipli
cacin 3 X 3) a Y, Cb, Cr. A continuacin las componentes de color se submues
trean en un factor de 2, tanto en la direccin horizontal como vertical. Con esto
se reduce a la mitad la cantidad global de datos.
Despus la imagen se divide en macrobloques (MB), donde cada MB est for
mado por cuatro bloques de luminancia de 8 x 8 pxeles cada uno, un bloque de
Cb de 8 X 8 pxeles y un bloque de Cr, tambin de 8 X 8 pxeles. Cada bloque de
8 X 8 ser posteriormente tratado de forma independiente.
El siguiente paso consiste en transformar cada bloque, desde el dominio de las
amplitudes al de las frecuencias espaciales, utilizando una DCT discreta de 8 x 8.
Con esta operacin la mayor parte de la energa del bloque se concentra en' el valor
de DC y en unos pocos coeficientes AC.
JPEG aplica un codificador diferencial (DPCM) sencillo a los coeficientes de
DC de los bloques DCT, a partir de los bloques adyacentes de luminancia, es decir,
los coeficientes de DC no se codifican con sus valores absolutos, sino con valores
diferencia con respecto a los valores DC de bloques DCT vecinos (figura 8.1).
Ahora ya puede obtenerse la mayor compresin en JPEG: una vez que se ha eli
minado la energa de DC de la imagen, los restantes coeficientes frecuenciales
pueden cuantificarse aTo55o-modo. Esta cuantificacin burda introduce errores, pero
tales errores no se introducen directamente en el valor de los pxeles (en el domi
nio espacio-amplitud), sino en los coeficientes frecuenciales (en el dominio trans
formado). Afortunadamente los errores en el dominio transformado no son muy
perceptibles. JPEG utiliza una tabla de cuantificacin de valores discretos para los
coeficientes frecuenciales, que depende del coeficiente particular en cada momen
to. La tabla se ha diseado en funcin de la agudeza espacio-frecuencial del sistema
de percepcin visual humano: los errores relativamente grandes son tolerables en
las frecuencias espaciales altas.
218
2
0/2
01
10
-21
0/5
11010
01011
-8
0/4
1011
0111
00000, -3
Todo Ceros
5/2
EOB
111111110111
1010
00
Categora
Bits adicionales
1
2
3
4
5
6
7
8
9
-1. 1
-3,-2,2,3
-7.-6,-5,-4,4.5,6.7
-15,
-8. 8,
15
-31
-16.16, , 31
-63
-32, 32,
63
-127
-i34. 64,
,127
-255
-128. 128
255
-256, 256
,511
511
O, 1
OO. 01. 10, 11
000, ,011,100
111
0000 ,0111,1000, ,1111
00000 , 01111. 10000 , 11111
etc.
etc.
etc.
etc.
219
pr TEU\'l'iru.'
Longitud
del cdigo
EOB
4
2
2
0/1
0/2
0/3
0/4
0/5
4
5
Palabra codificada
1010
00
01
100
1011
11011
._.
. ...
1/1
1/2
...
2/1
2/2
2/3
4
5
1100
11011
. ...
....
5
8
11100
11111001
1111110111
...
111010
111110111
111111110101
...
3/1
3/2
3/3
10
....
6
9
12
...
. ...
4/1
4/2
4/3
6
10
16
...
....
111011
1111111000
1111111110010110
...
....
5/1
. ...
1111010
Figura 8.1 .
Diagrama de bloques del codificador-dccodificadO!- JPEG. Se muestra slo un canal, por ejem
plo, el de luminaneia.
Los si.sT~mas
Trabajar con independencia del tipo de imagen (sin limitacin por dimensin
de la imagen, espacio de color, tamai'io y forma del pixel, etc.).
Relativamente baja complejidad de cmputo, que permite soluciones "slo
software", incluso en ordenadores de gama media.
Permitir la codificacin secuencial (una sola pasada) y la codificacin progre
siva (mltiples pasadas).
Ofrecer la opcin de "codificacin jerrquica", mediante la cual se puede
obtener una "copia de baja resolucin" sin necesidad de descomprimir la ima
gen con resolucin total.
de comlJresin
Una particularidad del M-JPEG es que suele utilizar codificacin adaptatil'a (la
dureza de la recuantificacin de los coeficientes es variable) para proporcionar un
nmero fijo de bits por cuadro, lo cual es muy adecuado a las aplicaciones de tele
visin. Puede decirse que mientras JPEG es esencialmente un sistema "calidad
constante-frecuencia binaria variable", e! M-JPEG es un sistema de "calidad varia
ble-frecuencia binaria constante".
Baseline M-JPEG
La norma ISO 10.918 define la codificacin M-JPEG. El vdeo se muestrea,
normalmente, segn la Rec. ITU-601, con 8 bits por muestra. Alternativamente
puede utilizarse e! formato SIF (352 x 288 x 25 campos). La estructura de codifi
cacin es del tipo 4: 2: 2. La frecuencia binaria de la seal comprimida puede variar
desde aproximadamente 1 Mbyte/ s para una calidad tipo VHS, hasta ms de 15
Mbytes/ s para una calidad superior al Betacam SP. M-JPEG utiliza siempre com
presin intracuadro, por lo que resulta adecuada para los sistemas de edicin no
lineal.
Aparecen artificios o defectos espaciales con frecuencias por debajo de
6 Mbytes/ s. Por encima de esta frecuencia binaria los artificios existen, pero no
son visibles. La norma M-JPEG no hace mencin a la codificacin de audio, por lo
que cada fabricante implementa su propia solucin.
El M-JPEG se utiliza, sobre todo, en las estaciones de edicin no lineal, desde
rjJ-line hasta on-line y para un amplio segmento de! mercado: desde la produccin
multimedia hasta la posproduccin de alto nivel. El coste del codificador M-JPEG
es relativamente bajo, ya que se trata de un sistema simtrico, donde la compleji
dad del algoritmo se reparte a partes iguales entre el codificador y el decodifica
dor.
3. El M-JPEG
Como se ha visto en el apartado anterior, JPEG es un sistema de compresin de
las imgenes de televisin (tamao del rster, espacio de color, etc.). Al igual que
sencillo: cada imagen de la secuencia de vdeo se codifica como una imagen ]PEG.
que pueda propagarse de una pasada a la siguiente. Desde 1997 estn empezando
a aparecer en el mercado sistemas de edicion no lineal basados en la yariante sin
prdidas M-JPEG, orientados hacia la posproduccion on-line de alta calidad.
Factores de compresin
Puesto que se trata de un sistema de compresion estrictamente intracuadro, el
factor de compresion logrado con los compresores M-JPEG perceptiyos (con pr
didas) no puede ser muy alto. En aplicaciones profesionales de edicion no lineal sue
len utilizarse factores de compresion entre 3: 1 y 6: 1. Los discos duros para repeti
ciones de jugadas deportivas pucden lIcgar hasta 8: J, pero no ms. Por su lado, los
comprcsores M-JPEG sin prdidas no supcran factores dc compresion de 2: 1.
Por desgracia, el M-JPEG no es un sistema normalizado, de manera que los dis
tintos fabricantes han optado por soluciones diferentes. Prcticamente cada equi
po utiliza una yariante distinta del M-JPEG. Esto significa que, por ejemplo, un edi
tor no lineal basado en M-JPEG no puede comunicarse directamente con un "slow
motion", aunque los dos utilicen compresion M-JPEG. Normalmente el intercam
bio debe realizarse decodificando (a Rec. 601 en e! mejor de los casos) y volvien
do a recodificar en el equipo receptor. En un futuro inmediato muchas aplicacio
nes reemplazarn el M-JPEG por el ms moderno MPEG, de forma que e! inter
cambio en el dominio comprimido ya ser posible.
MPEG~MbiIS/~~
.~f
[SDT~r
=
dV: .c.r--/
2
a5 Mbils/s;:1II.
'&1'
5 a 15 Mbits/s
r=====!!!!!!!!!!
HOTV
Figura 8.2.
La familia MPEG cubre todo tipo de aplicaciones, desde baja definicin (LDTV) hasta alta
rlefinicin (HDTV).
4. La familia MPEG
El Movina Picture Experts Group (MPEG) es un grupo internacional formado bajo
los auspicios de! ISO Yel lEC. Las normas desarrolladas por este organismo se han
dividido en dos grupos: MPEG-1 y MPEG-2.
Los siguientes documentos recogen la normalizacion MPEG:
ISO/lEC 11172-1 MPEG-1 Systems.
ISO/lEC 11172-2 MPEG-I Video Codina.
ISO / lEC 11172-3 MPEG-I Audio Codina.
ISO/lEC /3818-1 MPEG-2 Systems.
ISO/lEC 13818-2 MPEG-2Video Codina.
ISO / lEC 13818-3 MPEG-2 Audio Codina.
El MPEG-1 comenzo en 1988, con la intencion de lograr un procedimiento de
codificacion capaz de ubicar imgenes en movimiento en soportes de tipo CD
ROM. Para esto es necesario rebajar la frecuencia de bits a solo 1,5 Mbits/s. sta
es la frecuencia de transferencia de datos de un eD de audio, de! cual se deriva e!
CD-ROM. En el CD la seal de audio se muestrea a 4-4-, 1 KHz (una reminiscencia
de la poca en que la seal de audio PCM tena que grabarse en cintas de vdeo).
Cada muestra se cuantifica con 16 bits. Por tanto: 4-4-,IKHz X 16 bits x 2 canales
J ,41 Mbits/s. A esto hay que aadir algunos datos de sincronizacion, identifica
cion, usuario y proteccion contra errores, lo que conduce a una frecuencia binaria
de 1,5 Mbits/s. Con una frecuencia de bits tan baja, el sistema MPEG-1 no puede
proporcionar imgenes de calidad broadcast. Probablemente su aplicacion ms nor
mal sea la de mostrar imgenes en movimiento sobre pantalla de ordenador.
224
225
Los
sistl'll1il'\
dt: compn'si('JJl
A.
l:]
Qr:l:]
UliJiza los
vectores para
desplaur A
,,-~
..
r~l-~
~', )~[-
\)'l~t
~
i
...
1--.
8:
--""
movimiento
entre Ay B
Figura 8.3.
La compensacin de movimiento se basa en la comparacin, bloque a bloque, de la imagen
actual con la imagen previa. Los bloques de la imagen actual se mueven dentro de un rea de
bsqueda y se restan de los bloques correspondientes de la imagen anterior. La posicion que
d mnima diferencia generar los vectores de desplazamiento.
los datos diferencia se suman para recrear la imagen "P" (predecida).
Se puede enviar cualquier nmero de imgenes "P" (datos diferencia ms vec
tores) entre dos imgenes "1". Tanto las imgenes "1" como las "P" pueden ser some
tidas a posteriores procesos de compresin.
.......
_....
--
PREDICCiN BIDIRECCIONAL
4.1.2. ImBenes J, P, B
Como ya se ha comentado, en la terminologa MPEG las imgenes (o bloques)
codificadas intracuadro se denominan imgenes tipo "1", mientras que las imgenes
Figura 8.4-.
Tanto las imgenes ''1'' como las "P" pueden servir para predecir la.-; imgenes "B", aunque estas
226
Lo:-. sistcma::; dc
el error de prediccin. Las imgenes "E" pueden obtenerse a partir de imgenes "1"
o de imgenes "P", pero ellas mismas no pueden servir de prediccin, de manera
que no pueden propagar los errores que pudieran contener.
Bits 3, 2, 1
Modo
000
No intra
Intra
Hacia delante
Bidireccional
Hacia atrs
OO1
O1 O
O1 1
1 OO
En la codificacin de las imgenes "P" y "E", la DCT, RLC, VLC, etc. se aplican
sobre la imagen diferencial compensada en movimiento, es decir, sobre los resi
duos obtenidos al restar la imagen actual de la imagen o imgenes de referencia.
En MPEG-l todos los macrobloques (ME) dc una imagen "I" dcben codificarse
como "intracuadro". En cambio, los ME de las imgenes "P" pueden codificarse
como "intra" o como "no-intra" (temporalmente reconstruidos a partir de una ima
gen previa). Por su parte, los ME de una imagen "E" pueden seleccionarse entre
"intra", "predecidos hacia delante", "predccidos hacia atrs" o "bidireccionales". La
cabecera de cada ME contiene, entre otras, la siguiente informacin: "Macroblock
type", con una serie de conmutadores (bits) mostrados en la tabla anterior.
ENTRA.DA CONV.E.RSIN
4:2'2
2'1 'O -lo
1srF
-----+ ELIMINACiN
2"'CAMPO
Error de prediCCin
de imagen
~r. ~p~.
"B~
Vectores "B"
haCia adelanle
o hacia atrs
Veclores .p~
haCia adelante
Imagen decodificada _
localmenle
(s610 "1" o P")
Figura 8.5.
Diagrama de bloques del codificador MPEG-I.
228
(Omprc;;;jOll
siones. Si la seal de entrada es del tipo 4: 2: 2, se comienza por descartar uno de cada
. dos campos. A continuacin la seiial 4:2:2 se convierte en ob'a del tipo 2: 1:0, lo que
reduce los datos originales a 3/16. Esto genera lo que se conoce como "famuto de
figura logran una compresin 21: 1, que, multiplicada por el submuesb'eo previo 5: 1,
proporciona una compresin global superior a 105: 1. De esta manera se pasa de los
!izarse la codificacin o las herramientas concretas que deben usarse, sino la sintaxis y
la semntica del tren binario, tal y como debe entenderla el decodificador. La "semn
tica" es simplemente W1a coleccin de reglas (en ocasiones llamadas algoritmos) que
le dicen al decodificador cmo recomponer la informacin, mientras que la sintaxis
se refiere a las cabeceras, descTiptores, orden de multiplexado de la informacin, etc.
Cualquier tren binario que respete estas normas podr ser catalogado como MPEG.
Esto proporciona una gran flexibilidad al sistema, ya que es posible ir mejorando las
herramientas de codificacin, obteniendo ms calidad y mayores factores de compre
sin. Lo nico que hay que respetar es la sintaxis y la semntica.
Un punto fuerte de los sistemas MPEG es su flexibilidad en el nivel de calidad de
imagen, principalmente determinado por la n-ecuencia de bits. En MPEG-2 aparece,
adems, el concepto de "escalabilidad". Este principio supone que lm decodificador
MPEG-2 relativamente econmico puede decodificar imgenes vlidas utilizando
solamente una parte del tren binario. Los datos de vdeo consisten en una serie de tre
nes binarios, Bamados "capas". La primera capa se conoce como "capa base" y siempre
puede ser decodificada independientemente de las dems. Las otras capas se denomi
nan "capas de realce" y pueden utilizarse para mejorar la resolucin espacial, la reso
lucin temporal y otras caractersticas escalables. Cuando slo se utiliza una capa se
dice que los datos de vdeo no son escalables. Si se emplean dos o ms capas se dice
que los datos presentan una "jerarqua escalable". Una ventaja adicional de la escalabi
lidad es que ayuda a que los datos de vdeo sean ms resistentes a los errores de gra
bacin/transmisin, reservando las vas con mejores caractersticas de error para la
capa que contiene la informacin de base.
campos, tendramos 48 campos/s. La relacin entre 60 y 24 es 2,5: 1, es decir, para realizar la conversin cada fotograma tendra
que generar 2,5 campos. Puesto que: esto no es posible, la solucin consiste en generar tres campos con el primer fotograma, dos
con el segundo. tres con el tercero. dos con el cuarto. etc. siguiendo una secuenda 3:2:3:2 ... es decir. con cada cuatro campos
de entrada se obtienen cinco campos de salida. por simple duplicadn del segundo campo. de una de cad. dos imgenes.
Puesto que la funcin del MPEG es reducir la tasa binaria, no tendra sentido
codificar dos veces el mismo campo. Por esto, cuando se procesa material de vdeo
americano (525/60) procedente de telecinado, el codificador busca e identifica el
campo repetido, el cual omite, codificando slo 24 ips, 'pero aadiendo una indi
cacin para el decodificador: "esto es material vdeo procedente de cine que debe
inflarse de 24 ips a 30 ips en el momento de su exhibicin".
en
MPEG-2
~
625/50
NIVEL
SIMPLE
No Imgenes B
4:2:0
No escalable
ALTO
PRINCIPAL
Imgenes B
4:2:0
No escalable
SNR
ESPACIAL
ALTO
Imgenes B
4:2:0
SNR escalable
Imgenes B
4:2:0
SNR escalable
Espacial escalable
Imgenes B
4:2:064:2:2
SNR escalable
Espacial escalable
60 Mb/s (mx.)
1.920 pixels
1.152 lineas
120 Mb RAM
ALTO-1.44D
60 Mbls (mx.)
60 Mb/s (mx.)
60 Mb/s (mx.)
1.440 pixels
1.152 lineas
64 Mb RAM
126 Mb RAM
126 Mb RAM
PRINCIPAL
256 Mb RAM
15 Mb/s (mx.)
15 Mb/s (mx.)
15 Mb/s (mx.)
20 Mbls (mx.)
6 Mb RAM
16 Mb RAM
32 Mb RAM
32 Mb RAM
BAJO
4 Mb/s (mx)
4 Mb/s (mx.)
352 pixels
26611noas
4 Mb RAM
6 Mb RAM
720 pixels
576 lineas
..... En los modos escalable SNR. escalable espacial y perfiles altos. se permite como
mximo una capa de realce SNR (adems de la capa base).
..... En los modos escalable espacial y perfiles altos se permite como mximo una
capa de realce espacial escalable (adems de la capa de base y la capa de realce
SNR).
..... Las lneas por cuadro se refieren al nmero de lneas activas.
..... Las cifras sobre memoria RAM se refieren a los decodificadores y pueden variar
segn su implementacin.
Figura 8.6.
230
231
TEC~L\
:\1..'"' U\I
nr 1 ,,".I~X"-\'.L:I.''''''.!c)\,---
Lo~-.:&~tJ::.!l1i!_~d~~-..!.!.l.i..Jrc~0JJ
_
"alta definicin" hasta calidad "VHS". Con cuatro niveles v cinco perfiles pueden
obtenerse hasta ,einte combinaciones. Sin embar-ao no todas parecen tiles. En la
b '
actualidad c;nce de las veinte combinaciones posibles pueden ser consideradas
aprobadas. Estas se conocen como "MPEG-2 CanjOrmancc Paints". Las fuerzas del
mercado determinarn qu combinaciones terminan por imponerse.
Antes de la transmisin, el audio, el ddeo y otros datos ~uxiliares se combinan
en un mltiplex llamado "A/PEG-2 Trampart Strcam" (TS). Este es un sistema de
paquetes de longitud fija, en el cual cada paquete est formado por 188 bytes, de
los cuales 184 contienen datos ti!cs. Finalmente el MPEG-2 aade una informa
cin de servicio, llamada "Pra8rammc Specific InjOn~atian" (PSI), la cual etiqueta cada
servicio de! mltiplex )' comunica al receptor los detalles esenciales, tales como los
canales de audio que acompaan al vdeo. Existe un segundo tipo de mltiplex,
denominado "Pro,qram Stream ", que utiliza paquetes de longitud variable y est
orientado a la distribucin multimedia, como se ver ms adelante.
CAPA BASE
IMAGEN MEJORADA
+
CAPA DE~~AL~".
//~
~-~";,,.J' t.__
--
-,. .,(
___ ,"
./
/ (
/
i,,"
/,'
,~
\:',
Figura 8.7.
Una imagen de alta definicin puede lograrse sumando lIna seal dc "capa base" y una seal dc
realce
Jl
232
GRUPO
-BLoaUE
00]
o~?
C, CR
MACROBlOQUE 1MB)
(Gap)
IMAGEN
IMAGEN
IMAGEN
GEN
l,MA
DE IMAGENI,::ES
(Gap)
GRUPO
-BLOQUE
/~
DE IMAGEN;yC
.;:;;
13Jl2J 8J 0
y
~(j GRUPO
\>'"
4:2:0
DE IMAGE;rt!
4:2:2
(Gap)
0[1] 00
0000
IIVII"I'-"C:'"
IMAGEN
y c. c
NOT:\: !"llt:ntras 'lUl' f\.lPEG-l no IInpOI1(' limitaciollC's en ellJl1lailo dcl segmento, que pu~'dc ir desde llll solo MB
hasta una Imagen completa o cualquier otTO tamao intermedio, MPEG-l ohliga a que todo e} segmento est contenido
en una misma HI.l de MB. PUCc!C' ser una fila completa o menos, pero nunca ms.
R'
MACROBLOQUE (MB)
--BLOQUE
4:4:4
[Q]IT] 00 lTI[I)
00 0~ LUlm
y
C.
CR
GRUPO DE
IMGENES
IMAGEN
MACROBLOQUE (MBI
SEGMENTO
Figura 8.8.
(SL/CE)
MACROBLOQUE
BLOQUE
CAPA DE SECUENCIA
SECUENCIA DE ViDEO
"N
SECUENCIA DE ViDEO
ro
SECUENCIA DE ViDEO
I~
B = CODIFICADA BIDIRECCIONAL
DCl = TRANSFORMADA EN COSENO DISCRETO
EC = CDIGO DE FIN
GOP = GRUPO DE IMGENES
I = CODIFICADA INTRACUADRO
P = CODIFICADA POR PREDICCION
SC = CDIGO DE INICIO
Figura 8.9.
Cada elemento del mltiplex, desde el bloque hasta la secuencia, dispone de su propia cabe
234
235
Cuando el primer campo (topjeld) de una imagen se codifica como "P" o "B",
el segundo campo (bottonjcld) debe codificarse de la misma forma. Sin
embargo, si e! primer campo se codifica como "1", el segundo podr codifi
carse como "1" o como "P" (predecido a partir de! primero).
Figura 8.10.
En la figura 8. 10 (b) se muestra la misma secuencia que en (a), pero con las im
genes numeradas. ste es el orden en que las imgenes han sido producidas y, por
supuesto, el orden en que deben ser mostradas en el televisor. Sin embargo, antes
de la transmisin las imgenes son reordenadas, de manera que el decodificador
disponga siempre de los predictores antes que de las imgenes diferenciales. En
otras palabras, para decodificar una imagen de tipo "B" es necesario disponer pre
viamente de las imgenes "1" y "P" que han servido para su codificacin. La figura
8.10 (c) muestra el orden real de transmisin. Ahora puede cntenderse el relativa
mente largo retardo asociado con la codificacin MPEG-2: la imagen "B-2" no
puede se codificada hasta disponer de la "P-4", generando el llamado "retardo de
reordenacin" de 2 cuadros. Ntese que es el nmero de imgenes "B" consecuti
vas y no el tamao de! GOP el que determina el retardo. En el mltiplex no se
enva informacin especial sobre la reordenacin de las imgenes, ya que cada ima
gen indica en su cabecera cul es su tipo y a qu otras imgenes hace referencia.
La utilizacin de imgenes "B" obliga a disponer de mayor potencia de cmpu
to, a la vez que aumenta e! retardo de codificacin y el tamao de! buffer. Por otro
lado, la codificacin se hace ms eficiente, especialmente con bajas frecuencias
binarias. Tambin se reducen los efectos del ruido gracias al promediado en la pre
diccin.
236
ven por la pantalla, es decir, cuando coexisten altas frecuencias verticales)' movi
miento. Como consecuencia del solapamiento entre el espectro vertical)' el tem
poral, convertir una imagen entrelazada en otra progresi\'a no es una tarea trivial.
Los dos campos que componen una imagen representan instantes de muestreo
elistintos (separados 20 ms en el sistema 625/50). En presencia de movimiento,
un bloque Del' obtenido a partir ele los dos campos presentara lneas alternativas
de contenido muy distinto. Esto producir frecuencias verticales de todo tipo,
haciendo ineficaz la codificacin. MPEG-2 ofrece herramientas para codificar
imgenes entrelazadas en combinaciones altamente eficaces. Aunque son muchos
los expertos que creen que el entrelazado de campos debera haber muerto hace
tiempo, pruebas visuales de evaluacin realizadas en el ATEL (Ad,'anced Telel,jsion
Emll/acion Laborator] o Laboratorio de Evaluacin de Televisin Avanzada, un labo
ratorio de evaluacin de la calidad de las imgenes EOTV y HOTV, dentro del
proyecto ATSC americano, situado en Ottawa, Canad) con espectadores no
expertos demostr que, para una frecuencia binaria determinada, el entrelazado
permita imagenes "subjetivamente mejores" que la exploracin progresiva. De
todas formas, ste es un debate no cerrado y todo parece indicar que el entrela
zado tiene los das o, mejor dicho, 105 aos contados. Veamos los distintos modos
de codificacin.
Una imagen codificada como "1" puede consistir en una imagen "1" (secuencial)
o en un par de campos tipo "1" o un campo "1" seguido de un campo "P" predecido
a partir del campo ''I''.
Una imagen codificada como "P" puede estar formada por una imagen "P" o por
un par de campos "P", mientras que una imagen codificada como "B" puede com
prender una imagen "13" secuencial o por un par de campos "13", El tipo de codifi
cacin puede elegirse imagen a imagen y se indica en la cabecera de sta. Como
puede verse, MPEG permite afrontar el entrelazado de campos de muchas formas
distintas.
En una imagen "tipo campo" los campos se procesan secuencialmente, de forma
que los macrobloques contienen slo muestras de un campo concreto y represen
tan reas de la imagen de 32 lneas de altura.
MPEG-2 define dos tipos de codificacin OCT, siempre en base a macrobloques
de 16 x 16: OCT-cuadro y OCT-campo, DCT-cuadro es exactamente igual que en
MPEG-I. Los pxeles de luminancia del macrobloque de 16 X 16 se dividen en
cuatro bloques de 8 x 8 simplemente por su posicin espacial. En la DCT-campo
la division horizontal es la misma, pero la divisin vertical se hace tomando las
ocho lneas del primer campo (aqu llamado "campo superiOl'''), para formar los
dos bloque superiores y ocho lneas del segundo campo (o campo inferior), para
los dos bloques DCT inferiores (vase figura 8.11). Los bloques diferencia de color
(que slo tienen ocho lneas por el submuestreo 4: 2 :0) se asume que pertenecen
siempre al campo superior.
La DCT-campo es ms eficiente cuado hay una diferencia significativa entre los
dos campos que componen un cuadro, generalmente como consecuencia del movi
miento.
Las imgenes codificadas como dos campos separados siempre utilizan DCT
,'" . .
:,'
ffl+I-t-J,=--~:
~:::==:.... ~,~
_~----.
---=. __
:=
-..
_,
'," ;1','
','L'_
11~l:'-
..
"
:1
;11 ,., .
j.
I
'"
.....
, .<===:-:............
'-.-1
.";;~r ':.:
lt.... ---
---...
' ...
-,;.j.,
,-,
l..
'
;,;
,,"
Modo DCT-cuadro
~:l~I;'1,
::'1;-1:,
---,
..
'I:>~,~'J.~.~~~S\:~:/;I
r:
,,' -
~,jf~
'fl--".~'~:.I'''F.
ffir':>""-
...
,.r.a"~<\'');.. l...
:: fl~,J;
':<'f~-.,
,.
~/":~~
'-":,F'J
Modo DCT-campo
Figura 8.11.
238
frecuencia. Por ejemplo, si consideramos una seal unidireccional formada por una
el cambio de fase experimentado por la frecuencia 2fO ser el doble que el corres
nentes espectrales entre dos campos o cuadros sucesivos es posible medir el movi
140
141
Lo~ sj~l('ma..
Imagen I
ro
Imagen B
Cuadro O
-----------1
~' I
J.__L
Imagen B
Cuadro 1
I~
LJR
_ _ ~~
~~
PrediccIn
haCia adelante
~=:r------i
1.0
8.'
Imagen P
~-.9,[Q_L
E-~
~8.
0c=---r=------=-~~
-,
8.. I
iE
~ -- 1
L--=: _ _::J
PredIccin
hacia adelante
Cuadr03
I~
18.
lE
1(3
J\
P'OdiCCln
haCia adelante
P,.diccin
haCia aIras
Imagen B
Imagen B
~{
~[-
01
J[-
Imagen P
~uac!ro_~ __
1..0
~R
~
f
r" ~._.Gu{l~ro3
- --1
~~I
&'
1.0
E;
J~
1
I lE
'111..... \.h' ~
~. __
Hacia delan
el
Figura 8.12.
Predicci6n basada en cuadro y prediccin basada en campo.
campos previos sern los dos campos que forman la imagen anterior. Por otro lado,
si se est procesando el segundo campo (campo inferior), los dos campos previos
sern el campo inferior de la imagen anterior (espacialmente cosituado) y el campo
superior de la imagen actual (temporalmente cosituado). En cualquier casd, el vec
tor de movimiento elegido se aplica al macrobloque completo.
Las imgenes tipo "campo" pueden utilizar tambin con compensacin de movi
miento 16 x 8. En este modo se obtienen dos vectores de movimiento separados
a partir de los dos campos previos, para las secciones de 16 x 8 superior e inferior
de! macrobloque. Los dos vectores son transmitidos y utilizados para la parte
correspondiente del macrobloque. La determinacin de los campos previos se hace
igual que en el prrafo anterior.
Existe un modo extra de codificar las imgenes entrelazadas, ya sea para im
genes tipo cuadro o tipo campo, denominado "dual-prime" o "doble-bsico". La uti
lizacin de los vectores de movimiento "dual-prime" slo est permitida para im
genes de tipo "P" y slo cuando no hay imgenes de tipo "B" entre la imagen actual
y la imagen de referencia (la imagen precedente "1" o "P"). En este modo slo se
encuentra un nico vector para las 16 x 8 muestras de luminancia de un campo
concreto de la imagen -cuadro (16 x 16 en e! caso de imagen -campo), buscando en
el campo previo de la misma numeracin (superior o inferior). A partir de este
vector se deriva un "vector incremental" (con valores -1, O o + 1, tanto en "x"
de compresin
como en "y"), buscando la mejor igualacin (de las nueve que pueden obtenerse
desplazando el bloque 1 posicion en "x" e "y") para la misma regin, pero con
respecto al campo de polaridad opuesta. En el decodificador los dos bloques iden
tificados por el vector completo y el vector incremental son promediados para for
mar el bloque predictor. Esta tecnica ha demostrado ser altamente eficaz. En
muchos casos la utilizacion del modo "dual-prime" con imgenes tipo "P" puede
reemplazar, con menores exigencias de cmputo y menor retardo ue codificacin,
a las imgenes "B".
Cada vector tiene una componente horizontal y una componente vertical. La
resolucin en la medida de! movimiento es de '/ 2 pxel. En caso de que el valor "x"
o "y" de! desplazamiento de un vector sea impar, la prediccin real para un pxel ser
e! valor promediado de los dos valores adyacentes. Est claro que se necesitan un
montn de bits para transmitir los vectores de movimiento en los modos de pre
diccin "campo" o "16 x 8". Por tanto, estos modos de prediccin slo se utilizarn
cuando la prediccin basada en cuadro no proporcione resultados satisfactorios.
La figura 8.13 muestra el diagrama de bloques del codificador MPEG, cuando
este trabaja en el modo intracuadro, es decir, cuando est codificando imgenes "1".
La seal de entrada es dividida en bloques y sometida a los procesos tpicos: OCT,
VLC, etc. En esta figura el bloque marcado con una "Q" representa la recuantifica
cin de los coeficientes frecuenciales. Por su parte, la figura 8.14 muestra e! traba
jo del codificador MPEG en los modos "P" y "B". Puede apreciarse, a la entrada del
circuito, la presencia de un almacen para la reordenacin de las imgenes de entra
da. Esto es consecuencia de que el codificador necesita disponer de las imgenes de
referencia antes de poder procesar la imagen diferencial. Puede verse tambin que
la OCT y procesos posteriores no se realizan sobre la imagen de entrada, sino sobre
una imagen diferencial compensada en movimiento. Una cuestin interesante es que
la imagen predecida no se compara con la imagen de referencia tal como llega al
codificador, sino con la imagen de referencia localmente reconstruida, ya que es esta
imagen reconstruida la que e! decodificador del receptor podr utilizar como refe
rencia. Esta reconstruccin local la realizan los bloques QI y OCT ' .
Modo I
del GOP
Reordenado
Figura 8. 13.
242
243
TU_'\iOLOGj" ACr\)[!lALI-1IJCLI.,"I-1LLUc.:.\'-!'I.~q!..'():,:,,,
Almacn de magenes
Figura 8,14.
Diagrama oe bloques del codillcador MPEG-2 trabajando los modos de codificacin intercua
dro "P" o I'B".
244
---'Lu!'
,~i~tcma.:;
Jl:
Cur!.lJ2lS;.~H)JJ
;;;;:
625/50
NIVEL
SIMPLE
PRINCIPAL
SNR
No imgenes-B
Imgenes-S
4:2:0
No escalable
Imgenes-B
4:2:0
SNR escalable
~:2:0
No escalable
ALTO
80 Mbls (mx.)
, .920 pixeles
1.152 lineas
120MbR~
;Z:m~.)
ALTO-1.440
1.440 plxeles
1.152 lineas
4 MbRAM
PRINCIPAL
15 Mbls (max)
720 plxeles
576 Uneas
8 Mb RAM
BAJO
352 plxeles
288 lineas
ESPACIAL
Imgenes-B
~:2:0
~2:0 ~:2:2
SNR escalable
Espacial escalable
SNR escalable
Espacial escalable
4:2:2
SO Mb/s (mx.)
32 Mb RAM
./
~ ~ ----
MbRAM
RAM
4 Mbls (mx.)
4 Mbls (mx.)
4Mb RAM
8 MbRAM
ALTO
Imagenes-B
80 Mbfs (mx.)
128 Mb RAM
20 Mb/s (mx.)
32 Mb RAM
Figura 8.15.
El "4:2:2P@ML" es una extensin del "MP@ML", especialmente diseado para aplicaciones
profesionales,
245
4:2:0). Un nico paso por los filtros de submuestreo raramente presenta pro
blemas de limitacin de! ancho de banda de la croma, aunque en algunos casos
puede apreciarse una cierta prdida de detalle en imgenes crticas. De todas
formas, el proceso de submuestreo implica una operacin previa de filtrado,
lo que genera una prdida an mayor de ancho de banda en la multigenera
cin. Se podra considerar la utilizacin de filtros de corte abrupto, pero la
experiencia ha demostrado la aparicin de rizado de croma, asociado a la uti
lizacion de este tipo de filtros. La solucion ms directa es preservar el ancho
de banda de la crominancia original del nivel +: 2: 2.
Aumento de las lneas codificadas para incluir algunas de las correspondientes
al borrado vertical. En concreto, se aumentan 32 lneas por cuadro, lo que
eleva la cuenta de 480 a 512 por cuadro en paises 525/60 y de 576 a 608lne
as por cuadro en pases 626/50.
Aumento de la frecuencia binaria del tren codificado hasta 50 Mbits/ s. Ellmi
te de 15 Mbits/ s de! MP@ML es una Iimitacion demasiado severa cuando se
desea buena calidad en multigeneracion. En particular, resulta deseable man
tener e! GOP en un valor lo ms bajo posible y esto slo puede lograrse si se
desea un resultado de calidad, con frecuencias binarias relativamente altas.
Compatibilidad hacia atrs con e! nivel principal. Como consecuencia del
incremento de la frecuencia binaria, se necesitan btiffers de Video ms grandes,
pasando de 16 a 32 Mbits de RAM en el decodificador. Resulta interesante el
hecho de que el grupo 4:2:2 no ha afrontado todava los problemas de multi
generacin de la seal de audio comprimida. Una vez que la seal de Video
alcanza una frecuencia binaria relativamente alta, resulta justificado permitir
la multiplexacin de las seales de audio MPEG sin compresin; el audio slo
representa una pequea parte del tren binario global (muy inferior al 10%).
DESPLAZAMIENTO
ESPACIAL
DESPLAZAMIENTO
TEMPORAL
ORIGINAL
B
SECU~IP
-----,
,
'
-----.
I
I
o
f
'!!;i
5ffi
0..>
~ g=i~
(/)
Cl
~P.J~NCI'
MODIFICADA
Figura 8.16.
L().\.~~lna~s.1L~,:_~!~2!:!:'~:~).!~
MEJOR
MEJOR
SIF-IPB
MP-IPB
PES DE
viDEO ~
DATOS DE
ViDEO
",
"
CODIFICADOR
DE VIDEO
GENERADOR
DE PAQUETES
-'
Cl(l)
SLO lB
<l:
SLO I
I[
CODIFICADOR
AUDIO
-----.
GENERADOR
DE PAQUETES
<l:
U
",
",
",
"
10
20
::>
DATOS DE
AUDIO
4:2:2
-.J
CORRIENTE
DE PROGRAMA
(PROGRAM STREAM)
5n.
",
4:2:2
30
40
xw
"
x
~
~~
-'
::>
CORRIENTE
DE TRANSPORTE
(TRANSPORT STREAM)
----..
Figura 8.18.
A partir de los paquetes "PES" de video), audio se pueden formar "corrientes de programa" o
"corrientes de transporte".
w l
oS
Los sistt:mas de
wW
1-1
zO::
wO
ir fu
O::z
8;?
1
~i'
w
ie:.
coml)n..~sill
Hay una relacin entre los paquetes TS dc 184 bytes y las celulas ATM. Estc lti
mo es un sistema de transmisin de datos de alta velocidad no sincrnico, til tanto
para operacin en reas locales como en grandes reas. De los 188 bytes del paque
te TS, cuatro bytes se utilizan como cabecera y 184 como carga til para transpor
tar informacin de audio, vdeo, etc. Por otro lado, las clulas ATM ticnen un
tamao de 53 bytes, de los cuales 48 bytes representan la carga til y 5 la cabece
ra. De esta forma un paquete TS puede ser transportado en cuatro clulas ATM.
~~
11>1
ww
~a
!!!.:
0::0:
O::z
8w
wi"
!O.
w",
1-::;
~;?
0::"
0::0
00::
0n.
tales como DBS (radiodifusin directa por satlite) y CATV (televisin por cable)
se basan en normas deJacto, que utilizan paquetes de longitud fija.
Ya se utilicen TS o PS, el nivel ms elemental del multiplexado consiste en la
formacin de los PES, los cuales transportan informacin de una fuente de datos
determinada (vdeo, audio-1 , etc.) y presentan longitudes variables. Cada codifi
cador genera su propio tren de PES, los cuales se multiplexan de la forma ms ade
cuada. Aunque los PES se pueden usar para conectar directamente un codificador
y un decodificador, generalmente forman la base de corrientes de datos ms com
plejas: las corrientes de programa (PS) y las corrientes de transporte (TS) de las
que se ha hablado en prrafos anteriores.
Una corriente de programa (PS) permite el uso conjunto de varias corrientes
elementales de vdeo y audio. Con los PES se forman paquetes que a continuacin
se organizan en "paquetes de corriente de programa" de longitud variable. Estos
paquetes, que suelen ser bastante largos, disponen de una cabecera que proporcio
na toda la informacin necesaria. Por tanto, los paquetes de corriente de programa
son simples colecciones de paquetes PES. Por otro lado, la mayora de los esquemas
de correccin de errores se han diseado para trabajar con bloques de datos de lon
gitud fija. Por esta razn las corrientes de transporte (TS), que se han pensado para
entornos "ruidosos", donde la posibilidad de degeneracin de los datos es mayor,
trabajan con paquetes de datos de longitud fija. En MPEG-2 estos paquetes tienen
una longitud total de 188 bytes, de los cuales 184 corresponden a la carga de datos
y 4 a la cabecera. Como losTS pueden transportar varios programas multiplexados,
una suposicin obvia, pero incorrecta, sera que los TS se forman a partir de colec
ciones de PS. No es as; losTS se forman a partir de los ms elementales PES.
250
AUDIO-1 ~
71'~'\'~
: 'r
\
\ \
"
....
"f
PROGRAMA-l [ffiJ
(DOS CORRIENTES
ELEMENTALES)
~
I I
vIDEO-'
I I \ 1 \ I
I
\ I
J!.~\'~
[lliJ
I 1
\ I
PROGRAMA2
(UNA CORRIENTE
ELEMENTAL)
".'
PCR
VIDEO-2
1 \ I \ 1 \ I \ '
,\
...
...
..\ \..
[ffiJrr::::::Jrr::::::JDrr::::::Jrr::::::J
rr::::::J_P rr::::::J D
Figura 8.20.
251
Lus
TU"~UlOGI'\ ..\ CTU;\L DI.: ITL['-SI(:,\
CABECERA
CARGA
VARIABLE
(TIENE SU
d(' tomprnin
PROPIA
Cada paquete de transporte incluye una cabecera mnima formada por 32 bits
(4 bytes). Los dos datos ms importantes de esta son el "Sinc Byte" o byte de sin
cronizacion, de valor fijo (47H o 8811) y el PID (Facket Identtfication o nmero de
identificacion de paquete). El PID sirve para identificar cada una de las posibles
corrientes elementales o cada uno de los programas. Puesto gue el PID se forma
con 13 bits, se dispone de 2 '1 8.192 nmeros de identificacin diferentes, de Jos
cuales MPFG se reserva el "O" para la PAT (Proaram AssocJOton Table), el "1" para la
CAT (ConditionaI Access Table) y el 8.191 para los paguetes nulos o de relleno_
El receptor dispone del llamado "PSI" (Proaram Spectfic Ir:formation) , que le per
mite determinar qu identificadores tiene que buscar y decodificar para cada pro
grama. Esto se logra mediante la consulta de cuatro tablas bsicas:
,
PAT: La "Pro8ram Association Toble"o "tabla de asociacin del programa" tiene siem
pre un identificador (PID) de valor cero. Es lo primero que tiene que decodificar
el receptor, ya que contiene informacion gue relaciona un programa especfico
(identificado por un nmero) con el PlD de la PMT.
PMT: Cada programa dispone de un "Program Map TabIe" o "tabla de contenidos
del programa", que lista informacian de todos los elementos (vdeo, audio, tele
texto, etc.) que pertenecen al programa.
NIT: El contenido del "Network lriformation rabIe" o "tabla de informacin de la
cadena" esta definido en MPEG como "privado" en el sentido de que no lo define
la norma, sino que se deja que sea el radiodifusor o el proveedor del servicio quien
decida su contenido. La intencin del NIT es p-oporcionar informacin sobre los
parmetros fsicos de la cadena, tales como frecuencia FDM, nmero de transpon
dedores, etc.
CAT: La "ConditionaI Access Table" o "tabla de acceso condicional" es un enlace que
permite al decodificador encontrar los trenes binarios que contienen las llaves
electrnicas necesarias para decodificar un programa enmascarado.
La informacian de referencia temporal de programa se transporta mediante el
~i~tcm,)_~
PROPIA
CABECERA) CABECERA)
Figura 8.21.
PCR, que se encuentra en los campos opcionales del campo de adaptacin y se usa
para la sincronizacin del decodificador. Otros campos importantes son:
Contador de continuidad (Continuity CouBter): Campo de 4- bits gue cuenta cclica
mente de O a 15. Este campo se usa para detectar paquetes repetidos o perdidos.
Indicador de discontinuidad (Discontinuity Indicator): Indica tanto una discontinui
dad en la base de tiempos como una discontinuidad en el contador.
Indicador de acceso aleatorio (Random Access Indicator): Indica que el prximo
paquete PES, con el mismo PID que el actual, contiene una "cabecera de secuen
cia de video" o el primer byte de un cuadro de audio.
Cuenta atrs para corte (Splice Contdown): Campo de 8 bits que especifica el nme
ro de paquetes del mismo PID antes de que se produzca un punto de corte, es
decir, se alcanza un punto de corte cuando este campo vale O. Tal paquete contie
ne el ltimo byte codificado de una imagen o de un cuadro de audio.
Adems de los explicados anteriormente, la cabecera puede incluir los siguien
tes campos:
CABECERA PRINCIPAL:
Indicador de error en el transporre.-lndica si el paquete es errneo: O
= error.
=no-error;
253
252
IndIcador de dlscontlnuidad
Bandera OPCR
Campos
opcIonales
Bandera PCR
EJ
Reservado
1 6 bits
33 bits
Base de
referencia del
reloj de programa
-1 byte-
Extensin de
I
..
referencia del
reloj de programa
Datos privados o
"1" bytes
~gU
PCR;X
..
..
CAMPO DEADAPTAClN
Longitud del campo de adaptacin.-Especifica el nmero de bytes que siguen en la
cabecera de adaptacin. Puede servir tambin para que e! decoder se salte el
campo de adaptacin y vaya directamente a la parte de datos de carga.
Indicador de prioridad de la corriente elemental.-Indicacin de prioridad de los
datos que estn siendo transmitidos en este paquete (es independiente de Ipriori
dad de transporte" de la cabecera mnima).
CAMPOS OPCIONALES:
PCR J OPCR.-Se utilizan para la sincronizacin de! receptor. Mientras que el
PCR puede ser alterado durante la transmisin, el OpeR (Optional PCR) no.
Datos privados.-Indica que la carga est formada por datos privados no recono
cibles por un decoder MPEG.
Extensin del campo de adaptacin.-Para futuras extensiones de la cabecera de
adaptacin an no determinadas.
1,-_Jif1JD
~
PCR;X
, TIEMPO
DE -N- BITS
Figura 8.22.
Detalle del formato de la componente de longitud fija de la cabecera de adaptacin.
.N BIT!' __ o>
...
CODIFICACiN
-RETARDO VARIABLE-
...
TRANSMISIN
-RETARDO FIJO
...
DESCODIFICACIN
RETARDO VARIABLE
Figura 8.23.
Sincronizacin de los distintos componentes del mltiplex.
A partir de la seal principal (en este caso la seal de video) se extrae la refe
rencia temporal (reloj del sistema) que servir como patrn para todos los servi
cios asociados a ese programa (canales de audio, datos, te!etexto, ctc.). Esta refe
rencia temporal est formada por muestras de un reloj de 27 MHz, que se inser
tarn en los paquetes de transporte al menos 10 veces por segundo.
Ntese que se parte de dos presupuestos: primero, que el retardo total de! sis
tema es constante (desde el envio del cuadro o campo hasta su llegada) y segundo,
que e! retardo de transmisin es tambin constante (cada byte invierte la misma
cantidad de tiempo desde la fuente hasta el destino).
En el demultiplexor se reconstruye el reloj de! programa. Cada PCR que llega
se utiliza para reiniciar (reset) el reloj local en caso de discontinuidad (el indicador
de discontinuidad est a "1") o para corregir (poner en fase) dicho reloj. Esta
correccin es similar a la utilizacin de un PLL (Phase Lock Loop). La idea es pro
porcionar una sincronizacin con la precisin necesaria en cada aplicacin, con las
siguientes limitaciones:
Slo sincronizacin vertical.
Las seales de sincronizacin pueden aparecer slo 10 veces por segundo.
La sincronizacin se logra mediante datos siftware, que puede presentar erro
res de hasta 500 ns.
Se necesita una rpida fijacin de la imagen durante la bsqueda de canales.
La organizacin de los paquetes de datos en MPEG, ya sea formando TS o PS es
realmente muy complicada. Esta se define en la llamada "capa del sistema" y, en el
caso de! MPEG-2, est especificada en la norma ISO/lEC 13818-1. Decenas de
parmetros y variables aparecen en ella. Un estudio exhaustivo de cada uno de los
parmetros ocupara un libro completo.
255
ru
Ln"'j( ),
______L,l"
SlSJCIl1.~--SJ_~.Lll.!l4!.r~n!J
Otro punto fuerte del MPEG-4 es la escalabilidad. Los objetos menos impor
tantes pueden transmitirse con menor resolucin o con menos redundancia para
proteccin contra errores. Los objetos visuales y sonoros pueden codificarsf en
una sola capa base que contenga suficiente informacin como para proporcionar
una resolucin pobre, aunque aceptable, a la que se aade una o mas capas de real
ce que, al sumarse a la capa base, proporcionan ms resolucin, un mayor rango ck
frecuencias, mayor relacin de aspecto, sonido envolvente o tridimensionalidad.
La transformada basica del MPEG-4 sigue siendo la OCT, bastante similar al
MPEG-l y al MPEG-2, aunque se han hecho algunas mejoras en la eficacia de codi
ficacin y en la robustez de transmisin. Se incluye, ademas, un algoritmo wal'elet
para la codificacin de texturas e imagenes estaticas. La codificacin MPEG-4
comienza con un ncleo VLBV (VeJ)' LOII' Bitrate Video o video a muy baja frecuencia
binaria), que incluye algoritmos y herramientas, para proporcionar entre 5 Kbits/ s
Y64 Kbits/ s. Para que el sistema funcione a frecuencias binarias tan bajas, se han
mejorado la compensacin de movimiento y la correccin y cancelacin de erro
res, manteniendo la frecuencia de refresco muy baja (entre Oy 15 fps) Y los rangos
de resolucin desde unos pocos pixel es por linea hasta SIF (352 x 288).
El MPEG-4 no se preocupa directamente de la proteccin de errores necesaria
en canales especificas, tales como radiodifusin mvil, pero ha mejorado la distri
bucin del tren binario de forma que la recuperacin de la informacin sea mas
robusta.
Para canales de mayor calidad, generalmente entre 64 Kbits/ s Y 2 Mbits/s, se
dispone del HBS (High Bitrate Video o video dc alta frecuencia binaria), capaz de
soportar resoluciones que pueden llegar hasta Rec-601 (720 x 576).
Aunque MPEG-4 tiene ventajas evidentes en la produccin y distribucin de pro
gramas interactivos, no esta claro qu efecto tendra en la distribucin y radiodifusin
de programas convencionales de televisin. En estas arcas el MPEG-2 esta fuerte
mente establecido gracias a su inclusin en normas tan importantes como ATSC,
OVB y OVD. En las funciones avanzadas tanto el codificador como el decodificador
MPEG-4 resultan bastante mas cams que sus compaeros MPEG-l y MPEG-2. De
todas formas, existe un "Studio Pre:file MPEG-4" que puede tene,- un gran impacto en
producciones de alta calidad para cine y televisin en alta resolucin.
alfa, genera una frecuencia binaria por encima de 16 Gbits/ s. Incluso la televisi6n
en alta definici6n actual (HDTV), que en la norma americana de la ATSC puede
proporcionar 1.920 x 1.080 pxeles, 60 cuadros progresivos con codificaci6n
4:2:2 y 10 bits/muestra, genera la nada despreciable frecuencia binaria de 2,5
Gbits/s; actualizada a RGB/YUV 4:4:4 y complementada con un canal alfa, nece
sitara 5 Gbits/s. La norma europea de 1.920 X 1.152 pxeles y 50 imgenes por
segundo no entrelazadas generara tasas similares. Es fcil ver por qu resulta Mil
una norma de compresi6n para este tipo de imgenes.
MPEG-4 permite romper la barrera superior de la codificaci6n MPEG-2, que
est en 100 Mbits/s para imgenes de 1. 920 X 1. 152 pxeles en Europa (1. 920 X
1.080 en USA), con codificaci6n 4:2:2 y 8 bits/muest,-a. MPEG-4 se estructura en
tres niveles: LoH' (bajo), Main (principal) y HiBh (alto). El nivel bajo del MPEG-4
es esencialmente equivalente al nivel alto de! MPEG-2.
El nivel principal del MPEG-4 permite acomodar hasta 60 imgenes progresi
vas con muestreo 4:4:4 y 2.048 X 2.048 pxeles. El nivel alto eleva el nmero de
bits/muestra a 12 y la resoluci6n a 4.096 X 4.096, permitiendo resoluciones tem
porales hasta 120 cuadros no entrelazados por segundo. Se espera que la norma
definitiva incluya especificaciones para el canal alfa, aunque los expertos no acaban
de ponerse de acuerdo en el nmero de bits/muestra para este canal.
Al igual que las dems normas MPEG, esta norma define la sintaxis de tren
binario codificado y fija la forma en que el decodificador debe entender los par
metros de codificaci6n, sin entrar en la forma concreta en que debe realizarse la
codificaci6n. Por ejemplo, un decodificador que cumpla con las especificaciones
del nivel alto podra reproducir una imagen de 4.096 X 4.096 pxeles a 24 ips u
otra de 1.920 x 1.152a 100ips.Enelnivelprincipalunaimagende 1.920 x 1.152
podra proporcionar hasta 50 cuadros no entrelazados, mientras que otra de 2.048
X 2.048 se limitara a un mximo de 25 ips.
Como parte de la norma MPEG-4, el perfil de estudio puede utilizar todas las
herramientas de composici6n de escenas e interactividad incluidas en los perfiles
ms bajos, aunque la producci6n de alta calidad ya dispone de un elevado nmero
de herramientas sofisticadas para la composici6n y manipulaci6n de imagen.
Un beneficio colateral del perfil de estudio del MPEG-4 es que los elementos
ducci6n. Esto ayudar a mantener la calidad a medida que el material vaya pasan
do, desde los niveles ms altos de producci6n hasta los receptores de ms bajo
precio.
4.4. El MPEG-7
Es el penltimo miembro de la familia MPEG. Esta vez no se trata de un siste
ma de compresi6n, sino ms bien de descripcin y catalogacian de los contenidos
multimedia. MPEG-7 se describe como Mulcimedia Content DeSCTiption Integace
(MCOI) o interfaz de descripci6n de los contenidos multimedia. Con l se preten
de normalizar un mtodo de descripci6n de los elementos multimedia. Su inten
258
Lo!'-
~istcl1la ...
de comllrcsin
4.5. El MPEG-21
ste s es e! ltimo miembro (por ahora) de la familia MPEG, cuya finalidad es
afrontar e! problema global de la distribuci6n de contenidos multimedia. El grupo
MPEG- 21 espera comprender c6mo los distintos componentes multimedia se rela
cionan unos con otros e identificar los huecos que puedan quedar en la infraes
tructura que pudieran dar lugar a la aparician de nuevas normas.
Los aspectos que se estn investigando se solapan e interactan unos con
otros. Hay temas relacionados con la red, como la velocidad, la fiabilidad, el
retardo, el coste, etc. Otros aspectos relacionados, por ejemplo, con la calidad
incluyen cosas como la autenticidad (es esto lo que pretende ser?), la escala de
tiempo (puedo disponer de ello cuando quiera?), as como aspectos tcnicos y
atributos artsticos.
Los modos de utilizaci6n, los modelos de pago, las tcnicas de bsqueda, las
opciones de almacenamiento, todas ellas son objeto de estudio, as como los dere
chos del usuario y la privacidad. Qu derechos tiene el usuario para utilizar, copiar
y pasar la informaci6n? Ha entendido el usuario correctamente cules son sus
derechos sobre la informaci6n audiovisual? C6mo protegern los usuarios sus
datos personales?Y c6mo podrn negociar la privacidad con el suministrador de
contenidos?
5. El sistema DV
DV es una familia de magnetoscopios digitales que abarca DY, DVCAM,
DVCPRO-25 y DVCPRO-50. A stos habra que aadir el recin aparecido
DVCPRO-1 00, que trabajar a 100 Mbits/ s y est adaptado a las necesidades de la
HDTV, especialmente a la captacin de noticias (ENG) en HDTV para el sistema
americano de la Gran Alianza, ahora denominado ATSC. DVC-PRO est basado en
el mnimo chip-set que el resto de la familia DV. Los tres primeros formatos (DV,
DVCAM y DVCPRO) generan, despus de la compresin una tasa binaria de 25
Mbits / s. La diferencia entre ellos est ms en el campo de aplicacin que en la
forma en que codifican las seales de video y audio. Como puede deducirse,
DVCPRO-SO produce, despus de la compresin una tasa binaria de 50 Mbits/ s,
por lo que comprime la mitad que los anteriores. Hay otro formato, el llamado
DlGITAL-S de ]VC, que tambin genera 50 Mbitsls y se basa en los mismos prin
cipios de codificacin que el DVCPRO-50. En cualquier caso, todos ellos utilizan
la DCT como ncleo bsico; todos ellos son de tipo intracuadro y todos ellos uti
lizan los mismos chips bsicos de codificacin.
En los magnetoscopios digitales los usuarios, que son los montadores de vdeo,
quieren disponer de una precisin total a la hora de definir los puntos de inserto
durante el montaje. Esta precisin "al cuadro" obliga a despreciar la posibilidad de
compresin temporal, intercuadro o tridimensional, que de las tres formas se cono
ce. Para ser precisos, hay que puntualizar que existe un formato, el BETACAM-SX,
que no respeta este principio. El algoritmo de compresin del BETACAM-SX, que
est basado en una extensin de la norma MPEG denominada MPEG-2 4:2:2 prrifile
at Main Level, utiliza compresin intercuadro con GOP = 2 de tipo 1,8,1,8,8... , se
ha diseado para aplicaciones ENG y mantiene un cierto grado de compatibilidad
con el Betacam analgico. Con GOP = 2 Y secuencias I,B,I,B ... es posible, sin
embargo, la edicin con precisin de cuadro del tren binario comprimido. Las im
genes B se obtienen dinmicamente a partir de las imgenes 1 anteriores o poste
riores al punto de edicin y pueden ser convertidas "al vuelo" en imgenes "1" grao
cias a que el DVTR Betacam-SX incorpora varias memorias de cuadro.
Probablemente la caracterstica ms novedosa e interesante de la codificacin DV
sea el proceso de '1)arajado de bloques intracuadro" que, como se ver, mejora la cali
dad obtenible para una cierta frecuencia binaria y facilita la obtencin de trenes bina
rios de frecuencia estable. Para lograr la meta de 25 Mbits!s, los formatos de la fami
lia DV comienzan por submuestrear la crominancia segn la tabla 8.5
Tabla 8.5 Slo la variante DVCPRO-SO no submuestrea la crominancia antes de proce
der a la compresin.
FORMATO
DV
DVCAM
DVCPRO-25
DVCPRO-SO
260
NORMA DE TELEVISIN
525/60
4:1:1
4:1:1
4:1:1
4:2:2
625/50
4:2:0
4:2:0
4:1:1
4:2:2
L_().')
:;i~l"-In.I~~qilllJ-~&~.!iu.!
Como puede verse, los fOI-matos DV y DVCAM, que estn destinados al mero
cado domstico o al rango bajo del sector profesional, utilizan suhmuestreo 4: 1: J
en Amrica (y paises afines), mientras que en Europa y otras zonas de 625 lneas
emplean submuestreo 4:2 :0. Las razones de esta diferenciacin regional no han
estado nunca muy claras. Tal vez sea porque una codificacin 4: 2:0 se adapta
mejor a la seal PAL (por lo del promediado ycrtical de la crominancia), mientras
que 4: 1: 1 es ms adecuado para NTSC (que limita ms el ancho de banda de las
seales diferencia de color y, por tanto, la resolucin horizontal dc la crominan
ca), ya que, aunque sean formatos digitales en componcntes, en muchos casos el
usuario ver las grabaciones en un receptor analgico compuesto. Tambin podra
ser quc en Amrica se considerara que el DY, aunquc esencialmente domestico,
podria constituir una fuente de imgenes importante para las cadenas de infor
mativos. En Europa siempre se ha sido ms exigente en este sentido. Adems la
codificacin 4:2:0 enlaza fcilmente con MPEG, que es el nueleo de la codifica
cin DVB o "Diaital Video Broadcastina", que es, a su vez, el sistema de televisin
digital va satlite, cable o difusin terrcna para Europa. Por otro lado, el
DVCPRO, ms orientado haca el mundo de los informativos profesionales, utili
za compresin 4: 1: 1, tanto en Europa como en Amrica. Se facilita as la transco
dificacin y el intercambio de programas. Sca como sea, tanto 4: 1: 1 como 4:2:0
reducen la tasa binaria de 168 Mbits/ s a 125 Mbits/ s. sta es la seal de entrada
a los compresores DV.
MACROBLOQUE 4: 1:1
DCT 88
__ o
.-.-.":~':n'~:;'H
Campo
Campo
..t
.E
Campo
IImltl;SiI
'-<"-~ElII
~jl\j~
1
~ 0.4 1,4
/
TITIII
~T6 ~64b:~~_= :~:YI:~T ',)
&i ".
-~
el
--
&
E
el
DETECCiN DE
MOVIMIENTO
I,-:====~=~
-
./
OCT
H 1
VLc..
Figura 8.24.
DVCPRO-S.
A continuacin se agrupan cinco macrobloques, seleccionados de distintas par
tes de la imagen, para formar un "segmento de vdeo", el cual tendr un tamao de
384 X 5 ::: 1.920 bytes (flgura 8.25). Hay que notar que hasta este punto no se ha
producido ningn tipo de compresin. Se trata ms bien de una reordenacin pre
via a la compresin. El proceso de formar segmentos agrupando macrobloques de
distintas partes de la imagen se denomina "barajado" (shriffling) y se realiza con la
intencin de "igualar la dificultad" de los segmentos.
~~~xej;~;~l~~ov~~~~ ..
~I
Figura 8.25.
Barajado intracuadro de los macrobloques en el sistema OY.
Puesto que cada uno de los cinco macrobloques procede de una zona distinta de
la pantalla, su contenido ser distinto y variado, de manera que un macrobloque
determinado contendr mucho detalle y poca redundancia espacial, mientras que
otro macrobloque del mismo segmento pertenecer a una zona lisa con mucha
redundancia. La ventaja del barajado, previo a la compresin, es que, como pro
medio, los grupos de macrobloques contienen aproximadamente la misma canti
dad de redundancia.
En DV se utilizan las mismas tablas de recuantiflcacin para todos los bloques
del mismo macrobloque. Por otro lado, distintos macrobloques pueden utilizar dis
tintas tablas de recuantificacion, dependiendo del anlisis espectral en esa zona de
la imagen.
262
________________________Lo.c;
ll\
~i:'l{'ma~
dc
("n.!l1p,.c~i~Hl
"\lperbloqUll'7m8<;:,.ot.l.qves
<
/,
o~
_-=---
~----- --
6 MBsdi! llpiJeles
l'
~se!.:U
1.,.
I~f+tl-H~I )'JM~s4~e~::..~:ll'1"~
1 e.-"l1f1:"J.lUfO"PAl
\\0 fl'SIIII en NTSC)
~.,e:'
~
/
Figura 8.26.
En DV la compresion esta flanqueada por un proceso dc barajado y otro de desbarajado, de forma
que la cantidad de datos sca constante despus dc la codificacin de longitud variable (VLC).
264
Resumen
~.8p;.Gln
_~~~_:~~/p~~:~~eles ~ ,1
~(S8! ..:,:,
~,"
Los principales sistemas de compresin pal-a imagen son: J PEG para reto
que fotogrfico de imgenes estticas; M-JPEG para compl'esin intracua
dro de imgenes en movimiento; MPEG-l y MPEG-2, que forman una
familia completa de normas de compresin, para todo tipo de aplicaciones,
y grupo OV para compresin intracuadro aplicada a los magnetoscopios
digitales.
JPEG utiliza dos modos de compresin: compresin sin prdidas basada en
codificacin predictiva, seguida de codificacin aritmtica o codificacin
Huffman, y compresin con prdidas (pcrceptual) basada en OCT progresiva
o secuencial.
M-JPEG es bsicamente lo mismo que JPEG, pero adaptado a las imgenes de
televisin (tamao del raster, espacio de color, etc.). Al igual que JPEG, el
Motion-JPEG es un sistema de compresin intracuadro.
Los codificadores con prdidas M-JPEG para aplicaciones profesionales de
edicin no lineal suelen utilizarse factores de compresin entre 3: 1 y 6: 1. Por
su lado, los compresores M-JPEG sin prdidas no superan factores de com
presin de 2: l.
o El MPEG-l comenz en 1988 con la intencin de lograr un procedimiento
265
266
CAPTULO
El audio analgico
1. Naturaleza del sonido
El sonido se define como las variaciones u oscilaciones en la presin, en e! despla
zamiento o en la velocidad de las particulas en un medio elstico. Para nosotros los
humanos e! sonido es una sensacin producida en e! odo por las mencionadas oscila
ciones. Tres son las caractersticas que definen al sonido: intensidad, tono y timbre.
y que nos permite distinguir entre sonidos dbiles, medios o fuertes. La intensidad
de! sonido depende de la cantidad de energa que se utiliza para producir la vibra
cin o variacin de presin de! aire. Cuanta ms energa se utilice, mayor ser la
variacin de presin y ms alta la intensidad de! sonido producido. Nosotros pel-ci
bimos la intensidad como volumen o potencia del sonido.
El odo humano no es capaz de medir la intensidad de un sonido de forma absolu
ta. En lugar de esto, el odo humano trabaja por comparacin, es decir, comparando
la intensidad o volumen de un sonido con otro. Por tanto, nuestra sensacin de volu
men es ms una medida relativa que una escala absoluta, de tal forma que lo que per
cibimos son realmente relaciones de intensidad de un sonido con respecto a otro. Estas
relaciones de intensidad se miden en decibelios (dB).
De forma simple podemos decir que un decibelio no es otra cosa que la com
paracin entre la intensidad de dos sonidos. Se trata de una escala logartmica que
nos permite expresar valores fsicos muy altos mediante una escala de nmeros
relativamente pequea. Por ejemplo, la escala de decibelios est diseada de tal
manera que doblar la intensidad (potencia) se expresa mediante un incremento de
3 dB. En otras palabras, cuando doblamos o dividimos por dos la intensidad de un
268
269
ACTll.l,,\
Hz, etc.). Dependiendo de la forma, tamao e incluso tipo de madera con que est
construida la caja del violn, ciertas frecuencias armnicas salen ms favorecidas
que otras, de tal forma que lo que realmente olmos es la suma de la frecuencia ori
ginal (400 Hz) y ciertas proporciones de frecuencias armnicas. En el interior de
la caja del piano se produce el mismo efecto de generacin de frecuencias annoni
cas, pero en este caso la caja es mucho ms grande y tiene una forma muy dife
rente. De hecho, puesto que no es posible construir dos instrumentos absoluta
mente idnticos aunque sean de! mismo tipo (por ejemplo, dos violines), cada ins
trumento tendr su propio sonido aunque ambos estn perfectamente afinados.
dlcm2
dB
10.000
140
1.000
130
100
100 Metro
10
O.L, ,
0.01~
90
Trafico
.eo
Cantanle profeSIOnal
70
Fbnca
60
Conversacin normal
50
Ofictna
1.000.000 : 1
40
Susurro
30
Sala de estar
0.001
0.0002
20
\-'0
20
Umbral de audiCin
Figura 9.1.
271
270
Il::\:OC(llir;;-:-,t"--ru.-\1.
r JI
_____________________________________--""'E'--I.",'U",dIU .1!)'1.lljgM
1 ti.!. \',10:--'
120
'101onl)!:
110
100 ronos
100
90 fonos
i 90
~~~0
7010"'!!~0
--------:f~no~-~
ro
80
ji
70
~~
60
\.
','-,
,,
~ 50
~
"ii
,..
40
, ,
.... ,
30
40 lonos
30 lonos.
,. ,.
20
~
i
10
20
:H.5
63
125
;~~'i~:
10
I
250
I
500
FTI~cuencta
-1-:- _ L_
l;
1.000
2.000
I
4.000
8000 12500
en Hz ________
Figura 9.2.
tonos puros segn la norma ISO 226 de 1987. Estas curvas pueden entenderse
como las curvas inversas a las de respuesta a las distintas frecuencias por parte del
odo humano y para dife"entes niveles de presin sono"a (Sound Pressure Leve! O
SPL). Un tono de 1 Khz que tiene una presin sonora de 40 dB produce un nivel
de sonoridad de 40 fonos. Para que otro de 63 Hz produzca la misma sensacin
sonora, su SPL dcbc incrementarse en 20 dB. Los contornos de igual intensidad
tienen diferentes formas a diferentes SPL. A medida que la intensidad del sonido
aumenta, la respuesta a frecuencia del odo mejora y se vuelve razonablemente
plana, con una variacin de 10 dB a un SPL de 110 dB.
Puede verse, a partir de la figura 9.2, que el umbral de audicin para bajas fre
cuencias esta en torno a los 60 dB. Igualmente puede apreciarse que la maxima
sensibilidad del odo humano se cncuentra hacia los 3 KHz, superados los cuales la
sensibilidad vuelve a decrecer.
El audio anal2'ico
"0
110
roo
90
<D
BO
70
2. 1. Medidas de nivel
60
jj
~ 50
En general se utilizan tres o cuatro unidades de medida para definir los niveles
de audio.
;; 40
30
20
2.1.1. E1dBm
lO
O
-10
20
31,S
63
'25
500
250
1.000
2.000
Frecuencia en H,z-------.
4.000
6.000 12_500
Figura 9.3.
La curva exterior muestra la zona de audicin humana en funcin de la frecuencia y del nivel
de presin sonora. Las curvas interiores muestran las zonas ocupadas por la msica y la pala
bra, respectivamente.
2.1.2. EL dBu
Una forma alternativa de medir los niveles de la seal de audio es el dBu. En este
caso se asume que la impedancia de la fuente es "casi-cero" y que la impedancia de la
carga es "casi-infinito". En estas condiciones idealizadas de carga abierta la fuente no
disipa ninguna potencia medible en la carga, de manera que el voltaje de la fuente de
carga abierta no queda afectado en absoluto por dicha carga. El nivel de seal de refe
rencia sigue siendo O, 775V RMS. A efectos prcticos, el concepto dBu requiere impe
dancias de la fuente del orden de 50 ohmios o menos y que la impedancia de la carga
iguale o exceda a 10 K Q. En ocasiones se emplea tambin la abreviatura dBfl.
275
El auJiu
2. 1. 3. EL dB V
Literalmente se refiere a cambios de nivel con referencia a 1V RMS. Es una utiliza
cin poco afortunada, ya que los decibelios no pueden referirse a simples voltajes. Para
superar este escollo se asume que los voltajes se desarrollan sobre cargas totalmente
abiertas. El dBV suele ser utilizado por los fabricantes de mio-fonos.
2.1.4. EL dBW
Hay una cuarta unidad: e! dBW o decibelio-vatio. Se utiliza para medir la poten
cia a la salida de los amplificadores. Se dice, por ejemplo, que un amplificador de
100 vatios tiene una potencia de 20 dBW El valor de potencia medido en dBW es
numricamente igual a diez veces el logaritmo decimal de la potencia de salida
expresada en vatios.
Salida de seal
Entrada
art~Q
Salida de seal
Enlrada e Q U i l i b r a d { >
Transformador
Transformador
'"':.~ ~III~
M.r4
rv\;
Seal de audio
J\I'-TIerra
Cubierta de
plstico
Dos conductores
aislados
Conector macho
visto desde el
Figura 9.5.
Cable conductor
Malla de apantallamiento
Tierra
AiSla~~le)
Cubierta de
plstico
Conductor
Malla
Figura 9.4.
Conexin entre dos equipos "no equilibrada".
276
central
Tr-CNOIDCiA ACTU.-\I DF
nJ
I-ShIO.\:
El audio analpico
= 201 og
Tensin de salida dB
1 voltio
Tension de salida
Vs
Preamplificador
1.500 ohmios~
.-
Malla de blindaje
r---.J
Figura 9.6.
U-\l-..\..Ji_lJ.",!lhll("L_gI
En circuito abierto
SPL (dB)
mV
dBV
dBu
mV
120
74
34
20.000
100
1
-34
-80
-120
-31.8
-77.8
-117,8
18.000
91
0,91
(a)
Fuente
/Iv
.JL!J
Carga
300ll
+4d Bm
2,4'6 V
=1.23 V
1
!\j\-----
300ll
Fuente
25n
(b)
ooo~Ll>
Carga
yamente alta, por lo que reqtere poca corriente, pero a la "ez lo suficientemente haja
como para no permitir muchas interferencias. Aunque esta impedancia se escogi
pensando en los circuitos de telecomunicaciones, fue posteriormente adoptada por la
industria de la radio)' la televisin.
En una primera poca la conexin entre los distintos equipos de produccin clP
audio, as como la conexin a los equipos de transmisin, se hizo siguiendo el prin
cipio de "igualaCin de potencias". La figura 9.7 (a) muestra una configuracin tpi
ca. Este modo de conexin se basa en los siguientes principios:
1. La fuente de audio, ya sea un magnetfono, una mesa de mezclas, la salida
de un amplificador de micrfono, etc., presenta una impedancia de salida de
600 W balanceada.
2, Igualmente la impedancia de entrada del equipo receptor es de 600 W y
balanceada.
El nivel de la seal de audio se expresa en dBm, adoptndose un nivel de ope
racin normalizado (Standard Operating Leve] o SOL) de +4dB, correspondiente a
+ 1,23V RMS sobre una carga de 600 Q, aun
que tambicn pueden utilizarse niveles ms
Voltios
altos, como, por ejemplo, 6 dBm u 8 dBm. El
dBm
sobre 600 D
mW
SOL representa el nivel maximo, o nivel de
24,5
1.000 - - . - - 30
pico de una seal sostenida, tal como es medi
- 29
21,8
800
da con un "vmetro" (medidor de unidades
28
19,5
600
VU). La figura 9.8 muestra la relacin entre el
27
17,3
500 - t
nivel dBm, el voltaje desarrollado sobre una
15,5
400 ==1---- 26
2 5 - 1 - - 13.8
carga de 600 Q y los niveles de potencia en
300
24
12,3
m W de las seales de audio.
200 ---f--- 23
10,9
Hay otro concepto o sistema de conexin
22
9,75
150
ms moderno, basado en la igualacin de vol
21
8,69
tajes. En este caso el nivel de la seal se expre
100 ~ 20
7,75
sa en dBu y el SOL puede ser de 4 dBu, 6 dBu
80 ~ 19-f--- 6,90
u 8 dBu. De esta forma se reducen considera
18
6,15
60
5.48
blemente las necesidades de potencia de la
50 ----=t-- 17
40 ==1--- 1 6 - - 4,89
fuente de audio, ya que slo se precisa disipar
- 1 5 - - 4,36
30
una mnima cantidad de potencia sobre la
14
3,88
carga. Una ventaja adicional es la mejor res
20 ---f--- 13
3.46
puesta, tanto a las distintas frecuencias como a
12
3,08
15
los transitorios, ya que la carga capacitiva del
11
2.75
cable blindado y balanceado tiene menos efec
10
2,45
9 - f - - 2,18
to sobre una impedancia de la fuente pequea
8 - - 1.95
de slo SO Q, que la que presentara sobre una
7 - f - - 1,73
impedancia de la fuente de 600 Q, Este siste
6
1.55
ma puede verse en la figura 9.7 (b),
5
1,38
'I
3
Figura 9.7.
En (a) puede observarse el principio de igualacin de potencias, mientras que en (b) puede
280
2 ---f--
1.5
3
2
1
1.23
1.09
0,975
0,869
0,775
Figura 9.8.
El audio anal[!ico
TECN()LOc;l" ACTll:\L DL n:LE\'ISI:'-J
y monitorizado de nivel
2. Medicin
Los niveles de la seal de audio son cuidadosamente controlados por los opera
dores, pal-a asegurar que picos momentneos o niveles sostenidos no causen sobre
carga y distorsiones en los distintos equipos de! estudio. Se dispone de medidores
normalizados de varios tipos, aunque los ms importantes son el "medidor YU" o
"vmetro" y el "PPM" o "picmetro"_ A stos habra que aadir el "modulmetro".
2. 1. El vmetro
El "vmetro" o "medidor YU" fue desarrollado por los laboratorios de la Bell
Telephone en Estados Unidos en 1939 y se utiliza para controlar y monitorizar
el audio de programa. Las especificaciones del vmetro reflejan la filosofa de
los aos 30. Este medidor est formado bsicamente por un galvanmetro y un
rectificador en puente de onda completa. Dispone de una escala graduada en
dB y en tanto por ciento. La figura 9.9 muestra el tipo de escala ms utilizado
en los medidores tipo vmetro, sobre todo en aplicaciones de grabacin y con
trol.
El nivel cero en el vmetro debera corresponder al nivel de referencia de 1
m W sobre una carga de 600 W. Por tanto, e! medidor debera indicar "O VU" cuan
do el voltaje de la lnea que se est midiendo fuera de 0,775 V.
Por otro lado, se considera que para que el instrumento de medida no suponga
una carga significativa sobre el circuito, su impedancia debe ser unas diez veces
superior a la de ste. Por tanto, si la impedancia del circuito es de 600 Q, la impe
dancia del instrumento debera ser, al menos de 6 KQ. Sin embargo, los medidores
YU tienen una resistencia interna normalizada a 3,9 KQ, por lo que normalmente
disponen de una resistencia extra en serie de 3,6 KW, presentando una resistencia
global de 7,5 KQ. Esta resistencia ocasiona una cada de 4 dBm, de manera que
cuando en la lnea tengamos la tensin de referencia de 0.77 5 mV, la indicacin del
escalas:
o Una escala VU en la que el nivel de referencia "O" se sita aproximadamente
en el 71 % del mximo de escala, con un rango total entre -20 (mnimo) y + 3
o
(mximo).
Una escala de porcentaje, en la que el nivel de 100% corresponde al nivel "O"
de la escala anterior.
El mediclor ,,'metro debe, adems, respetar una serie de caractersticas dinmicas:
o Si se aplica de [arma rpida un voltaje senoidal de frecuencia comprendida
entre 35 Hz y 10KHz y de una amplitud tal que corresponda al nivel de refe
rencia "O", la aguja indicadora mostrar la deflexin adecuada en un tiempo
de 0,3 segundos, con una tolerancia de I0%. Este valor se eligi para igua
lar la respuesta elel sistema de audicin humano.
o En las mismas condiciones que en el punto anterior, la aguja no sobrepasar
la indicacin "O YU" ms de un 1,5%.
o La respuesta en frecuencia del indicador no debe desviarse ms de 0,2 dB
entre 35 Hz y 10 KHz, ni ms de 0,5 dB entre 25 Hz y 16 KHz, siempre en
relacin a la respuesta a 1 KHz.
El tiempo de elevacin de 0,3s. del medidor vmetro introduce un efecto de
enmascaramiento. El instrumento es incapaz de dar indicaciones de nivel de audio
precisas para formas de onda complejas con tiempos de elevacin rpidos. El nivel
instantneo de la palabra o de la msica podra realmente situarse hasta 10 VU por
encima de la lectura proporcionada por el instrumento. Si se utilizan medidores
vmetro para controlar la grabacin, es necesario dejar mucha tolerancia, en los
niveles mximos, para evitar el recorte en transitorios o en rfagas cortas de la
seal de audio. Por esta razn el medidor vmetro se utiliza relativamente poco en
los estudios de grabacin y radiodifusin.
2.2. El picmetro
-1
-~
J.--.---.---- .:0
_'\
.7-\'J
'0/.
...
-3
-2
-1
\~~-L~,
.. ~
~~
-~
80
Aa
100
.'""'~
"f..J
"f';;;"v
a 7-\'J
vu
Figura 9.9.
y retencin.
283'
282
1.:1 J UdE~~!.E!tgi~
(b)
+6
Ruien
(e)
000000 100
00 ~O 7 5 3 2 1 88
O 'l-O\~
O ..<:J
":>~
.~ 8
PEAK LEVEL
)(~
-6
El,).ri~
.;
-12
dB
-t
. -l
-18
Zumbido
otros
IntefE!rencias
Alinsalidad dQ
Distorsi6~ Frecuencia
Une;1
LAljll~8lidad
de Fase
Distorslon
f)ISTORSIN
AlflatoriD
Peri6diW--{
- No-Lineal
WCJw
-24
30
Mec;nica
--FIUGtuaCitin~FIUller
Figura 9.11.
-36
Figura 9.10.
Cuatro tipos de picmetros: (a), de formato vertical con LEO; (b), de formato vertical
mediante haz luminoso; (e), de arco con LEOs; (d), de aguja tipo !lA.
Aunque no hay una norma universal, el tiempo de subida o elevacin puede estar
en torno a los 10 ms, mientras que el tiempo de extincin puede alcanzar los 3 s.
Como puede deducirse, el indicador VU y el picmetro proporcionarn esen
cialmente la misma medida, mientras el contenido del programa se base en sea
les de nivel sostenido. Sin embargo, cuando la seal de audio presenta un nmero
importante de transitorios, como, por ejemplo, cuando suenan los instrumentos
de percusin, el picmetro puede indicar hasta 10 dB mas que el medidor VU. La
figura 9.10 muestra cuatro tipos distintos de picmetros. En concreto, la figura (d)
muestra el tipo conocido como "PPM-I1A", muy utilizado por las cadenas de radio
difusin europeas. En este indicador cada intervalo corresponde a 4 dB. Un tono
de OdBu colocara la aguja en el centro, es decir, en la posicin "4". Un tono de +8
dBu sera indicado como "6". Los picmetros se utilizan preferentemente en
Europa, mientras que en Estados Unidos se prefieren los medidores VU.
3. Ruidos y distorsiones
Las caractersticas de un equipo de audio, ya sea una mesa de mezclas, un mag
netfono o cualquier otro aparato, o incluso de un sistema completo de audio, se
expresa en trminos de una serie de parmetros de calidad medibles. La figura 9.11
muestra un esquema de los tipos de distorsiones mas importantes.
284
3.1. Ruido
A toda seal de audio le acompaa, inevitablemente, una cierta cantidad de
ruido. En general, se puede decir que el ruido es consecuencia de imperfecciones
o irregularidades en la materia, tales como una distribucin irregular de las part!
culas de xido en la cinta magntica o en la estructura granular del carbn de una
resistencia.
El ruido se define como cualquier seal indeseable que se aade a la seial de
audio til. El nivel del ruido suele expresarse en dB, con referencia al nivel de la
seal til, es decir, como "relacin seal a ruido" (SNR). En los equipos utilizados
en estudios de grabacin y radiodifusin el nivel de la seal til que sirve como
referencia para medir la SNR es el "MOL" (Maximum Operatina Leve] o nivel mxi
285
TI-c.,'( JI ()(;I:\
r\CTlIAL DE rl:llVISI.\,'
El audio analrico
E = 4kTBR; E = 2.JkTBR
"
fl
Siendo: E
voltaje RMS del ruido.
k = constante de Boltzmann = 1,38 x 10-23 joules/grado.
T
la temperatura absoluta en grados Kelvin.
resistencia en ohmios.
R
La frmula anterior suele simplificarse dando a "T" un valor de 300 K (equi
valente a unos 27 C). En tal caso puede escribirse:
u
Tabla 9.2 Relacin seal a ruido a la salida de un micrfono en circuito abierto, para
diferentes niveles de presin sonora.
SNR (dB)
120
20.000,00
100,00
22,40
1,00
99,21
53,19
40,19
13,19
74
61
34
286
287
TI.C.'OIJH,;!~JI11 PI
1_,I"'U".\,,""",,"'-':'.:
1.L1~.J.!_;Jl0J2J~
frecuencia "f", se obtiene a la salida una seal en que, adems, de la frecuencia ''1"'',
estn tambin presentes frecuencias mltiplo de "f", es decir, 2f, 3f, 4f. .. Se deno
mina "factor de distorsin armnica" a la relacin entre el \"Oltaje RMS de todos
Jos armnicos (separados de la seal principal y sumados) y e! voltaje RMS total
de la seal distorsionada. Esta medida es muy importante en los equipos de audio
)' suele especificarse como el tanto por ciento que supone la seal arm6nica con
respecto al total de seal para una potencia de salida dada.
La distorsi6n del tercer arm6nico se ha venido utilizando para medir la calidad de
los magnetfonos. Para ello se utiliza una seal de prueba de 333 Hz y se extrae a la
salida, mediante un filtro, la componente de 999 Hz. En el caso de los grabadores de
audio, la amplitud de las distorsiones de orden mayor es irrelevante, como conse
cuencia del prenfasis que sufre la seal antes de la grabaci6n.
La distorsi6n por intermodulacin se produce cuando un sistema que es alimen
tado con dos seales de frecuencias distintas (f1 y f2) genera a su salida, adems de
dichas seales fI y f2, otras iguales a la suma y la diferencia de fI y f2 o a la suma y
diferencia de mltiplos de estas seales. Una de las normas o procedimientos de
medida especifica la utilizacin de 60 Hz para fI y 7 KHz para f2, siendo la ampli
tud de la primera cuatro veces superior a la de la segunda.
Resumen
Las distorsiones no lineales se refieren a las desviaciones en la relacin lineal
que debe existir entre la entrada y la salida de un equipo y se dividen, bsica
mente, en: distorsi6n armnica y distorsi6n por intermodulaci6n. La distorsin
arm6nica se produce cuando, al inyectar en un sistema una onda senoidal pura de
288
Tres son las caractersticas que definen al sonido: intensidad, tono y timbre.
La intensidad es la caracterstica del sonido relacionada con la amplitud o altu
ra de la vibraci6n y que nos permite distinguir entre sonidos dbiles, medios
289
El
290
,\udlo ,lIlalPICo
Las lineas de audio "no equilibradas" se caracterizan por utilizar un solo hilo
conductor interno, recubierto por una malla de blindaje. El conductor inter
no o "alma" constituye el "camino de ida", mientras que la malla forma el
camino de retorno.
Las lneas equilibradas se basan, en cambio, en la utilizacin de dos cables con
ductores centrales, en lugar de uno solo. As se mejora el rechazo a las inter
ferencias externas. En cada extremo del cable se coloca un transformador,
que acta como equilibrado!". Las lineas equilibradas o balanceadas se utilizan
en aplicaciones profesionales, ya que son mucho ms resistentes a las interfe
rencias.
En lo que al nivel de seal que entregan se refiere, los equipos de audio pue
den dividirse en dos grandes grupos o categoras: los que entregan niveles de
salida bajos y los que dan un nivel de salida alto. A la primera categora corres
ponden, de forma casi exclusiva, los micrfonos (y otros transductores simi
lares). Todos los dems equipos proporcionan un nivel de salida alto, que suele
etiquetarse como "nivel de lnea".
La sensibilidad de los micrfonos suele expresarse en microvoltios o dBV,
medidos sobre una carga abierta y para un nivel de presin sonora de 74 dB,
Y es una medida de la eficacia con que un micrfono convierte la presin
sonora (energa mecnica) en seal de audio (energa elctrica). Los micrfo
nos de condensador, que son los ms sensibles, proporcionan, tpicamente, 20
m VIpa, mientras que los micrfonos de bobina mvil dan, aproximadamen
te, 2 mV/pa.
La impedancia de 600 Q se eligi para las seales de lnea porque es relativa
mente alta, por lo que requiere poca corriente, pero, a la vez, lo suficientemen
te haja como para no permitir muchas interferencias. Aunque esta impedancia se
escogi pensando en los circuitos de telecomunicaciones, fue posteriormente
adoptada por la industria de la radio y la televisin.
Se dispone de medidores normalizados de varios tipos, aunque los ms impor
tantes son el "medidor VU" o "vmetro" y el "PPM" o "picmetro". A stos
habra que aadir el "modulmetro".
El vumetro dispone de una escala graduada en dB y en tanto por ciento. Es el
ms utilizado, sobre todo en aplicaciones de grabacin y control. El picme
tro es un medidor capaz de mostrar "picos" rpidos en la seal, tales como
transitorios y subidas rpidas de nivel. El picmetro presenta una impedancia
equivalente a ms de cincuenta veces la de la fuente. El indicador VU y e!
picmetro proporcionarn esencialmente la misma medida mientras el con
tenido de! programa se base en seales de nivel sostenido.
Las distorsiones de origen elctrico pueden agruparse en tres categoras bsi
cas: ruido, distorsiones lineales y distorsiones no lineales. El otro grupo de
distorsiones lo forman las de origen mecnico y se deben a imperfecciones en
los sistemas de desplazamiento de los magnetOfonos y otros reproductores.
El ruido se defille como cualquier seal indeseable que se aade a la seal de
audio til. El nivel del ruido suele expresarse en dB, con referencia al nivel de la
seal util, es decir, como "relacin seal a ruido" (SNR). En los equipos utiliza
291
[L1.\'I.... ,{),'\!
dos en estudios de grabacion )' racliodifusion el ru"el de la seal til que sine
como referencia para medir la SNR es el "MOL:' (Maximum Operatin8 Lel'el o nivel
mximo de operacin), el cual est unos 10 dB por encima del SOL (Standard
Operating Lere! o nivel normal de operacion).
El ruido peridico suele generarse fuera del equipo, al que se acopla de algu
na forma. A diferencia del ruido aleatorio, el pe-idico puede ser totalmente
eliminado mediante un adecuado diseo del equipo y una instalacin adecua
da. El tipo ms frecuente de ruido peridico es el llamado "zumbido", consis
tente en oscilaciones de 50 Hz y sus armnicos, pwvenientes de la red elc
trica.
Se denominan distorsiones lineales aquellas que son independientes de la
amplitud de la seal de audio. Las dos principales distorsiones lineales son la
"alialidad en la respuesta a frecuencia" y la "alincalidad en la fase". La primera
se define como las variaciones, medidas pico-a-pico, de la amplitud de la
seal, sobre el ancho de banda considerado. La segunda se refiere a las varia
ciones o desplazamientos de la fase de la seal, en funcin de la frecuencia,
denh'o del ancho de banda de inters.
Las distorsiones no lineales se refieren a las desviaciones en la relacin lineal
que deben existir entre la entrada y la salida de un equipo, y se dividen, bsi
camente, en: distorsin armnica y distorsin por intermodulacin. La dis
torsion armnica se produce cuando al inyectar en un sistema una onda
senoidal pura de frecuencia "f" se obtiene a la salida una seal en que, ademas
de la frecuencia "f", estn tambin presentes frecuencias mltiplo de "f", es
decir, 2f, 3f, 4f. .. La distorsin por intermodulacin se produce cuando un
sistema que es alimentado con dos seales de frecuencias distintas (fl y f2)
genera a su salida otras frecuencias iguales a la surna y la diferencia de fl y f2
o a la suma y diferencia de mltiplos de estas seales.
292
CAPTULO
10
El audio digital
1. Conceptos generales
Todos los conceptos, principios y teoras sobre vdeo digital, tratados en captu
los anteriores, son perfectamente aplicables al audio digital. En el fondo se trata de
lo mismo: coger una informacin analgica, que fluye de manera continua en el
tiempo, y trocearla para convertirla a continuacin en una hilada de dgitos binarios.
Hay, sin embargo, diferencias importantes entre las seales de audio y vdeo ya
desde su estado analgico, las cuales obligan a utilizar distintos parametros y dis
tintas estrategias a la hora de proceder a la digitalizacin. En prime-lugar, el ancho
de banda de la seal de audio es muy inferior al de la seal de vdeo. Una seal de
audio de calidad alta no excede los 20 KHz de ancho de banda, mientras que una
seal de vdeo analgica de calidad media, como la seal compuesta PAL, presen
ta un ancho de banda en torno a los 5 o 5,5 MHz. La relacin, en lo que al ancho
de banda se refiere, es, por tanto, de 1 a 250. Consecuencia: habr que tomar 250
veces ms muestras de vdeo que de audio.
Hay otra diferencia entre ambos tipos de seal (menos evidente, pero no menos
importante) y es el hecho de que la seal de audio es unidimensional, mientras que
la de vdeo es tridimensional. En efecto, en el caso de la seal de vdeo la infor
macin cambia o fluye en tres dimensiones separadas: la horizontal, la vertical y la
temporal. Puesto que la seal elctrica que se ha de digitalizar slo puede variar en
una direccin, es necesario descomponer, ya en el estado analgico, dos de las tres
dimensiones de la seal de vdeo; la dimensin vertical se descompone en lneas,
que se colocan una a continuacin de otra, mientras que la dimensin temporal se
descompone en cuadros que se suceden en el tiempo. En el caso de la seal de
audio, esta descomposicin previa (que puede entenderse como un proceso de
muestreo) no es necesaria, ya que el audio slo fluye o varia en una direccin: el
tiempo.
293
El audio dieital
las digitales slo permiten un cierto nmero de estados discretos. Para ver la dife
rencia entre ambos casos, pongamos un ejemplo: queremos medir (por supuesto
con la mxima precisin) la cantidad de agua que fluye por un ro. Podramos dis
poner de un montaje similar a una presa de central hidroelctrica. El agua, al salir
de la presa por un orificio, movera un mecanismo contaclor calibrado en litros, en
metros cbicos o en cualquier otra unidad de volumen. Por muy bien que se dise
e y se fabrique tal mecanismo, es inevitable que se produzcan errores de medi
cin. Hay problemas de rozamiento, inestabilidades mecnicas, agua que rebosa,
turbulencias, etc., que trabajan siempre contra la precisin del proceso.
El caso expuesto en el prrafo anterior puede entenderse como un proceso ana
lgico, ya que se trabaja con magnitudes fisicas continuas. Por otro lado, suponga
mos que queremos contar las ovejas que entran en un redil. ste sera un proceso
digital, puesto que la magnitud (la cantidad de ovejas) est discretizada. No puede
haber fracciones de oveja: o hay 86 o hay 87. Es cierto que se pueden cometer
errores y contar una misma oveja dos veces o dejar de contar alguna, pero tales
errores no son propios de! sistema. Por tanto, los sistemas digitales son ms preci
sos. Tambin son ms predecibles; es seguro que si se repite el proceso tendremos
la misma cuenta para las ovejas. Por otro lado, es casi seguro que si se realizan dos
medidas separadas del agua del rio habr alguna diferencia entre ambas.
Un canal de audio analgico podda estar formado por un micrfono, un pre
amplificador, una mesa de mezclas, un magnetfono, una mster en casete o LP, la
copia de distribucin, el reproductor domstico, el amplificador y los altavoces.
Todos ellos forman la cadena analgica, la cual funciona de manera que cada vez
que se pasa de un dispositivo al siguiente se mantiene la relacin entre los cambios
de amplitud y e! tiempo. Podemos decir, por tanto, que cada etapa es "anloga" a la
anterior. Pero anloga no significa idntica, sino parecida. En efecto, cada disposi
tivo que atraviesa la seal de audio aade su propia distorsin o deformacin.
Adems aade tambin ruido. A la salida la distorsin total de la seal ser igual a
la suma de las distorsiones aadidas en cada etapa. Lo mismo sucede con el ruido.
Por otro lado, la cadena o secuencia que sigue la seal digital es: micrfono, con
versor A/O, etapas que copian o procesan numeras, conversor O/ A, amplificador
y altavoces. En efecto, tan pronto como la seal de audio abandona e! micrfono, es
inmediatamente convertida en un tren de bits. Todos los procesos de mezcla, ampli
ficacin, efectos, etc. son, en e! dominio digital, meras operaciones matelmiticas. El
error (salvo que falle e! sistema) es, sencillamente, imposible. Puesto que la seal de
audio se mantiene como una informacin numrica, los efectos ele distorsin y
ruido no pueden producirse o, mejor dicho, si que se producen, pero no tienen nin
gn efecto sobre los dgitos binarios. El necesario cambio a analgico se produce
slo en la etapa final, cuando el oyente reproduce el sonido original.
2. Conversin A/ D
La relativamente baja tasa binaria que se produce al digitalizar una seal de
audio hizo que el audio digital se desarrollara bastante pronto, tanto en e! mbito
domstico como en el profesional. Un hecho clave fue sin duda la introduccin,
295
____U_<LU.sJ~~~J
por parte de Sony y Philips (1979), del "compact disc"; una verdadera revolucin
que ha dado paso al verstil CO-ROM. Desde entonces la mayor parte del equipa
miento analgico ele los estudios ha ido sustituyndose por equipos digitales, pro
ceso en el cual marca un hito la aparicin de una norma de comunicacin digital,
o interfaz digital para audio, conocida como AES/EBU (1985). Las ventajas ms
importantes que presenta la seal digital con respecto a la analgica son: multige
neracin sin lmites, fiabilidad y, ms recientemente, integracin en entornos de
ordenador y redes.
Incluso hoy en da los equipos digitales siguen teniendo conectores de entrada
y de salida analgicos, ya sea de tipo RCA en los domsticos o de tipo XLR
(Canon) en el caso de los profesionales.
Hoy por hoy los llamados transductores, es decir, el micrfono y el altavoz, son
dispositivos analgicos que generan y se alimentan de seales que fluyen de mane
ra continua, las cuales son una analoga de hecho fsico que las ha producido. Es
necesario, por tanto, convertir la seal elctrica analgica, que es continua en el
tiempo, en otra digital, cuya principal caracterstica es ser discontinua en el tiem
po y estar expresada mediante nmeros. Esto se logra en la etapa de conversin
A/O, la cual es el factor ms importante y el que ms determina la calidad de la
seal digital, tanto en el contenido de frecuencias como en el rango dinmico y la
distorsin armnica. Igual que sucede con cualquier seal analgica, la digitaliza
cin o conversi6n A/D se logra mediante dos etapas separadas: el muestreo y la
cuantificacin.
2. 1. El muestreo
Digitalizar es convertir la seal anal6gica en nmeros. Por tanto, hay que deci
dir cmo se obtienen estos nmeros. En la primera etapa (el muestreo) la seal
analgica es medida o muestreada a intervalos regulares, para, a contil1l-:aci6n,
durante la segunda etapa (la cuantificacin), expresar cada una de estas medidas
con un nmero limitado de dgitos binarios. Aqu nos centraremos en el muestreo
y lo primero que hay que determinar es cuntas muestras debemos tomar de la
seal analgica por unidad de tiempo, es decir, la frecuencia de muestreo.
Un concepto importante, aunque nada intuitivo, es que, si se elige cuidadosa
mente la frecuencia con que se toman las muestras, el muestreo es un proceso sin
prdidas. La figura 10.1 ilustra el principio del muestreo.
El proceso de muestreo puede entenderse como la multiplicaci6n de la seal
analgica de entrada por una seal muestreante formada por impulsos instantne
os, que vale cero en todo momento, excepto en los instantes puntuales de mues
treo en que vale uno. Por tanto, se trata de una variacin o modulacin de la ampli
tud de la seal de audio por parte de los impulsos muestreantes. Esto se conoce
como "PAM" (Pulse Amplitudc Modulatian) o modulacin de amplitud de impulsos.
Aunque sea una simplificacin, se asume que en este proceso la duracin de los
impulsos muestreantes es nula o casi nula. Llegados a este punto, lo que tenemos
son una serie de valores puntuales de la seal original y nada en absoluto entre dos
valores cualquiera. Intuitivamente puede apreciarse que a partir de los impulsos
296
'tl
'"
(a)
15.
<
Seal
de audio
-~
Tiempo
(b)
'"
Seal muestreante
_1
Tiempo
. -*
Figura 10.1.
La seal de audio analgica se multiplica por un tl'en de impulsos equiespacados para generar
El audio dirit,\
(a)
.;.
"O
Ji
..
(b)
tll I
~l
l'
LLL,_I.
Tiempo
Tiempo
Figura 10.2.
Cuntas muestras hacen falta para representar una forma de onda sin ambigedad?
r~
:\
Modulador
(a)
Especlro
d:,I~~:~oal
-~
1m....
O 1D 20KHz
Frecuencia
. , j
t.
11
.2
H~
lb),,,
delaeea'
Es clro
d. mutreo
~~+HI-'
O
el. amplitud
20
,++H+HH' H '1-1 H
40
60
lO
Frecuencia
1(10
J
3" ..
Hi-~
d;I~e.C:~~1
(e)
;n-'(I-\
:-" l.rr\L
211 3~\
1-\
1
o
tJJILUl' ~lj~
j60'
20\.tO
t lmb..) fs+fmax
80 J'1DD')'2DKH:l'
'
3f.-Imb.. 3f+fmx.
2f.1m'. 2t..fmb.
Frecuencia
...
120 KHz
Figura 10.3.
Espectros de las seales de audio, de la seal impulsiva de muestreo y de la seal muestreada.
298
cuencias no es abrupta, sino que muestra una cierta pendiente, tal como sucede
con las seales reales. La figura 10.3 (b) representa el espectro de la seal mues
treante, es decir, de los impulsos de muestreo que miden la seal analgica de
entrada. En este ejemplo se ha elegido una frecuencia de muestreo de 40 KHz (fs
o jl-equenc)' eif samplina). Se trata de una seal que posee una frecuencia nica (40
KHz) y no un rango de frecuencias. Por esto aparece como una raya sin espesor en
el espectro. Por otro lado, no es una seal senoidal, sino un pulso instantaneo que
se sucede 40.000 veces por segundo. El anlisis de Fourier permite conocer qu
contribuciones senoidalcs y cosenoidales son necesarias pal-a obtener cualquier
forma de onda. En el caso de una seal impulsiva de duracin nula, el espectro con
tiene, adems de la frecuencia fundamental (en nuestro ejemplo, 40 KHz), mlti
plos de dicha frecuencia que se extienden hasta el infinito. Por tanto, la primera
linea del espectro corresponde a la frecuencia de muestreo; el resto son armni
cos, todos ellos de igual amplitud, que se extienden, al menos en teora, hasta el
infinito.
Siendo
la frecuencia mas alta de la seal de audio analgico y siendo fs la fre
cuencia de muestreo (figura 10.3-c), se producen, en torno a fs bandas laterales, con
valores = f.-C, y f.+C.. La primera se llama "banda lateral inferior", mientras que la
segunda se denomina ''banda lateral superior". Esto es consecuencia de la multiplica
cin o modulacin de la amplitud de los impulsos por parte de la seal analagica ele
entrada. Adems el espectro de la seal de audio analagica aparece como banda late
ral superior de la "frecuencia cero", ya que la seal impulsiva de muestreo posee una
componente continua, tambin llamada componente de OC.
A partir de la f'gura 10.3 vemos que el espectro de la seal analgica de entra
da ha producido, durante el proceso de muestro, mltiples copias de s mismo. La
primera desde DC hasta
luego de f -Ch a f. +(," despus desde 2(-f,,,,, hasta
2f, +C.... Estas copias se denominan "alias" y, aunque son inevitables y existen
mientras la seal se mantenga en el dominio digital, sern eliminadas, por indese
ables, en la conversin digital-a-analgico. La figura 10.3 (c) demuestra tambin
que si la frecuencia de muestreo fuera inferior a dos veces C" entonces se produ
cira un cierto solapamiento cntre la banda superior de una determinada f-ecucn
cia y la inferior de la siguiente, es decir, las alias se pisan unas a otras! Esto se cono
ce como "aliasina".
e,
e"
Tr.:CNOUJGI:\ .'\CTU,\l IH
.'
n. UqS!n,""
_.__ .
J
: :l
."
ii
IJ
Tiempo
li
Impulsos PAM~:
)
~-~,
<11(2 fmax)
Figura 10.4.
Muestreo a exactamente dos veces la frecuencia de entrada (a) y muestreo con una frecuen
cia ligeramente superior.
300
ti.~_t)Ji{)_~0:1j~1J
tan pequea como queramos, ya que para poder ser recuperada por la cabeza
lectora dicha longitud de onda ha de sel' claramente mayor que el entrehierro o
"Bap" de la cabeza y hay un lmite en lo que a tecnologa de cintas y cabezas se
refiere. Por tanto, si aumentamos la frecuencia de la seal a grabar (pasar de 20
KHz a 600 KHz es multiplicar por 30), tendramos que aumentar proporcio
nalmente la velocidad de paso de la cinta sobre la cabeza.
Todo lo anterior significa que si queremos grabar en un magnetfono una seal
de audio digital tendramos que multiplicar por 30 la velocidad de la cinta. Esto
generara enormes problemas de aceleracin, control de los servas, etc. Ademas
un carrete de cinta slo duraria un par de minutos) En lugar de esto, los ingenie
ros de Sony y Philips de mediados de los 70 buscaron algn aparato ya existente
que fuera capaz de grabar anchos de banda como el que genera una seal de audio
digital estreo. Encontraron un equipo al efecto en el grabador de vdeo "U-matic",
un formato de magnetoscopio, creado por Sony en 1971, que empleaba cinta de
tres cuartos de pulgada en casete.
Los magnetoscopios dedicados a la grabacin de vdeo son capaces de grabar
grandes anchos de banda, que se miden en MHz, gracias a que emplean el princi
pio de rotacin de cabezas; las cabezas de grabacin se montan en cilindros que
giran a gran velocidad, escribiendo pistas oblicuas en la cinta. En el caso del "U
matic", la velocidad de paso de la cinta es de 9,5 cmls (bastante moderada), mien
tras que la velocidad con que se escriben las pistas es de mas de 10 mis. La rota
cin de cabezas hace que la velocidad efectiva cabezal cinta sea mas de 100 veces
superior a la velocidad de paso de la cinta. As el "U-matic" lograba grabar una
hora de programa en una casete del tamao de un libro mediano.
El "U-matc", de todas formas, no es un grabador de datos digitales, sino un gra
bador de vdeo analgico. El truco, en este caso, consiste en formar con las mues
tras de audio una especie de seal de seudovdeo, es decir, algo que al magnetos-
Nivel de
blanco
1 O 1 1 O 1 O OO 1 O 1 O 1 1 O O 1 O 1 1 O 1 O 1 1 O 1 OO O 1 O 1
~ ~
i
>i
copio le parezca vdeo, aunque en realidad se trate de bits que representan la seal
de audio. Quiz algunos recuerden que los primeros onlenaJores domsticos
(Spectrum, Commodore-64, etc.) utilizaban casetes de audio para grabar los pro
gramas, es decir, generaban sei'lales de seudoaudio con los datos binarios.
Resulta \'entajoso, a la hora de formar la seal de seudovdeo y a la hora de su
recuperacin, que cada lnea de televisin contenga un nmero entero de mues
tras. Igualmente es interesante que las muestras de los canales izquierdo y derecho
se intercalen en las lneas de television, puesto que esto facilita la sincronizacin de
los dos canales durante la reproduccin. Con estas premisas el sistema para "mas
terizar" los CD opt por grabar tres muestras del canal izquierdo, ms otras tres
del canal derecho, en cada lnea de televisin. Conteniendo cada lnea de television
un nmero entero de muestras, queda claro que la frecuencia con que se suceden
las muestras (frecuencia de muestreo) debe ser mltiplo de la frecuencia de lne
as. De las 625 lneas que forman la seal de televisin en la norma europea, slo
se utilizan 588 para grabar audio digital, ya que no se pueden tocar la sincroniza
cion vertical ni sus vecinas mas inmediatas. Ahora, 588 lneas multiplicado por tres
muestras por lnea y por 25 imgenes por segundo: 588 x 3 x 25 44.100 mues
tras por segundo. En la norma americana se utiliza: 490 x 3 x 30
44.100.
Paradojas de la vida: el origen de la frecuencia de muestreo de audio digital, en el
formato ms popular, est en la grabacin de la seal de vdeo analgica.
Por otro lado, el CD es, desde su origen, un formato dirigido al gran pblico y
existan en su momento razones para pensar que podran hacerse copias (por ejem
plo, a un grabador DAT) de digital a digital. Por tanto, se pens que los formatos
profesionales deberan tener una frecuencia de muestreo distinta a la de! CD. En
este caso se opt por 48.000 Hz como frecuencia de muestreo, ya que presenta dos
ventajas. En primer lugar, es mltiplo de la frecuencia de campo de televisin
(48.000/50 960), lo que permite utilizar 10sVTR como msters y facilita la sin
cronizacin con la seal de vdeo. En segundo lugar, mantiene una relacin senci
lla con la 32 KHz, que fue la frecuencia de muestreo propuesta en su momento
para la radiodifusin digital. Adems 48 KHz deja un margen ms que generoso por
encima de los 40 KHz que exige e! criterio de Nyquist. Aunque parece que una fre
cuencia de muestreo de 48 KHz debera ofrecer mas calidad que otra de 44,1 KHz,
no siempre es as, ya que a menudo se utilizan los mismos filtros de entrada y sali
da en los dos casos.
.... 1
o.
Nivel de
negro
Sincronismo
horizontal
:>
f"l~i
o:
--l.
Figura 10.5.
Formacin de una seal de vdeo a partir de los bits procedentes de las muestras de audio.
302
Ya se ha visto, a propsito del criterio de Nyquist, cules son las causas del alia
siDg y cmo evitarlo, pero a menudo surge la duda de qu es exactamente el alia
sing en audio y cmo se manifiesta? En otras palabras, cmo reconocer una seal
de audio que contiene aliasinB? De manera sencilla, el aliasina, que se produce
siempre por submuestreo, supone sumar a la seal correcta otras seales indesea
das y es, por tanto, una forma de distorsin. En concreto, si "S" es la frecuencia de
muestreo, "F" es una seal de frecuencia superior a S/2 Y"N" es cualquier nmero
entero, se crearn componentes de aliasinB con frecuencia Fa
NS F, es decir,
303
_ _ _ _ _---'l".,] .\lIdio
Zona de
aliasing
..
fs
r-
2fs
3fs
"O
::J
;t:
c..
~ 1+4
,
h
i
\1
20/
40
60
80
14 KHz . 26 KHz Frecuencia
100
:=
2.2. La cuantificacin
120 KHz
NS F.
da se'iales que descienden desde 20 KHz hasta O Hz; frecuencias de entrada desde
40 KHz hasta 60 KHz generaran salidas de O a 20 KHz, etc. La sei'ial de salida es
como un acorden, que ya de O a 20 KHz, luego de 20 KHz a O, de nuevo de O a
20 KHz ...
En los ejemplos anteriores siempre hemos supuesto seila1cs de entrada simples,
es decir, senoides puras. Los tonos complejos, como los generados por los instru
mentos musicales, estn formados por la suma de mltiples armnicos. En este
caso las frecuencias de a]iasina se gene-an para cada uno de los armnicos. Por
ejemplo, el segundo armnico de una forma de onda compleja, cuya fundamental
sea de 10 KHz, tendr una frecuencia de 20 KHz, la cual estara en el lmite si uti
lizramos una frecuencia de muestreo de 40 KHz, mientras que el tercer armni
co sera devuelto como una seal de 10KHz, reforzando la fundamental y cam
biando el timbre del instrumento.
En la mayora de las ocasiones la fundamental y sus armnicos no sern sub
mltiplos exactos de la frecuencia de muestreo. Por ejemplo, una seal de
6 KHz tendr un cuarto armnico de 24 KHz, que generar un producto de alia
sin8 de 16KHz, un quinto armnico generar aliasi1J8 a 10KHz, un sexto a 4 KHz,
cte. Puesto que la amplitud decrece a medida que aumenta la frecuencia de los
armnicos, el efecto, si se produce, slo tiene un cierto peso en el caso de los pd
meros armnicos.
Por tanto, el aliasin8 genera esencialmente distorsin, en especial distorsin
armnica. La solucin, una vez ms, es un buen filtrado previo al muestreo, res
petando el criterio de Nyquist y, a ser posible, dejando un cierto margen de segu
ridad que permita acomodar holgadamente los filtros.
Figura 10.6.
Los productos de aliasin8 se producen a frecuencias Fa
difLtiil
Tt:( 'NOI
oc!.'\.
El audiu di.ital
mayor que el ruido, lo cual es mucho ms significativo, ya que e! ruido, al ser una
perturbacin o interferencia, puede ser enmascarado por la sel1al si sta es sufi
cientemente alta.
En el sistema de numeracin decimal (el que normalmente utilizamos los
humanos) el nmero de "alores (V) que se pueden representar depende del nme
ro de dgitos (n) empleados, segn la expresin V = 10"; as, por ejemplo, con tres
dgitos decimales podemos expresar 10 3 1.000 valores distintos; con cuatro dgi
tos decimales, 10' == 10.000, etc. Igualmente con el sistema de numeracin bina
ria podemos representar hasta 2" valores, siendo "n" el nmero de dgitos binarios
o "bits" utilizados para representar las muestras.
Tabla 10.1 Relacin entre el nmero de bits empleados y el nmero de posibles valo
res de cuantificacin.
Potencias
de dos
Combinaciones
1
2
3
4
5
6
2'
2'
2'
2'
2'
2'
0-1
00-11
000-111
0000-1111
00000-11111
000000-111111
2
4
8
16
32
64
...
...
...
10
...
16
2'0
0000000000-1111111111
1.024
20
2'"
24
2"
N. o de bits
...
...
...
2"
0000000000000000
1111111111111111
...
00000000000000000000
11111111111111111111
65.536
...
000000000000000000000000
-111111111111111111111111
'"
1.048.576
...
16.777.216
Como puede verse en la tabla 10.1, con cada bit extra aadido en la represen
tacin de las muestras se dobla la cantidad de combinaciones o valores de cuantifl
cacion posibles. Est claro que cuantos ms bits se utilicen en la representacin de
las muestras, mayor ser la precisin. Con 6 bits slo podremos dividir la amplitud
de la seal analogica en 64 niveles distintos; con 10 bits dispondremos de 1.024
niveles; con 16 bits, ms de 65.000 niveles, etc.
En la figura 10.7 la seal analogica ha sido muestreada a una cierta frecuencia
(lit) Y cuantificada con slo dos bits. Esto proporciona un nmero dc niveles de
cuantificacin N == 4. El nmero de intervalos de amplitud entre los niveles mxi
mo y mnimo es igual a N - 1 4 - 1 == 3. Un intervalo de cuantificacin "q" puede
definirse como S/(N - 1), siendo S el nivel de amplitud de la seal analgica.
En cada instante de muestreo el conversor A/D tiene que tomar la clecisin de
otorgar un valor digital a cada valor de amplitud de la seal analgica. Para eH.o
establece un umbral de decisin, situado justo entre dos valores digitales permltl
307
_ _ _ _--'l~:l~,lUJit) d..;g_!J~
Seal muestreada
y cuantificada
~:".)-
11 - - - __
;=;:::
--------J-.----4- -
---------------
,q
Q.
01 :
.,
00
_.~ J
~!J
-f - -.1-.
. __ L_ . , _
Tiempo ----------..
Error de cuantificacin
r----r-Y
I , .
Figura 10.7.
Relacin entre la senal analgica, los niveles digitales, los intervalos y el error de cuantificacin.
dos. Si en ese instante de muestreo la sei.al analgica tiene un nivel superior al del
umbral, el conversor optar por el nivel digital inmediatamente superior; en caso
contrario, se decidir por el inmediatamente inferior. De esta forma el conversor
AID comete un error, cuyo valor mximo es de 1/2 q o, en terminas absolu
tos, "q". Esto es lo que representa la parte inferior de la figura 10.7. A medida que
aadimos bits en la representacin de las muestras, el nmero de niveles aumenta
y el error se reduce exponencialmente. Con 6 bits por muestra el error ser de
1/63 S; con 16 bits, 1165.535 S, Ycon 20 bits el error ser menor que una millo
nsima parte de la seal analgica de entrada. Por tanto, a partir de n cierto
nmero de bits el error, en comparacin con la seal (que es lo que interesa) puede
considerarse como irrelevante.
Podemos entender el error de cuantificacin como un ruido o seal indeseable
que se aade a Ja seal til. En radio y televisin nos interesa poder expresar la
relaci6n entre la seal original y el ruido de cuantificacin introducido en decibe
lios. Puesto que estamos trabajando con voltajes, la frmula que tendramos que
aplicar es:
S
SNR (dB) = 20 log
N
Por otro lado, hemos visto que con cada bit que aadimos el ruido se reduce a
la mitad o, lo que es lo mismo, la relacin S/N se dobla. Si sustituimos S/N por 2,
podremos expresar la frmula anterior en funcin del nmero de bits "n" emplea
dos: SNR ::: 6n; puesto que 20 veces es logaritmo decimal de 2, es aproximada
mente 6. En otras palabras, la relaci6n seal a ruido de cuantificacin es igual a 6
veces el numero de bits empleados en la representacin de las muestras.
308
309
El audio divital
seal de entrada: pequeos para los niveles de cuantificacin menores y grandes para
los niveles de cuantificacin ms altos. Esto es lo que hacen los sistemas de cuantifica
cin no-lineal, de manera que, si bien generan seales de error o ruido variable, man
tienen constante la relacin seal a ruido que, desde e! punto de vista perceptivo, es
lo que interesa.
De todas formas estos sistemas de codificacin alternativos, cuya intencin es la de
ahorrar bits, estn cayendo en desuso, ya que la modernas tcnicas de compresin,
basadas en sofisticados algoritmos matemticos y en complejos mecamsmos de
enmascaramiento, permiten reducciones de datos muy superiores.
310
311
_________.
posibles. Adems se asegura de esta forma que todas las combinaciones utilizadas
tendrn, al menos, un "1 ".
El codigo 2-enlre- 5 emplea 5 bits pal-a cada palabra, con lo que resulta menos
eficiente en trminos de necesidades de almacenamiento. Su yen taja es que pre
senta una regla de codificacin muy clara: cada palabra esta formada por dos unos
y tres ceros. Esto permite la deteccion de errores, ya que cualquier error indivi
dual supondra que la palabra contendra un soja uno o tres unos.
El codigo Gray se caracteriza por e! hecho de que slo cambia un bit de una
palabra dada a la siguiente, de manera que un "contador" que iniciara la cuenta en
cero slo tendra que alterar el valor de un bit en cada incremento. Una desventa
ja de los cdigos no ponderados es que, en general, el valor decimal que les corres
ponde no puede ser calculado aritmticamente a partir del codigo hinario. En lugar
de esto se suele emplear el mtodo de "consultar tablas".
lLillJ~lliulli;.li~l.i
1111
0111
1000
0111
0000
1111
CDIGO
8-4-2-1
CDIGO
EXCESO-3
CDIGO
2-ENTRE-S
CDIGO
GRAY
0000
0001
0010
0011
0100
0101
0110
0111
1000
1001
0011
0100
0101
0110
0111
1000
1001
1010
1011
1100
00011
00101
00110
01001
01010
01100
10001
10010
10100
11000
0000
0001
0011
0010
0110
1110
1010
1011
1001
1000
1
2
3
4
5
6
7
8
9
0000
Desplazamiento
binario
1000
Complemento
a dos
Figura 10.8.
Seal senoidal con codificacin por desplazamiento binario (a la iZCJuierda) y con comple
Si sumamos 7 10 (1 J 1,) Y 5 10 (10 1') con este sistema, el resultado ser 4 10 (100,),
que corresponde a la zona de solapamiento de los dos sumandos, en la reprcsenta
cion circular. Estc tipo de operaciones se denomina "aritmtica modular" y, aunque
parezca muy teorico, lo usamos cada da cuando decimos, por ejemplo, que son la
"seis de la tarde". En realidad, son las "seis modulo 12", o las "18 modulo 24", etc.
El resultado obtenido antes puede calcularse aritmticamente, restando de la
"suma normal" 2", siendo "n" el nmero de bits empleado; en nuestro ejemplo, tra
bajando con tres bits, restaramos 8.
Dos nmeros que proporcionen e! mismo resto al ser divididos por el modulo
se dice que son iguales. Por ejemplo, 10 = J8 modo 8, ya que ambos producen un
resto = 2.
El complemento de un nmero se forma restando cada dgito de la "hase
313
El audio dipital
Nmeros positivos
Umbral de
Decisin,
Nmeros negativas
2.4. El dither
Siempre que se cuantifica se producen errores por redondeo. Aunque la ampli
tud de estos errores es muy pequea, es necesario considerar sus efectos si quere
mos obtener la mxima calidad en la reproduccin de la msica.
El dither es una seal de bajo nivel, generalmente formada por ruido blanco con
una amplitud inferior a un nivel de cuantificacin (tpicamente entre '/ l Y '/, pico-a
pico), que se suma a la seal analgica antes de ser muestreada. El dieher asegura que
incluso la seal ms pequea cruzar, al menos, un nivel de cuantificacin, de mane
ra que los perodos adyacentes correspondern a niveles de muestreo distintos.
Cuando la seal de audio presenta altos niveles, el error de cuantificacin es pequeo
y puede entenderse realmente como ruido. A medida que la seal se hace ms peque314
IblllJ
(e)
IdlUJUfllm lJ
Figura 10.9.
Trc:-.;'oLo<.;I:\
:\CTUAL
nr. lTLl.:\'I"[O:'\
ver a convertir la s6ial a digital para grabarla como ceros y unos. Lo que hace
falta es una norma de comunicacin digital o "protocolo" que determine el
orden en que se envan los bits, los niveles de tensin que los representan, las
impedancias, conectores, etc. Esto se conoce como interfaz y, en el caso del
audio digital, se dispone de dos interfaces o normas: el SPDlF y el AES/EBU.
Tambin veremos algo sobre el interfaz MADI, diseado para encaminar mlti
ples canales de audio digital sobre un nico cable coaxial. Aqu veremos prime
ro el AES/EBU, ya que no slo es ms antiguo, sino que es el nico verdadera
mente profesional.
3.2. Terminologa
Para simplificar la explicacin y facilitar la comprensin es conveniente fijar el
vocabulario o terminologa utilizada:
Frecuencia de muestreo.-Es la frecuencia con que se toman muestras de la seal ana
lgica de audio en el proceso de digitalizacin. Cuando se transmiten dos seales a
travs del mismo interfaz, stas debern tener la misma frecuencia de muestreo, es
decir, no es posible transmitir e! canal izquierdo con una frecuencia de 48.000 pala
bras por segundo y e! derecho con 44. 100 palabras por segundo
Palabra de muestra de audio.-Representa la amplitud de una muestra de audio
digital, es decir, se trata de! cdigo de 16, 20 o 24 bits que representa la amplitud
de una muestra puntual del canal izquierdo o de! derecho. La representacin es
lineal (todos los peldaos de la misma amplitud), en forma binaria y con comple
mento a dos. Los nmeros positivos (comienzan con O) corresponden a tensiones
lgicas positivas a la entrada del conversor analgico digital. Los nmeros negati
vos (comienzan con 1) corresponden a tensiones negativas.
El nmero de bits atribuidos a cada palabra es de 24 o de 20. Si la fuente pro
porciona menos bits de los que requiere e! interfaz (lo cual es muy frecuente, ya
316
que la mayora de las fuentes slo trabajan con 16 bits por muestra), los bits menos
significativos (LSB) no utilizados se pondrn a O lgico.
Bondera de mlidcz.-Cada muestra de audio incorpora W1 bit de validacin (bandera de
validez), el cual indica si la muestn es fiable o no. No se trata de W1 sistema de correc
cin de errores, sino de una simple indicacin que senir para que el receptor tome la
decisin pertinente, como, por ejemplo, interpolar el valor de la muestra actual, o
enmudecer si el nmero de muestras errneas seguidas es demasiado alto. Tambin se
utiliza para indicar el modo de funcionamiento en un solo canal (monofnico).
Estado del conal.~Es una estructura fija de infOl-macin, basada en paquetes de
192 bits obtenidos a partir de un nico bit por cada muestra de audio. Esta infor
macin se relaciona con cada canal audio y puede ser decodificada por cualqUier
interfaz de usuario. Como ejemplos de informacion de la sei'al de estado de! canal
se pueden citar: longitud dc las palabras de las mucstras de audio, indicacin de
preacentuacin, la frecuencia de muestreo, los cdigos de tiempo y cdigos alfa
numricos de origen y destino.
Datos de usuario.-La estructura dcl interfaz digital prev un canal de datos de
usuario para la transmisin de cualquicr otra informacin que pueda interesar al
usuario. No se imponen limitaciones a la organizacin de los bits de usuario, aun
que ofrece ventajas adoptar una estTuctura normalizada.
Bits de paridad.-Cada muestra de audio incorpora un bit dc paridad, e! cual per
mite la deteccin de un nmero impar de errores, debido al funcionamiento inco
rrecto del interfaz.
Prembulos.-Los prembulos son esquemas especficos (grupos dc bits con valor
fijo) para la sincronizacin. Se trata de patrones dc bits que no se pueden encon
trar en los valores PCM de las muestras y que se sitan al inicio de cada palabra.
Existen tres tipos de prembulo: de trama, de subtrama y de bloque_
Subtrama.-Es una estructura fija, utilizada para llevar la informacin descrita en
palabra de muestra de audio y prembulos. Cada canal de audio se relaciona con
una subtrama. As existe una subtrama para e! canal izquierdo y otra para el dere
cho o una para e! principal y otra para el secundario, etc. Una subtrama est com
puesta por el prembulo, hasta 24 bits de la muestra de audio y cuatro bits auxi
liares. En todo perodo de la frecuencia de muestreo dc la fuente se transmiten
secuencialmente dos subtramas, una para cada canal de audio.
Trama.-La trama es una secuencia de dos subu-amas, una para cada canal. Una
U"ama corresponde a un perodo de muestreo y lleva informacin dc los dos canales
que conforman la seal de audio digital AES/EBU. Por tanto, est formada por dos
palabras de muestra de audio, dos prembulos y dos conjuntos de bits auxiliares.
Bloque.-Con 192 tramas consecutivas (que corresponden a 192 perodos dc
muestreo) se forma un bloque. El comienzo de un bloque se identifica mediante
un prembulo especial. La estructura de bloques es muy til para codificar la infor
macin de estado y la de usuario.
Codificacin del canal.-La codificacin del canal describe el mtodo mediante e!
cual se representan las cifras binarias para su transmisin a travs del interfaz, es
decir, la forma elctrica exacta de la seal de audio, tal como se transmite por el
interfaz. El procedimiento es el denominado "marca bifase".
317
El Jlldio Jip-ital
o-
-3 4
al
(J)
..J
27 28 29 30 31
Datos
auxiliares
Prembulo
XYZ
7 8
I
I
I
I
'ID
ID
(J)
I(J)
..J
- - - ---.~
Bandera de Validez
Bit de Usuario--..l
Estado del Canal
Bit de Paridad
.J
Figura 10.10.
...
o o
Codificacin en PCM
Canal
1
Canal
2
Canal
1
Canal
2
Canal
1
Canal
2
o
Reloj al doble de la frecuencia binaria
Subtrama O
.... Subtrama 1
T
Trama 191
Trama O
i~- -
..:.
Figura 10.11
Adems se facilita la recuperacin del reloj a partir de los propios datos, con lo que
no hace falta una conexin extra de reloj y se hace insensible e! interfaz a las inver
siones de polaridad de las conexiones.
Cada uno de los bits que se transmiten se representa mediante un smbolo,
que consta de dos estados binarios consecutivos. El primer estado de un smbo
lo es siempre diferente del segundo estado del smbolo anterior. El segundo esta
do es idntico al primero si e! bit que se ha de transmitir es un cero y es dife
rente si se trata dc un uno (figura 10.12). Dicho de otra forma, siempre se pro
duce una transicin al final de perodo de bit, pero, adems, si el bit a codificar
es un "1", se produce tambin una transicin a mitad de perodo de bit.
Ntese en la figura 10.12 que con la codificacin "marca bifase" lo que deter
mina, si se est transmitiendo un cero o un uno lgico, no es el nivel elctrico de
la seal, sino la presencia o ausencia de transiciones a mitad de perodo de bit. Una
seal como la de la figura 10.12, pero totalmente invertida, sera tambin vlida,
ya que las transiciones se produciran en los lugares adecuados. Por esto se dice que
la codificacin "marca bifase" es insensible a los cambios de polaridad del cable.
Puede notarse, a partir de la figura 10.12, que la codificacin "marca bifase" es una
especie de modulacin en frecuencia digital: a los unos lgicos se les otorga una fre
cuencia doble que a los ceros lgicos. En ocasiones a la codificacin "marca bifase" se
la conoce tambin como "cdigo FM". Si se compara esta codificacin o modulacin
con los datos PCM originales, puede verse que la frecuencia mxima se ha doblado.
Esto conduce a la siguiente reflexin: ganamos robustez a costa de emplear un mayor
ancho de banda. En aplicaciones de audio digital esto es perfectamente aceptable, ya
qu se trabaja con frecuencias binarias moderadas. Un pequeo clculo nos permite
saber en que rango de frecuencias nos movemos:
32 bits por muestra X 48.000 muestras por segundo X 2 canales = 3.072.000 bits/s.
En PCM la frecuencia ms alta se obtendra cuando se presentara la secuencia
binaria 1010 1O10 10 ... Un ciclo bsico estara representado por una pareja" 10".
La frecuencia elctrica ms alta sera, por tanto, 3.072.000/2 = 1.536.00
ciclos/segundo o, redondeando, 1,5 MHz.
IUl
1
320
Trama 1
Figura 10.12.
Prembulo Y:
111001 00 subtrama 2.
Prembulo Z: 11101000 subtrama 1 y comienzo del bloque.
O bien:
El audio dipital
Tabla 10.3 Datos contenidos en los 24 bytes de los datos de estado del canal.
OCTETO
o
1
2
3
4
5
6
7
8
Los datos del estado del canal se obtienen gracias al bit numero 30 de cada
muestra, etiquetado como "C". Las dos subtramas de cada trama transportan e!
mismo valor para e! bit "C": con 192 tramas se obtiene un bloque y, por tanto, 192
bits "c" Miles. Estos datos se estructuran en octetos, con lo cual habr 24 octetos
por bloque (24 X 8
192). La tabla 10.3 muestra los 24 octetos de estado de!
canal correspondientes a un bloque.
Para la transmisin de los datos se utiliza el mismo cable bifilar apantallado que
viene utilizndose en audio analgico profesional. La impedancia de la fuente es de
110 ohmios, la cual debe ser igualada por e! cable, al menos en e! rango de frecuen
cias en que nos movemos. Sobre esta impedancia e! transmisor deber producir una
seal filtrada de, como mnimo, 2 V Y mximo 7 V pico-a-pico. La impedancia del
receptor se fij inicialmente en 250 ohmios, lo que permita conectar varios recepto
res a una sola fuente de seal. Sin embargo, en la revisin de la norma de 1992 (AES
3) se dice que la impedancia del receptor ser igual que la de la fuente y que la de la
lnea de transmisin y que slo se conectar un receptor por interfaz. Si se desea
conectar varios receptores a una misma lnea, se utilizarn distribuidores activos.
El diagrama de ojo en e! extremo de recepcin debe presentar una anchura mnima
de 0,5 T", siendo T" igual a medio perodo de bit. La altura o amplitud mnima de! dia
grama de ojo en e! receptor ser de 200 mV El conector es de tipo XLR (Canon). Con
estas especificaciones se logran distancias de ms de 300 metros.
9
10
11
12
13
14
FUNCIONES
15
16
17
18
19
20
21
22
23
1)[ T,L1~"",.L"'\!cIS",j(","J'",-
r-Transmlsor
~--t--
Cable
-+---
Receptor
------1
~1?:': ~) I I ~~~H2=
~
(b)
Patillas
)
Conec1or XLR
~II-O)
L-. 1
r----Transmlsor
------t---
Cable
-----t---
"=
k>=
~-+-Receptor
--1
Figura 10,13.
Circuito elctrico recomendado para el interfaz profesional AES/EBU (a) y para el domstico (b).
ASCII Yque seria conveniente una mayor normalizacin para facilitar el intercambio
de informacin. En el caso del interfaz domstico, el bit 29 pasa a llamarse "bit de
subcdigo". El contenido del subcdigo se deja a la eleccin del fabricante (no del
usuario) y se estructura en bloques de 1.176 bits, delante de los cuales aparece una
.
palabra de sincronizacin de 16 ceros seguidos.
El subcdigo puede utilizarse para transportar informacin de proteccin contra
copias no autorizadas, segUn un protocolo denominado SCMS (Serial COPf Mana8crncnt
System). La idea es que una seal digital con derechos de autor (normalmente msica
pregrabada) puede copiarse una sola vez de "digital-a-digital", lo que permite al usua
rio asegurarse una copia de seguridad, pero evita el pirateo sistematizado.
En el interfaz profesional e! bit 2 del octeto O del "cdigo de estado de canal" se
utiliza para especificar, junto con los bits 3 Y 4 del mismo octeto, el tipo de "prea
centuacin". En el caso de! interfaz domestico, este bit se utiliza para decir si estan o
no permitidas las copias o, mas especficamente, si la seal tiene o no derechos de
autor. Ahora bien, este bit no es suficiente para una gestin eficaz de los derechos de
autor, ya que no indica la generacin de la copia de que se trata. Esta informacin adi
cional, estructurada en varios bits, puede localizarse en los datos SCMS transporta
dos por el bit de subcdigo. De todas formas, el tema de la proteccin contra copias
de digital-a-digital nunca ha sido respetado.
Existe tambin una variante del SPDIF que utiliza fibra ptica como medio de
propagacin. El medio de transmisin es una fibra de plastico de 1 mm y las sea
324
___________---'[o!.l-".,,<I;o d'I'\1!J
Tabla 10A Diferencias entre los interfaces para audio digital AESIEBU y SPOIF.
PARAMETRO
AESIEBU
Cable
Conector
Nivel de la seal
Modulacin
Informacin de
subcdigo
Mxima resolucin de
las muestras
Principal aplicacin
Texto en ASCII
SPDIF
24 bits
Profesional
Domstica
les se transmiten utilizando luz visible (un LED rojo con longitud de onda de 660
nm), Este interfaz suele utilizarse en ciertos equipos domesticas, tales como
reproductores de CD,
Resumen
Todos los conceptos, principios y teoras sobre vdeo digital, tratados en captu
los anteriores, son perfectamente aplicables al audio digital. Por otro lado, una
seal de audio de calidad alta no excede los 20 KHz de ancho de banda, mien
325
El <ludio dipilal
tras que W1a seal de vdeo analgica de calidad media, como la sei"ial compues
ta PAL, presenta un ancho de banda en torno a los 5 o 5,5 MHz.
El audio digital no precisa de una frecuencia de muestreo tan alta como la
seal de vdeo, pero, por otro lado, la cuantificacin de las muestras, es decir,
la precisin con que se mide y expresa el valor instantneo, ha de ser mucho
ms elevada. Otra cuestin a considerar es la forma de onda de la seal ana
lgica. La seal de audio analgica es simtrica, en el sentido de que sus valo
res de voltaje se centran en el valor cero, con excursiones hacia positivo y
hacia negativo. Las formas de onda por encima del valor nulo son prctica
mente copias especulares de las formas de onda negativas.
Un canal de audio analgico podra estar formado por un micrfono, un preampli
ficador, una mesa de mezclas, un magnetfono, una mster en casete o Lp, la copia
de distribucin, el reproductor domstico, el amplificador y los altavoces. Cada dis
positivo que atraviesa la seal de audio aade su propia distorsin o deformacin.
Adems aade tambin ruido. A la salida la distorsin total de la seal ser igual a la
suma de las distorsiones aadidas en cada etapa. Lo mismo sucede con el ruido.
La cadena o secuencia clue sigue la seal digital es: micrfono, conversor AID,
etapas que copian o procesan nmeros, conversor DI A, amplificador y altavo
ces. Todos los procesos de mezcla, amplificacin, efectos, etc. son, en el dominio
digital, meras operaciones matemticas. El necesario cambio a analgico se pro
duce slo en la etapa final, cuando el oyente reproduce el sonido original.
La digitalizacin o conversin AID se logra mediante dos etapas separadas: el
muestreo y la cuantificacin. Durante el muestreo la seal analgica es medi
da o muestreada a intervalos regulares para, a continuacin, durante la segun
da etapa (la cuantificacin), expresar cada una de estas medidas con un nme
ro limitado de dgitos binarios.
Siendo C. la frecuencia ms alta de la seal de audio analgico y siendo fs la fre
cuencia de muestreo, se producen, en torno a fs bandas laterales, con valores
(-f.." y (+(,.. La primera se llama "banda lateral inferior", mientras que la
segunda se denomina '1nnda lateral superior". Estas copias se denominan "alias"
y, aunque son inevitables y existen mientras la seal se mantenga en el dominio
digital, sern eliminadas, por indeseables, en la conversin digital-a-analgico.
En la prctica hay dos frecuencias de muestreo normalizadas: 44,1 KHz y 48 Kz.
La primera es la ms popular, mientras que la segunda puede considerarse como la
ms profesional. La primera se relaciona con la seal de vdeo segn la siguiente
frmula: 588 lneas multiplicado por tres muestras por lnea y por 25 imgenes por
segundo: 588 X 3 X 25 = 44.100 muestras por segundo. En la norma americana
se utiliza: 490 x 3 X 30 = 44.100. Para aplicaciones profesionales se opt por
48.000 Hz como frecuencia de muestreo, ya que presenta dos ventajas. En primer
lugar, es mltiplo de la frecuencia de campo de televisin (48.000/50 = 960), lo
que permite utilizar los VTR como msters y facilita la sincronizacin con la seal
de vdeo. En segundo lugar, mantiene una relacin sencilla con la 32 KHz, que fue
la frecuencia de muestreo propuesta en su momento para la radiodifusin digital.
El aliasing genera esencialmente distorsin, en especial distorsin armnica.
La solucin, una vez ms, es un buen filtrado previo al muestreo, respetando
326
327
328
CAPTULO
11
COlupresin en audio
1. Introduccin
Ya se comentaba en el captulo anterior que la digitalizacin de una seal de
audio no es muy distinta a la de una de vdeo. Lo mismo sucede en el caso de la
compresin. En vdeo existen precedentes de "sistemas de compresin analgi.
cos". La utilizacin de las componentes Y, R - Y, B - Y, por ejemplo, no es otra cosa
que un intento de ahorrar ancho de banda, sin perjudicar a la calidad percibida por
e! espectador, aprovechando las limitaciones del sistema de percepcin visual
humano. Por otro lado, la codificacin PAL o NTSC podra entenderse como un
mtodo de compresin entrpica, donde se intenta "empaquetar" la mxima can
tidad de informacin en el mnimo ancho de banda.
En audio los sistemas de reduccin de nido Dolby A, B, C Y SR son una forma
de compresin, ya que procesan la seal de tal manera que el ruido, que inevita
blemente se sumar durante las etapas de grabacin o transmisin, pase desaperci
bido por el oyente. Para ello el codificador modifica la seal de audio de una forma
predeterminada, mientras el decodificador aplica la transformacin inversa. Estos
sistemas de reduccin de ruido se basan en la "compresin" y "expansin" de "sub
bandas de frecuencia", segn "modelos psicoacusticos", trminos todos ellos pro
pios de los sistemas de compresin digital de audio y que aparecern con frecuen
cia a lo largo de este captulo.
NICAM significa Near lnstantaneous CompandiIJ8 ?f Audio Multiplex, es decir,
"compresin-expansin casi instantnea del multiplex de audio". En NICAM la
seal de audio se muestrea a 32 KHz y cada muestra se cuantifica linealmente con
14 bits. A continuacin se reduce el numero de bits por muestra (compresin) de
14 a 10 bits. Los cuatro bits de cada muestra que se eliminan dependen del valor
de amplitud del grupo de un milisegundo (casi instantnea), al que pertenece la
muestra. De esta forma el error de cuantificacin no es fijo, sino variable; se come
329
ten errores grandes en los pasajes de alto nivel y errores pequeos cuando la seal
tiene un valor bajo. Dicho de otra forma, el error de cuantificacin es funcin del
valor de amplitud de la seal, de forma que la propia seal enmascara al ruido.
Esto ya es compresin digital y tiene ms de veinte aos! El enmascaramiento o
masking es una de las claves de la compresin de audio.
ya
330
1.2. Redundancia
El tren binario generado por una seal de audio de calidad est entre 0,75 y
1,15 Mbits/s; trabajando en estreo estas cifras se doblan: 1,5 Mbits/s para una
frecuencia de muestreo de 44,1 KHz y16 bits/muestra y 2,3 Mbits/s para
48 KHz y 24 bits/muestra. Con estas tasas binarias se pueden preservar anchos de
banda de 20 KHz y rangos dinmicos entre 100 Y 140 dB.
La idea es reducir al mximo la cantidad de datos necesarios para representar la
seal de audio sin que la calidad percibida se resienta. Al igual que sucede en vdeo,
la estrategia se basa en la eliminacin de la redundancia, y tambin aqu esta puede
ser de dos tipos:
1. La "redundancia matemtica" o "redundancia enn-pica", que es aquella que
se puede eliminar sin prdida real de informacin, de manera que el oeco
dificador pueda obtener una seal idntica a la original.
2. La redundancia perceptual, siendo esta ltima aquella informacin que, s es
eliminada en el codificador, no podr ser reconstruida de forma perfecta en
el decodificador, pero tampoco supondr una merma de calidad apreciable
por parte del usuario.
La eliminacin de la redundancia entrpica es pura ciencia; la eliminacin de la
redundancia perceptual, un arte. La redundancia perceptual puede dividirse, a su
vez, en dos categoras diferenciadas:
1. La informacin a la que el observador es sencillamente insensible. En vdeo,
por ejemplo, los coeficientes de alta frecuencia de los bloques DCT se cuan
tifican con pocos bits, porque se sabe de la poca precisin, que muestra el
sistema de percepcin visual humano a estas frecuencias. Esta estrategia fun
ciona bien siempre.
2. La informacin cuya eliminacin puede o no ser notada por el usuario
dependiendo del contexto (efecto de enmascaramiento). Por ejemplo, cier
tos errores de recuantificacin de los bloques DCT de vdeo son muy visi
bles cuando se producen en zonas lisas o de poca actividad de la imagen y,
en cambio, pasan totalmente desapercibidos en zonas de gran actividad, tales
como tramas, texturas, etc. Este efecto de enmascaramiento de una infor
macin por parte de otra es especialmente importante en e! caso de! audio
y forma la base y e! arte de todos los sistemas de compresin sofisticados.
331
._ _COIl\pn.~l(j.!L.1:.l].jlu(h(
El odo interno es una estructura sea)' esta formado por dos partes: el laberinto
anterior o coclear, que es responsable de la audicin, y el laberinto poste'ior, respon
sable del sentido del equilibrio. Aqu nos interesa slo la audicin, especialmente
desde el PWlto de vista de los fenmenos de enmascaramiento aplicables a la com
presin. En esto juega lill papel clave el odo interno. Las vibraciones llegadas a tra\'es
de la ventan o\'al se transmiten hacia el interior del caracol, que es un tubo espiral
cnico, con una seccin de unos 4- mm' en su base. Se produce entonces una vibracin
de la membrana basilar, la cual esta en contacto con Wl0S pelillos que actan sobre los
autnticos sensores: las clulas acsticas. Las salidas de estas clulas envan los mensa
jes electroqumicos al cerebro. Ahora bien, la memhrana basilar vara en anchura, en
espesor y tambin en rigidez a lo largo de su recorrido; en su hase es estrecha y rgi
da, mientras que se va haciendo ancha)' flexible a medida que avanza hacia el final.
Esto hace que sea capaz de discriminar frecuencias, de manera que distintas arcas de
la membrana vibran a diferentes frecuencias. Adems no se trata de una membrana
pasiva que se limita a vibrar en simpata, sino que dispone de un mecanismo de retro
alimentacin que amplifica los estmulos mas dbiles,
2. 1. 1 El odo externo
El oido externo est formado por el pabelln auricular y el llamado "conducto
auditivo externo". La misin del pabelln es la de captar el sonido y ayudar a la
localizacin espacial de la fuente, ya que es ms sensible a los sonidos que proce
den de la parte frontal, mientras que e! conducto se encarga de transmitir las ondas
de presin hacia estructuras ms internas, ms concretamente hacia la membrana
de! tlmpano. Este conducto acta como un resonador de un cuarto de onda, con
una frecuencia central en torno a 3.000 Hz. Esta estructura probablemente ayude
a la percepcin de ciertos sonidos orales que presentan el mximo de energa en
estas frecuencias medias.
Odo externo
~---}..
Oldo
medio
Oldo interno
---r-~
Canales
C;;lemIClrCUlare.
!&~ a\,\__.,_
AV ;~~
-
auricular \IGlilJ;
Q1J7'!L
'~ ~onducto
Pabelln
\.
I
.'
~'
\-T
((
ci'l) 'l" \,
\, -~j)
Nervio coclear
-:~~cclea o
caracol
auditivo externo
Figura 11.1.
Comnfcsion en audio
TLC0JO/ oGlo\ ACTU:\l nf Tri n'ISIO:'\'
mayor. Estas regiones, llamadas "bandas crticas", podran tener una anchura de unos
100 Hz por debajo de los 500 Hz, mientras que por encima su anchura ira aumen
tando a medida que crece la frecuencia. De cualquier forma, parece seguro que
dicha membrana esta. dividida en un nmero finito y no muy g-ande de regiones,
cada una de las cuales es estimulada y vibra en simpata a un rango limitado de fre
cuencias, pero, lo que es mas importante, dentro de este rango slo una frecuencia
es capaz de hacer vibrar "su regin" en un momento dado. Ahora, una vez que una
f-ecuencia muy concreta ha hecho vibrar su regin y sta aplica realimentacin posi
tiva, el sistema se comporta como un circuito sintonizado de alta selectividad. De
esta forma cada regin vibra a una frecuencia, determinada por el estmulo de
mayor amplitud, dentro del rango de esa regin, mientras que ignora cualquier otro
estmulo de intensidad menor. Esto significa que dentro de cada banda slo la fre
cuencia de mayor intensidad ser convertida en impulsos nerviosos y encaminada
hacia el cerebro. Este mecanismo de simplificacin proporciona, por s solo, la
herramienta de compresin mas potente en e! tratamiento de! audio digital. Para
qu codificar aquellos tonos que en realidad no omos?
El concepto de bandas crticas de frecuencia se deriva de la idea de que el odo
analiza el rango de frecuencias audible, utilizando un conjunto limitado de subban
das. Las frecuencias dentro de una banda crtica son similares en trminos de per
cepcin auditiva y se procesan de forma separada con respecto a otras bandas cr
ticas. La localizacin de estas bandas en el espectro y su anchura se deducen
mediante experimentos con personas y tambin a partir de la distribucin de las
clulas sensoriales en el odo interno. La tabla 11.1 muestra una posible distribu
cin del espectro audible en 25 bandas de frecuencia.
Tabla 11.1 Una posible distribucin de los valores de frecuencia mnima, mxima y
anchura de las bandas criticas.
Frecuencia en Hz
Banda Mn.
1
2
3
100
200
300
400
510
630
770
4
5
6
7
Mx.
100
200
300
400
510
630
770
920
Ancho Banda
100
100
100
100
110
120
140
150
8
9
10
11
12
13
14
15
Mn.
920
1.080
1.270
1.480
1.720
2.000
2.320
2.700
Mx.
1.080
1.270
1.480
1.720
2.000
2.320
2.700
3.150
Ancho
160
190
210
240
280
320
380
450
80
Frecuencia en, Hz
Frecuencia en Hz
Banda
16
17
18
19
20
21
22
23
24
Mn.
3.150
3.700
4.400
5.300
6.400
7.700
9.500
12.000
15.500
Mx.
3.700
4.400
5.300
6.400
7.700
9.500
12.000
15.500
22.050
70
Ancho
550
700
900
1.100
1.300
1.800
2.500
3.550
6.550
,------I--H-r~--l '
I
i
30
-~
- -~ ~
K Hz a 45 dB
i ~~ --- ---Ld--I-"-----------' .
.", 27'
20
____~ __ L~~e~ia~:-~'~al
10-O
..
'
1
----I-T--T--~-
0--
---1-1-----:---'---
l~'-
.- -~"
20
31.5
-'0
El mecanismo descrito en el prrafo anterior se denomina "enmascaramiento
--I'
----1
1._-
Umbral de aucl:tci6n
sIn estimulo perturbador
L_J_J
63
----
LJ __ L
125
250
500
1.000
2.000
Frecuencia en Hz---------Jo-
Figura 1 1. 2.
4.000
8.000 '2.500
ruido o, al menos, con buena relacin seal-a-ruido. POI- otro lado, los sonidos
coherentes, tipo tono, necesitan niveles mucho ms altos (entre 18 y 26 e1B) para
cnmascarar tanto a otros sonidos coherentes como a ruidos. El niyel de enmasca
ramiento depende tambi&n del nivel absoluto del tono enmascarador. La figura
11.3 muestra el grado de enmascaramiento producido por un tono perturbador de
1 KHz, cuando este tiene distintos niveles d' presin absuluta. Puede apreciarse en
esta figura que la pendiente de las cunas por encima de la frecuencia del tono per
turbador vara ampliamente con la intensidad de dicho tono. En otras palabras, el
nmero de octavas enmasca-adas crece con la intensidad del tono perturbador por
encima de la frecuencia de dicho tono, mientras prcticamente se mantiene en la
zona de frecuencias inferiores a la perturbadora. Los experimentos sobre enmas
caramiento suelen realizarse utilizando bandas estrechas de ruido blanco como
seales enmascaradoras, mientras se mide clnivel apenas audible de un tono puro
para distintas frecuencias y dm-aciones.
__.
,_
~.illHpx:~sjun_tll audi.52
1001----~_-_------
80-'-
il
~
60
'0
.~ 40
5.
~
"Qi
.~
20
20 dB
SOO Hz
~-------+-- ~1----------r-
1000 Hz
2000 Hz
3000 Hz
4000 Hz
Figura 1 J .3.
Curvas dc enmascaramiento producidas por un tono perturbadO!- de ] KHz.
80
Enmascaramiento
simultneo
70
60
al 50
1J
40
~ JO
;;;
> ZO
Z 10
-40
-20
~Tiempo
Preenmascaramiento
20
40
60
80
100 120
140 160
~ Post--enmascaramiento /
Figura 11.4.
337
ComnrC:Sln en a.udlo
3. Divisin en subbandas
Para sacar partido de! efecto de enmascaramiento frecuencial que muestra el
sistema de percepcin auditiva necesitamos dividir e! espectro de la seal de audio
en bandas o regiones de anchura igualo inferior a las bandas de la membrana basi
lar. La divisin en pequeas bandas de frecuencia puede hacerse por dos procedi
mientos distintos: ya sea mediante filtros o mediante sistemas basados en transfor
madas, similares estos ltimos a los empleados en vdeo.
.'"d"~1 I
r~J"f".'
O
f/2
1/2
2f
1~
J T~"d""T'
O
1~
(a)
2f
_~
2f
Figura 11.5.
Divisin de una banda de frecuencias en dos subbandas.
338
Figura 11. 6.
El mismo conjunto de muestras puede representar dos seales cuyas frecuen
cias tengan la relacin matemtica adecuada.
339
---'oC()U.ll-~.L~.,ill.<;1L~
18 dB. Ahora, basndonos en la regla simplificada de eue con cada bit que a'iadimos
en la cuantificacin ganamos 6 dB en la SNR, slo necesitamos 3 bits para cuantifi
car el tono de 1 KHz. Si eleqmos el ni"el del tono a 65 dB, el umbral de enmasca
ramiento subir hasta 55 dB Yla diferencia ser d<' slo 10 dB, que se pueden codi
ficar con 2 bits. En la misma figura 11.2 puede wrse que la regin de enmascara
miento frecuencial situada por encima del estmulo es mucho maYal' que la situada
por debajo; esto intenta ilustrar el hecho de que son las altas frecuencias las ms
enmascaradas, igual que en vdeo!
Hemos visto cmo dividir el espectro de la seal de audio en subbandas. Veamos
ahora cmo codificarlas. Esto se logra en tres pasos consecutivos: para comenzar,
se trocea la seal en el tiempo, generando los llamados "cuadros" o "frames". A con
tinuacin cada cuadro, que cubre unos pocos milisegundos, es dividido en subban
das de frecuencia mediante un "m apeado" o transformacin de los valores tempo
rales a una representacin frecuencial. Despues se busca el dato ms alto dentro de
un cuadro y se otorga a todo el cuadro un factor de escala tal que el dato de mayor
nivel se desplace al valor ms alto posible. Para finalizar, y basndonos en el valor
real, se determina un umbral de enmascaramiento, de manera que los datos son
redondeados o truncados al nmero de bits correspondiente a dicho umbral. Estos
datos truncados son enviados, junto con el factor de escala de todo el cuadro, al
decodificador. La presencia de una sei.al de alto nivel en una banda podra suponer
que varias bandas de orden superior fueran codificadas con menos bits de los que
normalmente les tocara o incluso no ser codificadas en absoluto.
El paisaje descrito en los prrafos anteriores es un tanto idlico. En la prctica
pueden producirse problemas, tales como cambios rpidos en la amplitud de la
sei.al dentro de un mismo cuadro o la variabilidad entre las capacidades auditivas
de las personas. Esto significa que hay que dejar un cierto margen de seguridad y
codificar los cuadros de audio con algunos bits ms de los estrictamente necesa
rios. Otra complicacin es que generalmente interesa que el codificador entregue
a su salida una frecuencia de bits constante, con independencia de la complejidad
de la seal de entrada. Por tanto, e! sistema de compresin necesita controlar la
adjudicacin de los bits a las diferentes subbandas en funcin de:
Las necesidades de cada subbanda.
El ancho de banda disponible.
El modelo psicoacstieo humano.
que muchas subbandas se siten justo en los huecos ncos del espectro, con lo que
no contendrn informacin que codificar. La divisin de la seal de enn'ada en un
nmero elevado de pequeas subbandas de codificacin facilita la adaptacin de
stas a las bandas crticas del sistema de percepcin auditiva.
Sabemos que e! nmero de bits necesarios para codificar una subbanda deter
minada depende, entre otras cosas, del grado de enmascaramiento que se produz
ca en esa subbanda. Sabemos tambin (lue tenemos que considerar el peor caso, en
el cual el estmulo enmascaradO!- se sita en el extremo superior de la subbanda.
Esto ltimo es consecuencia de que la pendiente de la curva de enmascaramiento
es muy abrupta por debajo de! estmulo y mucho ms suave por encima. Esta falta
de simetra de la curva enmascaradora (figura 11.2) hace que subbandas estrechas
enmascaren niveles de ruido muy superiores y puedan codificarse con menos bits.
Cuando se utilizan bancos de filtros como los descritos en e! apartado 3.1 para
dividir e! espectro de la seal de audio, suelen utilizarse 32 subbandas, porque, en
principio, son suficientes para adaptarse a las bandas crticas del sistema de per
cepcin humano y, por otro lado, si quisiramos aumentar el nmero de subban
das, el banco de filtros se hara enorme. Con las tcnicas basadas en e! dominio
transformado es posible utilizar un nmero mucho mayor de subbandas, el cual
suele llegar hasta 1.024. Un sistema de divisin de frecuencias basado en transfor
macin que genere 256 subbandas presenta aproximadamente la misma compleji
dad tcnica que otro de 32 subbandas basado en filtros convencionales.
Adcmas las llamadas "capas" ISO!MPEG sc basan sobre todo en trabajos dc invcs
tiaacin )' dcsarrollo llevados a cabo en Europa. Por otro lado, el sistema AC- 3 dc
D~lb)' ha sido adoptado por la ATSC (Admnccd Jlel'ision Sptem Comit o Consorcio
para la II1\'estigacin de la Televisin Avanzada), una asociacin americana para la
investigacin)' el desarrollo de la EDTV )' HDTV
Como pucdc verse, tampoco cs posible, por desgracia, una norma nica mun
dial en el campo de la compresin digital de audio. Todo parece indicar que las nor
mas MPEG cubrirn la mayora de las aplicacioncs multimedia del futuro. Tanto el
grupo MPEG como el grupo Dolby extendieron a mitad de los ail0s 90 sus capa
cidades para proporcionar audio multicanal en lo que se conoce como "sonido
surTOund")' otros sistemas que precisan ms de dos canales. Por su parte, el ATRAC,
que es un sistema desarrollado por Sony para su minidisc, ofrece tambin capaci
dades multicanal que pueden llegar hasta ocho canales independientes. El APT
X100 se utiliza como sistema de audio multicanal para acompaar a las pelculas en
CD-ROM. Tanto Dolby como APT estan implantados sobre todo en Estados
Unidos. Con mucho, los sistemas MPEG son los ms utilizados y, adems, fueron
los primeros en aparecer, por lo que comenzaremos con ellos.
344
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ ~JIl';-;n en audjQ
plcjidad. De las dos normas, la primera fue el MPEG-l, que apareci en 199 J . Esta
norma se recoge en ISO !lEC 11.172-3, mientras que la compresin de ddeo se
define en 11.172-2. Se trata de un sistema para comprimir), codificar un canal de
vdeo ms su audio asociado en un tren binario de, como mximo, 1,5 Mbits!s,
para su utilizacin en soportes tipo CD, que es consecuencia del creciente uso ele
ordenado-es que se daba ya en aquella poca, tanto para el tratamiento de imge
nes como para el almacenamiento de elementos multimedia en distintos soportes.
MPEG-l est concebido para "meter" en un Sopol-te, inicialmente pensado para
"audio estreo de calidad", una seal de vdeo comprimida, ms un canal de audio
estreo tambin comprimido. El sistema MPEG-l , en lo referentc a la codificacin
del vdeo, se explica en el captulo 8, por lo que aqu nos centraremos en los aspec
tos del audio digital.
4.1.1. El MPEG-1
El audio digital contemplado para este sistema tiene su precedente en otro ante
rior, denominado MUSICAM (Moskin8 p0rtern odopted Universal Sub-bond Inte8rated
Codin8 And Multiplexin8 o codificacin y multiplexado integrado universal ele sub
bandas adaptadas con enmascarado), MUSICAM es un sistema de codificacin y
compresin flexible para audio de alta calidad, diseado dentro del proyecto
EUREKA-147 por CCETT (unin entre France Tclecom y su subsidiaria TDF), el
IRT (lnstitut fuI' Runijunk Technik) y Philips Consumer Elcctronics. Desde la finali
zacin de la norma MPEG-l el algoritmo de compresin MUSICAM no ha vuelto
a ser utilizado, a pesar de lo cual el nombre MUSICAM se sigue todava emplean
do en ocasiones para referirse a la capa II de MPEG- 1, lo cual es un error, ya que
MUSICAM es un nombre de marca registrado por diferentes empresas.
MPEG no es una norma de compresin sin prdidas, en la que slo se elimine
la redundancia matemtica, de manera que el decodificador sea capaz ele recons
truir una seal digital idntica a la original. Por el contrario, las normas MPEG se
basan en la compresin perceptual, es decir, con prdidas reales de informacin,
pero de tal manera que "es distinto, pero suena igual". Oc forma sencilla, podra
mos decir que un codificador de audio MPEG extrae de la seal de sonido, una
representacin de las frecuencias que la componen, elimina aquellas componentes
de frecuencia que son enmascaradas por otras ms intensas, codifica con el mni
mo nmero de bits posible las componentes de frecuencia restantes y empaqueta
los bits resultantes segn la "sintaxis" definida por la norma.
En MPEG-l se definen tres capas (laJers) denominadas 1, II Y III. Hasta hace
poco la capa II era la ms utilizada, aunque, dada la popularidad del formato MP3,
ya no se puede decir lo mismo. En MPEG las capas de audio son similares a los per
files del vdeo. Cada capa es ms sofisticada que las anteriores y aade nuevas
herramientas, lo que significa que, en general, una capa determinada proporciona
r ms calidad de audio para una frecuencia binaria determinada o bien gastar
menos bits para una calidad dada. Al igual que sucede con el vdeo, se respeta la
compatibilidad hacia abajo entre capas, lo que significa que cualquier decodificador
ser capaz de decodificar correctamente su capa y las anteriores_ La complejidad
34-5
COIllDrin en audio
(a nivel de t:U.ldr05
r~\J~
(; I
;
)(
..
Paquete5
MPEG
ICII:JClCJ
-------+
:;
::;;
Tiempo---
Figura 11. 7.
na, para cada bloque, sus componentes espectrales. A continuacin "modela" las
capacidades de enmascaramiento del sistema de audicin humano y hace una esti
macin del nivel de ruido "apenas-apreciable" para cada subbanda de frecuencia, lo
que a veces se llama "umbral de enmascaramiento". A la vez la seal de entrada
dividida en bloques se enva al generador de subbandas, que divide las muestras del
cuadro en funcin del rango de frecuencias al que pertenecen. En la siguiente etapa
el codificador genera un factor de escala adecuado al bloque de muestras e intenta
repartir los bits de datos disponibles, de forma que se respete el bit-rate o fre
cuencia binaria y los requisitos de enmascaramiento, teniendo en cuenta el umbral
precalculado. Con la ayuda de la figura 11.8 podemos ver esto ltimo con un poco
ms de detalle.
-,
I
I
100
-i
rf
I
90
~ 80:
~
~ 60
.a
o.
I -- '11
~50
/
I
-8
40~
"i)
'i 30
:
1
20
i
la'
~ 70!
~
I
'
TI
Cu",a de enmascaramlenlo
t!
)'
-7
--m'I':'"
I ,1
:::;
1.
'-8
-5
-6
-2
:::1
Figura 11.8.
A partir de! espectro de la seal de entrada se calcula una curva de enmascaramiento y a par
Capa 1 de MPEG-I
La capa 1, que, como se ha dicho, es la ms sencilla, contempla frecuencia~ bina
rias de salida desde 32 Kbits! s hasta 448 Kbits! s. En esta capa la seal digital es
dividida en cuadros de 384 muestras, que se distribuyen en 32 subbandas de igual
tamao, quedando 12 muestras por subbanda y cuadro (32 x 12 := 384). Ahora
cada muestra dura 1!48.000:= 20,83 IlS o 1!44.100 = 22,67 IlS, o bien 1132.000
:= 31,25 I1S. Esto hace que los cuadros tengan una duracin de 12 x 32 x 20,83 Il S
= 8 I1S o 12 x 32 x 22,67 IlS = 8,7 IlS o 12 x 32 x 31,25 Ils:= 12 Il S.
Para cada banda se utiliza un factor de escala de 6 bits, que indica cunto hay
que desplazar el grupo de datos en esa subbanda para alcanzar el valor de pico. Una
vez codificado el factor de escala, que puede entenderse como el valor medio del
grupo, el residuo o djferencia se indica mediante un nmero variable de bits (entre
O y 15 para esta capa), determinados por un circuito llamado ''bit-aIlocator''o "asig
nadar de bits". Este circuito tiene en cuenta tanto el umbral de audicin humano
como la representacin frecuencial de la seal de entrada y el nmero de bits dis
ponible. Por ejemplo, si estamos codificando un archivo a 128 Kbits! s, esto deter
minar el nmero mximo de bits que pueden transportar los cuadros. A 192
Kbits! s el asignador de bits dispondr de ms bits para la codificacin de las sub
bandas.
348
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _~C=oJl!llrcsi611 en i1U.iJJl!
32 bits
Cabecera
(12 bits)
sistema (20 bits)
1111 11111111
Figura 11.9.
Formato de los paquetes de audio codificados MPEG-I capa 1.
Capa II de MPEG-I
La capa 11 soporta, al igual que la capa 1, las frecuencias de muestreo de
32 KHz, 44,1 KHz)' 48 KHz y tambin divide el espectro de audio en 32 sub
bandas de igual anchura, pero en este caso cada una de las subbandas se codifi
ca con 36 muestras, por Jo que el cuadro completo se compone de 1.152 mues
349
DE
CO!nnrcsion en audio
TELI:\'I~I<':'\'
Tabla 11.2 Estructura de la cabecera de las tramas MPEG-1, comn a las tres
capas
NOMBRE DEL
CAMPO
Syncword
ID
Layer
Error Protection
N. o DE
BITS
12
1
2
1
Bitrate index
Sampling
frequency
Padding'
Prvate*'
Mode
Mode Extensin
1
2
2
UTILIDAD
Siempre 1111 1111 1111 (FFF H)
MPEG = 1; MPEG-2= O.
Capa I = 11; capa 11 = 10; capa 111 = 01; reservado == OO.
Valor O si se aade redundancia (zona CRC del paquete de
datos); 1 si no se aade redundancia.
Frecuencia binaria del tren comprimido; 15 valores; el valor
0000 significa flujo libre; el valor 1111 prohibido.
Frecuencia de muestreo de la fuente: 32 KHz = 10; 44,1 KHz
= 00; 48 KHz = 01; reservado = 11 .
Si est a 1 se utilizan bits de relleno, necesarios cuando la
frecuencia de muestreo es de 44,1 KHz.
Bit no especificado, de uso libre.
Estreo = 00; estreo comn: 01; dual: 10; mono: 11.
Slo se usa en Intensity Stereo, que es una variante del
estreo comn para indicar margen de las subbandas.
mnima tasa binaria para una calidad predeterminada. Esto, por otro lado, supone
Emphasis
2
J17 = 11; 50/75 ls = 01; sin nfasis = 00; reservado = 10.
351
32 bits
O 16 bits
Asignacin1;cFSI
Cabecera CRe de los bitsJ=
--------------
Sincronizacin Informacin ~
(12 bits)
sistema (20 bi~lJ
32 bits
Cabecera
Sincronizacinl'nformacin del
(12 bits)
sistema (20 bits)
1111 11111111
Depsito de bits
Codificacin en trpica
Una vez que se han aplicado todas las helTamientas de compresin perceptual,
los datos resultantes son enviados a un segundo codificador, denominado "codifi
cador entrpico" o "codificador sin prdidas", el cual utiliza los conocidos "cdigos
de Huffman" explicados en el captulo 8. Este tipo de compresores puede equipar
se a los conocidos codificadores ZIP, tan utilizados en informtica para la compl'e
sin de archivos. Se trata, por tanto, de compresores sin prdidas, que slo huscan
una forma ms eficiente de empaquetar la informacin.
Se dice que la funci6n del compresor perceptual es la de "descorrelacionar" los
datos, es decir, rompe' la relacin de redundancia CJue hay entre ellos. Si este codi
ficador fuera 100% eficiente en la eliminacin de la redundancia perceptual y apro
vechara al 100% las ca'actcrsticas de enmascaramiento del sistema de percepcin,
el codificador entrpico tendra poco que hacer. Por ejemplo, un pasaje de msica
que contenga muchos instrumentos que suenan a la vez se beneficiar de los algo
ritmos de enmascaramiento. Sin embargo, una frase musical formada por un solo
tono sostenido no podr aprovechar tan eficazmente el fenmeno de enmascara
miento. Por otra parte, es evidente que el tono sostenido contiene, por definicin,
mucha redundancia y puede ser comprimido mediante tcnicas tradicionales mate
mticas, como las utilizadas por los compresores ZIP. Como promedio, se puede
calcular en un 20% la reduccin total aportada por la codificacin entrpica a los
archivos de audio precomprimidos con tcnicas perceptualcs,
La capa III utiliza codificacin de longitud variable Huffman para compactar los
datos previamente comprimidos mediante tcnicas perceptivas. Para esto el codi
ficador ordena los 576 coeficientes MDCT (32 subbandas x 18 MDCT coeficien
tes/subbanda) en un orden predeterminado, basado en el incremento de frecuen
cia, es decir, se ordenan de menor a mayor frecuencia. Este orden no se respeta en
el modo de bloCJues MDCT cortos. En este modo hay tres conjuntos de valores
para una frecuencia dada, de manera que la ordenacin es primero por frecuencia
y luego por orden del primero al tercero, dentro de cada banda de factor de esca
la. Esta ordenacin presenta la ventaja de que los valores largos suelen darse en el
caso de las bajas frecuencias, mientras que los valores cercanos a cero y las largas
cadenas de ceros suelen corresponder a las altas frecuencias.
TH .~()[ ()(;I'\,
A( TlJ.\1
ni
COIllPrc"jn
TIII"\'I.'iIO"l
Adagio
Marcha
Balada
Rack
Original
.wav
Comprimido
.ape
Factor de
compresin
.ape
Comprimido
.zip
Factor de
compresin
.zip
57,576
23,429
68,983
44,347
16,856
10,245
41,869
28,733
3,41:1
2,28:1
1,67:1
1,54:1
50,343
20,213
64,725
42,519
1,12:1
1,16:1
1,06:1
1,04:1
('J)
audio
mucho de llna pieza a otra. Tambin puede verse que los compresores tipo ZIP no
resultan muy eficaces en la compresin de msica, ya que son algoritmos de tipo
general, que no reordenan los datos antes de aplicar la codificacin dc longitud
variable (VLC).
Depsito de bits
Una de las caractersticas ms importantes dc la capa III es su capacidad para
afrontar la demanda de bits, variable en el tiempo. Al igual que la capa 11, la capa
III procesa cuadros de datos de audio correspondientes a 1.152 muestras, pero, a
diferencia de la primera, en la capa IIIlos datos codificados de un cuadro no tienen
que ubicarse necesariamente en un campo de longitud fija dentro del bic-stream. Si
el codificador se encuentra en una situacin tal que el promedio de bits que le llega
es superior a los que puede acomodar en un momento determinado, puede "donar"
temporalmente bits a un depsito. Ms tarde, cuando el codificador necesite ms
bits de los que le estn llegando para llenar el cuadro actual, podr tomar los bits
temporalmente almacenados en el depsito. El codificador slo puede coger del
depsito bits pertenecientes a cuadros anteriores, es decir, un cuadro determina
do no puede contener bits de otro que es posterior en el tiempo. El biC-stream de
la capa III incluye un "puntero" de 9 bits, que se localiza en el campo "parmetros
del paquete" (figura 11 .11). Este puntero indica la direccin o apunta hacia la loca
lizacin del primer byte de los datos de audio correspondientes a ese paquete.
Tabla 11.4. Calidad en funcin de la tasa binaria para la capa IJ/-MPEG-1.
Calidad'
Mejor que onda corta
Mejor que radio en AM
Similar a radio en FM
Casi compact disc
Como compact disc
Ancho
bandade
Modo
Frecuencia binaria
Factor de
compresin
4,5 KHz
7,5 KHz
11 KHz
15 KHz
>15 KHz
Mono
Mono
Estreo
Estreo
Estreo
16 Kbits/s
32 Kbits/s
56 ... 64 Kbits/s
96 Kbits/s
112... 128 Kbits/s
48:1
24:1
26 ... 24:1
16:1
14... 12:1
En la tabla 11.4 puede verse la calidad de sonido que cabe esperar en funcin
de la frecuencia binaria de! tren comprimido cuando se utiliza la capa 1II. La fre
cuencia binaria de 8 Kbits/ s es una extensin de la capa III no recogida en las nor
mas ISO que proporciona una mejora de las caractersticas subjetivas, en lo que se
conoce como "MPEG-2.5", y se basa en frecuencias de muestreo de 11,025 KHz
o 12 KHz.
Las diferencias ms notables con respecto a la capa 11 son:
1. Las 32 subbandas de igual anchura son subdivididas en 18 bandas cada una,
utilizando tcnicas de tipo transformado, como la MDCT, con lo que se
obtiene un total de 576 subbandas. En presencia de transitorios, y para evi
tar e! efecto pre-eco, este nmero puede rebajarse a 192 subbandas (vase
apartado 3.3.1).
2. Los valores proporcionados por el codificador perceptual son a continuacin
355
_________
CAPA 11
CAPA I
Nmero de subbandas
Muestras/cuadro
Calidad casi transparente
192 Kbits/s/canal
Duracin cuadros:
48 KHz / 44,1 KHz / 32 KHz
8 ms/8,7 ms/12 ms
Frecuencias binarias
mnima y mxima
Anchura de las subbandas
192 o 576
32
384
1.152
128 Kbits/s/canall
64 KBits/canal
24 ms/26, 12/36 ms
32 Kbits/s
448 Kbits/s
32 Kbits/s
384 Kbits/s
16 Kbits/s
-320 Kbits/s
750 Hz
36
125 Hz o 41 ,67 Hz
audio
CAPA'"
Modos de codificacin
Frecuencias de muestreo
Comprl'~in en
do )' aplicar una compresin moderada, que aplicar fuertes compresiones a seales
ms ricas. Concretando, es mejor filtrar), submuestrear )' luego comprimir mode
radamente que aplicar fuertes compresiones a seales con total ancho de banda. Por
esta razn la norma MPEG-2 contempla, adems de las frecuencias de muestreo
normalizadas en MPEG-I (32 KHz, 44,1 KHz)' 48 KHz), las frecuencias mitad, es
decir, 16 KHz, 22,05 KHz)' 24 KHz. La aplicacin de estas frecuencias es aconse
jable cuando se pretenden tasas binarias del tren comprimido por debajo de 64
Kbits!s. Con una frecuencia de muestreo de 24 KHz, por ejemplo, la capa 1Il, que
utiliza 576 subbandas, presenta una resolucin de frecuencia (anchura de las sub
bandas) de aproximadamente 21 Hz. Esto permite una mejor adaptacin de las ban
das de factor de escala a las badas crticas del sistema de percepcin humano, lo que
se traduce en mayor calidad de audio para tasas binarias bajas, aunque el ancho de
banda terico sea de slo 12 KHz en este caso. La aplicacin de esta extensin de la
norma es muy fcil para los decodificadores MPEG-I, ya que slo supone la inclu
sin de algunas tablas mas.
Cuando ya se haba definido y publicado la primera versin de la norma MPEG
2, algunas organizaciones arguyeron que existan nuevas tcnicas de codificacin
capaces de proporcionar mejores caractersticas de calidad que el MPEG, por lo
que se realizaron nuevas pruebas. De hecho ya se estaba trabajando en normas que
superaban al MPEG, tales como el sistema AC-3 de Dolby o algunas normas de la
AT&T. Por eso la norma MPEG-2 incluy, en su versin de 1997, un sistema de
codificacin denominado AAC (Advanced Audio Codina) que no es compatible hacia
atrs, es decir, que los trenes binarios codificados MPEG-2 AAC no pueden ser
decodificados por sistemas MPEG-I. Se dice entonces que el AAC es un sistema
Non Backward Compatible o NBC (no confundir con la cadena de televisin ameri
cana).
Aparte de permitir nuevas frecuencias de muestreo ms bajas, la codificacin com
patible de 5.1 canales y la inclusin de la variante AAC no-compatible, la norma
MPEG-2 de audio es idntica al MPEG-I y trabaja con las mismas tres capas que ste.
Existe tambin una extensin no normalizada por los organismos lEC e ISO, cuya
patente es propiedad del Fraunhofer Institute for Integrated Circuits, que permite la
utilizacin de frecuencias de muestreo equivalentes a un cuarto de las nominales del
MPEG-I, es decir, 8 KHz, 11,025 KHz Y 12 KHz.
La ampliacin a multicanal se logra insertando los datos bsicos, que han de ser
vir tanto al decodificador MPEG-l como al MPEG-2, en la zona de carga normal
de los paquetes codificados, es decir, la que aparece etiquetada como "muestras de
subbandas" en las figuras 11.9 y 11.10, correspondientes a las capas 1 y I1, o como
"depsito de bits" en la figura 11.11 para la capa IlI. Los bits extra, que permitirn
al decodificador MPEG-2 obtener los cinco canales surround ms el de realce de
bajas frecuencias, se transmiten en la cola del paquete, dentro del campo etiqueta
do "datos auxiliares". Estos datos pasarn desapercibidos para el decodificador
MPEG-I. Por tanto, se produce un "anidado" de paquetes, ya que en el campo "datos
auxiliares" podemos encontrar paquetes completos, con su cabecera, su CRC, cam
pos de factor de escala y reparto de bits, as como zona de carga para las muestras
de subbanda de los 3.1 canales.
3S8
MPEG-AAC
ste es el ltimo miembro (por ahora) de la familia MPEG-2 )' ha sido disea
do para proporcionar alta calidad de audio a frecuencias binarias de
64 Kbits! s y canal para aplicaciones multicanal. El tren binario codificado puede
acomodar hasta 48 canales de audio principal, 16 canales de realce de baja fre
cuencia, 16 canales para multilenguaje y 16 zonas para transporte de datos auxilia
res. Con esto se pueden codificar hasta 16 programas independientes, cada uno con
su propia configuracin, es decir, formado por cualquier nmero de canales de
audio y paquetes de datos. El sistema AAC utiliza los mismos principios bsicos de
codificacin que el MPEG-I , aunque aade nuevas herramientas para mejorar las
caractersticas finales.
Algunas de las mejoras introducidas por el sistema AAC son: un banco de filtros
con una mayor resolucin en frecuencia, una codificacin entrpica ms eficaz y un
mejor aprovechamiento de la redundancia e irrelevancia estereofnica. Se introdu
cen dos nuevas herramientas: un predictor hacia atrs opcional y un modelador de
ruido en el dominio temporal, que mejma la calidad cuando se codifican seales
de habla a muy bajas tasas binarias. Como resultado, el AAC es, aproximadamen
te, un 30% ms eficaz que la capa 1Il.
PeIjiJes en AAC
La variante AAC recupera el concepto de "perfiles" de! MPEG-2 vdeo, que en
e! fondo no es muy distinto del concepto de capas en MPEG-2 audio. En AAC hay
tres perfiles, denominados: Main Prrifile, Low Complexity Predile y Scalable Simple Rate
Prrifile. En general se puede decir que los tres perfiles AAC, cuando trabajan a 128
Kbits! s, proporcionan mejores caractersticas que la capa II a 192 Kbits/ s o que la
capa III a 128 Kbits!s. Se puede considerar que la meta inicial, que consista en una
calidad casi transparente para frecuencias binarias de 64 Kbits! s y canal, est ple
namente conseguida. Tanto el perfil principal como el de baja complejidad pro
porcionan, a 96 Kbits/s, una calidad que es comparable a la capa II a 192 Kbits! s,
lo que supone una mejora de 2: 1 en la eficacia de compresin. Por otro lado, el
perfil principal a 96 Kbits! s da mejores resultados que la capa III a 128Kbits! s.
Paquetes AAC
En MPEG-I (y, por tanto, en MPEG-2) cada capa normaliza la forma en que se
empaquetan los datos mediante los llamados "cuadros" o "frames", los cuales se
suceden a una frecuencia constante. La forma en que se estructuran estos paque
tes no cambia mucho de una capa a otra. En todos los casos se comienza por una
cabecera, luego vienen unos campos de factor de escala, asignacin de bits, etc.,
para nnalizar con la zona de carga y los datos auxiliares. AAC, por el contrario, deja
abierta la eleccion de la sintaxis de transporte a la aplicacin que se est utilizan
do, normalizando slo el formato de los datos de audio codificados, es decir, bsi
camente la llamada "zona de carga". Por otro lado, ya han sido normalizados dos
sintaxis de transporte que pueden servir de ejemplo ms o menos tpico:
l. ADIF: Audio Dota lnterchanae Format.-EI tren binario de audio codincado
contiene una cabecera nica con toda la informacin necesaria para contro
lar el decondicador, tal como la frecuencia binaria, la frecuencia de mues
359
Tl.'~(ll
()(,I.-'
,'L
C0!.!ll-l..u;~I.l..-t;lL~:u.!i.1J(~
a:
O
O
Oatos PCM
X ~Ud'O
Transformada
tiempo
frecuencia
W
....J
o..
codificado
--.
5::J
Modelo
psicoacstico
adaptado
:2
Figura 11.12.
El metodo adaptativo hacia atrs (BABA), por su lado, tiene la ventaja de que no
se desperdicia capacidad del canal en enviar datos sobre cmo se han repartido los bits
entre las subbandas, de manera que toda la capacidad de los paquetes es utilizada por
las muestras de audio. Pero este metodo tiene tambin desventajas. La informacin
que se enva al decodificador tiene una resolucin limitada y, por tanto, contiene erro
res. Adems, puesto que el decodificador no puede ser muy caro, los clculos han de
ser relativamente sencillos y el algoritmo de reparto de los bits se convierte en fijo
tan pronto como se pone el primer decodificador en el mercado.
La solucin hbrida utilizada por AC-3 intenta aprovechar que la cantidad de
datos que hay que enviar al decodificador para cambiar la rutina bsica que controla
el reparto de los bits es muy inferior a los que seran necesarios con un sistema
adaptatiVO hacia delante puro y, por otro lado, el modelo psicoacstico puede ser
actualizado dinmicamente.
363
ru il
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _.
La adaptacin de alta frecuencia se utiliza para lograr una compresin extra de las
frecuencias ms altas del espectro. En las altas frecuencias el odo no puede detectar
ciclos indi,jduales de la forma ek onda de audio, sino que ms bien responde solo a la
ell\'oh-cnte de la sei1al en esta zona de frecuencias. La tecnica de la adaptacian reduce
las componentes de alta frecuencia de los canales correlacionados (que pertenecen a
un mismo programa )' tienen contenido similar), generando lID nico canal-mezcla
para estas frecuencias, a la vez que genera un poco de informacian colateral que des
cribe la envolvente especb'al especfica de cada canal. De todas formas, esta tecniea
puede dar lugar a potenciales artificios, por lo que solo se emplea cuando se requie
ren tasas binarias muy bajas.
En AC-3 la seilal de entrada cs filtrada para eliminar las componentes desde OC
hasta 3 Hz, dividida en hloques de 512 muestras, lo que equivale a 10,66 ms para la
frecuencia de muestreo de 48 KHz y separada a continuacian en 256 subbandas de
frecuencia, mediante filtrado MOCT, utilizando una b'ansformada de 512 puntos, de
manera que se produce un solapamiento del 50%. Esto proporciona una resolucin
en frecuencia de 93,75 Hz para la frecuencia de muestTeo de 48 KHz (24.000
Hz/ 256). En presencia de b'ansitorios se conmuta a una resolucin frecuencial menor,
al reducir el nmero de subbandas a la mitad. Esto mejora la resolucin temporal, ya
que la duracin de Jos bloques se reduce tambien a la mitad. Por ejemplo, los bloques
largos, que en el modo de 48 KHz duran 10,66 ms, pasan a durar 5,33 ms en el modo
de bloques cortos (vase tabla 11.6). As! se minimizan los efectos de los transitorios
sobre el bloque de muestras codificado.
CQUl}J-.l~~.!ILQ~uiliQ
forman un cuadro de sincronizacian AC-3. Por ob'o lado, se utiliza un algoritmo espe
cial para extraer las similitudes enb-c canales y codificar una sola "ez la informacian
que se repite entTe ellos Oespues el decodificador "oh'Cr a reubicar la informacian
en los canales adecuados.
La informacin AC- 3 se estructura en cuadros que representan un interYalo de
tiempo constante, equi"alcnte a 1.536 muestras PCM, repartidas entre todos los
canales codificados. Cada cuadro tiene un tamailo en bytes fijo, que depende slo
de la frecuencia de muestreo y del bit-rate que se pretenda lograr. Adems cada
cuadro es una entidad independiente que no comparte datos con otros cuadros
anteriores o posteriores. La figura 11.13 muestra la estructura de los cuadros bsi
cos AC- 3. Los cuadros se inician con una palabl-a de sincronizacian fija y un paque
te CRC para coneccian de errores. A continuacin aparecen SI (Syne h1rmation)
y BSI (Bit Stream iriformation) , que describen la configuracian del tren binario,
incluyendo la frecuencia de muestreo, la frecuencia binaria de salida, el nmero de
canales codificados, etc.
En cada cuadro hay seis bloques de audio, cada uno de los cuales representa 256
muestras PCM de entrada. Cada bloque contiene, entre otros, las banderas de con
mutacian de bloques, los exponentes, los parmetros de reparto de bits y las man
tisas. La parte inferior de la figura 11.13 muestra los campos que constituyen cada
bloque. Al final del cuadro se dispone de un campo para datos auxiliares, reserva
do para control o informacin de estado del sistema de transmisin y de otro
paquete CRe.
PARAMETRO
Frecuencia de muestreo
Mnimo-mxmo bit-rate
Ancho de banda
Longitud de los bloques
(largo - corto)
Duracin de los bloques
Nmero de subbandas
Anchura de las subbandas
Bit rate casi transparente
(un par estreo)
Bit rate casi transparente
(5.1 canales)
32 KHz
15 KHz
44,1 KHz
32 Kbits/s-640 Kbits/s
20,5 KHz
SINC.
CRC
(1)
22,5 Kl-fz
S.I.
B.S.I.
--~-~---
48 KHz
CRC
(2)
-~-._-
-~-
Valores
de los
exponentes
-- -~-
--
Valores de
las mantisas
512-256 muestras
16-8 ms
11,6-5,8 ms
256/128
10,66-5,33 ms
62,5-125 Hz
86,133-172,26 Hz
93,75-187,5 Hz
Estructura del cuadro de sincronizacin AC-3 (arriba) y detalle de cada uno de los bloques
(abajo).
192 Kbits/s
384 Kbits/s
PI TU 1:\ I.\]p:,\
nr: TU,U'ISION
Estrategia
de Reparto
Parmetros de.
Reparto de los bils
n::
de los bits
O
O
~~alos
Codificados
UJ
Oalos
PCM
CoeflC.ltlnh!lli
Cuantificacin de
Esptlclrales
los componentes
Cuanllflcados
espectrales
-J
a...
!S
~
1
Figura 11.14.
366
---...
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _-'c"--(~)J~n'j!prc.si011 en Judit.
entre una lista fija y reneja la magnitud general de los coeficientes espectrales de
las unidades tempo-frecuenciales. La longitud de la palabra la determina el bloque
estrategia de reparto de los bits". Resumiendo, para cada cuadro de sonido, com
puesto por 512 muestras de anlisis, el sistema genera la siguiente informacion:
Modo de tamai'o del bloque MDCT (largo o corto).
Datos sobre la longitud de palabra para cada bloque tempo-frecuencial.
Cadigo de factor de escala para cada bloque tempo-frecuencial.
Coeficientes espectrales cuantificados.
El bloque de estrategia de reparto de los bits clivide el espacio disponible entre
las unidacles tempo-frecuenciales. Las unidades a las que se haya otorgado muchos
bits presenta-n muy poco ruido de cuantificacion; aquellas con pocos o ningn bit
incorporaran cantidades importantes de ruido. La mejor calidad de soniclo se
obtiene cuando el repartidor de bits logra que las unidades crticas tengan sufi
cientes bits y que el ruido de las unidades no criticas no sea porceptualmente sig
nificativo.
ATRAC no utiliza un algoritmo fijo en la estrategia de reparto de los bits, sino
que utiliza el principio adaptativo hacia delante (FABA), donde toclas las decisiones
se toman en el codificador y se comunican al decodificador. Esto permite que los
grabadores minidisc porttiles (que son la principal aplicacion de este sistema) uti
licen, durante la codificacian, algoritmos relativamente sencillos, ya que estos
equipos necesitan ser pequeos y econmicos, mientras que otros equipos estacio
narios de mayor precio o la msica pregrabada puede utilizar algoritmos mucho
ms sofisticados, que sern igualmente entendidos por el reproductor porttil gra
cias a la informacion de control FABA.
utilizado por Son)' en la distribucion de msica digital a travcs del senicio de sat
lite SkyPerfectTV en Japon, que es basicamente un ATRAC-2.
La figura 11.15 resalta las diferencias ms importantes de la variante ATRAC-2
con respecto al sistema bsico ATRAe. Para empezar, se utiliza un banco de filtros
PQF (Poliphase Qyadrature Filter) que proporciona resultados similares al QMF
(Qyadrature Mirror Filter) empleado en el ATRAC, pero requiere menor potencia de
cmputo. Este filtro analiza la seal de entrada mediante un banco de 96 puntos,
dividindola en cuatro bandas de frecuencia de igual anchura (en ATRAC se utiliza
ban solo tres bandas, teniendo la banda alta tanta anchura como las otras dos jun
tas). Las componentes de cada banda son a continuacion sometidas a un modifica
dor de ganancia, que acta preamplificando la seal justo antes de que se produzca
un transitorio. Esta preamplificacion es compensada en el decodificador aplicando
la correspondiente atenuacin. Puesto que los transitorios pueden prodUCir ellla
mado efecto "pre-eco", el cual puede entenderse como una especie de ruido, el con
junto amplificacin-atenuacin acta de forma similar a los sistemas reduccion de
ruido analogicos. Hay que recordar que este problema era afrontado por el ATRAC
original variando adaptativamente el tamao de la ventana de transformacin.
(f)
368
::~
-oW
-1
oo:::
~
:
Codificacin
componentes
tonales
wO
01
(f)--l
)
:J
.
4.3.3. Variantes del sistema ATRAe
(f)
a
o..
z(f)
uz
uUJ
0:::0
1-0..
x
Codificacin
componentes
espectrales
En cada banda bsica se separan las componentes tonales, que son aquellos gru
pos de coeficientes espectrales consecutivos, o distribuidos de forma uniforme
sobre el espectro y que pueden ser descritos mediante parmetros tales como su
localizacion y su anchura (las notas de un piano o de una trompeta pueden produ
cir este tipo de distribuciones espectrales). Se considera que el odo es muy sensi
ble a los errores que puedan cometerse en la cuantificacin estos componentes
tonales, por lo que son cuantificados con la mxima precision. Los componentes
espectrales, que son aquellos que se reparten de forma ms o menos desordenada
369
Compresin en audio
por el espectro, no necesitan tanta precisin, por lo que el codificador les otorga
comparati\'amente pocos bits. Tanto los componentes tonales como los espectrales
son a continuacin sometidos a compresin entrpica mediante tablas de Huffman.
Como suele decirse, "no hay dos sin tres" y, por supuesto, existe un ATRAC-3. De
hecho, ste es el miembro ms popular de la familia)' el que se utiliza en los repro
ductores actuales, incluidos los de estado slido, que graban la msica directa
mente en chips, ya sean internos o en tarjetas de memoria. Estos reproductores sin
disco se conocen como "MP3", lo cual es incorrecto para los que utilizan como
algoritmo de compresin alguna variante del sistema ATRAe.
ATRAC-3 vuelve a utilizar filtros QMF como mdulo bsico para la divisin en
bandas de frecuencia, en lugar de filtros PQF de la variante ATRAC-2. De esta
forma se facilita la compatibilidad con el sistema ATRAC original. Por lo dems,
ATRAC-3 es idntico a ATRAC-2 y el sufijo "3" quiz sea ms un recurso comer
cial para aprovechar el tirn del archipopular MP3 que un cambio de formato.
Recientemente han aparecido las versiones 3.5, 4. O Y 4.5, que no son variantes
nuevas, ya que siguen utilizando la misma estructura de procesado que el ATRAC
3. Lo que hacen es introducir mejoras en la precisin de los clculos mediante nue
vos chip-sets.
Existe tambin un ATRAC-3 plus que no se utiliza en el minidisc, pero s en
reproductores CD-walkman. Esta variante utiliza ventanas de transformacin ms
anchas (4.096 muestras o 92 ms) y, adems, divide la seal en 16 bandas antes de
aplicar la MDCT.
a;: :~~25
___o
Subbanda HF
J (2 bUs/muest,a) I
------1 Quantificador
Vl
:>
o.
4 palaDras
de 16 bJls
a Fs
...,.
16l>ils
aF"O.25
'9
Q)
'O
16 bUs
Subbanda MlF
Fs x O,25_D~
(4
iL
16btts
r1.
Predictor
n::
~ Quantificador I
<O
LL
Subtlanda MHF
(3 blts/rnueSlra)
bllslm~estraJ
~~banda ;:-;-
-1
Predictor
__
u_
Predictor
o
><
w
<i
...J
a..
1 palabra
de 7+4-+3+2 =
16 bits a Fs
:::>
(7 blts/muestra
~FS'O:'.59
L__.
Figura 11.16.
Resumen
La compresin en audio digital produce dos beneficios: por un lado, aumenta la
capacidad de almacenamiento de un soporte dado; por atTO, recluce la velocidad
de transmisin necesaria. Pero tiene tambin algunos inconvenientes: aumenta la
complejidad de los equipos y puede perjudicar a la calidad de la seal.
o La estrategia de la compresin de audio se basa en la eliminacin de la redun
dancia; sta puede ser de dos tipos: la "redunclancia matemtica" o "redun
dancia entrpica", que es aquella que se puede eliminar sin prdida real de
informacin, y la redundancia perceptual, siendo esta ultima aquella infor
macin que si es eliminada en el codificador no podr ser reconstruida de
forma perfecta en el decodificador, pero tampoco supondr una merma de
calidad apreciable por parte del usuario.
o En el odo interno la membrana basilar se divide en 24 regiones. Estas regio
nes, llamadas "bandas crticas", podran tener una anchura de unos 100 Hz por
debajo de los sao Hz, mientras que por encima, su anchura ira aumentando
a medida que crece la frecuencia.
o Una vez que una frecuencia muy concreta ha hecho vibrar su regin, el siste
ma se comporta como un circuito sintonizado de alta selectividad. De esta
forma cada regin vibra a una frecuencia determinada por el estimulo de
mayor amplitud, mientras que ignora cualquier otro estmulo de intensidad
menor. Este mecanismo de simplificacin, denominado enmascaramiento
auditivo, proporciona, por s solo, la herramienta de compresin ms poten
te en el tratamiento del audio digital. Para qu codificar aquellos tonos que
en realidad no omos?
o Al igual que sucede con otros procesos perceptivos, el enmascaramiento audi
tivo no es lineal. Al contrario, el enmascaramiento es muy superior en el
extremo de las altas frecuencias.
o
372
373
COlllPl"e.'>IOl1 C'11
374
Judio
375