Vous êtes sur la page 1sur 186

{JG P1 cr:1L '0A

.:~ I L \..,o

Tecnologa actual de televisin

EMILIO PAREJA CARRASCAL

INSTITUTO OFICIAL DE

RADIO Y TELEVISiN

r+

COLECCIN MANUALES PROFESIONALES

Tecnologa acrual de televisin. Emilio Pareja Carrascal. 200S

NDICE
PBCAPiTULO 1: LA SEAL DE ViDEO

21

1. Un poco de historia
.
2. Caractersticas de la visin humana

21

22

23

23

24

24

2.1. Anatoma del ojo


2.2. La acomodacin
Diseo de cubierta: RUBN SERNA SANTOS

....

2.3. El iris
2.4. La retina

.
2.4.1. Funcionalidad de la retina
2.4.2. Percepcion cromtica ..
2.5. Resolucion espacial lumnica y cromtica

25

26

27

2.6. Agudeza visual ...

2.7. Persistencia visual

...

30

3. La seal de vdeo ....


3.1. Frecuencia de cuadro
3.2 Entrelazado de campos
3.2. 1. Parpadeo interlnea .
3.3. Frecuencia de lnea . . . . .
3.4. Proporciones de la imagen
3.5. Duracin de una lnea .
3.6. Niveles de tensin ...
3.7. Duracion de un campo
3.8. Ancho de banda
.,.
Resumen
CAPiTULO

30

31

32

. .....

2:

EL COLOR . . .

35

37

38

__

__ ...

1. 1. Aspectos fsicos del color

(O INSTITUTO OFICIAL DE RADIO Y TELEVISIN. RTVE


Carretera Dehesa de la Villa, s/n.
28040 Madrid, 2004

ISBN: 84--88788-60-6
Depsito legal: M. 15_ J 13-2005

Imprime: Neografis, S. L.

1.2. Aspectos psicofsicos del color

1.3. Mezcla auditiva


1.3. 1. Colores primarios luz ..

40

43

43

43

43

44

44

45

1.3.2. Las leyes de Grassmann


1.4. Mezcla sustractiva
.

1.5. Igualacin de colores

33

34

34

1. Naturaleza del color .. _

28

29

46

47

JlliJiIT

TECb'J)LOGJA ACTUAL DE TFL[\,I.'lIN

P<H"

Pg.

1.6. Escalas normalizadas .


.6.1. El sistema Runge
.6.2. El sistema Munsell
.6.3. El sistema Ostwald
.6.4. El tringulo intemacional de colores
1.7. Crominancia de un color
2. Las componentes de color
2. l. La correccin de gamma
2.2. Multiplexado de las componentes
Resumen
CAPiTULO

3:

Los SISTEMAS DE TELEVISiN .

1. Introduccin
. . . . . . .
2. El sistema NTSC . . .
2.1. Atenuacin de las componentes
2.2. Modulacin en cuadratura de fases
2.3. Formacin de la seal compuesta
2.4. Descripcin matemtica ....
.. .
2.5. El vector de crominancia . . . .. . ..
2.6. Suma de luminancia y crominancia
. . ..
3. Un formato intermedio: Y / C
4-. Un sistema PAL
.
4-. 1. Los errores de fase . . .
4-.2. Alternancia de la polaridad de "V"
.. .
.
4-.3. El codificador PAL .
. . . .
4-.4-. El decoficador PAL
.
5. El sistema SECAM
. .. . . . . . .. . . . . . .. .
6. Eleccin de la frecuencia de la subportadora de color
. . .
. ..
7. La secuencia PAL de 8 campos
8. Tipos de seal de vdeo . . . . .
9. Espectro de la seal de vdeo. .,.
9. l. Patrones visuales y frecuencias
9.2. Espectro de las seales complejas ..
. .,
10. Listado de normas de televisin por pases
. ..
. . .
10.1 Variantes de sistema PAL
Resumen
. . . . .
.

. ..
. ..
. ..
...
. ..

..,
. .,
. ..

.
.

2.
3.
4.

Ventajas de los sistemas digitales


1. l. Ubicuidad de los sistemas digitales
.
Situacin de la televisin digital ..
Seales de vdeo y anchos de banda
Definicin de analgico y digital . . . . . . . . . ..
4.1. Analgico

.
.
.

. ....
. ..
. ..
.
.
.
.

CAPITULO 4: LA DIGITALIZACiN

l.

. ....

.
.
.

.
.

96

.
.

48
48
49
50
50
53
59
62
64
65
67
67
67
68
68
69
71
71
73
73
74
75
75
77
78
79
80
81
82
84
84
85
87
92
92
95
95
96

.
.
.

97
100
100

4.2. Digital
Conversin A/D

5.1. El muestreo

5.2. A]ossing

5.3. La cuantificacin
.

5.3.1. El ruido de cuantificacin

5.

6.
7.

5.4. El dither . .
.
El filtro de reconstruccin ..
El diagrama del ojo

8. Tipos de seales digitales de vdeo


Resumen

.. . . .

. . .

4:2:2
...

. ..

1. Introduccin......
. ..

2. La norma 4:2:2 . . . . . . . . .
2. 1. Eleccin de la frecuencia de muestreo .

....

2.1 . l. Frecuencia de muestreo de la luminancia


2. 1.2. Frecuencia de muestreo de C H y C R

2.2. Seales codificadas . . . . . . . . . . . .


. ...

2.2.1. Convenciones sobre notacin . . . .


. ....

2.3. La lnea digital . . . . . . . . . . . . . . . . . . . . . . . . . . . .. .


.

2.4. Los filtros


.

2.5. Familia de normas


.

2.5.1. La norma 4:4:4 " . . . . . . . . . . . . .


.
.

2.5.2. Lanorma4x4
.
.

2.5.3. Las normas 2:1:0,4:1:1 y4:2:0


.

2.6. Clculo de las frecuencias binarias


.

2.7. Aplicaciones de las distintas normas


.

3. Interfaces para 4: 2: 2
3.1. El interfaz paralelo para seal 4: 2: 2 . . . . . . .
. . . . . . .. .
.

3.1.1. Nivel 4:2:2


.

3.1.2. Nivel 4:4:4 y 4- x 4 .. .


.

3.1.3. Disposicin de las muestras en la lnea digital 4: 2: 2


.

3.1.4. El borrado de campo digital


.

3.1.5. La referencia temporal


.
.

3.1.6. Caractersticas elctricas del interfaz paralelo


.

.
.

3.2. El interfaz serie para seales 4: 2: 2


3.2.1. El cdigo de canal
.

3.2.2. Caractersticas elctricas del interfaz serie para seales 4:2:2


.

4. Datos auxiliares
.

4.1. Capacidad de almacenamiento


.

4.2. Formato de los datos auxiliares . . .


.
.

CAPiTULO

5:

Resumen

LA NORMA

102

102

103

106

109

110

1J 1
112

114

115

116

119

119

120

120

120

122

123

125

126

128

130

131

132

132

133

134

135

136

137

138

139

140

140

142

143

144

145

145

146

147

148

TECNOLO(;IA ACTUAL DE TEI EVISIN

Indice
Pg

Po
CAPITULO

6:

LA SEAL DIGITAL COMPUESTA. . . . . . . . . . . . . . ..

151
151
152
. 153
.
155
.
157
.
160
. 162
. 164
. 167
. 167
CAPITULO 7: COMPRESIN EN VIDEO . . . . . . . . . . . . . . . . . . . . . .
171
1. Introduccin............................................
171
2. Para qu comprimir?
. 172
. 173
3. Teora de la informacin
3.1. Tipos de compresin
. 174
. 174
3.2. Entropla vs redundancia
. 176
4. Redundancias y entropla en las imgenes de televisin
. 176
4. l. Redundancia estadlstica
4.2. Redundancia percentual
. 176
4.3. Entropla de las imgenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
4.4. Redundancia en tres dimensiones
. 177
5. Tcnicas de reduccin de datos
. 179
6. Tcnicas de compresin sin prdidas
. 180
. 180
6. 1. Supresin de borrados
6.2. Codificacin de secuencias
181
6.3. Codificacin de longitud variable
. 182
6.3.1. El cdigo HuIfman
. 183
. 184
6.3.2. La codificacin aritmtica
. 185
6.4. Introduccin a la DCT
7. Tcnicas de compresin con prdidas
. 186
7.1. Codificacin diferencial (DPCM)
. 186
7.1.1. DPCM con prediccin adaptativa
. 187
. 188
7.1.2. Combinar DPCM yVLC
. 190
7.2. El submuestreo
. 19]
8. Codificacin pro transformacin
8.1. Transformada de Fourier
. ]92
. 193
8.2. Teora de la DCT
8.2.1. Interpretacin de la DCT
. 195
8.2.2. La DCT no comprime: ayuda a comprimir!
. 197
8.2.3. Lectura en "zigzag"
. 199
9. Recuantificacin de los coeficientes
. 201
1.
2.

Introduccin
Eleccin de la frecuencia de muestreo . . . . . . . . . . .
.
2. l. Muestras por lnea
. . . . . . . . . . . . . . . . . . . .. .
2.2. Fase de muestreo
3. Rango de amplitudes
.
4. Numeracin de las muestras
5. Referencia temporal de identificacin
6. El campo digital
7. Caractersticas de los interfaces
Resumen

.
.

d.

10

10. Todas las herramientas juntas


.
1 1. El b'1Jer de salida
.
12. Compresin temporal
.
12.1. Redundancia temporal _
.
12.2. Compensacin de movimiento
.
_
.
13. Combinar espacial y temporal
14. Precompresin
.
.
. . . . . . . . . . . _ _ . .'
.
14. 1 El ruido
14.2. Exceso de correccin de apertura
.
.
.
14.3. Suavizado de imagen. .
14.4. Otros defectos de entrada
.
.
.
15. Artificios de la compresin
Resumen
.
.
CAPITULO 8: Los SISTEMAS DE COMPRESiN . . . . . . . . . . . . . . . . . . . . . . . .
1. In trod uccin .. _ . . .
....... ..... .... .. ....... ....
.
.
2. El sistema JPEG
.
2.1. Aplicacin de la codificacin Huffman
2.2. Caractersticas del JPEG
.
.
3. El M-JPEG
3. J. Variantes M-JPEG
'"
.
.
.
4. La familia MPEG . . . . . . . . . . . . . . . . . .
4.1. El sistema MPEG-l
.
.
4.1.1. Compensacin de movimiento
.
.
.
4. J .2. Imgenes 1, P, B
4.1.3. Diagrama de bloque del codificador MPEG-I
4.2. El sistema MPEG-2
.
4.2. J. Perflles y niveles en MPEG-2
.
4.2.2. Escalabilidad en MPEG-2
.
4.2.3. Estrutura del mltiplex MPEG-2
.
4.2.4. Notas sobre el mltiplex MPEG-2
.
4.2.5. Reordenacin de las imgenes
.
4.2.6. El lanzamiento en MPEG-2
.
4.2.7. Estimacin y compensacin de movimiento
.
4.2.8. Prediccin basada en cuadro y en campo
.
4.2.9. MPEG-2 en entorno profesional
.
4.2.10. Calidad de la imagen 4:2:2P@ML
.
4.2. J 1. Transporte de los datos en MPEG-2
.
4.2.12. Corriente de transporte multiprograma
.
4.2. 13. Cabeceras e identificadores . . . . . . . . . . . . . .
.
.
4.2.14. Control del reloj del sistema
.
.
4.3. El sistema MPEG-4
4.3.1. MPEG-4 perfil estudio
.

203
205
206
207

208
210
211
212
212
213
213
213
214
217

217

217
219
221
222
223
224

225
226
226
227
228
229
231
232
233
236
237
239
241
244
246
248
251
252
254
256
257
11

TEC;-';OLOGIA ACTuAL DE TEL[\,lSIUN

ps

Ps

4.4.
4.5.

El MPEG-7
El MPEG-21

258
259
259
260
261
262
263
265
269
269
269
270

4.6. Los miembros de la familia perdidos


s. El sistema DV
S. 1. Entrelazado de campos en DV
5.2. Bloques, macrobloques y superbloques.
5.3. Anlisis previo a la DCT
Resumen
CAPTULO

2.

2.

3.

9: EL AUDIO ANAlGICO

3.3.1. Ruido aleatorio


3.3.2 Ruido peridico
Distorsiones lineales ..
Distorsiones no lineales
Lloro y fluctuacin ..

3.4.
3.5.
3.6.
Resumcn
CAPITULO

1.
2.

10:

270
271
272
273

274
275

275
275
275
276
276
276
. ..

El AUDIO DIGITAL

Conceptos generales
Conversin A/D ..
2. 1.

J2

Naturaleza del sonido . . .. . ..


1. 1. Intensidad del sonido
1.2.
Tono de un sonido .
. ....
1.3. Timbre del sonido ..
1.4. Nivel de presin sonora
.
1.5. Nivcles de sonoridad
. ..
1.6. Rango dinmico audible
.
.
.
I .7.
Resolucin espcctral del sistema de audicin
Caractedsticas e1ectricas del sonido
2.1 . Medidas de nivel
2.1.1. El dBm
2.1.2. EldBu
2.1.3. EldBV
2.1.4. EldBW
2.2. Lncas equilibradas y no equilibradas ....
. ...
2.3. Seales de alto y bajo nivel. . . . . . . . . . .
...
2.3.1. Micrfonos: sensibilidad e impedancia
2.3.2. Nivel de linca: sensibilidad e impedancia
.
.. ..
.
.
Medicin y monitorizado de nivel
...
. ..
2.1. El vmetro ... ....
...
......
. ..
2.2. El picmetro .
Ruidos y distorsiones . . . . . .
......
.
3.1. Ruido

El muestreo

.
.

. ..
..,.

278

278
280
282
282
283
. 284
285
286
288
288
288
289
289
293
293
295
296

Muestreo ideal y muestreo real


.
Criterio de N)'quist
.
Frecuencias de muestreo en la prctica
2.1.4. Aliasina en audio
.
2.2. La cuantificacin .. '
.
2.2. 1. La relacin seal a ruido de cuantificacin
2.2.2. Cuantificacin diferencial y no lineal
2.3. Cdigos ponderados), no ponderados
.
2.3.1. Complemento a dos
.
2.4. El dither . . . . . . . . ..
.
3. Interfaces digitales para audio
.
3.1. ElinterfazAES/EBU
..
3.2. Terminologa..
.
3.3. Estructura del interfaz. . . . . . . . . .
.
3.3. I . Estructura dc la subtrama
3.3.2. Estructura de la trama
3.3.3. Codificacin del canal
3.3.4. Los prembulos
3.4. Formato de los datos de estado del canal
3.5. El interfaz SPDlF
3.5. l. Diferencias y similitudes entre AES/EBU y FPDlF
3.6. El Interfaz MADI
Resumen

298

2.1.1.
2. I .2.
2. 1.3.

CAPITULO

l.

2.

3.

4.

.
.

.
.
.
.
.
.
.
.
.
.
.
.

11: COMPRESiN EN AUDIO . . . . . . . . . . . . .

Introduccin
.
.
1.1. Utilidad de la compresin en audio
1.2. Redundancia................... .
Anatoma del odo . . . . . . . . . . . . . . . . . ..
.
"
2.1 . Divisin funcional del odo
.
2.1 .1 . El odo externo
2. I .2. El odo medio
.
2.1.3. El odo interno
2.2. Fenmenos de enmascaramiento ....
2.2.1 . Enmascaramiento frecuencial
2.2.2. Enmascaramiento temporal
. ..
Divisin en subbandas . . ..
3.1 . Divisin mediante filtros . . . . .
. ..
3.2. Codificacin de las subbandas
. ...
. ....
3.3. Divisin por transformacin.
3.3.1. El efecto de pre-eco
. ..
3.4. Toma de decisiones. ..
Los sistemas de compresin
.

.
.
.
.
.
.

299
301
303
305
30&
310
311
312
314
315
316
316
318
318
319
320
321
322
323
324
325
326
329
329
330
331
332
332
332
332
333
333
334
337
338
338

340
341

342
343

343
13

T[CNOI OCiA ~mL DE TFI.EVISI()N

Po

4.1.

4.2.

4.3.

Las normas MPEG de audio.


4.1.1. El MPEG-I
4. J.2. Aspectos generales de MPEG
4.1.3. Las nuevas normas MPEG2
El sistema AC3 de Dolby
4.2. . Precedentes histricos
4.2.2. Codificacin AC-3
4.2.3. FABA vs BABA
4.2.4. Detalles del AC-3
El sistema ATRAC de Sony
4.3.1. Principios bsicos del ATRAC
4.3.2. Unidades tempofrecuenciales
4.3.3. Variantes del sistema ATRAC
El sistema APT-X

4.4.
Resumen ....

14

"

'"

.
.
.
.
.
.
.
.
.
.
.
.
.
"

344
345
356
357
360
360
361
362
363
365
366
367
368
370
372

A mi bijo Carlos

Agradecimientos
Mi primer y ms grande expresin de gratitud es para mi empresa, RTVE,
porque aqu he aprendido la mayor parte de lo que s sobre tecnologa de tele
visin, tanto en mi primera etapa como tcnico en TVE, como despus en el
Instituto Oficial de Radio y Televisin. Creo que este libro no hubiera sido posi
ble sin el aporte de quienes han asistido a mis clases, ya sea en los cursillos impar
tidos en el IORTV o en otras instituciones. Ellos me han obligado a organizar y
sistematizar los conocimientos y a encontrar mejores ejemplos y explicaciones.
Tambin debo dar las gracias a quienes me han facilitado informacin, desde
compaeros de RTVE hasta colegas de empresas como Sony o Panasonic. POl
ltimo, sera injusto si no tuviera en consideracin y agradeciera la paciencia
mostrada por mi propia familia. Escribir un libro es algo muy gratificante, pero
roba muchas horas de asueto.

17

Presentacin
Los aos treinta del siglo pasado vieron el nacimiento de la televisin, los sesen
ta la llegada del color y ahora, con el nuevo milenio, se generaliza la televisin digi
tal. Con la tercera ola de tecnologa, se est produciendo una verdadera revolucin
en la forma de producir televisin. Esto es consecuencia no solo de la natural
madurez de la tcnica y la ingeniera, sino tambin de la confluencia de tres secto
res clave, que hasta ahora evolucionaban por separado: las telecomunicaciones, la
informtica y la televisin. Estos tres campos se unen para crear algo nuevo: el
mercado audiovisual digital.
En la actualidad, estn cambiando la forma en que se generan los contenidos, la
forma en que se postproducen y sobre todo el modo en que se distribuyen. Muy
pronto los c1ips de video y audio se movern dentro y fuera de los centros de pro
duccin en forma de archivos informticos (AAF, MXF ... ), por redes LAN o WAN
(Ethernet, Fiber Channel ... ). Pero cuando un estudiante de imagen y sonido o un
ingeniero de telecomunicaciones intentan comprender el ltimo sistema de com
presin de video o el ms moderno interfaz para transmisin de datos audiovisua
les, a menudo se encuentra con que les falta un conocimiento preciso de las sea
les de video y audio. Para comprender los sistemas de compresin avanzados hay
que conocer la seal digital sin comprimir. Para comprender la seal digital, hay
que dominar primero la analgica. Para entender la seal analgica es necesario
conocer los principios bsicos de la colorimetra y la percepcin visual y auditiva.
El conocimiento siempre se asienta en otros conocimientos previos ms bsicos.
En este libro se ha intentado estructurar los conocimientos sobre tecnologa de
televisin, desde los condicionantes de la percepcin visual y auditiva humana,
hasta los sistemas avanzados de compresin de video y audio digital. El co
nocimiento sobre tecnologa de televisin no termina, ni mucho menos con el lti
mo captulo de este libro. Ms all hay temas relacionados con el tratamiento
matemtico de la informacin digital, como cdigos de canal y tratamiento de
errores o sobre equipamiento digital profesional: cmaras, magnetoscopios, equi
pos de postproduccin ... o con la utilizacin de equipos informticos en la pro
duccin de televisin: discos duros y servidores de video/audio, sin olvidar la
prxima revolucin: Televisin en Alta Definicin Digital y Cinematografa Elec
trnica.
19

Por tanto, este libro trata sobre la tecnologa convencional de televisin; la que
actualmente se esta aplicando en la produccin de programas. Se ha intentado
actualizar al maximo los contenidos, de forma que abarquen cualquier conoci
miento tcnico actualmente aplicado en la generacin, produccin, post
produccin), distribucin de los programas de televisin.
El libro se inicia con tres captulos dedicados a la seal analgica: un captulo
dedicado al sistema de percepcin visual)' a la seal en blanco)' negro; un captu
lo donde se tratan los principios de la colorimetra), la formacin de las seales de
color en televisin y un captulo dedicado a los tres sistemas bsicos de televisin
en color actuales: PAL, SECAM y NTSC. El captulo cuatro es, probablemente, el
ms tcnico y trata sobre la digitalizacin de las seales de video. Aunque es el de
ms contenido matemtico hay pocas frmulas ya que en general se han evitado en
la medida de lo posible en todo el libro; el experto en matemticas no las necesi
ta y al que no las entiende solo le confunden.
Los captulos 5 y 6 se dedican a las dos normas actuales de televisin digital; La
norma por componentes recogida en la Rec. 601 y conocida como 4:2:2 y la
norma de video digital compuesto conocida como 4fsc. El captulo 7 es lll10 de los
ms extensos y trata la teora en que se fundamentan los sistemas de compresi6n
de video. El captulo 8, por su lado explica los sistemas reales de compresi6n de
video, es decir la aplicacin prctica de las explicaciones del captulo 7, desde los
sistemas MPEG hasta la compresi6n YCPRO.
Los captulos 9 al 11 estn dedicados al audio y siguen la lgica progresi6n de:
audio analgico, audio digital y compresin de audio. En este ltimo captulo se
recogen los mas modernos sistemas de compresin: el MPEG-AAC, e! AC-3 de
Dolby, el ATRAC de Sony, o las normas APT-X.
El propsito de este libro es el de proporcionar, en un solo volumen los cono
cimientos que toda aquella persona relacionada con la tecnologa de television
debera dominar. Si en alguna medida esto se consigue, el autor se considerar sufi
cientemente compensado.

20

CAPTULO

La seal de vdeo
1. Un poco de historia
La television, tal y como la conocemos hoy en da, naci y se defini en los aos
30, una poca de rpidos avances tecnol6gicos. Aunque ya han pasado ms de
sesenta aos, las normas y sistemas actuales de televisin sufren, en parte, las limi
taciones tecnolgicas de aquella poca. Las soluciones adoptadas por los pioneros
de la televisi6n no s6lo estaban limitadas por la tecnologa existente, sino que deb
an ser, adems, econ6micamente aceptables, tanto para e! radiodifusor como para
el espectador. Por otro lado, no todos los avances tecnol6gicos posteriores pudie
ron ser aplicados, ya que cualquier innovacin deba ser, adems, compatible con
los millones de receptores instalados en todo el mundo.
La historia del desarrollo de la te!evisi6n ha sido, en esencia, la historia de la
bsqueda de lll1 dispositivo adecuado para explorar imgenes. El primero fue e!lIa
mado disco Nipkow, patentado por e! inventor alemn Paul Gottlieb Nipkow en
1884. Era un disco plano y circular, que estaba perforado por una serie de peque
os agujeros dispuestos en forma de espiral partiendo desde el centro. Al hacer
girar el disco delante del objeto, e! agujero ms alejado de! centro exploraba una
franja en la parte ms alta de la imagen y as sucesivamente, hasta explorar toda la
imagen. Sin embargo, debido a su naturaleza mecnica, e! disco Nipkow no fun
cionaba eficazmente con tamaos grandes y altas velocidades de giro, necesarios
para conseguir una mejor definici6n y lll1a buena reproducci6n de! movimiento.
Despus de muchos experimentos poco satisfactorios con elementos mecni
cos, aparecieron, a mediados de los aos 30, los primeros sistemas basados en la
exploraci6n e1ectr6nica de la imagen. Estos sistemas, denominados entonces de
"alta resoluci6n" iniciaron sus emisiones de forma casi simultnea en Inglaterra,
Francia y Alemania. Las imgenes de aquella poca tenan una resoluci6n vertical
de lll1as 400 lneas (405 en Inglaterra y 441 en Francia y Alemania). En los Estados
Unidos de Amrica, despus de experimentar con distintos sistemas e!ectronicos
21

La

TECNOI'odA ACTUAL DE TE:LlVISN

de 300 a 400 lneas, se opt en 1941 por el sistema de la National Te!evision System
Committee (NTSC) de 525 lneas, que, con pequeas modificaciones, se ha man
tenido hasta la actualidad. La relacin de aspecto (relacin entre la anchura y la
altura de la pantalla) fue desde un principio, y en todos los casos, de 4: 3. Esta rela
cion de aspecto se mantiene en los sistemas actuales convencionales.
Despus de la segunda guerra mundial, Inglaterra continu con su sistema de
405 lneas y Francia con el suyo de 441 lneas. En 1948 Francia adopto un sistema
de 819 lneas, que, al menos por el nmero de lneas de exploracin, podra con
siderane como el predecesor de la HDTY. Alemania y e! resto de Europa adopta
ron el sistema de 625 lneas.
Los Estados Unidos de Amrica introdujeron el color en 1953 (sistema NTSC),
mientras que en 1968 naci el sistema de color PAL, adoptado por la mayora de
los pases europeos y de otros continentes. Francia dise su propio sistema de
codificacin de! color (SECAM), que tambin adoptaron muchos de los pases del
este de Europa y de! norte de frica. Durante aos no solamente haba en Europa
tres sistemas de exploracin y dos mtodos de codificacin del color, sino que,
adems, convivan siete normas de transmisin incompatibles entre ellas. Esta
situacin se corrigi en parte durante los aos 80, cuando Francia e Inglaterra
abandonaron sus sistemas de 819 y 405 lneas, respectivamente, en favor del siste
ma de 625 lneas. Esto demuestra lo difcil que es cambiar un sistema de televisin;
los arcaicos sistemas de los aos 30 tardaron cincuenta aos en ser sustituidos.
Actualmente en Europa slo hay dos sistemas de televisin en color: e! PAL Y
el SECAM, ambos con 625 lneas. Puede darse cuenta el lector de que todos los
sistemas, actuales o no, utilizan un nmero impar de lneas. La explicacin se ver
un poco ms adelante.

La figura 1.1 muestra las partes ms importantes de! ojo humano. En primer
lugar podemos apreciar la crnea, que junto con el cristalino forman el sistema de
lentes de! ojo. Mientras que la crnea puede considerarse como una lente de lon
gitud focal fija, el cristalino, gracias a su capacidad para variar de curvatura, ofre
ce una longitud focal variable. En efecto, de forma automtica e imperceptible, e!
cristalino, gobernado por los msculos ciliares, adapta su curvatura para formar
siempre una imagen ntida sobre e! fondo del ojo. Cuando miramos un objeto cer
cano, el cristalino, que est formado por una serie de capas transparentes (como
una cebolla), se redondea para acortar su longitud focal. En el caso contrario, es
decir, cuando miramos algo lejano, la longitud focal aumenta, como consecuencia
de que e! cristalino se aplana. El proceso de adaptacin de la longitud focal, es
decir, de la curvatura del cristalino, se denomina acomodacion. Cuando una per
sona envejece, el cristalino pierde flexibilidad y disminuye su capacidad de aco
modacin. Entre la cornea y el cristalino se encuentra una zona llena de lquido vis
coso denominado humor acuoso. De la misma forma, e! interior de! globo ocular,
entre el cristalino y e! fondo del ojo, est ocupado por e! humor vtreo.

2.2. La acomodacin
Una persona joven puede enfocar sin dificultad desde unos 15 cm hasta infini
to. A esta distancia de 15 cm se le llama "punto prximo", mientras que a unos
RETINA

(Detalle de la

capa pigmentaria

en lomo 8 111 1'6vea)

2. Caractersticas de la visin humana

22

de vdeo

2.1. Anatoma del ojo

CRNEA

Es evidente que cualquier medio de reproduccin de imgenes debe e~tar adapta


do a las caractersticas y capacidades del sistema de percepcin visual humano. En el
caso de la televisin esto es especialmente cierto, ya que los limitados anchos de banda
de grabaCin y transmisin obligan a optimizar, de forma muy cuidadosa, qu infor
macin se capta, procesa y, finalmente, se enva al espectador. Por esto es especial
mente importante e! conocimiento de! sistema visual humano.
En ocasiones suele compararse el ojo con una cmara fotografica y, aunque se
parecen en ciertos aspectos, difieren en muchos otros. En primer lugar, la cmara
no esta "conectada" a un cerebro capaz de interpretar las imgenes. La cmara es
imparcial, mientras que el ojo ve las imgenes de forma selectiva e inteligente.
Otras diferencias importantes entre el ojo humano y la cmara fotografica se refie
ren a la capacidad del primero a, por ejemplo, reconocer los colores con indepen
dencia del tipo de luz que los ilumina, a la disposicin de las terminaciones sensi
tivas en la retina, que proporcionan una gran definicin en el centro de la imagen,
en torno al eje ptico, al hecho de que la pelcula cinematografica integra la luz en
el tiempo, etc. Pero todos estos aspectos sern comprendidos mejor analizando la
anatoma y funcionalidad del ojo humano.

s~al

[l

CONO

::~:
BASTN

~
~'k

o(

11:
o(

"

(Oetalle de la

capa pigmentaria

en la zona perifrica)

NERVIO OPTICO

HUMOR ACUOSO

Figura 1.1.

Anatomla del ojo humano (izquierda) y detalle de organizacin funcional de la retina

(derecha).

23

TeCNOLOGA ACTUAL DE TELE'-''-''I'''SI"'''N'---

SO m se encuentra el "punto remoto". fS!() significa que la extensin de la acomo


dacin vara entre 1S cm (c:uando el cristalino est mas redondeado y SO m (cuan
:do eTcri;;:alino se encuentra ms aplanado).
La- ext~).n de la acomodacin se mide en dioptras y es igual a:

Lil ~l:~L~Jc dU<;Q

Distancia al punto remoto (m)

Distancia al punto prximo (m)

La amplitud de acomodacin expresada en dioptras representa la potencia de


la lente que sustituira al mecanismo de acomodacin.

/~-

0:::

w
Cf).
Ww

2.4. La retina
La retina es la superficie interior sensible del ojo humano. Se u-ata de un complejo
sistema de terminaciones nerviosas, formada por dos clases de clulas sensitivas, llama
das conos y bastoncillos, capaces de convertir la luz en impulsos elctricos.
Adems de los conos y los bastoncillos, otros tipos de clulas retinianas, como
las bipolares, horizontales, amacrinas y ganglionares, llevan a cabo una serie de pro
cesos de tratamiento de la informacin, antes de enviarla a traves del nervio ptico
al cerebro. Entre estos procesos destacan: la deteccin del movimiento y su direc
cin, el realce de bordes, la intensificaci6n por contraste y la compresion o reduc
cin de la cantidad ele informacin. As, la retina, en lugar de sacar un mapa punti
llista de la imagen que sobre ella se forma y enviar la informacin punto a punto al
cerebro, extrae de dicha informacin todo lo importante, optimizando la va de
enlace con el cerebro, que es el nervio 6ptico.
24

11

0
f-
W:J

Baado por el humor acuoso se encuentra el iris. Se trata de un mecanismo


capaz de regular la cantidad de luz que pasa por el ojo, para permitirnos ver los
objetos del mundo exterior en muy variadas condiciones de iluminacin. Al igual
que el diafragma de una camara, se cierra cuando las imgenes son muy brillantes
y se abre en condiciones de escasa iluminacin. Sin la ayuda del iris las imgenes a
plena luz del Sol nos cegaran. Como sucede con e! cristalino, e! trabajo de adap
tacin del iris es automtico e imperceptible.
El dimetro mnimo de la apertura formada por el iris es unos 2 milmetros,
cuando est totalmente cerrado, mientras que el dimetro mximo, cuando est
totalmente abierto es de unos 8 mm. Ante un estmulo luminoso, el iris reacciona
abrindose o cerrndose. El tiempo necesario para que el iris se cierre al mximo
es de unos 0,3 segundos, mientras que el tiempo para abrirse es aproximadamen
te 1,2 segundos. Cuando un rayo de luz penetra en el ojo, pasa a travs de la cr
nea transparente, e! humor acuoso, el cristalino y e! humor vtreo, todo lo cual
ayuda a enfocar la luz sobre la capa de terminaciones sensitivas en e! foqdo de! ojo,
denominada retina.

1I I

0::: 0

o:::
2.3. El iris

0...0:::

0...
0
W_
OZ

PUNTO CIEGO

1\

\
\

--

" ---

/"

80

40

40

80

DESPLAZAMIENTO ANGULAR
DE LA RETINA (EN GRADOS)
BASTONES
-

CONOS

Figura 1.2.
Disposicin dc conos y bastuncs
en la retina. La mxima densidad
dc fotorreceptores se concentra
en la fvea, coincidiendo con el
eje visual.

2.4.1. Funcionalidad de la retina


Como consecuencia de la especial disposicin de conos y bastones en la retina,
se obtiene una imagen totalmente ntida en una zona que abarca unos 2, tomando
como centro e! eje visual. A partir de 10 la imagen comienza a hacerse borrosa.
En cuanto al color, aparece una cierta desaturacin a partir de 2, mientras que la
imagen en la periferia es totalmente desaturada.
El campo visual abarcado en el sentido horizontal es de unos 170, de los cua
les 110 corresponden alIado exterior y 60 alIado nasal. Girando e! ojo se puede
abarcar un campo ntido de unos 75 sin mover la cabeza.
Pero volvamos a los conos y los bastones. Dispone cada retina, en el hombre, de
unos 7 millones de conos y 160 millones de bastones. Los conos estn diseminados
entre los bastones, pero se localizan, preferentemente, en el centro de la retina,
coincidiendo con el eje ptico, en una zona denominada fvea. Por su color amari
llento tambin se suele llamar a esta zona mcula lutea o mancha amarilla. Tan s610
la fvea es capaz de ver las cosas con detalle, es decir, perfectamente definidas y
como esta zona abarca un ngulo, con respecto al centro de! cristalino, de aproxi
madamente un grado o poco ms, slo los objetos situados en el eje 6ptico pueden
analizarse con detalle. Colocados a un metro de una libreria, abarcamos con la
visi6n unos dos metros de libros, sin necesidad de mover la cabeza ni e! globo ocu
lar, pero nicamente podemos leer con claridad el ttulo del libro que esta justo
frente a nosotros. sta es una diferencia muy importante con respecto a la cmara,
ya sea de fotografa, cine o televisin. En los tres casos la imagen presenta aproxi
madamente la misma definici6n o nitidez en toda su superficie. Nosotros, en cam
bio, vemos las cosas definidas de forma secuencial: primero una y luego otra.
25

La seal de "ideo

TlCNOLOGIA ACTUAL DE TELEVISIN

A pesar de que cada retina contiene unos 170 millones de clulas sensitivas,
entre conos y bastones, slo dispone de un un milln de fibras para enviar la infor
macin al cerebro. As pues, la retina ha de comprimir la informacin antes de
conectarla al nervio ptico. De esto se encargan las clulas bipolares, las cuales
conectan varias clulas sensitivas a una sola fibra del nervio ptico. En e! centro de
la retina, es decir, en la fvea, cada clula sensitiva, sea sta cono o bastn, est
conectada a una fibra, mientras que e! nmero de clulas sensitivas conectadas a
una misma fibra del nervio ptico aumenta a medida que nos acercamos a la peri
feria.
Las clulas amacrinas y horizontales trabajan transversalmente, sumando y res
tando la informacin proporcionada por distintas clulas sensitivas, ms o menos
cercanas, para procesar la informacin, resaltando bordes o detectando movi
miento.

2.4.2. Percepcin cromtica


Como se ha dicho, hay en la retina dos clases de clulas sensitivas, conos y basto
nes. Sin embargo, existen tres tipos de conos: los que presentan mxima sensibilidad
a la luz de longitud de onda corta, es decir, a los azules; los que responden sobre todo
a la luz de onda larga (rojos) y los sensibles a las longitudes medias (verdes). En pre
sencia de un estmulo de luz roja, por ejemplo, e! grupo de conos "rojos" es e! que
enva ms potencial de impulsos al cerebro. Si la luz es amarilla, tanto los conos "rojos"
como los "verdes" envan potenciales de accin al cerebro, mientras que los conos
"azules" quedan prcticamente inhibidos. De esta forma, mediante proporciones
variables de informacin "roja", "verde" y "azul", e! cerebro es capaz de reconocer
millones de colores distintos. La visin en color es, pues, funcin de los conos, los cua
les enviarn al cerebro distintas combinaciones de informacin roja, verde y azul para
cada uno de los colores.
Con niveles altos y medios de iluminacin, los conos no tienen problemas para
convertir la luz en impulsos elctricos, pero cuando e! nivel de luz disminuye,
como, por ejemplo, durante la noche, los conos son incapaces de trabajar. En esta
situacin entran en funcionamiento los bastones, los cuales son mucho ms sensi
bles que los conos. Se calcula que los bastones son capaces de convertir la energa
luminosa de un solo fotn (la mnima cantidad de luz posible) en informacin til
para e! cerebro. Como slo se dispone de un tipo de bastn y no de tres, como en
e! caso de los conos, la visin nocturna carece de color y, como suele decirse, "de
noche todos los gatos son pardos".
Mientras que durante e! da, cuando trabajan los conos, la mxima sensacin de
brillo se obtiene para los colores medios del espectro (verdes y amarillos), duran
te la noche sta se desplaza hacia los azules. En el primer caso se habla de visin
fotpica, mientras que en el segundo de visin escotpica.
Con visin escotpica el ojo enfoca a unos 6 de! centro de la fvea, para apro
vecharse de la mayor densidad de bastones fuera del eje ptico, y adquiere "miopa
nocturna" de 2 dioptras, al no enfocar exactamente sobre la retina. Adems
aumentan las aberraciones geomtricas al abrirse totalmente e! iris.
26

SENSIBILIDAD ESCOTPICA

//-.. . . ,/"'\.

'
2':

1,0

I
I

w 0,75 i

/'

oa::

0'5

Q:l 035
Z
/

(J)'

(J)

SENSIBILIDAD
FOTPICA
I

"

/,

I
/

0'

400

------"c

500
600
(NANMETROS)

700

Figura 1. 3.
Curvas de sensibilidad fotpica )'
escotpica.

2.5. Resolucin espacial lumnica y cromtica


La resolucin espacial lumnica se cifra en l' de grado. Esto significa que si dibu
jamos sobre una pizarra blanca dos puntos negros, uno encima del otro, y nos ale
jamos lo suficiente como para que los dos puntos formen con el centro del ojo un
ngulo igualo inferior a l' de grado, comenzaremos a percibirlos como uno solo.
ste es el lmite de resolucin o "agudeza visual" de una persona normal. Esta capa
cidad de resolucin slo se obtiene en la parte central de la retina (la fvea), es
decir, la zona correspondiente al punto donde centramos la mirada. A medida que
nos alejamos del eje visual la resolucin disminuye progresivamente, de la misma
forma que disminuye el nmero de clulas. Esto es lo que se ha intentado repre
sentar en la figura 1.4, donde puede verse que la parte central de! campo visual
excita muchas ms neuronas de! crtex visual que e! campo perifrico. En otras
palabras, la imagen neuronal est distorsionada; la mayora de las clulas corticales
procesan la informacin correspondiente al centro de! campo visual.
En general, la resolucin cromtica es inferior a la resolucin lumnica. Esto
significa que e! sistema de percepcin visual obtiene imgenes de muy alta resolu
cin en lo relativo a detalles y texturas que presentan cambios de brillo, pero
resuelve bastante peor cuando las imgenes slo presentan cambios cromticos (de
matiz y / o saturacin).
Para zonas visuales que abarquen ngulos de menos de 4' de grado no hay sensa
cin cromtica. Entre 4' y 12' de grado se obtiene sensacin cromtica sin precisin
de! matiz. A partir de 12' es posible apreciar todos los matices, si bien despus de 2
comienza una pequea desaturacin, la cual se hace total en la periferia de la retina.
Podemos ver que la agudeza visual a la informacin de color es, en el mejor de los
casos, cuatro veces menor que la agudeza a la informacin de blanco y negro. ste es
un hecho muy importante, de! que sacan partido todos los sistemas de TV
Por ltimo, la informacin proporcionada por las clulas sensitivas es llevada, a
travs de las clulas bipolares, a las ganglionares. Estas ltimas son en realidad las
terminaciones de las fibras del nervio ptico, e! cual tiene como misin transmitir
las seales visuales, convertidas en impulsos elctricos, al cerebro.
27

___La sdl.-t<lk,Ihk

TLCNOLOGIA ACTUAL DE TUL VISiN

'R'

,r;,

Nv =_1_

<,,-j

OJO IZQUIERDO

IMAGEN
RETINIANA

TU8~RCUlO
SUPERIOR

as fueron diseados teniendo en cuenta esta agudeza visual de 1 ' Yasumiendo una dis
tancia de visionado eCluivalente a seis veces la altura de la pantalla. La relacin entre el
nmero de elementos de imagen que pueden resolverse, en funcin dc una altura de
imagen y una distancia de visionado determinada, es:

J:~-JT"
I

011
OJO DERECHO

"

.-- ~Jwt,.~J1,t

......'-'\

NERVIO OPTICO

.;;r

-'

'

LATERAl (IZQUIERDO)

RADIACIONES
PTICAS

Figura 1.4.

Sendas visuales que conducen


la informacin desde el ojo
hasta el cerebro.

CUERPO GENICUlADQ
LATERAl (OERECHO)

...

J ..

;.
'~:;."~~--:t...:)~~. "'C
1
+.'. ."'i ,t- . . ~r, '-..J
\!~"".:>~~ V;l,.~Jt>~ ,
-

CUERPO GENICUlAOO

QUIASMA. Opnco

CORTEX VISUAL

EXTRlADO .

rk:~
L

.e

~::"r
~::~" '~.
u~
7

;'

....~

. REA"

VISUAL

".

~--;-

Diversos nervios motores actan sobre los msculos que regulan el movimien
to del globo ocular y ele! parpado superior. El nervio ptico es un haz de finas fibras
conectado a la parte posterior de la retina, en una mancha un tanto descentrada
hacia la nariz, denominada punto ciego, ya que es insensible a la luz, por carecer
de clulas sensitivas. Dibujando una cruz en el centro de la pgina de la izquierda
de un cuaderno y un crculo negro en el centro de la pagina de la derecha es posi
ble detectar la presencia del punto ciego. Basta con cerrar el ojo i~quierdo y,
mirando la cruz, alejar y acercar e! cuaderno hasta que e! crculo desaparece, pues
to que su imagen est cayendo justamente en el punto ciego del ojo derecho. Es
sorprendente cmo el sistema de percepcin visual se "inventa un trozo de imagen"
para compensar e! efecto del punto ciego.

2.6. Agudeza visual


La agudeza visual se mide como el ngulo que forman los lmites del detalle ms
pequeo que puede discernirse con respecto al centro del ojo humano. En el caso
de la televisin, esto equivaldra a la separacin de dos lneas de exploracin con
secutivas.
Los sistemas de televisin se han diseado tomando como referencia para la agu
deza visual 1 minuto de grado. En televisin, la medida de la resolucin se expresa
como el nmero de lneas alternativamente blancas y negras que puede resolverse
(separarse visualmente) sobre la altura total de la imagen y se expresa como "lneas
por altura de imagen" (Lines per Ficture Heiaht o LPH). Los sistemas de 525 y 625 line
28

siendo Nv el nmero total de elementos que pueden resolverse en la direccin


vertical.
a= El angula mnimo discernible por el ojo (en radianes).
n = D/H (distancia de visionado partido por altura de la imagen)
Ahora si a
1 minuto de arco, o 2,91 x 104 radianes y n
6, entonces

Nv

1
(6 x 2,91 x 10-')

~ 570 [{neas

2.7. Persistencia visual


Es la capacidad del sistema de percepcin visual humano para retener las im
genes retinianas despus de que ha cesado el estimulo. Esto significa que la sensa
cin visual "persiste" durante un pequeo perodo despus de que ha desaparecido
la imagen ptica de la retina. En condiciones normales, este breve perodo es de
aproximadamente una dcima de segundo. Sin embargo, una frecuencia de exhibi
cin de 10 imgenes por segundo (10 ips) sera insuficiente para reproducir ade
cuadamente el movimiento. Por esto en cinc y televisin se utilizan frecuencias de
exhibicin de mas de 10 ips.
Se define como "frecencia crtica de parpadeo" la mnima frecuencia a la que
se debe encender y apagar una fuente de proyeccin sin que la imagen parezca par
padear. La perceptibilidad de! parpadeo depende en gran medida de las condicio
nes de visionado. El umbral de parpadeo viene determinado, entre otros, por los
siguientes factores: la luminancia de! rea parpadeante, e! color del rea, e! ngulo
slido subtendido por el ojo y e! area visual, e! tamao absoluto del rea parpade
ante, la luminancia de! area que rodea a la imagen y la adaptacin del observador
a las condiciones de visionado.
En televisin, la frecuencia de encendido-apagado o frecuencia de repeticin
viene determinada por la frecuencia de campo, que es de 50 Hz para las normas de
625 lneas y de 60 Hz para las normas de 525 lneas. Esto es as porque cada una
de las 25 30 imagenes (segn la norma) que se proyectan cada segundo se divi
de en dos "semiimagenes" o "campos", tal como se vera un poco mas adelante en
este mismo captulo.
Como se ha visto, e! umbral de parpadeo depende del brillo de la imagen.
Cuanto ms brillante sea la imagen, ms alta debera ser la frecuencia de refresco
de la pantalla para que no se perciba el parpadeo. La tabla 1.1 muestra el umbral
de parpadeo (la luminancia a la cual empieza a percibirse el parpadeo) para las fre
cuencias de exhibicin ms utilizadas.,
29

TECNOLOGJA ACTUAL ,,,Il,,,E--,".='E.c.Lc.E\'-"'-=""'l'l"'N'---

Tabla 1.1 Umbral de parpadeo en funcin de la frecuencia de exhibicin.

TIpo de imagen

Frecuencia de
Exhibicin (Hz)

Imgenes por
segundo

Umbral de parpadeo
(cd/m')

48
SO
60

24
2S
30

68
100
600

PELfCULAS
TELEVISiN (SO Hz)
TELEVISiN (60 Hz)

Como puede verse en la tabla anterior, la baja frecuencia de encendido-apaga


do de las imgenes de cine hace que pueda aparecer parpadeo incluso con brillos
de imagen relativamente bajos (68 cd/m'). Sin embargo, el hecho de que las im
genes de cine se proyecten en ambientes oscuros ayuda a reducir la sensacion de
parpadeo. Tambin puede apreciarse el incremento exponencial del umbral de par
padeo en funcion de la frecuencia de exhibicin (se pasa de 100 a 600 cd/m' al
incrementar en 10 Hz la frecuencia.de exhibicion).

3. La seal de vdeo
Una imagen de television puede ser considerada como una informacion que
fluye simultneamente en tres direcciones: horizontal, vertical y temporal. Puesto
que la seal de vdeo solo puede discurrir en una direccion (el tiempo), se hace
necesario descomponer la imagen en dos de sus tres dimensiones.
Desde los inicios de la televisin se opto por analizar el contenido de la imagen
siguiendo un patrn de lneas, de izquierda a derecha y de arriba abajo. El proceso
se realiza de forma similar a como los humanos leemos la informacin de una pgi
na impresa: comenzamos por la esquina superior izquierda y avanzamos hasta la
parte derecha. A continuacin volvemos la vista rpidamente a la izquierda y un
poco ms abajo para comenzar la lnea siguiente y as sucesivamente hasta termi
nar la pgina. A cada punto de la imagen le corresponde un valor de coniente elc
trica proporcional al brillo de ese punto si se trata de blanco y negro o tres valo
res distintos si se trata de una imagen de color. Una vez terminada una imagen, se
analiza la siguiente y as sucesivamente.

La sea I de vdeo

que simplifica el diseo del receptor, al tiempo que, al ser la frecuencia de la red
mltiplo exacto de la frecuencia de imagen, cualquier interferencia que, provenien
te de la red, se produzca sobre la imagen se mostrar como estacionaria, lo cual es
subjetivamente menos molesto que una interferencia movil. En segundo lugar, 25
ips est muy cerca de los 24 fotogramas que se emplean en cine, de manera que el
material filmado se puede pasar directamente por televisin.

3.2. Entrelazado de campos


Una desventaja de esta frecuencia relativamente baja es que produce parpadeo.
En cine este problema se resuelve proyectando cada fotograma dos o tres veces,
de manera que la frecuencia real de proyeccion es de 48 o 72 fps, lo cual resulta
suficiente como para eliminar la sensacion de parpadeo de la imagen. Al proyec
tar cada fotograma varias veces no se utiliza ms pelcula que en el caso de pro
yectarlo una sola vez, con lo que el sistema resuelve el problema del parpadeo sin
un coste adicional.
Se podra pensar que la solucin lgica en television consistira en doblar el
nmero de imgenes por segundo, trabajando con 50 ips en lugar de 2S. Sin
embargo, esto presentara un problema importante: se doblara tambin el ancho
de banda, y por tanto, la anchura del canal de transmision. Dicho de otra forma,
harIa falta el equivalente a dos canales de TV para transmitir un solo programa.
Puesto que los canales de transmisin y el espacio radioelctrico en su conjunto
son un recurso natural, hay que optimizarlo.

CAMPO 1
LINEA

ESCRITURA

CAMPO 2
LINEA

313

:E==El "'~
315

~"

2,
315
3

".

",

RETRAZADO

30

313

31;~

'.

3. 1. Frecuencia de cuadro
Para comenzar es necesario determinar cuntas imgenes se han de analizar en
un segundo. De esto depende la suavidad y naturalidad con que ser reproducido
el movimiento.
Como se ha visto en el apartado anterior, en cine profesional (que es anterior al naci
miento de la television) se trabaja con 24 fotogramas por segundo (fPs), cadencia sufi
ciente para una buena reproduccin de las imgenes en movimiento. En televisin se
opto por 25 imgenes por segundo (ips) en Europa y 30 en Estados Unidos.
La razn de emplear una frecuencia de imagen (se suele llamar frecuencia de
cuadro) de 25 ips es doble. En primer lugar, permite sincronizar la frecuencia de
imagen con la frecuencia de la red elctrica (50 Hz es justo el doble de 25 Hz), lo

CUADRO
,~RITURA

RETRAZADO

====

....

-==-;;;===
~

Figura 1.5.

Entrelazado de campos. La imagen de 625 lneas se divide en dos campos entrelazados de

312, S lneas cada uno.

31

TE_eNOLOGA I\CTUI\L DE II.:.LE\'rS",16L.lN,-'

Dado que la imagen de televisin est descompuesta en lneas, una solucin inteli
gente para resolver e! problema del parpadeo sin aumentar el ancho de banda podra ser
sta: en lugar de transmitir las lneas en su secuencia natural, es decir, primero la lnea
1, despus la 2, despus la 3, etc., hasta terminar con la 625, se d\;de la imagen en dos
partes llamadas "campos", cada uno de los cuales tiene 312,5 lneas. El primer campo
contiene W1a de cada dos lneas, que se numeran en el orden en que son transmitidas y
que van de la 1 a la 312, ms la primera mitad de la 313. El segundo campo contiene las
lneas intercaladas, no transmitidas en e! primero, comienza a la mitad de la lnea 313 y
termina al final de la 625. As pues, tal como se ven en la pantalla de! TRC, a la lnea 1
no le sigue la 2, sino la 314. Las lneas de los dos campos se transmiten intercaladas o
entrelazadas. (Vase figura 1.5.)
De esta forma se obtiene una frecuencia de repeticin de 50 Hz (frecuencia de
campo), sin incrementar e! nmero de imgenes totales, que sigue siendo de 25, y
sin incrementar, por tanto, el ancho de banda. A este proceso se le denomina
"entrelazado de campos".

3.2.1. Parpadeo interlnea


Aunque e! entrelazado proporciona una frecuencia de refresco de pantalla sufi
ciente como para que la imagen en su conjunto no parpadee, se produce en oca
siones un cierto parpadeo local, denominado "parpadeo interlnea" (/nteline twit
ter). Tal artificio aparece cuando la seal de vdeo contiene lneas de exploracin
cuyo nivel de luminosidad es muy distinto al de sus vecinas. Por ejemplo, si imagi
namos una lnea blanca sobre un fondo totalmente negro, tal lnea parpadear fuer
temente, puesto que su ciclo de encendido-apagado ser de 25 Hz (en e! sistema
europeo) o de 30 Hz (en e! americano), lo cual est por debajo de! umbral de par
padeo para frecuencias espaciales medias y altas, el cual se cifra en unos,40 Hz. Hay
que entender que una lnea concreta corresponde a un campo concreto (ya sea el
par o e! impar) y que, por tanto, la frecuencia a la que tal lnea aparece no es la fre
cuencia de campo, sino la mitad.
El parpadeo interlnea suele aparecer, sobre todo, en e! caso de imgenes sint
ticas como las generadas por ordenador para los "mapas de! tiempo". Cuando las
lneas son ms gruesas no se percibe tal artificio, ya que tan pronto como se "apaga"
una lnea se "encienden" las vecinas del otro campo. Este efecto es mucho ms per
ceptible en el caso de imgenes sintticas que en e! caso de imgenes tomadas por
cmara ..Los receptores d~.tel~Yi,';jn qlledupjcanlnea/campos eliminan o mini
IQizan este a~!ifl~~__R.:~~0!aJ~~:es_a.I1-t~.q'!e este pro1?l~ma era mucho menos g~ave
al inicio de la televisiI1.$!~_actualm.m!~-, .Yi! que las cmaras y, sobre todo! lasp~n
tallas de los receptores no tenan sufici_<o.~t.e.~~s.2luc:incomo para confinar una fina
lnea horiz2J1..!.~L<I}!n--ILne,.de-c.:xplor..acin.. En..el caso de las imgenes i:omadaspor
cm~~~.f~c:19_~~_r~..?ll.~eno!_abl~;tE~I1!e~()_J110consecuencia del filtrado espacial
illtrPQ.ucici.Q...por.eL ob.je.t~ve '/' en-especial,por el solapamiento del perfil del ~az
explorador del tubo de cmar~ o d~e! filtro pticopaso-bajode la cmara CCO.
32

3.3. Frecuencia de lnea


Un parmetro muy importante a determinar es el nmero de lneas con que se ha
de formar una imagen. Cuantas ms lneas se empleen, mayor defmicin o resolucin
tendr la imagen. Por otro lado, cuantas ms lneas, mayor ser e! ancho de banda
necesario. Se ha de encontrar, por tanto, una solucin de compromiso.
Un punto de partida en la eleccin del nmero de lneas es la "agudeza visual"
de! espectador, es decir, la capacidad de ste para discernir o separar pequeos
detalles que se encuentran en proximidad. Esta agudeza visual se cifra en un minu
to de grado para un espectador medio, tal como se ha explicado en e! apartado de
''AgiRIezaviSual" de este mismo captulo.
--Xla distancia normal de visionado (unas 6 veces la altura de la pantalla) son sufi
cien'tes unas 5'70 Ineaspara que dos lneas consecutivas formen un ngulo igualo infe
i";:-irae grado con respecto al centro del ojo del espectador (figura 1.6).

~~t,-

Figura 1.6.
La agudeza visual humana se cifra en l' de grado.

En Europa se ha optado por 625 lneas por las siguientes razones:


Debe ser un nmero impar para asegurar el entrelazado de campos. En efecto,
para que los dos campos se entrelacen y no se solapen, es necesario que el pri
mero comience en la esquina superior izquierda y termine a la mitad de la parte
baja de la pantalla. El siguiente campo no puede comenzar tambin en la esqui
na superior izquierda, ya que ambos campos se solaparan. En lugar de esto el
segundo campo comienza a la mitad de la parte alta de la pantalla y termina en
la esquina inferior derecha, tal como puede verse en la figura 1.5. Por tanto,
ambos campos contienen un nmero entero de lneas, ms media. Podemos, por
tanto, escribir, que un cuadro o imagen contiene: 2(n+ 1/2) lneas. Cualquier
valor que se le d a "n", el resultado ser un nmero impar. sta es la raz6n por
la cual todos los sistemas de televisin, actuales u obsoletos, tienen un Dimero
impar de lneas.
De las 625 lneas, no todas sern visibles en la pantalla, ya que se necesitan
algunas (25 en cada campo o 50 en total) para e! retorno vertical del haz de
electrones desde la parte baja hasta la parte alta de la pantalla. Por tanto, en
el mejor de los casos dispondremos de 575 lneas tiles, lo cual est ligera
mente por encima de! mnimo terico de 570 lneas.
33

Tf:CNOLOGIA ACrUAl [)ll"l:lI:VISN

"na

Existe
relacjn-s'ellcilla-~e1 numero de lneas.pru:.imagen-*--elnmcro
de imgenes e9r s~do (625
2~)-.tl~q!!~ simplifica el "istema.
~~o que-un<:l.-~~gt':1l.~~c.:-;~p;~de6_2SIineas.}'Ullcuadm-(-Goseampos}.se-pw
lucecaaaT72~egun~~afr~~~_~c.:i.a:_geJ!I}_e.~cr.Lf2.S._?<_25:.::::.15,625 Bz. _

3.4. Proporciones de la imagen

/. Cf-/:JAI-To

_~ rela.ci?l1_de imagen normalizada ell.la televisin actuales. de4! 3, es derir,.la_pan


--!.alla aertelevisor es un.Jl"1d4il:::: J ,33)ms411Cha.que.alta,_Es.ta relacin de aspec
to debe mantenerse desde la cmara hasta la pantalla del televisor si se quiere respetar
la compatibilidad. En la actualidad se est revisando el tema de la relacin de aspecto,
ya que el pblico muestra preferencia por formatos ms apaisados.

3.5. Duracin de una lnea


..En..~_n~!.'!!.1a ~1u:~de625--lneas y50eampos -Iafrecuenda de lnea-es de
l5.625Hz. Esto significa que cada lnea durar 1115.625 s. o, lo queeslo.mismo,
64 microsegundos (~s) De.es.tQs..Q:t us, 52 Se_lltiljzan para analizar la~ge
i~guierda a derecha (perodo activo de lnea) y los 12Jsrestantes para vQlveJ: de
~cha a izquierda _(~_()xL-doosupresin4le lnea). Vase figura L 7.
E"i1Tanorm-a-;;'mericana de 525 lneas y 60 campos la frecuencia de lnea es de
15.734 Hz y el perodo de lnea 1/15.734 63.556 JS. La lnea activa americana

La seal de yidco

dura un poco ms que la europea (52,856 )1s), mientras que el borrado de lnea en
la norma americana es de 10,7 JS.
Dentro del borrado de lneaE9_?~mos distinguir: los prticos anteriol:J'_posterior,
los cuales estn al nivel de borrado (OY), el sincronismo deJllleiid'1l.l.l.r.s.L..o..~~
color", el cual slo estar E~s=-r:t:._c:~~c:.::_~~a sea~ de co!~r.

3.6. Niveles de tensin


La parte de la imagen (perodo activo de lnea) queda ubicada entre dos niveles
de tensin elctrica, correspondientes al pico de blanco (0,7V en 625/50 y 0,714
Ven 525/60) y al nivel de negro (OVen 625/50 Y 0,0535 Ven 525/60). La seal
de vdeo de blanco y negro se mantendr siempre en estos niveles. La seal de
color puede variar ligeramente como consecuencia de la presencia de la subporta
dora de color.
Los sincronismos se extienden desde Oa -0,3V en 625/50 Ydesde Oa -0,285V
en 525/60, con lo que la amplitud total de la seal de vdeo (contando la infor
macin de imagen y los sincronismos) es de 1V entre extremos de la seal, tanto
para la norma americana como para la europea. Suele emplearse la expresin "1
voltio pico a pico" o 1V (p- p).

Nivel de blanco

O.7V~
90% ( J

(~90%

0,
NIVEL DE BlANCO (100%)

B=PERloDO DE BORRADO DE LINEA 12 0.3 us


C=PDRTICO
ANTERIOR

________o.. !!."

PRTICO ANTERIOR

10,5 JS

1,5iO.31.15

F=
0.3%;0,11-15

E:::PRTlCO POSTERIOR

"'----""

5.8 JS

DS~~f:E~~~~~~~s

(30%]
G=O.2:l0.1 IJS
''---'O

T[~
l.
I

FONDO DE
SINCRONISMOS
(0%)

BORRADO O
SUPRESiN DE LINEA

"~I

PERIDO ACTIVO
DE LINEA

Figura 1.7.
Oscilograma mostrando una lnea de televisin, con los valores de tensin y tiempo ms
importantes (norma 625/50).
34

F y G .. Ilempo de formacin
de los nancos IInlro el

D=IMPUlSO DE

..-QdV.

.I:l

r--------....J~~~,1t;-.-:.

NIVEL

DE NEGROS

.....'J'Io

F=
0,3;,1:0,1
".__

)10%

10%\
OV__

... )

-O.3V____

toO )

Nivel de

borrado

10 Yel 90%
G=O.2:l0.1 IJs

1~-=-_~ __ X()~~E.~"~ln_Cr()rliSmOS

>

~
~

Figura 1.8.

Detalle del borrado de lnea (para una seal de blanco y negro, en la norma 625/50). Cualquier

medida temporal sobre la lnea de televisin se realiza con respecto al instante OH, el cual se defi

ne como el punto de media amplitud del flanco anterior del impulso de sincronizacin horizontal.

Comparando las figuras 1.8 Y 1.9, as como analizando la tabla 1.2 puede verse que
la seal de vdeo de la norma americana de 525 lneas y 60 campos presenta algunas
diferencias notables con respecto a la norma europea de 625 lneas y 50 campos. No
slo las duraciones son distintas. Adems los niveles de tensin del pico de blanco y del
35

La scil.l! de \'dC:Q

TCCNOLOGI., ACTUAL DE TELCV1Slr;

Nivel de Blanco

0,71~

~O%

90%6

PARA METRO

0"

Nivel de blanco
Nivel de negro (pedestal)
Nivel de borrado
Fondo de sincronismos

A=PEAIODO DE BORRADO DE UNEA 10,7uS


C",PORTICO

ANTERIOR.

1.5O.1~S

F..o,14

O,02IJS

10%
mv1-

_t-JIV.el.d.e.~egr()S'lmmmmm

D.IMPULSO DE
SINCRONIZACiN
DE LINEA . 7O.1~S

lo

E-PORTICO POSTERIOR
. 5~S

_'m

G"'O.14~

.O,285Y

B-9.2+0,2. -0,1 .lS

"-----"

sg

Tabla 1.4 Niveles de tensin de la seal de vdeo en blanco y negro para las normas
525/60 y 625/50.

F.O.14

O.02~S

NORMA 625/50

100 IRE (714,3 mV)


7,5 IRE (53,5 mV)

700 mV

O IRE (O V)
--40 IRE (-285,7 mV)

OV
OV
-300 mV

__ r~fr;~gg

F Y G = tiempo de lormaci6n
de los flancos entre el
10 y el 90%.

1~14O,02IJS

NORMA 525/60

Fondo de Sincronismos

Figura 1.9.

Detalle del borrado de linea (para una seal de blanco y negro, en la norma 525/60).

Cualquier medida temporal sobre la linea de television se realiza con respecto al instante OH,

el cual se define como el punto de media amplitud del nanco anterior del impulso de sincTO

nizacion horizontal.

Adem~s__cl~_bS-\'Qltios y los milivoltios, su.de I,Itilizarse en la medida deaJTIpli.


_tucl.de lseal de vdeo una unidad denominada "IRE", que son las iniciales d~l ins
tituto que las nonnaliz(/rlStituteq[ Radio En8ineers). Este tipo de unidades. se uti
ll;.a sobretodOen-l~norma americana 525/60. Bsicamente se divide la scal de
~'deo~cresde'lf[;'do dcsincronismosnasta el pico de blanco en 140 unidacl~~ IR~.
P'U'eStO que;l~~f~rde vdeo en su conjunto tiene una amplitud de lvoltio p-p, UI1<i
u-;;TaaofRE corresponde a 1V/140 = 7,14 m V El valor "cero IRE" se hace coinci
dJ~..con el nivel de supresin o borrado.

3.7. Duracin de un campo

En la norma europea de 625 lneas y 50 campos, un campo dura exactamen


te 1/50 de segundo o, lo que es lo mismo, 20 milisegundos (20 ms). De este
~ienpo;' aproximadamente 1,6 ms corresponden al borrado vertical, es decir, a
Tabla 1.3 Parmetros de la seal de vdeo en torno al sincronismo de lnea. Algunos
parmetros no tienen tolerancia, puesto que son derivados de otros ms bsi
la~-Irieas--que necesita el haz para retornar de la parte baja a la parte alta de
cos.
iinta:1fa (L'5"X'b4~s--= t ,6 ms). Dentro de estos 1,6 ms se encuentra el sin
S{MBOLO PARAMETRO
NORMA 525/60
NORMA 625/50
cromsmocreampo'"slcronis'ino verticI, lcu! dura el tiempoequivalcnt~ a
~<.:~- de.!~ _es d~~ir, 160 ).1s. El impulso de sincronizacin de campo :,st
63,556
64
H
Perodo de lnea, ).1s
10,7
A
Intervalo de borrado de lnea, ms
12. 0,30
~~~qlle.ado por otros dos trenes de impulsos: el de preigualacin y el de pC!.sti
Desde OH hasta el final del borrado
B
guaJ.a;n. En total se emplean para propsitos de sincronizacin vertical 7,5
10,5
9,2 + 0,2/-0,1
de lnea, ).1s
l.!1e.as de TV La mayor parte <id_res~h.sta completar..@~25JiTl~
__L cie_borrado
Prtico anterior, ).1s
1,5 0,1
1 ,Si 0,3
e
vertical,puede emple..rsep_ar_-plj<::<IcioI)_e..s_e._~ialcs,como, por ejemplo,
4,7 0,1
Impulso de sincronizacin horizontal, ).1s
4,70,1
D
4,5
5,8
E
Prtico posterior, ).1s
t~, seales test Cs.tl.e_per:mitcD .cyalll.a,r objetivall1ef.lte_l~ ..c:li~;i~.e~!a ima
F
Tiempo de formacin de la seal, ).1S
140 20
300 100
gen) o..<::?3gOdetiemp2..sJtll1-,u~tilidad muy importante .en la po.spmducc2D_de
G
Tiempo de formacin de los
1-.s,JI1!.genes_d~ tV1 __
sincronismos, ).1S
140 20
300 100
El perodo activo de campo durar, por tanto, 20-1,6 ms = 18,4 ms. En la prctica,
el borrado vertical incluye, adems de las 25 lineas, un borrado de lnea extra, con lo
que el perodo activo de campo durar un poco menos. Va~e figura 1.10.
En la norma americana de 525 lneas y 60 campos la duracin de un campo es
fondo de sincronismos son tambin diferentes. Otra diferencia importante se refiere al
llamado "pedestal", que no existe como tal en la norma europea. El pedestal no es otra
de16,683 ms. En esta norma el borrado vertical utiliza 20 lneas, lo que corres
cosa que una ligera separacin del nivel de negros con respecto al nivel de borrado o
ponde a 1,272 ms, dejando 15,411 ms para el perodo activo de campo. Al igual
supresin. En la norma americana esta separacin equivale aI7,5% de la seal de video,
que sucede en la norma europea, el sincronismo de campo se estructura en tTes
desde el nivel de supresin al nivel de blancos, lo que, traducido en niveles de tensin,
trenes de impulsos: preigualacin, disparo y postigualacin, e igualmente se trata
son 53,5 mV En la norma europea el nivel de negros es exactamente el mismo que el
de pulsos cortados a ritmo de H / 2, slo que en este caso se utilizan seis impulsos
nivel de supresin, es decir, OV
para cada uno de los trenes en lugar de cinco.
36

37

,f

TECNOLOGIA ACTUAL DE TELEVISiN

LINEAS DEL CAMPO 1

__ -----.f>.E~J-~f_A~~q~_? __n~~__

...-

La seal de vdeo

160 1Jf> (2.5 LINEAS)

__ PERFIL DE ENERGIA DE LAS


. / LINEAS DEL CAMPO 1

~ .~~

r---------------;o

SINCRONISMO

DE CAMPO O

SINCRONISMO

VERTICAL

BORRADO DE CAMPO

"r
Figura 1.10.

Datos de la norma 625/50, El

perodo de campo (20 ms)

incluye el borrado de campo

(1,6 ms) y ste a su vez el sin,

cronismo de campo (160 flS).

En la parte baja de la figura se

muestra ms detallado el

borrado de campo.

lTIMA LINEA ACTIVA


. DEL CAMPO ANTERIOR

2,5 H

2,5 H

--j."

PRIMERA LINEAACTJVA
DEl CAMPO SIGUIENTE,

1,7V.

2,5 H

----'Xn nn'~T~nn~~"""r'
j

~i

uuuuu~ ~ ~ ~ ~ ~ ~ ~ ~. ~ ~ l. _lO,3V
-

80~fu\_.Q...Qf__&tt>.P~1:L!__.JlllL~

-------

--~J

El ancho de banda de la seal de vdeo, en la mayora de los pases europeos, es de


5,5 MHz. Esto significa que la seal de vdeo puede cambiar su estado elctrico, como
mximo, hasta 5,5 millones de veces por segundo. Como veremos, el ancho d~ baI'!da
e~roporcional al nmero de lineas.,.alaLesolucin.horiwn.talddese~.alardGi.QrL
_~e aspect~~,J..lJmero_de.im.gl;ne_sp-LSegundo.
'-
Como sabemos, en..ili~ceg!.or c!~ televisin sl2.i75.de las 2SJ.J1(~!1_Ss9_n. vi~i
~s. Las 50 lneas "perdidas"..s2.!:.r~.s.pQ!1.den.ljnt~ry.ak.ci~borradoy.er:ic\l ant~s
G~~o. Porta.nto, la resolllc:il1 xerttc! terit.:as~rck.FS !n~s.
SBifll:>~.gQ.,g.resolucinvertical efectiva es algo menor que la terica. Esto
al igu!}
es cO['lsecuencia de queelgrosQ.r.~eL~~~e~J:l(:~<l.t?~_d_e.!.!..u_~_~_~_c:~IIl<lr~,
<Lue sucede con el gro~L4el ha~t: __e.!.e~!~9..n_~.~~L!~~()_C!e_!".aJ_o.~S.2:t9QiLCI!tC)
4eL t~l~visor, es algo may()r que el espacio. que s~para dos lneas. COrls~c:.lltivas.,~e
televisin. Ademsel perfil de energa del haz electrnico dista mucho de ser rec
tangular, parecindose ms a la curva de Gauss o gausiana, especialmente_cuando
se trabaja con un sistema entrelazado, donde el solapamiento entre lnea~. vedl)..as
(que corresponden a distintos campos) debe ser mayor que en un sistema~ec:u.en
cial puro (figura 1.11).
, Para calcular la resolucin v~~tical efectiva ~~e m~.tiplicar el nmero de
lmeas por unfactor 9.e cor,re.C:ClOn, menor que la urlR1aCt, ~'L:OTIuce-como
"Factor de Kell", en honor de R: D. KelI, ciulerlbc1toacl?l(jcen~nlo~a2s_}0.
Atmque este factor depende del tipo de dispositivo que se emplee en la~mara
(tubo o sensor CCD), la respuesta de la ptica, el ajuste del haz de electrones del
TRC, etc. en la prctica se ha normalizado aO,75.Por tanto, 0,75 x 575 430 lneas
---------_._--~-,,~-_.-

38

}.

- - -- -

- -~'- ~ - - - -- - - -- - -- -
",", PERFIL DE ENERGIA DE LAS
LINEAS DEL CAMPO 2

....... ~~ LINEAS DEL CAMPO 2

de resolucin vertical. Puesto que el ojo humano presenta, aproximadamente, la


misma agudeza en la direccin horizontal que en la vertical, una resolucin equi.
valente en el sentido horizontal requerira 430 x 4/3 574 "lneas". 4/3 es la rela
cin de aspecto, es decir, la relacin entre la anchura y la altura de la imagen nor'
malizada.
~rior signiJlca gue podemos "meter" como mxi~o 287 lneas blancas y 287
~~~a-pacteizquierdaa.1a p;uJe9cerec:hde la imagen. As pues, 52 ~
pfesddil)eas O,1 ~1!11Uhsponi~1f:s_pEa cadapaLbJ.~co~negro~ .-----,,- ,
PQde.mos c:onsiderar cada par blanco,negrQ C:9.J!l..2 uni:l'Io=~,kTI1t:ntal, y si ste
_dura O, 181 J:i~,en uns~gu_fldohabrn:---- - ----

3.8. Ancho de banda

...,

Figura 1.11 .

El perfil de energa del haz de electrones

tiene forma de "gausiana" y limita la resolu

cin vertical efectiva.

:} -- -- -- -- -

... ...

1 __

PERIoDO ACTIVO DE CAMPO ..

1.6

\-

,.

"" 5,5MHz
0,181 J.1S

U)

6~0

tia

'

./

//

:3o

300
200

~ 100

lY

o1/1 2 3 4 5 6 7 8
ANCHO DE BANDA EN MHz

Figura 1.12.
Relaci6n entre lneas de resoluci6n y
ancho de banda, Para pasar de una a otra
medida, multiplicar o dividir por 80,
39

LJ_~cJl~ !.1.h.lJ.t,k

TeCNOLOGA KTUAl DE HlEI'ISION

Los tres sistemas de televisin actuales son: NTSC (EE.UU" Sudamrica )'
pases del Pacfico), SECAM (Francia, Europa del este)' norte de frica) )'
PAL en el resto del mundo. PAL y SECAM utilizan 625 lneas)' 50 campos;
NTSC utiliza 525 Hneas )' 60 campos.
Para entender los parametros en que se basa la televisin es necesario cono
cer las caractersticas de la visin humana, en especial la anatoma y funciona
lidad de la retina. La resolucin espacial lumnica se cifra, para un espectador
medio, en un minuto de grado. Esta resolucin slo se obtiene en el centro
de la retina, en una zona denominada fvea,
Otra caracterstica visual muy importante es la persistencia visual, la cual se
cifra, en condiciones normales de observacin, en l/lOs. Sin embargo, para
obtener una reproduccin suave de! movimiento es necesario trabajar con una
frecuencia de imagen por encima de 20 ips. En cinl" se opt por 24 ips, mien
tras que en televisin se eligi una frecuencia de imagen de 2S ips en la norma
europea y de 30 ips en la americana,
Aunque 2S ips (30 ips en e! sistema americano) es suficiente para reproduci' el
movimiento de forma suave, a esta frecuencia de exhibicin se produce un fuer
te parpadeo de la imagen. La solucin adoptada en televisin es el "intercalado
de campos". De esta forma se evita el parpadeo sin aumentar el ancho de banda.
As, la frecuencia de refresco de la pantalla a la frecuencia de campo 50 Hz
en la norma europea y 60 Hz en la americana.
El entrelazado de campos fue una buena solucin en su momento, aunque,
por otro lado, introduce sus propios defectos y artificios. Los futuros sistemas
de televisin digital para multiprogramacin y HDTV utilizarn, seguramen
te, exploracin no entrelazada, tamhin llamada "progresiva".
En la norma europea se emplean 625 lneas por imagen (312,5 lneas por
campo), mientras que en la norma americana se utilizan 525 (262,5 por
campo). En cada campo de la norma europea se utilizan 25 lneas para el
borrado vertical, de forma que el nmero de lneas activas por imagen es de
575. En la norma americana se utilizan 20 lneas POl- campo para el bOlTado
vertical, siendo el nmero de lneas activas por imagen de 485.
La resolucin vertical efectiva es menor que el nmero de lneas activas, ya
que se ve afectada por el factor de Kell, quedando en 430 lneas en la norma
europea y 360 en la americana. Teniendo en cuenta la relacin dI" aspecto, una
resolucin horizontal equivalente dara 574 lneas por anchura de imagen en
la norma europea y 480 en la americana.
(, ~"? '."
-:-- l .
La frecuencia de lnea se deduce multiplicando la frecuencia de imagen por el
nmero de lneas que componen cada imagen y es de 15,625 Hz en la nOl'ma
europea y de 15.734 Hz en la americana. En todas las normas de televisin
convencional se utiliza una relacin de aspecto de 4: 3,
64 IJS (en 625/50) y de 1/15.734
La duracin de una lnea es de 1/15.625
= 63,55 I1S (en 525/60). El borrado de lnea en la norma europea es de 12
mS, lo que deja 52 I1S para la lnea activa. En la norma americana el borrado
de lnea dural0,07 IJS y la lnea activa 52,85 I1S.
Los niveles de amplitud de la seal de vdeo en blanco y negro se extien

As pues, tenemos un sistema con una resolucin horizontal cfectiya dc 574


'----'...
--- ---- -- -_.
lneas, uili:esO!Ci6n yertical dc 430 lncas y un ancho dc banda dc 5,5MHz,
.

Por tanto:

A"
d;-de:

1/2 x 3/4 Z"[R1


52 I1S

Z"IRT
Kx575,
K = factor de Kell = 0,75
A"
ancho de Banda en MHz

Tabla 1,5 Parmetros ms importantes de las normas de televisin de 525 y 625 lineas

PARAMETRO

NORMA 525/60

Nmero lneas por cuadro


525

Nmero lneas por campo


262,5

Relacin de aspecto (H:V)


4:3

Nmero cuadros / segundo


29,97 (1)

59,94 (1)

Nmero campos / segundo


Frecuencia de exploracin horizontal (fHl Hz 525 x 29,97 = 15,734,25

Duracin del borrado de campo (lneas)


20

40

Duracin del borrado de cuadro (lneas)


Nmero de lneas activas por cuadro
485

Resolucin vertical (N v) en LPH


485 x 0,75 = 360

Duracin de la lnea total (lJs)


63,556

Duracin del borrado horizontal (lJs)


10,07 0,1

52,856

Duracin de la lnea activa


Pixel horizontales para igual resolucin
HN(2)
360 x 4/3 = 480

Duracin de un ciclo en horizontal (T) IJs


52,85 / 240 = 0,22

Ancho de banda para igual resolucin


HN (MHz)
1fT = 4,5

Factor de resolucin horizontal Qineas!MHz) (3)


360/4,5 = 80

Resolucin horizontal real (N H) LPH


336 (para un ancho

de banda del

canal = 4,2 MHz)

Relacin de resolucin HN
0,933

;'

NORMA 625/50
625

312,5

4:3

25

50

625 x 25 = 15,625

25

50

575

575 x 0,75 = 430

64

12 0,3

52

430 x 4/3 = 574


52/287 = 0,181

5,5

430/5,5 = 78

390 (par un ancho

de banda del

canal = 5 MHz)

0,907

(1) En el sistema americano (normas M) la frecuencia de campo para blanco y negro era de 60 Hz, A par
tir de la -introduccin del color en el sistema americano NTSC en 1953, la frecuencia de campo pas a ser, de
59,97002996 (y ms decimales], Este cambio se hizo con la intencin de que 11LnUElya,pQ[tadQra de color no
interfirerac:onlaportadora t~ sonido:
' - .
(2) Dato terico no normalizado, a partir del cual se puede calcuiar el ancho de banda
(3) Es frecuente hacer una traslacin entre lneas de resolucin y ancho de banda, Dividiendo las lneas de
resoiucin por 80 se obtiene el ancho de banda en MHz, Igualmente, si conocemos el ancho de banda de un canal,
podremos saber qu resolucin horizontai puede proporcionar multiplicando el ancho de banda expresado en MHz
por el factor fijo 80, Puede verse Que esto es vlido tanto para el sistema 525/60 como para el 625/50,

Resumen
La televisin naci y se defini en los aos 30, Muchas de las caractersticas y
limitaciones de los sistemas actuales son consecuencia de la necesidad de
compatibilidad con aquellos sistemas pioneros.

41

40
~

TrcNOLOclA AnUAL DE THEVISION

den desde OY para el negro hasta O, 7Y para el pico de blanco. Entre O y


-0,3 Y se encuentran los sincronismos. En total la seal de televisin ocupa
una extensin, desde el fondo de sincronismos hasta el pico de blancos, de

0,7+0,3
o

= lV

El ancho de banda es proporcional al numero de lneas, a la resolucin hori


zontal deseada, a la relacin de aspecto y al numero de imgenes por segun
do y es de 5 5,5 MHz en los sistemas europeos (puede ser ms elevado en
SECAM) y de 4,2 MHz en el sistema americano.

I
f
~

CAPTULO

i,

El color

1. Naturaleza del color


1. 1. Aspectos fsicos del color
Por definicin, el color comprende todos los aspectos de la luz, excepto las
variaciones en tiempo y espacio. El color es un aspecto de nuestra experiencia
visual y, desde el punto de vista fsico, depende de las longitudes de onda de la
radiacin que ilumina e! objeto, de las longitudes de onda que reneja dicho obje
to, de! color de los objetos circundantes y de la absorcin o renexin de las sus
tancias que se interponen en la trayectoria de la luz. ~+-Qesde u~a -Eli.fa
c:i~n tfica,podemos reconocer un co!qr por la longitud de-Ondadominante ql!e
em.ite o reneja, a la cuaLaadiremos.sumonocrornaticidad..o..pureza.La luz del
lser, por ejemplo, puede ser roja (en el lser de rubi) o de otros colores, pero
siempre es monocromtica, porque est formada por una unica longitud de onda.
En este caso basta con decir de qu longitud se tI-ata (por ejemplo,
700 nm) para identificar, sin lugar a dudas, e! color de dicha luz. Cuando no se trata
de luces o colores monocromticos, adems de la longitud de onda dominante es
necesario conocer en qu medida dicho color est contaminado de luz blanca.

1.2. Aspectos psicofsicos del color

42

Son tres: matiz, saturacin y brillo, ninguno susceptible de ser medido directa
mente.
o Por matiz entendemos la sensacin de color por la cual distinguimos las par
tes del espectro: rojo, azul verde, amarillo, etc. El equivalente f1sico del matiz
es la longitud de onda dominante de la luz para cada color.
o Saturacin es e! grado de pureza de un color, es decir, la medida en que est
43

TlC;,\'OLOG.,\ ACTUAL DE TELErJSIN

contaminado de blanco, gris o negro. Un "rosa" difiere de un rojo puro en su


saturacin. Se dice que el "carmn o escarlata" es un rojo saturado al 100%,
mientras que el "rosa" es un rojo saturado, por ejemplo, al 50%. Cuanto mas
plido sea un color, menor sera su saturacin y viceversa .
El brillo es la sensacin de luminosidad de un color. Esta asociado con la canti
dad de luz y la sensacin visual. Un gris y un blanco, por ejemplo, difieren slo
en el brillo (el segundo es mas brillante). Si mezclamos al 50% pintura roja y pin
tura blanca obtendremos un rosa o, lo que es lo mismo, un rojo saturado al 50%
y de un cierto brillo. Pero si en lugar de pintura blanca utilizamos pintura negra
para mezclarla con el rojo, tendremos tambin un rojo saturado al 50%, aunque
ahora con menor brillo que antes.
Es posible encontrar en otros textos denominaciones distintas a las usadas aqu.
Podemos establecer la siguiente equivalencia aproximada:
Matiz
tinte
tono

Saturacin
pureza
c-oma

Brillo
luminosidad = valor

=
=

Figura 2. J.

Mezcla aditiva.

1.3. Mezcla aditiva


Se dice que dos colores son complementarios cuando entre los dos pueden
producir el blanco si se mezclan en la misma proporcin. Por ejemplo, amari
llo y azul son complementarios, ya que el amarillo est formado por rojo y
verde y al mezclarlo con azul lo que realmente estamos haciendo es mezclar
rojo, verde y azul. Dos colores complementarios presentan el mximo contras
te cromatico. El complementario del rafa es el cin; el del verde, el magenta, y
el del azul, el amarillo.

Siempre que trabajamos con luces (como en el caso de la televisin) se dice que
estamos empicando mezcla aditiva de colores. En efecto, si sobre una pantalla
blanca de una habitacin a oscuras proyectamos un haz de luz roja, tendremos una
cierta cantidad de luz. Si a continuacin hacemos converger sobre la mancha de luz
roja otra de luz verde, obtendremos la suma de la luz de ambos proyectores (la
pantalla refleja la luz roja y tambin la luz verde). Cada vez que aadimos luz, el
color resultante es mas luminoso.

1.3.2. Las leyes de Grassmann

1.3.1. Colores primarios luz

Como sabemos, es posible obtener cualquier color mediante la mezcla aditiva


de tres fuentes de luz primaria Fl, F2 Y F3, siempre que estos primarios hayan sido
adecuadamente seleccionados. Fue precisamente Grassmann uno de los primeros
en demostrar la afirmacin anterior. Adems enunci una serie de leyes sobre tri
croma que son de gran inters:
Dos radiaciones cromaticamente equivalentes a una tercera son equivalentes
entre s.
Si sobre el ojo actan varias radiaciones simultneamente, es posible sustituir
una o varias de estas radiaciones por radiaciones cromticamente equivalen
tes.
Si dos reas visuales producen la misma sensacin de color, sta no cambia si
en ambas se disminuye la luminosidad o brillo sin cambiar el matiz ni la satu
racin.
La luminancia de un color es igual a la suma de las luminancias de sus com
ponentes espectrales.
Basndonos en las leyes anteriores, hagamos el siguiente experimento. Colo-

La designacin de ciertos colores como primarios es un hecho arbitrario que,


sin embargo, est basado en algunas consideraciones. Por ejemplo, sabemos que los
conos de la retina se dividen en tres grupos, los cuales presentan maxima sensibi
lidad, cada uno de ellos, a las luces roja, verde y azul. Ademas rojo y azul quedan
en los respectivos extremos del espectro de luz visible, mientras que el verde cae
justamente en el medio. Por estas razones se han elegido como primarios luz los
colores rojo, verde y azul.
Con estos tres colores es posible, mezclandolos en las proporciones adecuadas,
obtener cualquier color, ya sea ste natural (se encuentra en la naturaleza) o artificial.
La figura 2. 1 muestra los tres colores primarios luz, as como los secundarios. Por
secundarios se entiende los colores que se forman al mezclar dos primarios en canti
dades iguales. Por ejemplo, con rojo y verde se obtiene amarillo; con verde y azul
tenemos el cian o cianino, que es un azul turquesa; con rojo y azul logramos el magen
ta, que es una especie de granate algo violceo. La mezcla de los tres primarios, rojo,
verde y azul, en la misma proporcin da el blanco; la ausencia de los tres, el negro.
44

45

TECNOLOGJA ACTUAl. DE TELEVISiN

El color

quemas tres proyectores, uno rojo, otro verde y otro azul de igual potencia, a la

izquierda de una cartulina blanca doblada, tal como muestra la figura 2.2. A la

derecha de la cartulina colocamos un proyector de luz blanca. Ahora ajustemos

mediafl!.~~.spQSitivorcOmO,_POfejemplQ) un filtro Q un restato) la intensi

dad l.':1~i':.i~a d~c~~a_E!,_o+~!ou;l~hU.zquierda hasta que la sensacin visull perci

bi9_.JtQLdQbserv!lQI sea idl!!ica.~n..amb.as_caras de.lacartulina.

Suponiendo que lal\l~.c,lt:Lpr-'yegQr.sle.Jaderecha. se-a per-fe t ameflteblanca

(c0!!1~Ja~l11itidapor.el Sol), 10sproye~tQre5.-deJa izquierda habrn sido ajustados

aJ_~ sig.uie.I1!~s__p.o~iciQnes:

v
tt

ROJO
VERDE

,I

Figura 2.3.

Mezcla sustractiva.

I
AZUL

tt

LUZ
BLANCA

\
\

\, i

','

""~--'
OBSERVADOR

i,
~

,~
f
~

Figura 2.2.
Igualacin del blanco mediante proyectores R, G Y B.

Proyector rojo = 30%


Pr.l~c:.t?r.~~rd.t:=j2%._
! Proyector azul 11 %

El expe'imeD.lo ant~Ijm:_g~mu~~tLa_qg~.la.. I1!~.Qln<;:_~.tLQrm.ada,..s.obrU.o,

por luz verde (59%), algo de radiacin roja (30%) y muy poca azul (lIro)

1.5. Igualacin de colores


Son procedimientos fsicos que consisten en lograr una mezcla de colores que
visualmente se parezca a otra muestra dada. Sea por mezcla aditiva, mediante
luces, o por mezcla sustractiva, utilizando pigmentos, la igualacin puede lograr
se. Cualquier color puede obtenerse sumando luz espeQ1gL1!l91lQgomtic--X-Iuz
Ma~01.:..S!Il_emb.,!rg(l()s.,p~rpuras no pu,edep O!~lJ,crs~_de.es:ta.m.anexLE9J:.aello
h.aceJ~l~ ~uIl1ar dos lu~es ~spe.ctr'!le.s..)_9.Qncre);'!I!:lgI!!e.l.
<:.Qrn:sp.Qll.dimt~s_-.LQ1>
.~JS.tr.emos del espectro (rQjo y violeta). A estos colores se les conoce tambin como
~ no espectra~s:.Pordefini9IlL~n.colorn()espectral no pertel1ec:.e~_~.E..ec
~, por tanto,~"'p.:::,~~del1.~ifi<:~rse'porsu longitud de.Qoda dominante. En
l~ga.r~eesto se indica la longitud de onda del:olor complem~ntari().J"a luz de este
color com...El~.!!l..e.Il.t~~i~E1.e~cl~~acon la del purpreo en cuestin da blanco.

1.4. Mezcla sustractiva


Supongamos una cartulina blanca que refleja el 80% de la luz que recibe. Es
blanca porque refleja en la misma proporcin todas las componentes de la luz. Si
sobre dicha cartulina aplicamos un trazo de pintura roja) los pigmentos de que est
compuesta la pintura absorbern parte de la luz (todas las componentes excepto
las rojas) que antes se reflejaba. El resultado ser menos luz. Si mezclamos la pin
tUfa roja con otra verde) el nuevo color absorber ms luz que las pinturas indivi
duales. Realmente habremos obtenido un marrn oscuro) bastante menos lumino
so que el rojo o el verde originales.
46

La conclusin es que cada vez que aadimos un nuevo color pigmento estamos qui
tando luz. Por tante;. este tipo de mezcla de colores se denomina mezcla sustractiva.
Los colores cin, magenta y amarillo, que son secundarios en mezcla aditiva, pasan
a ser primarios en mezcla sustractiva. Si queremos pintar un cuadro a todo color con
slo tres tubos de pintura, sern precisamente cin, magenta y amarillo los que debe
remos elegir. Jos Mara Parramn, un excelente pintor dedicado a la enseanza,
recomienda el amarillo de cadmio, el carmn de Garanza oscuro y el azul de Prusia
para aquellos que quieran hacer la prueba de pintar un cuadro con slo tres tubos de
color. Si se trata de pintura al leo, por ser pigmentos opacos, deber emplearse, ade
ms, pintura blanca para rebajar o mermar la saturacin de los colores. Los tres colo
res de pintura de Parramn son los ms parecidos, dentro de los catlogos de fabri
cante de tubos de leo, a cin, magenta y amarillo.
Lo importante es no confundir los colores luz (mezcla aditiva) con los colores
pigmento (mezcla sustractiva).

..1

47

Tr.CNOLOG1,\ t\C fU:\1 !JI TllE\ ISlN

El crculo ecuatorial posee los colores en tintes puros (saturados), variando del
rojo al naranja, al amarillo, al verde, al cin, etc., de manera que viajando a lo largo
del ccuador iramos "ariando el matiz. Los dos polos estn conectados por meri
dianos, que cruzan el ecuador y los paralelos.
Puesto que se trata de un objeto slido, podemos definir tres ejes, los cuales se
relacionarn con Jos tres aspectos psicofsicos del color: el eje que conecta los dos
polos es el eje del brillo (o luminancia), de mancra que los colores se van hacien
do ms oscuros a medida que nos movemos hacia el polo sur.
La saturacin vara desde el centro de la csfera hacia la periferia, de forma que
en el ncleo encontraramos tonos grises, mientras que los colores saturados puros
habria que buscarlos en la periferia. En realidad, tales colores puros slo estaran
presentes en el circulo ecuatorial, ya que se desaturaran hacia blanco si nos move
mos por la superficie hacia el polo norte y hacia negro si lo hacemos hacia el polo
sur. Las variaciones de matiz las vamos a encontrar movindonos radial mente a lo
largo de un mismo paralelo.
Las figuras 2.4 (a) y 2.4 (b) representan dos vistas de la esfera de Runge; una
pone al descubierto el polo norte y la otra el polo sur. La figura 2.4 (c) es un corte
de la esfera a lo largo de un meridiano, de manera que vemos aumentar el brillo
del sur al norte. La figura 2.4 (d) 'epresenta un corte a lo largo del ecuador, mos
trando que, para una altitud determinada, deberamos encontrar niveles de gris
unifonne
La ventaja del modelo de Runge est en su atractivo visual y en su simplicidad.
Sin embargo, adolece de varios defectos:
1. Si se observan todos los eampos de color se ver que en algunas regiones los
matices cambian muy rpidamente, mientras que en otras parece haber
zonas demasiado grandes de color constante.
2. Aunque en este sistema el brillo crece de sur a norte, si nos movemos por
un paralelo determinado no encontramos los mismos niveles ele gris, ya que
en los matices amarillos, por ejemplo, el brillo es muy superior al corres
pondiente a los azulcs.
3. Situados en el ecuador y a una cierta distancia del centro de la esfera debe
ramos encontrar los mismos grados de sensacin de pureza o saturacin. Sin
embargo, el rojo aparece como ms saturado y puro <ue su complementario
el cin.

1.6. Escalas normalizadas


Se utilizan para garantizar que las pruebas de percepcin del color se realizan
en condiciones objetivas. Un factor muy importante es la iluminacin, ya que los
resultados son distintos segn sea el tipo de aqulla (natmal, artificial, incandes
cente, etc.).
Dos muestras de color que aparecen igualadas con una iluminacin A pueden
parecer distintas con la iluminacin B. Para evitar cualquier duda en la iluminacin
de las muestras se utilizan fuentes de luz normalizadas. Aunque en tales condicio
nes tampoco se asegura que todos los observadores apreciarn el mismo efecto,
sacando el promedio estadstico de las apreciaciones de muchos individuos se
obtiene el observador normalizado, quien ver siempre las cosas del mismo modo.
Los primeros intentos serios de sistematizacin del color aparecen en el siglo
XVI!, con el desarrollo de las ciencias exactas. Sin embargo, habr que esperar
hasta finales del siglo XVIII para encontrar un moelelo que siga unas pautas cient
ficas. El primer modelo lgico, que proporciona una imagen clara de lo que podr
amos llamar el "espacio de los colores", se debe a Philipp atto Runge, pintor de la
escuela romntica alemana.

1.6.1. El sistema Runge


El modelo de Runge tiene la forma de una esfera, tal como si se tratara del
globo terrqueo. En este modelo, al polo norte le corresponde el color blanco,
mientras que el polo sm representa el negro (vase figura 2.4).
ClAN (TURQUESA)

NARANJA

V!."RDE
ROJO

AMARilLO

MAGENTA

(b)

1.6.2. El sistema Munsell


EJE: OEL GRIS

Fue ideado por Albert H. Munsell, pintor y profesor de arte, y consiste en una
serie de muestras de color dispuestas ordenadamente. Parti del sistema de Runge,
como idea general, pero no se bas en la forma de la esfera. El modelo de Munsell
se parece ms a un rbol y de hecho as lo denomin el propio autor.
, Munsell utiliza tres caractersticas del color: matiz, croma o intensiclad y valor.
Estos son aproximadamente equivalentes a los aspectos psicofsicos estudiados
(matiz, saturacin y brillo). Los matices se disponen en orden espectral alrededor
de un crculo, cuyo eje es una escala de diez valores de brillo, desde el O para el

VERDE

(e)
MAGENTA

Figura 2.4.
Representacion de los colores en
el espacio de atto Runge.

49

TECNOLOGIA ACTUAL DE T[\.[VISIN

,t

VALOR O
BRILLO

\~
,~~ ~-"

SATURACION

TONO

"~

COLOR CLARO

I,
,f

UNA PGINA DEL


CATLOGO DE MUNSELL

oc~9D
O

sDD

~ 7DUD

ii

6 bhll:iEl~[ill
5

al3
// //

"

/~' COLOR OSCURO

-~SATURACIN

/>'
\ / / '

'''-~----

Figura 2.5.

El rbol de Munsell.

El color

es posible pasar de uno a otro. Mediante e! sistema CIE es posible describir un


color en trminos matemticos)' representar la longitud de onda dominante (rela
cionada con e! matiz) y la pureza o saturacin de una muestra. La nica variante de
la que no informa e! sistema CIE es e! brillo o luminosidad de los colores. A la suma
de las informaciones de matiz y saturacin se denomina cromaticidad, que pasa a
llamarse crominancia en televisin. El hecho de que el sistema CIE no informe del
brillo no es muy importante en televisin, ya que este parmetro suele tratarse por
separado de la crominancia. Hay que recordar que la televisin naci en blanco )'
negro, lo que significa que la seal de vdeo slo contena informacin de brillo. A
esta informacin de brillo se le aadi despus una nueva: la crominancia.
Como hemos visto, tanto e! sistema Runge como e! MunselJ o el de Ostwall
representan e! color en funcin de tres variables, lo que genera necesariamente un
espacio tridimensional slido.
Igualmente podramos imaginar un sistema de representacin basado en tres
variables, pero en este caso no seran las de matiz, saturacin y brillo, sino las can
tidades de rojo, verde y azul (figura 2.6).

negro en la base hasta 9 para e! blanco en la parte superior. As pues, e! rbol de


Munsell aumenta de brillo a medida que crece. La saturacin vara a lo largo de!
radio, desde mnima en e! eje hasta mxima en e! permetro.
En la prctica, e! sistema Munsell es un atlas de 100 pginas de papel, cada una
de las cuales muestra una serie de colores, dispuestas en forma de rbol alrededor
de un eje vertical. Todas las muestras de una pgina tienen el mismo matiz, pero
varan su saturacin de izquierda a derecha y su brillo de abajo arriba. Las diferen
cias entre fichas contiguas se han elegido de modo que psicolgicamente presen
ten intervalos iguales.
La ventaja del sistema Munsell con respecto al slido de Runge, est en que cada
"rama" o "pgina" de! rbol puede tener una forma distinta e incluir ms o menos
muestras de color.

VERDE

,BLANCO

~
i
t

EJE

MONOCRO

MTICO

NEGRO

ROJO

Figura 2.6.

El cubo de color RGB,

1.6.3. El sistema Ostwald


Utiliza una serie de muestras de color similares a las de! Munsell y, como ste,
adolece de las deficiencias propias de los colores impresos, que no pueden repro
ducir por completo todos los posibles colores.
Este sistema utiliza las variantes fsicas de! color: longitud de onda, pureza y
luminosidad, en lugar de las psicofsicas de! Munse!l. Este sistema suele ser prefe
rido por los artistas.

1.6.4. El trinBulo internacional de colores


Se le conoce tambin como sistema CIE (Comission lnternationale de l'clai
rage) y aprovecha ciertos detalles de los sistemas Ostwald y Munsell, de modo que

so

AMARILLO ,-", -.'

CIN

MAGENTA
-, AZUL

Obtendramos as un cubo cuyos ocho vrtices representaran los tres colores


primarios: rojo, verde y azul; los tres colores complementarios: cian, magenta y
amarillo; as como el blanco y e! negro.
Sin embargo, resulta mas conveniente, a efectos de su representacin sobre el
papel o sobre un instrumento de medida, disponer de un sistema de representa
cin plano, basado en dos coordenadas. Si prescindimos de la luminancia, tal siste
ma podra consistir en e! hexagono que se forma al mirar e! cubo de la figura 2.6,
haciendo coincidir el punto del blanco y el de! negro. Los seis vrtices de este
hexagono corresponderan a los tres colores primarios y a los tres colores com
plementarios, mientras que su centro geomtrico representara el blanco (figura
2.7). Este tipo de representacin, que suele verse en algunos tratados sobre el
color, presenta una desventaja, ya que las coordenadas "x" e "y" de! plano no corres
ponden a ninguno de los colores primarios.
SI

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ Ll color

TEq''OLOGA .., el UAl DE -r [UVJ~r~

1.7. Crominancia de un color


Se define como la diferencia entre los valores triestmulo de un color dado
(representados por las cantidades de rojo Er, verde Eg y azul Eb) Ylos valores tries
tmulo de un blanco de referencia de la misma luminancia (para el cual
Er
Eb = Ey), es decir, de un gris, cuyo nivel de brillo iguale al de! color
Eg
m~edido. Los valores de crominancia de una seal sedn, por tanto:
Er-Ey ; Eg-Ey j Eb-Ey
Para poder especificar un color con independencia de su luminancia se definen
unas coordenadas de cromaticidad ur", ug " y "b", donde:

= =

FUENTE.

~_
. __

BLANCO

c::=(]) =t ~
DE.. LUZ

\.(

"'\

.--.

-- -

r~

Figura 2.7.

Proyeccin del cubo de color RGB.

Un sistema similar al anterior, pero ms sencillo y adecuado, podra basarse en


una representacion triangular, como se muestra en la figura 2.8. AqU e! eje "x"
corresponde al eje del rojo y el eje "y" al del verde, mientras que el azul se encuen
tra en el origen.
Ntese que este sistema representa slo los parmetros de matiz y saturacion, pero
no informa sobre el brillo de los colores. En efecto, si nos movemos alrededor de! trin
gulo y por su periferia, estaremos variando e! matiz, mientras que si nos movemos de la
periferia hacia el centro, o al revs, iremos variando la saturacion.
Si quisiramos ver cmo vara la luminancia, tendramos que imaginar este
tringulo como un solido, de manera que debajo de l habra otro igual, pero un
poco ms oscuro y ms abajo otro ms oscuro, etc.

R+G+B

g=

R+G+B

B
b=----

(1)

R+G+B

Notese que si la luminancia de un color cambia en un factor "a" (por ejemplo,


se reduce a la mitad), entonces, por la ley de Grassman, R, G Y B deben cambiar
en el mismo factor y, por tanto, r, g y b permanecen inalteradas, ya que el nume
rador y el denominador cambiaran en la misma magnitud (en este caso se reduci
ran a la mitad).
Tambin de la ecuacion (1) se deduce (por ejemplo, sumando las ecuaciones)
que r + g + b = 1, de forma que si se conocen dos de las tres coordenadas de cro
maticidad se puede deducir la tercera. Si conocemos, por ejemplo, los valores de
"r" y "g", podemos obtener el valor de ub" restndole a la unidad los valores de ur"
y "g" sumados. Esto nos permite representar la cromaticidad en un diagrama bidi
mensional (figura 2.9).
El sistema de la figura 2.9 nos permite representar la crominancia de cualquier
color mediante tres parmetros (U r", ug" y "b") Y ello a pesar de ser un sistema de
representacion plano. Por ejemplo, e! blanco est formado por 0,33 de "r", 0,33 de
"g" (ambos medidos en el tringulo) y 0,33 de ub" (deducido).

EJE

.EJE "y"

I .~--VERDE

0,7-

f.MARILLO

ClAN

,.,//

0,6

/
/

05-1 ..
0,4

.".
BLANCO

0,3

RruO

I
~

AZUL

52

\
MAGENTA

J.

~ET

0,2-

Figura 2.8.
Sistema de representacin basado en
coordenadas x" u y".
U

0.1jJ~UL

ROJO

.. B

0-

O 0,1 0,2 0,3 0,4 0,5 0.6 0,7 0.8 0,9

'EJE'"

r'

Figura 2.9.
Representacin basada en coordenadas
r"~ u g", "bU.
53

TECNOLOGA ACTUAL DE TELEVISlc)N

Un problema que presenta el sistema de la figura 2.9 es que hay ciertos colores
que no pueden ser igualados con los tres primarios de referencia ur", ug" y ub". Por
ejemplo, supongamos que deseamos obtener un cierto color cin sumando luces
verde (g) y azul (b) Yque no encontramos ninguna combinacin de cantielades ele
verde y azul que lo logren. Entonces deberiamos escribir:

e = g + b - kr

Siendo uc" el color que se quiere igualar. Ahora bien, resulta que si, por ejemplo,
le sumamos una cierta cantidael de rojo al color que queremos igualar, tal iguala
cin s es posible, ele elonde:
c .. g+b
Siendo "la" una cierta cantidad de rojo.
Igualmente poelemos escribir:

1,0

..-J

VERDE

ROJO

06
'

I \---+-t-

I \

o:: 0,4

=t

~ 0,2
=>
a..
(j)

La ecuacin anterior significa que para poder igualar cualquier color puede
ser necesario sumar cantidades positivas y negativas ele los primarios "1''', "g" y
"b". Hay que notar que se trata de un truco matemtico, ya que desde el punto
de vista f1sico no tiene sentido sumar luces negativas. Sin embargo, en matem
ticas no presenta ningn problema trabajar con cantidades negativas y, en reali
dad, el sistema de representacin basado en coorelenadas cartesianas lo permite
perfectamente.
Volviendo al experimento de igualacin de colores (figura 2.10), el obsetvador mira
un pequeo campo circular de luz. El campo est dividido en dos mitaeles, de manera
que el color que se desea igualar (e) ocupa una ele ellas, mientras que una mezcla regu
lable de primarios ur", "g" y "b" ocupa la otra mitad. Estos primarios pueden ser cualquier
conjunto, siempre que ninguno ele ellos pueela obtenerse por suma ele los otros elos. El
experimentaelor ajusta las cantielaeles de los tres primarios hasta que logra igualar (a jui
cio del observador) e! color ele prueba (c).
Para ciertos colores de prueba resulta imposible lograr la igualacin' con cantida
des positivas ele primarios, as que se ha ele redisear el experimento de forma que
uno o ms ele los primarios puedan ser sumados al color de prueba. En este caso la
cantidad de! primario sumado al color en prueba se entiende como una cantidad nega
tiva de tal primario necesaria pa'a igualar el color de prueba.

(j)

o:: -0,2

-0,4
380

420

460

500

540

580

620

660

700

LONGITUD DE ONDA EN NANMETROS

Figura 2. I 1.
Cantidades relativas de primarios necesarios para generar todos los colores del espectro.
Las funciones ele igualacin de la figura anterior muestran cantidades negativas
para los tres primarios, indicando que muchos colores espectrales caen fuera de!
rango de colores obtenido mediante mezcla positiva de los tres primarios. Si qui
siramos dibujar un tringulo como e! de la figura 2.9, pero teniendo en cuenta
estas cantidades negativas, obtendramos la representacin de la figura 2.12.
Colocando en este grfico todos los colores espectrales se nos formara un espacio
en forma de herradura.
Otra caracterstica interesante de las leyes de Grassman es el concepto de que
cualqUier conjunto de primarios puede ser igualado mediante otro conjunto dife
rente, esto es, que cualquier conjunto de primarios es una transformacin lineal de
cualquier otro. Supongamos que definimos un nuevo conjunto de primarios que
denominamos XYZ. Ahora podemos escribir una ecuacin matricial que relacione
este nuevo conjunto con el conjunto original RGB.

COLOR DE

PRUEBA

54

AZUL

:; 0,8

e + kr = g + b

Figura 2. IO.
Igualacin de colores.

Si se realiza este experimento utilizanelo como colores de prueba Jos colores


espectrales totalmente saturados (colores monocromticos puros), se obtiene un
conjunto de funciones o valores ele igualacin del color, es decir, las cantielades de
primarios necesarias para igualar los colores espectrales. La figura 2.11 muestTa un
conjunto ele funciones de igualacin RGB.

Xr

Xg

Yr

Yg

Zr

Zg

:H~]

donde

x = XrR + XgG + XbB ... , etc.


55

El color

T[CNOLOG:\ AC-rU,'\L Dl fELEYISll)7'l

+g
... 2.0
- 1.8

520

510

r--.:. "----.

1.6

"----.530

1.4
1,2

540~1

500 \

I 0.8~560
: "'" 550

490

'~
480"

-r... -'

-1.2

-,1__
-1,0

06

i'

~570

'" 580

, 0.4
0,2

"'- 600
, _ _
"'" 700

47L~I--~
0.8 1,0

-'~~-,
~L 8 ~-0.6
,----,-0.4
-0,2
t
,
02
_g

-.

0.4

--~

+r

representacin grfica normalizada de los datos. Las cantidades de primarios elE


necesarias para una igualacin se del)ominan "valores triestmulo" )' se denotan
mediante los smbolos XYZ.
En 1931, el CIE normaliz una representacin grfica, denominada "diagrama
de eromaticidad", que es una proyeccin bidimensional del espacio de color XYZ.
Esta rep-esentacin utiliza las coordenadas "x" e "y". La coordenada "z" queda
sobreentendida, ya que en todo momento x + y + z = 1.
El diagrama de cromaticidad desarrollado por la CIE sirve para representar
cualquier color, mediante dos coordenadas (x e y), del diagrama, ms una cifra que
determina el brillo.
La figura 2.14 muestra el diagrama de color normalizado. Algunas de las carac
tersticas ms relevantes son: todos los colores del espectro, tal como pueden verse
en el arco iris, estn representados, con sus correspondientes longitudes de onda a

0,6

Figura 2,12.
Localizacin del espectro (espectrus Jocus) basaelo en coordenadas rgb posi

O, 8

y..

P""535

520

V
-, --,--r,",---''"

l'

31 '
,

r \

':
,

, I:

'

Fuen'. o (6500 K)

'=3127

57~

~' 680

20000 K '/

'f~4

70

1"

I \450,

~"

400

Fuente E
,eO.3333
yo 0.3333

'-'-~""590-hOO

2.000 K

5,600 K

I "~i)

1000 K' lo" 630


Re"'"

,700

./"'C R~

l.,

._i. 0,4:I

0, ]'0.2 0,3

yo 329\

-l e ,-,,

10 000 K'

'9~

1180

'~a'-'
i '.
i

['

i 485\1 Be~
0,11
,\
!

'1=0.3163

"30ooK

0,21 \ I rf>{

Figura 2.14.
Diagrama de cromaticidad CIE- J 931.

\_:.

495

Fue"te
e
JI; " 0.3101

550

l' "~60

0'_

041

' ' ' ' '

\1.
1',' I

/-

1,

1
6505
~

o,51 \500

Gc - \ I

510

" "0,4476
y OA074
FU9nte B
l(" 0,3485
y=0.J517

I "", 530
0.7 (, - 1--- \~~.O

tivas y negativas.

En 1930, cuando se estableci el sistema CIE, se opt por un nuevo conjunto de


primarios denominados XYZ, que son transformaciones lineales de RGB, pero que
tienen la ventaja de no presentar valores negativos, lo que simplifica los clculos. Esta
tTansformacin supone que los nuevos primarios CIE son "primarios no reales", es
decir, primarios que caen fuera del espectrus locus.Tambin se suele decir que son pri
marios ficticios o supersaturados. El primario X (rojo) tiene valores de x = 1, Y = O.
El primario Y (verde) tiene valores de x = O, Y= 1, mientras que el primario Z (azul)
tiene valores de x 0, y o. La figura 2.13 muestra las funciones de igualacin de
color del observador normalizado CIE.

El sistema CIE de igualacin de colores incluye procedimientos de clculo y

FUlll1te A

"

0,5

0,6 0.7

0,8

x
lo largo de la curva exterior. Las coordenadas "x" e "y" son magnitudes dimensio
nales, a partir de las cuales puede determinarse tanto el tono o matiz como la satu
racin de cualquier color. En la recta que sirve de base al tringulo se representan
los colores no espectrales (los prpuras). El brillo o luminancia (suele represen
tarse por la letra "Y") no est representado en el tringulo. Los puntos situados
sobre la curva exterior corresponden a colores saturados, mientras los puntos inte
riores representan colores no saturados (contaminados de blanco). El punto "E" es
el centro del tringulo de color (x == 0,33; Y 0,33) Yrepresenta un blanco ideal,
es decir, un blanco para el que todos los colores del espectro aportan igual canti
dad de energa (blanco equienergtico).
Si nos fijamos (figura 2.14) en la lnea PE, P (x
0,195; Y 0,78) representa
un color verde totalmente saturado (longitud de onda = 535 nm). El punto Gc

Figura 2, 13,

Funciones ele igualacin del color normalizadas CIE.

56

57

TECNOLOGIA ACTUAL DE TELEVISiN

representa e! mismo color, pero menos saturado. La saturacin en este caso queda
definida por:
E
Gc
X 100%
85%

=-PE

:f
1

Siendo E e! punto que representa el blanco.


La curva Rc - A - Z representa los colores emitidos por e! cuerpo negro ideal
cuando es calentado. Las diferentes temperaturas de color estn representadas en
esta curva en grados Kelvin. Una lampara incandescente que tenga una tempera
tura de color de 2.800 K emitira una luz igual a la sealada en e! punto A. El punto
B representa la luz solar al medioda; el O, el promedio de luz diurna, etc.
Los colores utilizados en televisin como basicos (rojo, verde y azul), que sue
len representarse por sus iniciales en ingles R, G Y B, pueden encontrarse en e!
trangulo de color con las indicaciones Rc, Gc y Bc. La situacin de estos puntos
demuestra que slo Rc es un color totalmente saturado.
Las figuras 2.15, 2.16 Y 2.17 muestran algunas de las utilidades de "triangulo
internacional de colores". En la figura 2 .15 puede verse que cualquier color situa
do en la recta O-E puede obtenerse mezclando cantidades proporcionales de los
colores definidos por O y E. Tambin es posible determinar e! grado de saturacin
o pureza de cualquier color contenido dentro de! triangulo. Por ejemplo, para
saber cual es e! grado de saturacin de! color "G" basta con dividir la distancia de
este color al punto blanco por la distancia al color de! mismo matiz situado en la
periferia.

CUALQUIER
MEZCLA ENTRE
D Y E SE SITA
ENDE

Figura 2.17.
Primarios empleados en TY.

y
LA LONGITUD DE ONDA
DOMINANTE DE "L" ES "N"
PUREZA DEL _ LD
COLOR "L" - DJ
"O" Y "P" SON COMPLE
MENTARIOS. PUESTO
QUE O+P = BlANCO

...........
---

---.---------., X

En la figura 2.16 se muestran resaltados los colores no espectrales, es decir,


aquellos que no pueden obtenerse por suma de una sola luz monocromatica y blan
co. Estos colores se inscriben en el pequeo tringulo formado por E-D-K. Puesto
que no son colores espectrales, no se les puede, en principio, identificar por su lon
gitud de onda dominante. Lo que se hace es dar la longitud de onda del color com
plementario, pero negada (poniendo una rayita encima de la cifra). Por ejemplo,
la longitud de onda de! color "J" es de 540 nm. Para calcular la pureza de los colo
res no espectrales se procede como en el caso de los colores espectrales, es decir,
expresando la distancia relativa al punto blanco. Tambin puede verse en esta figu
ra que la mezcla de dos colores complementarios en las proporciones adecuadas
proporciona el blanco.
La figura 2.17 muestra los colores utilizados como primarios en televisin: Rc
para el rojo, Gc para el verde y Bc para el azul. Tan slo el rojo es un color real
mente saturado. En principio los colores reproducibles en un sistema de televisin
quedan limitados al tringulo definido por los primarios utilizados, de manera que
la televisin (igual que otros medios graficos) es incapaz de reproducir todos los
colores.

2" Las componentes de color

............-:

Figura 2.15.

Mezcla de colores en el "triangulo inter

nacional".

~K

!
t

COLORES NO ESPECTRALES
(PRPURAS O MAGENTAS)

------~ X
Figura 2.16.
Colores no espectrales.

Se sabe que, en teora, cualquier color puede ser obtenido mediante la mezcla
aditiva de tres colores primarios en las proporciones adecuadas. Como colores pri
marios han sido elegidos el rojo, el verde y el azul (normalmente nos referiremos
a ellos mediante sus iniciales en ingls R, G, B), debido a varias consideraciones.
Una de ellas es que los colores no deben estar situados en el espectro uno cerca de
otro, ya que en este caso sera necesario sumar cantidades negativas de algunos de
los primarios para obtener ciertos colores, y otra razn es que los primarios ele
gidos debern corresponder, preferiblemente, a los fsforos disponibles en los

1
58

59

[J loL~r

TECNOLOGA ACTUAL DE TELEVISiN

tubos del televisor. Adems los conos de la retina humana, que son responsables de
la visin en color, estn divididos en tres grupos, cada uno de los cuales presenta
su mxima sensibilidad en el rojo, el verde y el azul, respectivamente.
En una cmara de televisin en color la imagen es dividida, mediante el prisma
o espejo dicroico, segn el caso, en estos tres colores primarios y enviada a tres
sensores CCO de la cmara (uno para cada color). Estos tres sensores determinan
la intensidad de cada color y suministran las seales R, G Y B.
A comienzo de los aos 50 el Comit Federal de Comunicaciones de los Estados
Unidos de Norteamrica encarg a un grupo de expertos la creacin de un siste
ma de televisin en color. El Comit Federal impuso al grupo de expertos dos pre
misas:
1. Compatibilidad directa e inversa. La seal de color debera poder ser vista
en los receptores de blanco y negro, aunque, por supuesto, en blanco y
negro. Adems las emisiones que se siguieran haciendo en blanco y negro
deberan poder ser mostradas por el televisor de color, aunque, como es
lgico, en blanco y negro.
2. El sistema de televisin en color nuevo no debera ocupar ms ancho de
banda que el viejo sistema de blanco y negro. Esto significa que para la tele
visin en color se seguiran utilizando los mismos canales de radiodifusin
que haban sido otorgados a la televisin en blanco y negro.
De las premisas anteriores se deduce que la nueva seal de color debera ser una
"seudoseal de blanco y negro", en el sentido de que al televisor de blanco y negro
le siguiera pareciendo una seal de blanco y negro y que las nuevas informaciones
le pasaran inadvertidas. El televisor de color, por su parte, sera capaz de separar la
informacin de blanco y negro de la informacin nueva y, procesndolas, obtener
los valores de R, G YB. En cierto sentido se puede decir que en los sistemas actua
les de televisin la informacin de color est "escondida" o "disfrazada" en la infor
macin de blanco y negro.
Como sabemos, la luz blanca (por ejemplo, la que nos llega del Sol) no es otra
cosa que la suma de luces de muchos colores. Es posible comprobar esto ltimo
descomponiendo la luz blanca mediante un prisma u observando el arco iris.
Parecera lgico que si queremos obtener luz blanca a partir de tres primarios R,
G YB, deberamos mezclar estos a partes iguales, es decir, 33% R + 33% G + 33%
B. Sin embargo, si nos fijamos en la distribucin espectral de la luz blanca veremos
que est formada por mucha ms radiacin verde que roja y por muy poca radia
cin azul.
Si queremos obtener una seal de blanco y negro (y la necesitamos para cum
plir con la compatibilidad) a partir de las seales R, G Y B proporcionadas por la
cmara de color, deberemos sumar stas en las proporciones: 30% R + 59% G +
11 % B (vase experimento del la figura 2.2). La seal as obtenida (prcticamente
idntica a la que proporcionara una cmara de blanco y negro) se denomina "Iumi
nancia" y se abrevia como "Y" (figura 2. 18). Por tanto:

Y = 0,3 R

+ 0,59 G + 0,11 B

(2)

La seal de luminancia "Y" sera suficiente para el televisor de blanco y negro,


60

pero el televisor de color necesita saber cunto rojo, cunto verde y cunto azul
contiene cada punto de la escena. A la seal de luminancia hay que aadir, por
tanto, una informacin adicional que permita al televisor de color conocer los
valores de R, G Y B. Esta seal adicional se llama "crominancia".
Puesto que la seal "Y" se obtiene sumando, aunque de forma ponderada, las sea
les R, G YB Ypuesto que tenemos que enviar forzosamente la seal "Y" para cumplir
con la compatibilidad, ser suficiente enviar, adems, dos de los tres sumandos. El ter
cero podr ser deducido en el televisor restando de "Y" la suma de los otros dos.
SEPARADOR

CROMATICO

.,---SENSOR CCD

ff

--- "-,-

~O
~

ROJO
30%

O~

VERDE
LUMINANCIA

O~I~

"Y"

59%

'"

Figura 2.18.
Obtencin de la seal de luminancia a partir de los primarios RGB.
La seal G es la que ms contribuye al valor de Y (59%). Por tanto, podramos
enviar como informacin adicional R y B. Sin embargo, resulta ms apropiado
enviar "R - Y" Y"B - Y", es decir, e! valor de! "rojo-menos-luminancia" y el valor
de! azul-menos-Iuminancia. En e! televisor ser suficiente volver a sumar "Y" para
obtener "R" y "B". Por otro lado, restando "R" + "B" de "Y" (respetando las ponde
raciones) obtendramos e! valor de "G". En e! fondo, Y, R - Y Y B - Y no son ms
que otra forma de expresar R, G Y B. Matemticamente:

=0,3 R + 0,59 G + 0,11 B; R -Y =0,70 R R - 0,59 G

0,59 G - 0,11 B; B - Y

+ 0,89 B

=-0,3

Igualmente:
R Y + (R - y); G Y-O, 509 (R - Y) - 0, 194 (B - y); B = Y -- (B -Y)
Lo anterior puede representarse tambin mediante las siguientes matrices (aqu
los coeficientes se han expresado con precisin de tres decimales):

[ ~ =[MJIX[R~Y =[:
B

B-Y

- 0,509
O

o~ 941]X[R ~ y]
1

B-Y

61

TECNOLDCIA ACTUAl DE TI:I.[VISI()N

La eleccin de R -y YB - Y como seales de crominancia se basa en los siguien


tes postulados:
1. Cualquier seal monocroma (en blanco y negro) dar valores nulos tanto
para R - Y como para B - Y, es decir, valdrn O.
2. Los valores modulares de R - Y YB - Y, es decir, el valor absoluto sin tener
en cuenta el signo, resultarn proporcionales a la saturacin o pureza de los
colores.
En efecto, cualquier seal monocromtica proporcionar a la salida de los CCO
iguales valores de R, G Y B. La luminancia, en este caso, valdr lo mismo que R,
que G o que B. Por tanto, R -y
y B - Y O. Por ejemplo, un gris medio dar:
R = G = B = 0,5; su luminancia ser: 0,30 x 0,5 + 0,59 x 0,5 + 0,11 x 0,5 =
0,5; R -y = 0,5 - 0,5 =0; B -y = 0,5 - 0,5 = O.
El sistema es coherente; puesto que R - Y Y B - Y, que representan la cromi
nancia, es lgico que valgan cero cuando se trata de seales en blanco y negro (que
por definicin no tienen crominancia). Igualmente es lgico que los valores de la
crominancia sean proporcionales a la cromaticidad o pureza del color que repre
sentan.
Tanto R - Y como B - Y pueden presentar valores positivos y negativos. Por
ejemplo, supongamos que mostramos a la cmara una cartulina de un color ama
rillo saturado al 100%. Tanto el tubo rojo como el tubo verde darn el mximo
(que normalizamos, por simplificacin, a 1). El tubo azul dar O, puesto que el
amarillo no contiene azul. La luminancia valdr 0,3 (de! rojo) + 0,59 (del verde)
= 0,89. Puesto que R = 1, R - Y = 1 - 0,89 = 0,11. Ahora, puesto que B = 0, B
-y = 0- 0,89 = -0,89.
Al conjunto "Y", "R - Y" Y"8 - Y" se le conoce como: componentes de vdeo y son
las seales con las que trabajan los magnetoscopios denominados "Por componen
tes", como el Betacam y el MIl, si nos referimos a los analgicos, o el 01 Y05, si
nos referimos a los digitales. Adems todos los formatos modernos que utilizan
compresin se basan tambin en el uso de las componentes de color.
Las seales R - Y Y B - Y presentan valores extremos, que resultan, en general,
muy grandes. En la mayora de las aplicaciones estos valores son atenuados, multi
plicndolos por algun coeficiente menor que la unidad.
As pues, las componentes de vdeo constan de tres seales simultneas: la lumi
nancia (Y) y dos seales diferencia de color (R - Y Y B - Y).

2. 1. La correccin de gamma
Uno de los primeros pasos que sufre la seal de vdeo, ya sea en blanco y,negro
o en color, es una "predistorsin" conocida como "correccin de gamma". Esta es
consecuencia de las caractersticas de transferencia electro-ptica del TRC (tubo
de rayos catdicos) del televisor; el brillo proporcionado por la pantalla no es line
almente proporcional a la tensin suministrada al tubo (la seal de vdeo). Para
conseguir una transferencia global lineal, es decir, para que los incrementos de bri
llo de la escena se traduzcan en incrementos iguales en la pantalla del televisor es
necesario introducir en el sistema una compensacin no lineal.
62

El color

I
1

Aunque la falta de linealidad se produce en e! televisor, histricamente la com


pensacin de gamma se ha realizado en la cmara y as est definido en los sistemas
de televisin. As pues, las seales R, G Y 8 son predistorsionadas en la cmara para
compensar la falta de linealidad del TRC. Hay dos razones para realizar la correc
cin de gamma en la cmara, en lugar de hacerlo en e! televisor. Por un lado, resul
ta ms econmico realizar la correccin de gamma una sola vez en la cmara que
hacerlo millones de veces en cada uno de los televisores. Por otro lado, esta pre
distorsin de la seal ayuda a disimular el ruido que se aade a la seal durante la
transmisin.
Para que los resultados finales sean correctos es necesario definir unas caracte
rsticas electro-pticas normalizadas para el TRC y sus mtodos de compensacin.
Aunque la corriente del haz de electrones deITRC (y, por tanto, el brillo de la pan
talla) es proporcional a, aproximadamente, el cubo de la tensin aplicada a la reja
de control (la seal de vdeo), en televisin se trabaja como si dicha relacin fuera
y = Xl." siendo "y" el brillo o luminosidad del TRC y "x" el voltaje que controla
dicho TRC. Este "trucaje" de la gamma del sistema se hizo para compensar la rela
tivamente baja relacin de contraste que poda afrontarse en las imgenes de tele
visin y, aunque este aspecto ha mejorado notablemente, el "valor de gamma del
TRC = 2,2" se mantiene (otra herencia de los inicios de la televisin.
Si se asume una gamma del TRC de 2,2, ser necesario, para compensarla, pre
distorsionar la seal de vdeo en la cmara, aplicando una gamma de
1/2,2 = 0,45. La figura 2.19 muestra que el efecto sumado de la precorreccin de
gamma de la cmara y la distorsin introducida por el TRC logran una gamma o
respuesta final lineal. Las seales que han sido corregidas en gamma se denotan
mediante una comilla del tipo R' , G' , B' , o Y' , que se lee "R-prima, G-prima, etc.
As la frmula (2) debera escribirse como:

Y' = 0,30 R'

+ 0,59 G' + 0,11 B'

Puesto que se trata de tensiones elctricas, es frecuente encontrar la frmula


anterior como:
E'Y = 0,30 E'R + 0,59 E'G + 0,11 E'B

Y
11

-l-----l
I

~ o,a/ ~g~~~~~~~_I

y=xo,..

LL.

~ 0,6

a::

0,4'

UJ

0,2,

...J

v......-----==

0,2
0,4
0,6
0,8
TEN810N DE CONTROL DEL TRC
(SEAL DE ViDEO)

X.

Figura 2.19.
Las curvas de gamma de cmara y del
TRC se compensan mutuamente. La
correccin de gamma en la cmara
equivale a "estirar los negros" y
"comprimir los blancos", En el
receptor de televisin se produce el
efecto complementario.
63

TlC~OLCJG'\ :\ClLJAI rH: TE1JV1SIN

E'

----[RETA3OOJ -.-_l'.J

2.2. Multiplexado de las componentes


En todos los sistemas convencionales de televisin las seales primarias RGB
suministradas por la cmara son procesadas para producir una seal de video ana
lgica compuesta, ya sea NTSC, SECA M o PAL. Los principales componentes de
estos sistemas son: una seal de banda ancha (Y) y dos seales diferencia de color
de banda estrecha (R - Y YB - Y). Cada una de estas dos seales de banda estrecha
modlllan una portadora de alta frecuencia. La forma en que las seales de cromi
nancia modulan a la portadora de alta frecuencia varia de un sistema a otro. La fre
cuencia de la portadora se hace lo ms alta posible, porque de esta forma se redu
ce su visibilidad en la pantalla, y es de 3,58 MHz en el sistema americano NTSC y
de 4,43 MHz en el europeo PAL. En SECAM las dos seales diferencia de color
modulan en frecuencia sendas portadoras situadas en 4,25 y 4,406 MHz.

E'y

E'

E'

~
E'

RETARDO

SALIDA

ViDEO

COMPUESTO

-1 SUMADOR

MATRIZ

E'R_Y

LPF

LPF = FILTRO PASO-BAJO

.1

GENERADOR DE
SUBPORTADORA

Figura 2.20.

Diagrama de bloques simplificado del codificador de la seal de color compuesta.

Las seales de luminancia y crominancia son multiplexadas por "divisin en fre


cuencia", para obtener una seal de vdeo nica (que puede encaminarse por un solo
cable), adecuada al canal de transmisin de que se trate. La figura 2.20 muestra el dia
grama de bloques de un codificador genriCO. La matriz sirve para obtener la seal de
luminancia y las seales diferencia de color a partir de los primarios RGB.
Internamente esta matriz est formada por swnadores, restadores y amplificadores
lineales. La linea de retardo introducida en el camino de la luminancia sirve para com
pensar el mayor retardo de las seales diferencia de color al pasar por los filtros paso
bajo. Las seales producidas por los filtros paso-bajo son enviadas a sendos modula
dores. Las dos seales moduladas son sumadas a continuacion a la seal de luminan
cia, para obtener una seal compuesta nica. El diagrama de la figura 2.20 es una ver
sin simplificada, que puede servir para los tres sistemas de televisin en color.
La figura 2.21 muestra el diagrama de bloques simplificado del decodificador
del receptor. Puesto que se trata de volver a obtener los primarios RGB, bsica-

E'

2- ...

DEMODULADOR
VIDEO
COMPUESTO

FILTRO

sy

~
DEMODULADOR
R:::Y

T~~

E'B-Y

E'R_Y~

MATRIZ

lE'~ ..
..

lE'

__B

..

Figura 2.21.
Diagrama de blocues simplificado del decodificador de la seal de color compuesta.

mente se realizan los procesos inversos a los obtenidos en el codificador. En pri


mer lugar, la seal compuesta tiene que ser separada, mediante filtrado, en lumi
nancia y crominancia. La componente de crominancia es posteriormente demodu
lada de una forma especial, que vara segn el sistema de televisin en color, para
obtener las seales diferencia de color R - Y Y B - Y. Por su parte, la seal de lumi
nancia (Y) es retardada, para igualar en el tiempo a las seales diferencia de color.
Estas tres seales (la luminancia y las dos seales diferencia de color) son enviadas
a una matriz activa para proporcionar los primarios RGB.

Resumen
Tres son los atributos psicofisicos del color: matiz, saturacin y brillo. Por
matiz entendemos la sensacin de color por la cual distinguimos las partes del
espectro: rojo, azul verde, amarillo, etc. Saturacin es el grado de pureza de
un color, es decir, la medida en que est contaminado de blanco, gris o negro.
El brillo es la sensacin de luminosidad de un color. Est asociado con la can
tidad de luz y la sensacin visual.
La mezcla aditiva se basa en sumar luces. Cada vez que se aade un nuevo
color el resultado es una mezcla ms luminosa. Los colores primarios en mez
cla aditiva son el rojo, el verde y el azul.
Las leyes de Grasmann rigen los principios bsicos de la mezcla de colores:
dos radiaciones cromticamente equivalentes a una tercera son equivalentes
entre s. Si sobre el ojo actan varias radiaciones simultneamente, es posible
sustituir una o varias de estas radiaciones por radiaciones cromticamente
eqUivalentes. Si dos reas visuales producen la misma sensacin de color, esta
no cambia si en ambas se disminuye la luminosidad o brillo sin cambiar el
matiz ni la saturacin. La luminancia de un color es igual a la suma de las lumi
nancias de sus componentes espectrales.
En mezcla sustractiva se utilizan pigmentos. Los colores primarios en mezcla
sustractiva son: cin, magenta y amarillo.
65

64

TECNOLOGI.I, ACrUAL DE THEVI~16N

Las escalas normalizadas se utilizan para garantizar que las pruebas de per
cepcin de! color se realizan en condiciones objetivas. Un factor muy impor
tante es la iluminacin, ya que los resultados son distintos, segn sea e! tipo
de aqulla (natural, artificial, incandescente, etc.).
o Entre los sistemas histricamente ms importantes de normalizacin de!
color destacan: el sistema Runge, e! Munsell y e! Ostwald. Todos ellos se
basan, con pequeas diferencias, en la ordenacin de los tres parmetros psi
cofsicos de! color (matiz, saturacin y brillo).
o En televisin es de especial importancia e! sistema de! CIE conocido como
"tringulo internacional de colores". Este sistema slo informa de dos de los
tres atributos de! color: matiz y saturacin. El brillo se trata por separado y
esto es perfectamente consistente con la forma en que trabaja la televisin.
o Las componentes de color se basan en la utilizacin de tres seales separadas:
una seal de luminancia "Y" y dos seales diferencia de color "R - Y" Y"B -Y".
Esto tiene sus orgenes en los inicios de la televisin en color, cuando uno de
los requisitos ms importantes era e! de la compatibilidad entre la seal en
blanco y negro y la seal en color.
o La seal de luminancia "Y" se obtiene sumando los primarios rojo, verde y
azul en las siguientes proporciones: Y 0,3 R + 0,59 G + 0,11 B. Puesto que
la seal "Y" se obtiene sumando, aunque de forma ponderada, las seales R,
G Y B Y puesto que tenemos que enviar forzosamente la seal "Y" para cum
plir con la compatibilidad, ser suficiente enviar, adems, dos de los tres
sumandos.
o B - Y representa la cantidad de azul menos su propia luminancia y lo mismo
sucede con R - Y. La eleccin de R - Y Y B - Y como seales de crominancia
se basa en los siguientes postulados: cualquier seal monocroma (en blanco y
negro) dar valores nulos tanto para R -y como para B - Y, es decir, valdrn
O. Los valores modulares de R - Y YB - Y, es decir, el valor absoluto sin tener
en cuenta e! signo, resultarn proporcionales a la saturacin o purez3<de los
colores.
o La correccin de gamma sirve para compensar la falta de linealidad del TRC
y consiste en predistorsionar la seal de vdeo de forma complementaria a
como lo hace el tubo de! televisor. La gamma de! TRC se ha normalizado a
2,2 y, por tanto, la gamma de cmara ser de 0,45.
o En los sistemas de televisin compuestos las componentes de color son mul
tiplexadas en frecuencia (de una forma distinta en cada sistema), para formar
una nica seal de vdeo que se graba o se transmite por un nico canal. En
el mltiplex la seal de luminancia se transmite con todo su ancho de banda,
mientras que las seales diferencia de color se transmiten o se graban con un
ancho de banda reducido.
o

CAPTULO

Los sistemas de televisin


1. Introduccin
Aunque estamos ya de lleno dentro de la era digital, con canales de televisin
que se producen y distribuyen en forma de bits, ya sea por vas terrenas, de cable,
de satlite, y aunque la publicidad nos hable de pantalla ancha, home cinema, alta
definicin, cinematografa electrnica, etc., la realidad es que seguimos recibien
do en nuestras antenas la misma seal (en nuestro caso, PAL) que nos trajo el color
hace casi cuarenta aos. Probablemente dentro de una dcada el sistema PAL (al
igual que e! NTSC y el SECAM) habr desaparecido. De hecho, existe un informe
de la Comisin Nacional de Comunicaciones que propone el "5witch-c:JJ" del PAL
para el 2012, aunque seguramente se demorar algo ms. Incluso as es necesario
conocer la forma en que se estructura la seal PAL, no solamente porque una dca
da es mucho tiempo, sino tambin porque en tecnologa nada muere del todo.
Los sistemas ms avanzados no dejan de ser variaciones ms o menos afortuna
das de ingenios pretritos.
En un mundo ideal debera haber una nica norma de televisin en color. En e!
mundo real hay tres: PAL, SECAM y NTSC, ms algunas variantes menores. Si un
ingls se va de vacaciones a un camping de Francia con su caravana o si alguien se
compra un reproductor de vdeo en EE.UU. y se lo trae a Europa, se dar cuenta
de los problemas que supone la falta de una norma nica.

2. El sistema NTSC
NTSC son las siglas de dos grupos de normalizacin americanos (National
Television Standards Commitee y National Television 5ystem Committee) , e! primero de los
cuales estableci (en 194-0) el sistema de 525 lneas y 60 campos, mientras que el
segundo diseo y normaliz (en 1953) e! sistema de color que lleva su nombre.

66

67

TLCNOIOGI,\ ACTU ..\l !lE

TELE\'J),~I(",\N,-'

El NTSC se emplea como sistema de television en color en los Estados Unidos


de Amrica, en Canada, en Mjico)' en todo Centroamrica (excepto en las peque
as islas francesas de Saint Pierrc y Miquelon). Tambin es el sistema usado en la
mayor parte del Caribe, Sudamrica, Asia y el Pacfico. Barbados fue el nico pas
en el mundo que transmiti color NTSC con un sistema "no-525/60", aunque muy
pronto se paso a las 525 lneas/60 campos (norma "M" del CCIR). Por otro lado,
el nico pas que actualmente emite 525 lneas/60 campos, pero sin codificacin
NTSC del color, es Brasil, que emplea el llamado PAL-M.
Con el NTSC se sentaron las bases de la televisin en color. La mayora de los
procesos y principios que se siguen en la codificacion de! color en otros sistemas
fueron ya definidos en 1953 por el NTSC. Las seales diferencia de color, la modu
lacion en cuadratura, el burst, etc., existen desde la aparicion del NTSC. Es impor
tante conocer como funciona el NTSC, no slo porque lo utiliza una buena parte
de la poblacion mundial, sino tambin porque el sistema PAL, que es e! que utili
zamos en Europa, no es mas que una adaptacin revisada del sistema NTSC. Por
esta razon algunas cuestiones se explicaran de forma simultanea, con datos para
NTSC y para PAL.

2.1. Atenuacin de las componentes


Como vimos en el captulo anterior, el primer paso consiste en lograr una nica
seal de crominancia a partir de R - Y YB - Y, la cual se sumara posteriormente a
la luminancia "Y". Los valores de R -y YB - Y resultan excesivos, ya que la seal de
crominancia obtenida a partir de ellos producira, al sumarse a la luminancia, una
seal compuesta cuya amplitud saturara los equipos de transmision, grabacion,
etc., pensados para seales monocromas y, por tanto, para amplitudes de 1Y p-p.
Cuando se dise e! sistema NTSC en EE. UU., se pens que los equipos po
dran soportar, con ligeras modificaciones, seales que excedieran un 3il% los
valores del pico de blanco y de! nivel de negros de la seal monocromatica.
Basandose en esto, se establecieron unos coeficientes de ponderacin que son:
0,49 para B - Y Y 0,88 para R - Y. Estos coeficientes se utilizan tanto en el sis
tema americano de 525 lneas y 60 campos como en el europeo de 625 lneas y
50 campos.
B -y Y R - Y atenuadas pasan a llamarse "1" y "Q" en el sistema americano NTSC
y "U" Y"Y" en e! sistema europeo PAL.
I Y Q modulan, por separado, dos subportadoras de color. Ambas subportado
ras son idnticas en amplitud y frecuencia (3,58 MHz en el sistema NTSC), pero
difieren en fase: estan desfasadas 90 grados. Las dos subportadoras moduladas por
R - Y YB - Y ponderadas son sumadas a continuacin.

2.2. Modulacin en cuadratura de fases


Gracias a que ambas subportadoras estaban desfasadas 90 grados, se cumple que
si en un instante determinado una de ellas pasaba por un mximo, la otra estaba,
68

Los sistema:-

S-Y
ORIGINAL

SUSPORTADORA

(le- lelcQsin

R-Y
ORIGINAL

MUESTREAR AQU!
PARA S-Y (R-Y = O)

/)/-\\

\\

MUESTREAR AQul
PARA R-Y (S-Y = O)

Figura 3.1.

Gracias a estar desfasadas 90 grados, B - Y vale cero cuando R - Y vale mximo

y viccversa.

en ese mismo instante, en cero (figura 3.1). Esto se conoce como "modulacion en
cuadratura de fases".
Midiendo, o muestreando, la subportadora de color (que es la suma de dos
senoides desfasadas 90 grados) en los momentos adecuados, el receptor puede
recomponer los valores individuales de R -- Y Y B - Y a partir de la seal de cro
minancia. A este proceso se le denomina "demodulacion sincrnica".
Para que el proceso de demodulacion funcione correctamente, el receptor
necesita conocer en que momentos debe muestrear la seal de crominancia. Esta
informacin la proporciona el "bUTst".
El receptor de TY dispone de un oscilador local que trabaja, aproximadamente,
a la misma frecuencia que el oscilador que genera la subportadora de la cmara.
Cada 64 flS en PAL o cada 63,5 flS en NTSC, es decir, una vez por cada lnea de TV,
el bUTst resincroniza en frecuencia y en fase el oscilador local del televisor.

2.3. Formacin de la seal compuesta


El bUTst est formado por nueve ciclos de subportadora sin modular en NTSC y
por diez ciclos en PAL, los cuales van colocados en el portico posterior del borra
do de lnea (figura 3.2).
Para ver cmo se obtiene la seal compuesta podemos utilizar el ejemplo de
las barras de color normalizadas (figura 3.3). Estas barras siguen la secuencia: blan
co, amarillo, cin, verde, magenta, rojo, azul y negro (de izquierda a derec:la). En
la parte superior puede verse la seal de luminancia, es decir, la seal en terminas
de blanco y negro. Se aprecia claramente una escalera de luminancia o brillo decre
69

Los sistemas cle tele\'isin

TH'NOLOGIA ACTUAL DE TELEVISIN

2.4. Descripcin matemtica


NTSC

PAL

BURST
(S ciclos de
subportadora)

,,-

gL ~~
>!
El

>'

E:

81
M'
Y

,
i
~3,3S IJSJ

l2.51 IJS
(S.1/3,58 Mhz)

Veamos cmo se obtiene la seal de erominancia. Bsicamente se trata de sumar


las dos seales diferencia de color. Tomemos como ejemplo el sistema PAL, donde:
U 0,49(B - y); V 0,87(R - Y)
Puesto que la seal B - Y atenuada o "U" ha modulado una senoide, podemos
escribir:
sen 2:rt fe modulado con U = Usen2:rtfc
(U= 0,49 x R - Y)
Y puesto que R - Y atenuada "V" ha modulado la misma senoide, pero desfasada
90 grados:
eos 2:rt fc modulado con V = Veos2:rtfe.
(V 0,87 x R - Y)
"fe" es la subportadora de color (de frecuencia 3,58 MHz en el sistema NTSC y de
4,43 MHz en PAL). U YV representan a B -y YR -y atenuados. Se trata, por tanto,
de dos portadoras desfasadas 90 grados y moduladas, que podemos representar.
mediante un diagrama polar. El eje horizontal representar los valores de U, mien
tras que el eje vertical nos dar los valores de V. La suma vectorial de U y V nos pro
porcionar una representacin grfica de los vectores de crominancia obtenidos.

(10.1/4.43 Mhz)

Figura 3.2,

El bum sirve para resincronizar e! oscilador local de subportadora de color de! televisor. El

bum slo est presente en las seales de vdeo de color. Comprese la figura 3.2 con la 1,8,

ciente. Ciertamente, si a un televisor que est reproduciendo las barras de color le

reducimos e! control de color a mnimo, lo que veremos ser una escala de grises,

desde el blanco, a la izquierda, hasta el negro, a la derecha.

En la parte central izquierda de esta misma figura se ha representado la crominan


cia, la cual se sumar a la luminancia, para formar la seal compuesta. Ntese que el
valor medio de la seal compuesta sigue siendo la seal de luminancia, mientras que las
desviaciones, con respecto a este valor medio, vienen a representar la crominancia.
La separacin de las seales de luminancia y crominancia en e! receptor, es
decir, la separacin entre e! nivel medio y las desviaciones con respecto a este nive!
medio se realizan mediante filtros-pasa-banda.

2.5. El vector de crominancia


La figura 3.4 muestra el diagrama polar en el caso de las barras de color satu
radas al 00%, indicando sus ngulos y longitudes.
Como puede verse, el ngulo de! vector resultante es funcin del matiz, mien
tras que la longitud nos indica su saturacin.

ROJO

+V

(11)
, l

"

SEAL DE
CROMINANGIA

MAGENTA

/)

(61)

'--+
SEAL DE

0,59
10,44
\
,~

-U-----------
~)

i \
0,59

VERDE

Figura 3.3.
Formacin en el codificador y descomposicin en e! receptor de la seal compuesta de vdeo,
70

AZUL
(347)

(241)

,.

-V

Figura 3.4.
Representacin vectorial de las barras de
color normalizadas.
71

TECNOLOGr\ r\CTU:'~L-,[)"L,-,'-,[~LE"-'\,-,'I",S1",,6,,N

___Los ::istcmas dc_t..clC\'lSiQn

Por tanto, cualquier error en la amplitud del vector de crominancia se tradu


cir en un error de saturacin, mientras que los errores de fase del vector supon
drn un giro en el matiz del color. Estos ultimos son muy fciles de detectar por
parte del sistema de percepci6n visual humano. El sistema NTSC es propenso a
presentar errores de matiz, que son consecuencia de errores diferenciales de fase,
entre la subportadora de color y la referencia de croma (el burst), Por esto una
interprC'taci6n jocosa del acr6nimo NTSC, muy difundida en EE. UU. es "Ncl'er
Jvice Sarne Color" (Nunca tienes similar color).
Matemticamente la longitud del vector (K) puede calcularse como:

En el sistema NTSC los anchos de banda utilizados para la transmisi6n de ambas


seales diferencia de color son distintos:

K=.JU~+V~
Igualmente es posible calcular el angulo (eL)
U

a = arctg-

V
En e! sistema NTSC no se utilizan las componentes de color "U" y "V", sino que
en su lugar se transmiten las componentes ''1'' y "Q". Estas coordenadas "Y" y "Q"
se obtienen girando 33 grados U y Y en sentido antihorario. La intenci6n de este
giro de los ejes "U" y "Y" es la de optimizar el ancho de banda de la crominancia.
El eje ''I'' coincide con la mxima resoluci6n del ojo humano al color, en trminos
de discernimiento o separaci6n de matices cercanos y, como puede verse en la
figura 3.5, se situa en el eje rojo-cian. Por el contrario, el eje "Q" coincide con la
mnima resoluci6n cromatica de! sistema visual humano en e! eje verde-magenta.
Podemos escribir las siguientes equivalencias:
1 = Y x cos33 ~ U x sen33
Q =Y x sen33 + U x cos33

2.6. Suma de luminancia y crominancia


Hasta aqui hemos conseguido formar una unica seal de crominancia "C", que, sin
embargo, transporta informaci6n de R - Y YB -y Yque puede ser descompuesta de
nuevo en el receptor. No s610 estamos en el buen camino de lograr una unica seal de
transmisi6n, sino que, adems, disponemos de una seal "c" que representa la croma
ticidad de la imagen, es decir, los atributos psicofsicos de matiz y saturaci6n.
El ltimo paso consiste en sumar la subportadora de color a la seal de lumi
nancia, para obtener as] la seal compuesta. La figura 3.6 muestra el diagrama de
bloques del codificador NTSC. La seal compuesta, denominada CYBS (Color
Video, Blanking and Syncs) se obtiene sumando la luminancia y la crominancia. A su
vez, la crominancia se logra sumando las componentes "1" y "Q" moduladas.

1\

MATRIZ

"

, FILTRO
PASO
BAJO

: 0.5 MHz

I ,',
-o,

I "'1

-1

33'

LT~88~R~E

u -,o

J
!

MODU. I
LADOR 1

[------ --,,---~--
(SUMADOR!
"_'

--- ..'
., CVBS
>SUMADOR! NTSCo
1-'A.

"...

\ _ _;{_~ __ ---.J

. fFsc =33'

i
I

OSCILADOR
I GENERADOR '
1DE SUBPOR-', ,.. DE BORRADOS ,

Amarillo

I MODU-
I
.IRETARDO:....
LADOR _,
I 0,6 ~s I
I
I

fFsc= 123'..

fFSC=O' ,

Magenta

BAJO :-"
1
1 1,3 MHz:

~~~>,

IV.!
',FILTRO',
1 ; PASO!

'----~~'

r-

"'1
IRETARDO:
1 ~s

,- - i

33+90
=123'

j
Rojo

Seal 1 = J ,3 MHz

Seal Q = 0,5 MHz

lY~IN_CRONIS_f<1<:S!

I,G,NE,AA,D,O,R,
DEL BURST J

r-

,J

Figura 3.6.

Diagrama de bloques del codificadO!' NTSC.

Azul

3. Un formato intermedio: Y le
Verde

Figura 3,5.

Los ejes ''1'' y "Q" del sistema NTSC

estan girados 33 grados con respecto

a los ejes "U" y "V".

72

Aunque nunca se ha considerado como un tipo de seal de vdeo profesional, el


formato y/e est cobrando cada vez mas importancia, especialmente con la popu
larizacion de los sistemas multimedia basados en ordenador. Por esto puede resul
tar util dedicarle aqu unas lineas.
73

TECNOLJ>GiA ACTUAL UE TElf"IS1N

El formato YIC se basa en la generacin, enrutamiento, manipulacin)' grabacin


de la seal de vdeo de color mediante dos componentes separadas: la luminancia y la
crominancia. As, la "Y" representa la luminancia y "c" la crominancia. Este tipo de
seal de vdeo podra considerarse como un estado intermedio entre las componentes
de color y la seal compuesta, tanto en lo que se refiere al nUmero de etapas de pro
cesado que sufre la seal de vdeo como en cuanto a la cadad que ofrece la imagen.
Este formato naci en 1988 con la introduccin, por parte de JVC, de los mag
netoscopios S- VHS, por lo que tambin se conoce precisamente as: S- VHS.
Igualmente se utiliza la nomenclatura "S-Video". La figura 3.7 muestra un diagra
ma de bloques conceptual de la codificacin de las seales por componentes, YI C
y compuesto. Puede verse que realmente la seal Y I C se sita a medio camino
entre la seal por componentes y la seal compuesta.
Cmara

Magnetoscopio

~ /LUzi illOo::

eL

o:

'.t

O
w

:::E B

C/)

:5

C/)

<

1-

Receptor

o::

;i' LUZ

f-O

~I
Betacam
Mil

, YUV

Figura 3.7.
El formato y I e puede considerarse como un estado intermedio entre "componentes" y "com

puesto".

Como puede verse en la figura 3.7, el formato YI C se basa en la utilizacin de

dos cables o vas de comunicacin separadas. Esto aporta una serie de ventajas con

respecto a la seal de vdeo compuesta, en la que las seales de luminancia y cro

minancia se multiplexan en frecuencia para formar una seal nica:

No se merma la resolucin de luminancia por filtrado.


Se aumenta en un 50% la resolucin de crominancia con respecto a la seal
compuesta.
No se producen efectos de intermodulacin entre la luminancia y la cromi
nancia, como el famoso cross-colour.

4. El sistema PAL
En 1962 la UER form un grupo de trabajo cuya misin era escoger el que
debera ser el sistema europeo de televisin en color. Para entonces Francia ya
tena desarrollado su propio sistema: el SECAM. Un ao ms tarde, Walter Bruch,
74

'r
i

Los sistema~ de tc!c\'isin

de la empresa alemana AEG-Telefunken, complic la eleccin al proponer el siste


ma PAL. Finalmente en la conferencia plenaria de! CCIR de 1966 en Oslo se pro
dujo la ruptura: Francia, la antigua URSS y los pases socialistas escogieron e!
SECAM, mientras que Alemania, Inglaterra, Holanda y Blgica optaron por e! sis
tema PAL. El resto de los paises europeos fueron decidindose mas tarde, mayori
tariamente por el PAL.

4. 1. Los errores de fase


El PAL no es mas que una variante mejorada del sistema NTSC. Hay un pro
blema que debemos considerar: la precisin del color. Una variacin de 5 grados
en la fase del vector de crominancia produce errores claramente visibles. Los erro
res de fase se producen con facilidad, especialmente en las altas frecuencias (que es
e! caso de la seal de color, como se vera mas adelante) y se traducen en errores
de "matiz" o "tinte". Este tipo de errores son muy fciles de detectar por parte del
ojo humano y resultan muy molestos.
Desde luego, si el burst esta afectado del mismo error de fase que e! vector de
crominancia "K", el angula "u" del vector de crominancia demodulado no cambia
r, de forma que el receptor reproducir el color apropiado.
Sin embargo, cuando se altera la diferencia de fase entre e! burst y "K", en algn
punto de la va de transmisin, se producirn errores de matiz en el color.
Para corregir los errores de fase de la subportadora de color, que se traduciri
an en errores de matiz en la pantalla del televisor, e! sistema PAL invierte la pola
ridad de! vector "V", lnea a lnea, es decir, durante una lnea se enva R - Y nor
malmente, en la siguiente con el signo cambiado, en la siguiente normal, etc.
Vamos a ver cmo se consigue esto: para simplificar, supongamos quc no se ha alte
rado la fase de! burst, pero que el vector de crominancia ha girado lOgrados en sen
tido horario. Para corregir este error el sistema PAL no transmite el vector "K" de
forma ininterrumpida, sino que alterna entre K = Usen2Jtfct + Vcos2Jtfct, duran
te una lnea y K* = Usen2Jtfct - Vcos2Jtfct durante la linea siguiente, es decir,
durante una lnea se transmite el vector "K" normalmente y durante la lnea
sigUiente con la componente "V" invertida.
Como consecuencia de esta complicacin ser necesario invertir la componen
te "V" en e! receptor cada vez que se reciba un vector K*, de forma que se obten
ga de nuevo:
Usen2Jtfct + Vcos2Jtfct

4.2. Alternancia de la polaridad de "V"


Cul es la razn de esta alternancia de fase a ritmo de lnea, que da nombre al
sistema PAL (Phase Alternation on Lines)7
Supongamos que estamos transmitiendo un color rojo (a = 76,6). Esto significa
que la cmara estara proporcionando un vector K con un angula u de 76,6 para una
lnea y K* con U * = -76,7 para la siguiente (se toma como referencia la fase de -U,
7S

,
Lus si;lCmas d_~~~~.G2

TEC,\:OlO(.;iA ACTU:\L !JI: TU.l\'ISIi\

que es justamente la fase media de! bum, es decir, 180 grados). Al llegar al televisor,
ex' de K valdr 76,6+10 = 86,6, mientras que ex*' de K* valdr -76,6+10" =
-66,6. El receptor cambiar la polaridad de la componente V correspondiente a los
vectores K*, de manera que lo que obtendr sern vectores con angulas de 66,6 y
86,6, que se alternarn a frecuencia de linea. Vease figura 3.8.
De esta manera, si todas las lneas pares (n) de una imagen determinada tienen
un ex' que excede en + 10" Y todas las lneas impares (n + 1) tienen un ex*' que no
llega a a por - 10", e! resultado ser que el color ele las lneas pares ser ligera
mente morado, mientras que el de las lneas impares aparecera ligeramente ama
rillento.
Si un observaelor situado a suficiente distancia observa un conjunto de lneas
que tira ligeramente a morado, intercalado con otro conjunto que tira a amari
llento, lo que realmente observar ser e! color rojo puro.
Este proceso no es perfecto, ya que produce, por un lado, perdida de resolucin
c'omtica vertical, al basarse en el promediado de lneas, lo cual es perfectamente
asumible, y, por otro, ligeras desaturaciones del color, pero stas son mucho menos
molestas que los errores de matiz.
Es necesario que el receptor sepa qu lneas le estn llegando con un vector K
y qu otras con K*. Tambin de esto se encarga el burst. En lugar de enviar siem
pre el burst con fase 180, como en NTSC (se mide con respecto a U), en PAL se

ANTES DE LA
TRANSMISiN

DESPUES DE LA
TRANSMISiN
K

86.6',\

.':~

8ursl

-u

Burst

INVERSOR DE

I~-~f~
SIGNO DE OV"

.!
K'

86 6' V

4~.

.6~f"

10' ' .

I
I

SINCRONISMOS

...J

PUERTA
BURST

,.

MODULADOR
CON SUBPOR,
TADORA
SUPRIMIDA

-.11_

V
K

med,ado

BANDERA
DEL BURST
(K)

~-

}\.
B~'st~~.~II

__ U
16.6" ~
Vec'nop<o' _

. __

RESULTADO
FINAL

Figura 3.8.

Eliminacin automatica de los errores de fase en el sistema PAL. Los angulas estn medidos

con respecto a -U, es decir, en funcin de la fase del burst. "w" es el elemento (por ejemplo la

va de propagacin) que introduce el retardo diferencial entre la subportadora y el burst.

76

------ U

..

Bursl __

SALIDA
5ENAL
COMPUESTA

~-:l ~

o'

-76.6"

K(

w
(a = 10)

Bur~ ,,'

\~I

Burs~

. .
a *. .
4_LU,_

das y atenuadas, modulan sendas subportadoras. La seal "U" modula una porta
dora de 4,43 MHz, cuya fase se toma como referencia y se etiqueta como O. La
seal "V" modula la misma portadora de 4',43 MHz, pero desfasada 90 con res
pecto a la portadora de "U" en una lnea, 270 en la siguiente, 90 en la siguiente,
etc.
A continuacin las dos subportadoras moduladas son sumadas, para ohtener as
la seal de crominancia. Para que el receptor sepa en qu lneas "V" est modulada

666"

Bursl

_K~~:_lInea n

-7~66'

decodlficado en

linea "n+1"

V~clor

La figura 3.9 muestra un diagrama de bloques del codificador PAL. La "matriz


Y" proporciona la seal de luminancia mediante sumas y restas de los primarios
RGB. Invirtiendo la seal de Juminaneia y sumandosela a R y B se obtienen las
seales diferencia de color R - Y YB -Y. Ambas seales diferencia de color son fiI
tradas a 1,3 MHz. La linea de retardo de 0,4 ps sirve para compensar e! tiempo de
propagacin necesario para atravesar los filtros de 1,3 MHz.
El siguiente paso consiste en atenuar las seales diferencia de color (0,49 x
B - Y = U Y0,87 x R - Y = V). Las dos seales diferencia de color, filtra

K 8~6'6'VI

linea "n'

'

4.3. El codificador PAL

DESPUES DE LA
INVERSiN
Vector deco
dificado en

~o. ~- ~

135 en aquellas lineas en que el vector que


enva e! burst con fase 180 - 45
transportan "K" (componente "V" normal) y con fase 180 + 45 = 225 en aque
llas que transportan K* (componente V invertida).

P----- 180'

-1-::0 'C:::..

" I

H~

p~dO

de "P" = 2H = 7.8 KHz

Figura 3.9.

Diagrama de bloques del codificador PAL.

77

Tl:CNOloc;jA ACTUAl. DE T([.EVlSIN

'f

con [ase 90
yen qu otras con 270, se alterna la fase del bum entre J 80 _ 450 Y
0
180 + 45 AS, la fase media del burst sigue siendo de 180 0 , lo que permite utili
zar el bum para medir la fase de la subportadora de color. Por otro lado, las varia

ciones con respecto a la fase media sirven para detectar la polaridad del vector de

color "V". Puede verse, en la va del burst, un bloque etiquetado como "puerta del

burst". Se trata de una "puerta" que se cierra durante unas pocas lneas del borrado

vertical (concretamente 9 por campo). Las lneas concretas que no contienen burst

varan de un campo a otro, formando una secuencia de cuatro campos. Esto se hace

para simplificar e! trabajo del receptor, ya que as la primera lnea que contiene

burst en cada campo presenta siempre la misma polaridad de "V".

4.4. El decodificador PAL


En la figura 3.10 puede verse el trabajo del decodificador PAL. La seal com
puesta de entrada es separada mediante filtros en luminancia y crominancia. El "fil
tro trampa" deja pasar todas las frecuencias, excepto una banda muy concreta (la
que corresponde a las frecuencias de crominancia). El retardo de lH (64 )1s)
"suma" la crominancia de dos lneas consecutivas, para compensar as los errores de
fase que pudieran producirse durante la transmisin. Lo anterior supone reducir la
resolucin vertical de crominancia, aunque esto es perfectamente tolerable por
parte del sistema visual humano; si aceptamos mermar la resolucin horizontal de
croma, por qu no hacer lo mismo con la vertical?
La seal de crominancia se enva a los demoduladores, as como al separador del
bum. Este ltimo est gobernado por una puerta temporal denominada "puerta del
burst" derivada de los sincronismos horizontales. Su salida se utiliza para sincroni-

E'y

SEAl DE

ViDEO

COMPUESTA

SEPARADOR

DE

SINCROS

GENERADOR

DE LA PUERTA

DEL BURST

FILTRO
PASO
BANDA

SEPARADORl

DEL

P,LL

(resincroniza

el oscilador

local)

OSCILADOR
LOCAL
A4,43 MHz

,f--l---------."

Figura 3.10.

Diagrama de blogues del decodificador PAL.

Ei'R

Los

sist~mas

de tcJerisin

'
i

zar un generador de subportadora controlado por cristal de cuarzo, mediante un


PLL (lazo enganchado en fase). La fase del bum vara lnea a lnea y se encuentra
alternativamente a 135 grados con respecto al vector de referencia "U". La alta
constante de tiempo de! PLL integra las variaciones de voltaje resultantes, de
manera que la subportadora reconstruida a partir del burst presenta una fase esta
ble de + 180 grados con respecto a la referencia "U". Como se ha dicho, la salida
del filtro paso-banda se enva a una lnea de retardo de 64 flS, as como a un suma
dor y a un restador. La seal a la salida del sumador est formada por las bandas
laterales de "U", mientras que la salida del restador contiene alternativamente las
bandas laterales de "V". Las dos seales se envan a sus correspondientes demo
duladores sincrnicos. La fase de la subportadora que controla el demodulador "U"
es constante, mientras que la fase de la subportadora que controla e! demodulador
"V" alterna 90 grados lnea a lnea (a frecuencia de 7,8125 KHz) con respecto a
la que controla el demodulador de "U". Las dos seales diferencia de color demo
duladas y la seal de luminancia, adecuadamente retardada, se envan a una matriz
que reconstruye las seales primarias originales. Para reducir la visibilidad de los
restos de portadora que pudieran quedar se utiliza un filtro notch en la va de la
luminancia.

5. El sistema SECAM
En Francia, en 1959, a partir de los resultados y de las experiencias de Henry
France, se puso en marcha el sistema de televisin en color denominado SECAM.
Al igual que e! PAL, el sistema SECAM fue creado despus que el NTSC y supone
una mejora, con respecto a ste, en lo referente a los errores de fase. Tambin,
igual que el PAL, e! SECAM se basa en la presuncin de que la crominancia de dos
lneas consecutivas no cambia mucho y, si lo hace, el ojo humano no es capaz de
apreciarlo. As, en e! sistema SECAM las dos seales diferencia de color no se trans
miten simultneamente. Por el contrario, ambas seales se alternan lnea a lnea,
es decir, durante una lnea slo se transmite informacin de R - Y, durante la
siguiente B - Y, luego R - Y, etc. En e! receptor se necesita una memoria de una
lnea, ya que es necesario sumar ambas componentes para obtener el color correc
to de la escena. Transmitiendo las componentes por separado se elimina la posibi
lidad de errores de fase, ya que en realidad no existe un factor de color, sino dos
seales separadas, que en todo caso sern afectadas de igual forma durante la
transmisin. Las dos seales diferencia de color modulan en frecuencia y por sepa
rado sendas portadoras. Vase figura 3. 11.
SECAM es e! acrnimo de "Sequentiel Avec Memom" (color secuencial basado en
memorias). Aunque el sistema SECAM es muy bueno en condiciones de transmi
sin de trayectoria mltiple, no puede procesarse como consecuencia de la modu
lacin en frecuencia (FM) de la croma, es decir, no es posible 0, por lo menos, no
resulta prctico posproducir en SECAM. La idiosincrasia del sistema SECAM ha
llevado a la interpretacin alternativa de su acrnimo: "Sistema Esencialmente
Contra los Americanos".

78
79

TES---NOlOGtA I\CTUAL DE TEkLftc:\cl'/.2!SI!,!i:N

x-J
R-Y
S-Y

MATRIZ

FB_~

L,D4~S

=r:~S~~~~

------.---- r
MODULADOR
FM

fH/2

fF

l]

B Y
}F -

i:1I

~-~'I~,

FR_Y

SUMADOR - - - -

Borrados

y sincros

{-

MODULADORFM

I-.. R-Y

Figura 3.11.

Diagrama simplificado del codificador SECAM (arriba) y del decodificador (abajo).

6. Eleccin de la frecuencia de la subportadora de color


La frecuencia de la subportadora de color, en NTSC, es de 3,579545 MHz, aun
que normalmente se simplifica a 3,58 MHz. La eleccin de esta frecuencia se basa
en varias consideraciones:
J. Debe ser lo ms alta posible, a efectos de producir un patrn de puntos sobre
el receptor de blanco y negro lo ms fino posible.
2. La subportadora y sus bandas laterales deben ubicarse en el espectro de la
seal de vdeo (4,2 MHz en el caso americano).
3. La frecuencia exacta de la subportadol-a debe asegurar el intercalado de los
espectros de luminancia y crominancia.
Para cumplir con los puntos anteriores se determin que la frecuencia de la
subportadora de color NTSC fuera:

fse '~,r = 455 fL = 455x15.734,264 = 3,579545 MHz

Donde fl. es la frecuencia de lneas.


De esta forma cada lnea completa de TV est formada por un nmero entero
de ciclos ms medio (227,5 ciclos/lnea), Jo cual minimiza la visibilidad del patrn
interferente de puntos y asegura el intercalado de espectros. Esto se conoce como
"offset o desplazamiento de media lnea".
Como consecuencia de la alternancia lnea a lnea de la polaridad de "V" en el sis
tema PAL, no es posible trabajar con un nmero entero de ciclos de subportadora
80

<lud-c<;JOI1

ms medio por lnea completa; se obtendra un patrn interferente muy molesto


(en forma de barras) en e! receptor de blanco y negro y no se ase,6TUrara el interca
lado de espectros.
La solucin en PAL fue escoger como frecuencia de la subportadora de color un
mltiplo de la frecuencia de lneas ms un cuarto (desplazamiento horizontal de
1/4 de ciclo). Para optimizar an ms esta frecuencia se sum un ?1Jset o desplaza
miento vertical de un ciclo por imagen o, lo que es lo mismo, 1/2 ciclo por campo.
As pues, la frecuencia de la subportadora PAL queda como sigue:

~~~Ui~- ~B-Y

f H/2

",..

Lo~ ;;;iSlCllliJ5

fSC PAL

1.135fL

+ ~v =4,43361875MHz

7. La secuencia PAL de 8 campos


En e! sistema PAL cada lnea incluye exactamente 283,7516 ciclos de subpor
tadora. Para simplificar, olvidaremos los 0,0016 ciclos por lnea que son resultado
de! desplazamiento vertical y que no tienen consecuencias en el estudio de la
secuencia PAL. Tenemos entonces 283 ciclos por lnea ms 3/4 de ciclo, es decir,
ms 270.
Ahora si numeramos un cierto cuadro como "cuadro 1" Y si su lnea 1 comien
za con la subportadora de color a 0, esta lnea 1 terminar a 270. La lnea 2
comenzar a 270 y terminar a 180. La 3 comenzar a 180 y terminara a 90. La
4 comenzar a 90 y terminar a O. La lnea 5 comenzar a 0 igual que la prime
ra, la 6 comenzar a 270, etc. Vemos que se forman paquetes de cuatro lneas, en
lo que se refiere a la fase de subportadora con que tales lneas comienzan.
Por otro lado, estamos trabajando con un sistema de 625 lneas. Si dividimos
625 por 4, el resultado ser 156 y nos sobra una lnea, es decir, podemos conside
rar las 625 lneas como 156 paquetes de 4 lneas ms una lnea adicional. Esto sig
nifka que la lnea 625 es como la lnea 1: comenzar con fase 0 y terminar con
fase 270. Por tanto, la lnea J ele la imagen 2 (que sigue a la lnea 625 de la ima
gen J) comenzar con 270 y terminar con J 80. Dicho de otra forma, la lnea J
de la imagen 2 es como la lnea 2 de la imagen J. De igual forma, la lnea 1 de la
imagen 3 es como la 3 de la imagen J y la lnea J de la imagen 4 es como la 4 de
la imagen 1.
Ahora la lnea J ele la imagen 5 es como la lnea 5 de la imagen J y, por tanto,
como la lnea J de la imagen 1, es decir, comienza con O. Hemos tardado 4 im
genes completas, es decir, 8 campos, hasta volver a encontrar una lnea J que
comenzara con O.
En realidad, excepto la lnea J del campo 1, ninguna de las 2.500 lineas que
conforman los 8 campos comienza con 0, como consecuencia de! pequeo des
plazamiento vertical de medio ciclo por campo.
Hay otra forma de descubrir la secuencia PAL de 8 campos:
Siendo

fSC PAL = l.l3.5 f L +

= 4,43361875MHz

81

Los sistemas de telc\'sin

TECNOI OCiA ACTUAL DE TELE"ISU)N

el nmero de ciclos de subportadora por cuadro ser:


fsc m

25

177.334,75

Dos cuadros deTV contendrn: 177.334,75 x 2


354.669,5 ciclos de sub
portadora. Tres cuadros deTV contendrn: 177.334,75 x 3 = 532.004,25 ciclos
de subportadora. Cuatro cuadros deTV contendrn: 177.334,75 x 4 = 709.339
ciclos de subportadora. Solo despus de cuatro cuadros (ocho campos) se obtiene
un nmero entero de ciclos al terminar un cuadro de te!evision. Esta secuencia de
fases se mide con respecto al punto de media amplitud del flanco anterior del sin
cronismo de lnea y se conoce como "colourframina", o "secuencia de color" y es de
ocho campos en PAL y de cuatro en NTSC. Tambin se conoce como "relacion
Sc/H".
Resumiendo, para poder resolver los posibles errores de matiz que se produ
ciran como consecuencias de errores diferenciales de fase entre la subportado
ra de color y la referencia estable (e! burst), el sistema PAL introduce la alter
nancia de la polaridad del vector "V" lnea a lnea. Como consecuencia de esta
alternancia, y para asegurar una correcta cance!acion del patron interferente de
puntos (cruce de luminancia), se establece una relacion compleja entre la fre
(1. 135fl/4)
cuencia de la subportadora de color y la frecuencia de lneas: fsc
+ fv 12. Esta relacion de frecuencias es la culpable de la aparicion de la llamada
"secuencia PAL de 8 campos", que tanto complica la edicion electronica. Por esto
una traduccion jocosa de! acronimo PAL podra ser: Problems Appear Later (los
problemas aparecen luego).
La secuencia PAL de ocho campos supone un problema a la hora de "montar" o
"editar" una cinta vdeo. Si se empalman dos segmentos de material grabado, pero
de tal forma que e! nmero de imgenes cortadas no es mltiplo de cuatro, la
secuencia se rompe. En el punto de empalme aparece un burst cuya fase est gira
da 90, 180 270 con respecto al que llegara si se hubiera respetado la se~uencia.
El receptor tarda unos instantes en reajustarse a la nueva fase, suficiente como para
mostrar pequeos saltos o indecisiones de color.

Otra posibilidad es trabajar "por componentes". Este formato se basa en Ul)a


seal de luminancia de ancho de banda total, ms dos seales "diferencia de color",
R - Y Y B - Y, de ancho de banda menor. En las instalaciones modernas es tpico
que las seales diferencia de color presenten un ancho de banda igual a la mitad del
ancho de banda de la luminancia por ejemplo, la luminancia tendra 5,75 MHz y
las seales R - Y Y B - Y 2,875 MHz cada una. En la figura 3.12 puede observarse
la presencia de! bloque "LPF" (filtro paso-bajo) en la va de las seales diferencia de
color.
UNIDAD DE CONTROL DE CMARA

I
...., '.B~
I'n"-~

8. Tipos de seal de vdeo


La forma ms inmediata de seal de vdeo es e! formato RGB. Se dice entonces
que se trabaja con primarios o con componentes primarios. Mientras las cmaras
de vdeo sigan trabajando con tres sensores CCD separados, e! formato RGB exis
tir en algn lugar de la cadena de cmara, incluso aunque no llegue a utilizarse
exteriormente. En este formato los tres canales R, G Y B presentan un ancho de
banda total, lo que puede ser til en determinadas circunstancias. Suele usarse para
obtener imgenes fijas de la mxima calidad, cuando se traL..;d, por ejemplo, en
grafismo o en CAD. Es frecuente encaminar las seales RGB de la cmara hacia el
mezclador, el cual las utilizar para incrustaciones de croma (cToma-key). No existe
ningn formato de grabacin basado en los primarios R,G y B, aunque se utiliz
en modelos experimentales.
82

1,

, i 'I

~;

ii)--,~~

III

JI

./'=

IB

!---

u.

,.R' YJ LPF

"llt,[!
r'

I
~

LA +"
~ .f0rMDD
1I .. DE.~

i
::;3 . ! I
..
'--$-~

I~ ~ ~

H.r~r-'i-~--i-
,l z
'
?~ fi ~ ~~y

CABEZA DE CMARA

LPF

l"

DOR
CROMI I
NANCiAI

.'

J .. ~

IeM'~
I

III

,- -

RGB

COMPONENTES

SENAl
COMPUESTA

Figura 3.12.

La cmara enva los primarios R, G Y B a la estacin de procesado, donde pueden utilizarse

directamente, convertirse en componentes Y, R ~ Y YB ~ Y, o codificarse como una seal com

puesta PAL, SECAM o NTSC.

La reduccin del ancho de banda de las seales diferencia de color supone que
la resolucion de croma ser inferior a la de luminancia, pero esto no debe preocu
par, ya que e! sistema de percepcin visual humano presenta muy poca capacidad
para resolver o separar pequeos detalles que slo difieren en su cromaticidad.
Dicho de otra forma, la resolucion visual cromtica es mucho menor que la lum
nica. Los magnetoscopios "Betacam", "MIl", "D-l", "O-S", "Betacam Digital",
"DVC-PRO", "DVCAM", "DIGITAL-S", "BETACAM-SX" Y "MPEG-IMX" graban
por separado las seales de componentes "Y", "R - Y" Y"B - y".
Un ltimo formato (hasta ahora e! ms utilizado) lo constituye la seal de "vdeo
compuesto". A diferencia de los dos formatos anteriores, que necesitan dc tres
cables o vas, e! formato compuesto se procesa y encamina a traves dc una nica
va. Se trata de la seal codificada PAL o NTSC, donde las seales de luminancia y
crominancia se multiplexan en frecuencia, presentando la luminancia un ancho de
banda total (o casi total) y, las seales diferencia de color anchos de banda muy
reducidos (1 1,3 MHz). Este es el tipo de seal que utilizan los formatos llama
dos "compuestos", como los "Pulgada-B", "Pulgada-C", "U-matic", "D-2" y "D-3".
Tambin es, hoy por hoy, el formato obligado en las emisiones analgicas conven
cionales.
83

Lo~ s~tcmas d(' tcIc~;lJ

TlCNOLOGJA ACTUAL DE T[l[\'ISIOt'-'

9. Espectro de la seal de vdeo


Como sabemos, la imagen de televisin se transforma en seal de ddeo, des
componindola en campos y lneas.
Esto significa que la imagen es "muestreada", de manera que slo existe infor
macin de la imagen en los momentos en que se toman las muestras. Por ejemplo,
no tenemos informacin de la imagen durante el intervalo de borrado vertical (1 1 6
de cada 20 ms). Tampoco tenemos informacin durante los borrados horizontales
(12 de cada 64 Js). La seal de vdeo es, por tanto, discontinua o discreta en el
tiempo.
El perodo bsico de muestreo de la seal de vdeo es el perodo lnea
(64 J.ls) y, por tanto, la frecuencia bsica de muestreo 15.625 Hz. Toda seal mues
treada presenta un espectro cuya energa tiende a agruparse a frecuencias mltiplo
de la frecuencia de muestreo.

9.1. Patrones visuales y frecuencias


La figura 3.13a est formada exclusivamente por patrones visuales de orienta
cin horizontal. Si la imagen de ms arriba de esta figura fuera analizada por una
cmara de televisin, el nivel de vdeo de la primera mitad de las lneas de cada

(a)

(b)

(e)

Figura 3.13.

Anlisis, mediante lneas de TV, de distintos patrones visuales.

84

campo correspondera al nivel de negros. La segunda mitad dara nivel de blancos.


Prescindiendo de los impulsos de sincronizacin (que de todas formas se repiten a
ritmo de lineas), la seal de vdeo de esta imagen seria una onda 'ectangular a fre
cuencia de campo (50 Hz).
La imagen central de la figura 3.13 (a) mUestra dos franjas negras intercaladas
con dos franjas blancas. Su oscilograma sera una onda ,rectangular de dos veces la
frecuencia de campo. Igualmente en la imagen ele ms abajo de la figura 3.13 (a)
obtendramos una seal de vdeo cuya frecuencia sera 4 veces la frecuencia de
campo.
Si la imagen estuviera formada 312,5 lineas negras intercaladas con 312,5 lne
as blancas (estamos olvidando el horrado vertical a propsito), lo cual sera un caso
lmite, la seal obtenida sera una ancla rectangular que cambiara a mitad de la fre
cuencia de lneas (7.812, 5 Hz).
Por tanto, los detalles de orientacin horizontal producen frecuencias que estn
por debajo de la mitad de la frecuencia de lnea y que son mltiplos de la frecuen
cia de campo.
Sin entrar en mayores detalles, existen frecuencias que estn por debajo de 50
Hz y que son producto del movimiento de la imagen. La figura 3.13 (b) esta com
puesta exclusivamente por detalles de orientacin vertical. En la imagen de ms
arriba obtendramos, al analizarla por lneas, un oscilograma rectangular que nos
darla media lnea negro y media lnea blanco, es decir, un ciclo alto-bajo por cada
lnea. Su frecuencia sera, por tanto, la frecuencia de lneas (15.625 Hz). La fre
cuencia de la imagen central seria 2 fL = 31.250 Hz y la de ms abajo 4 fL = 62.500
Hz .
Cualquier imagen compuesta exclusivamente por detalles de orientacin verti
cal proporcionara frecuencias que serian mltiplo de la frecuencia de lneas.
Puesto que nuestro sistema deTV est limitado a 5,5 MHz, el nmero mximo de
pares de lineas blanco-negro que podemos "meter" es de 352 (352 fL 5,5 MHz).
Es cierto que se trata, en estos ejemplos, de ondas o funciones rectangulares y
que deben ser analizadas y descompuestas para ver cul es su contenido real de fre
cuencias, pero, como sabemos, la descomposicin de una onda rectangular nos da
contribuciones senoidales que son mltiplo de la frecuencia fundamental, es decir,
de la frecuencia de lnea.

9.2. Espectro de las seales complejas


Por supuesto, las imgenes reales no estan formadas tan solo por detalles de
orientacin horizontal y vertical. La figura 3.1 3c muestra detalles de orientacin
diagonal. Si analizamos la imagen de ms arriba mediante lneas de TV, veremos
que tardamos algo menos de una lnea (64 J.ls) en pasar de negro a blanco y de
nuevo a negro; el perodo es un poco ms corto y la frecuencia algo ms alta. Algo
similar sucedera en caso de movimiento: si la rejilla se mueve hacia la izquierda,
la frecuencia aumenta, y si se mueve hacia la derecha, disminuye.
La presencia de distintas orientaciones diagonales y de movimiento hace que apa
rezcan en el espectro de la seal de vdeo frecuencias que no son exactamente mlti
85

TECNOLOGIA ACTUAL DE THEVIS/ON

Los sistemas de televisin

plo de la frecuencia de lneas, pero que estn prximas a ella. Dicho de otra forma, la
energa de la seal de vdeo tiende a agruparse en torno a mltiplos de la frecuencia
de lnea. Se trata de un hecho estadstico que depende del contenido de la imagen.
La figura 3.14a muestra el espectro correspondiente al movimiento (ms a la
izquierda) y a los detalles de orientacin horizontal. En la figura 3.14b se aprecia
la forma en que la energa tiende a agruparse en torno a mltiplos de la frecuen
cia de lneas. La figura 3.14 (c) muestra el espectro completo, desde O a 5,5 MHz
de la seal de blanco y negro.
El anlisis del espectro de la seal compuesta es algo ms complicado.
Esencialmente se trata de los espectros de la luminancia y la crominancia entrela
zados, o intercalados, uno con otro.
En NTSC la frecuencia de la subportadora es igual a 227,5 veces la frecuencia
de lneas (figura 3.1 S (a. Puesto que la subportadora de color est modulada en
amplitud por el vector de crominancia, se producen bandas laterales a la izquierda
y a la derecha de la frecuencia de la subportadora de color. Gracias a los vacos
existentes en el espectro de la seal de luminancia es posible ubicar en l la seal
de crominancia, de forma que despus puedan separarse en el receptor.

50 Hz

100 Hz

\IIII~

200 Hz

(b)

2 fl

3fl

LUMINANCIA

(e)

=5,5 Mhz

R-Y

S-y

lllli!)ljulli~)
o~JUlLil)ll!~~;)
Figura 3.14.

Espectro de la seal de luminancia (arriba) y de las seales diferencia de color (abajo).

86

fL

ka\1

.,.'.'.'0

v.u.u.u
..
.

2 fL 3 fL 4 fL ...

Figura 3.1 S.

Espectro de la seal NTSC (a) y de la seal PAL (b).

4 fl

ot~~ ~.~ AjjuL! iA AAfl AA .AA.3~~


I

(bl

10. Listado de normas de televisin por pases

111111.

fl

La figura 3.1 S (b) muestra el espectro de la seal PAL. El] este sistema la fre
cuencia de la subportadora de color es de 283,7516 veces la frecuencia de lneas.
Como consecuencia de la inversin de R -y lnea a lnea, se dividen en dos las fre- /
cuencias espectrales; en una lnea R - Y produce un espectro similar al de B - Y Y
en la lnea siguiente desplazado media lnea, es decir, como el <;le "Y".
Por esta razn no es posible utilizar un cjJset o desplazamiento de 112 ciclo por
lnea como en NTSC. En cambio, el desplazamiento de 3/4 de ciclo permite e!
entrelazado de los espectros de la luminancia y la crominancia.

"il H~I~I~ I J'__ ~llllill~~~. __ (a)


150 Hz

(a)

En la lista que sigue a continuacin la columna denominada "Banda IIlll" se


refiere a la norma que un determinado pas utiliza en las bandas normalmente
conocidas como "VHF", mientras que la columna denominada "IV IV" se refiere a
las bandas de emisin normalmente conocidas como "UHF".
Estas especificaciones corresponden a las definidas en la conferencia ordinaria
de! CCIR publicada en Ginebra en 1990 (anexo al volumen 11, parte 1).
La primera letTa (a veces una letra seguida de un nmero) que define el siste
ma se refiere a los parmetros elctricos de la seal de vdeo, con independencia
de la forma en que se codifica el color. Estos parmetros incluyen e! nmero de
imgenes por segundo, e! factor de entrelazado, e! nmero de lneas por campo y
cuadro, la frecuencia de lneas, las duraciones de los perodos activos y de borra
do, los anchos de banda y tiempo de formacin de seales, etc. A continuacin apa
rece una barra (/) y despus e! sistema de codificacin de! color empleado (PAl,
SECAM o NTSC). SegUn este tipo de nomenclatura, Espaa utiliza e! sistema
B/PAl en las emisiones en VHF y el G/PAL en las emisiones en UHF.
87

LOl; si.stnlli~~!::1c,:SI()Il

TECNOlOGIA AC rUAl D[ TEll VISIN

Tabla 3.1 Listado de normas de televisin por pases (continuacin).

Tabla 3.1 Listado de normas de televisin por paises.

PAIs
Afganistn
Argelia
Alemania (Rep Federal)
Angola
Antillas Neerlandesas
Arabia Saudita
Argentina
Australia
Austria
Baherein (Estado de)
Bangladesh
Blgica
Benin (Rep. Pop.)
Bermudas
Birmania (Rep. Soc.)
Bolivia
Botswana
Brasil
Brunei (Darussalam)
Bulgaria
Burkina Faso
Burundi
Camern
Canad
Cabo Verde
Centroafricana (Rep.)
Chile
China (Rep. Pop.)
Chipre
Colombia
Comoras (Rep. Islm.)
Congo
Corea
Costa Rica
Cote d'lvoire
Cuba
Dinamarca!
Groenlandia!
Islas Feroe
Djibouti
Egipto
El Salvador
Emiratos rabes
Espaa
Estados Unidos Amr.
Etiopa
Finlandia
Francia
Gabonesa (Rep.)
Gambia
Ghana
Gibraltar
Grecia
Guinea
88

BANDA 1/11I
O/SECAM
B/PAL
B/PAL
IIPAL
M
B/SECAM, PAL
N/PAL
B/PAL
B/PAL
B/PAL
B/PAL
B/PAL
K1/SECAM
M/NTSC

M/NTSC

BANDA IV/V
G/PAL
G/PAL
I/PAL

M/NTSC

K1/SECAM
K1/SECAM
M/NTSG
D/PAL
B/SECAM
M/NTSC
K1/SECAM
K1/SECAM
M/NTSC
M/NTSC
K1/SECAM
M/NTSC

B/PAL
B/SECAM
B/SECAM
M/NTSC
B/PAL
B/PAL
M/NTSC

B,G/PAL
B/PAL
USECAM
K1/SECAM
I/PAL
B/PAL
B/PAL
B/SECAM
K1/SECAM, PAL

G/SECAM
N/PAL
B/PAL
G/PAL
G/PAL

H/PAL
K1/SECAM

M/NTSC

I/PAL
M/PAL
/PAL
D/SECAM
K1/SECAM
K1/SECAM
B/PAL

M/NTSC

IIPAL
M/PAL
K/SECAM
K1/SECAM
K1/SECAM
G/PAL
M/NTSC
K1/SECAM
K1/SECAM
M/NTSC
O/PAL
G/SECAM
M
K1/SECAM
K1/SECAM
M/NTSC
M/NTSC
K1/SECAM
M/NTSC

G/PAL
G/SECAM

G/PAL
G/PAL
M/NTSC
G/PAL
G/PAL
USECAM
K1/SECAM
I/PAL
B/PAL
G/PAL
G/SECAM
K1/PAL

PAIs

BANDA 1/11I

Guinea-Bissau
Guinea Ecuatorial
Hong Kong
Hungra
India
Indonesia
Irak (Rep. Islmica)
Irn (Rep. Islmica)
Irlanda
Islandia
Israel
Italia
Jamaica
Japn
Jordania
Kenya
Kuwait
Lesotho
Libera
Libia
Luxemburgo
Madagascar
Malasia
Malawi
Maldivas
Mali
Malta
Marruecos
Mauricio
Mauritania
Mxico
Mnaco
Mongolia
Montserrat
Mozambique
Namibia
Niger
Nigeria
Noruega
Nueva Zelanda
Omn (Sultana)
Uganda
Pakistn
Panam
Pases Bajos
Papa Nueva Guinea
Per
Polonia
Portugal
Qatar
Rep. rabe de Siria
Rep. Democ. Alemana
Rep. Popular Corea
Rumania

I/PAL
B/PAL
O/SECAM
B/PAL
B/PAL
B/SECAM
B,G/SECAM
I/PAL
B/PAL
B/PAL
B/PAL
N
M/NTSC

B
B/PAL
B/PAL
l/PAL
B/PAL
B,G/PAL
B/PAL
K1
B/PAL
B/PAL
B/PAL
B/SECAM
B/PAL
B,G/SECAM
B,G/SECAM
B/SECAM
M/NTSC
USECAM
D/SECAM
M/NTSC
G/PAL
I/PAL
K1/SECAM
B/PAL
B/PAL
B/PAL
B/PAL
B/PAL
B/PAL
M/NTSC
B/PAL
B/PAL
M/NTSC
D/SECAM
B/PAL
B/PAL
B/PAL
B/SECAM
D/PAL
O/PAL

BANDA IV/V
I/PAL
G/PAL
I/PAL
K/SECAM

G/SECAM
G/SECAM
IIPAL
G
G/PAL
G/PAL
M/NTSC
G
B,G/PAL
G/PAL
IIPAL
G/PAL
B,G/PAL
G/PAL, USECAM
K1/SECAM
G/PAL
I/PAL
G/SECAM
G/SECAM
B,G/SECAM
B/SECAM
M/NTSC
G/PAL, G/SECAM

G/PAL
I/PAL
K1/SECAM
I/PAL
G/PAL
G/PAL
G/PAL
G/PAL
M/NTSC
GIPAL
G/PAL
M/NTSC

K/SECAM
G/PAL
G/PAL
G/PAL
G/SECAM
K/PAL
K/PAL
89

TtCNOLocfA ACTlIAI DE TELF.VISrN

Los sistemas de tele\'isin

Tabla 3.1 Listado de normas de televisin por pases (continuacin).

PA!S
Reino Unidol
Irlanda del Norte
Ruanda
San Cristbal y
Nieves
Santo Tom y Prncipe
Senegal
Seychelles
Sierra Leona
Singapur
Somalia
Sudn
Sri Lanka (Rep. Soc.)
Sudafricana (Rep.)
Suecia
Suiza
Suriname (Rep.)
Tanzania
Chad (Rep.)
Checoslovaca (Rep.)
Tailandia
Togolesa (Rep.)
Tnez
Turqua
URSS (Rusia y otros
excomponentes)
Uruguay
Venezuela
Vietnam
Vrgenes (Brit. Islas)
Yemen (Rep. rabe)
Yemen (Rep Dem. Pop.)
Yugoslavia
Zaire
Zambia
Zimbabwe

BANDA 11/11

BANDA IVIV

K1/SECAM

I/PAL
K1/SECAM

Tabla 3.2 Parmetros ms importantes de las normas B, G, H, 1, D, K, K1, L, M Y N (vanse


figuras 3.16 y 3.17)

Smbolo

M/NTSC
B/PAL
K1/SECAM
B/PAL

B/PAL

B/PAL
B/PAL
B/PAL
B
I/PAL
B/PAL
B/PAL
M/NTSC
I/PAL
K1/SECAM
D/SECAM
B/PAL
K1/SECAM
B/SECAM, PAL
B/PAL

D/SECAM
N/PAL
M/NTSC
D/SECAM
M/NTSC
B/PAL
B/PAL
B/PAL
K1/SECAM
GlPAL
G/PAL

I/PAL
G/PAL
G/PAL
I/PAL
K1/SECAM
KlSECAM
G/PAL
K1/SECAM
GlSECAM, PAL
G/PAL

N (2)

63,492
(63,5555)

64

64

B, G, H,I,
D,K,Kl,L

Perodo nominal de linea (.s)

Duracin de la seal de supresin


de lnea (.s)

10,2 a 11,4
(10,9 0,2)

10,24 a
11,52
(12 0,3)

12 0,3

Intervalo entre la referencia de tiempos


(OH) Y el borde posterior del impulso de
supresin de lnea (.s)

8,9 a 10,3
(9,2 a 10,3)

8,96 a 10,24
(10,5)

10,5

Prtico anterior (.s)

1,27 a 2,54
(1,27 a 2,22)

1,28 a 2,56
(1,5 0,3)

1,5 0,3

Impulso de sincronizacin (.s)

4,19 a 5,71
(4,7 0,1)

4,22 a 5,76
(4,70,2)

4,70,2

Periodo de campo (ms)

16,667(2)
(16,6833)

20

20

Intervalo de supresin de campo

Duracin de la primera secuencia de


impulsos de igualacin

3H

3H
(2,5 H)

2,5 H

Duracin de la secuencia de impulsos


de sincronismo

3H

3H
(2,5 H)

2,5 H

Duracin de la segunda secuencia de


impulsos de igualacin

3H

3H
(2,5 H)

2,5 H

KlSECAM

KlSECAM
G/PAL

M (1)

K1/SECAM
G/PAL
G/PAL
G/PAL
G/PAL

Caractersticas

(19 a 21 H)+a (19 a 25 H)+a (25 H + a)


25 H + a

(1) Los valores que figuran entre parntesis en esta columna se aplican a los sistemas M/NTSC.
(2) Los valores entre parntesis en esta columna se apiican al sistema N/PAL utilizado en Argentina y
Uruguay.

G/PAL
KlSECAM
G/PAL
G/PAL

OH

,..j

""--',....--""'"1,....--""'"1"""'''''''

Detalle de los parmetros


ms importantes en torno
al borrado de lnea, en
relacin a la tabla 3.2.

~I

r--"" r--"" 1"'"'"""\ r--"" r--"1 r-------"\

r--------.

r-------"\

r7 h .------, ~

LJLJLJLJL

Figura 3.16.

90

ID

Figura 3.17.

Detalle de los parmetros ms importantes en torno al borrado de campo, en relacin a la

tabla 3.2.

T(:C.NOU)(jIA ACTUAL DE TElE\'ISI;'\:

10.1. Variantes de sistema PAL


El sistema de televisin en color PAl se desarroll de forma que fuera compa
tible con la televisin monocroma de 625 Hneas y 50 campos utilizada en Europa
y transmitida por canales de RF de 7 u 8 MHz, con un ancho de banda para la seal
de vdeo de 5 5,5 MHz.
Dcpendiendo del mtodo de transmisin utilizado, los sistemas PAL se identi
fican como B-PAl, D-PAl, G-PAl, H-PAl e I-PAL. las principales diferencias
entre las distintas versiones de PAl son los anchos de banda de la seal de lumi
nancia y de la banda superior de la crominancia transmitida. En general, slo hay
una versin de PAL en Jo que al trabajo en el estudio se refiere. Adems de estas
versiones de PAl, que son compatibles entre ellas, existen dos versiones especia
les e incompatibles de PAl, denominadas M-PAl (525 lncas y 60 campos con
codificacin de! color PAl, utilizada en Brasil) y N -PAl (una versin de banda
estrecha de 625 lneas y 50 campos, utilizada en Argentina y Uruguay). En los dos
casos (M-PAl y NPAl) la seal se limita en su ancho de banda para ser transmiti
da por canales de RF de 6 MHz. En la produccin de programas en el estudio se
trabaja con "NTSe normal" en Brasil y "PAL-Europeo" en Argentina y Uruguay y
se transcodifica a "PALlocal" antes de su emisin.

Resumen
El primer paso para convertir las componentes en seal compuesta consiste
en atenuar B - Y al 49% y R - Y al 88%. las seales diferencia de color, as
atenuadas, pasan a llamarse U y V en e! sistema PAl e I y Q en e! sistema
NTSC. Esto se hace para que, cuando finalmente se sumen a la luminancia, la
seal compuesta no supere el 33% el pico de blanco ni quede por debajo de!
33% del nivel de negro.
En e! sistema NTSC, I y Q modulan, por separado, dos subportadoras de color.
Ambas subportadoras son idnticas en amplitud y frecuencia (3,58 MHz en e!
sistema NTSC), pero difieren en fase: estn desfasadas 90 grados. Las dos sub
portadoras moduladas por R -y YB -y ponderadas son sumadas a continuacin.
Midiendo, o muestreando, la subportadora de color en los momentos ade
cuados, e! receptor puede recomponer los valores individuales de R - Y Y
B .- Y a partir de la seal de crominancia. A este proceso se le denomina
"demodulacin sincrnica". El receptor conoce cuales son estos momentos
adecuados gracias al burst.
Puesto que B -y Y R -y han modulado dos portadoras en cuadratura de fases,
la suma de ambas genera un vector, cuya amplitud puede calcularse como:
K YU1 + tl.'Igualmente es posible calcular e! angulo o fase de dicho vector:

a =

areta

JL

V
En NTSC los ejes B - Y Y R - Y son rotados 33 grados en sentido antihorario,
para optimizar el ancho de banda de la crominancia y adaptarlo mejor al sis
tema de percepcin visual humano.
92

Los sistemas Je tcle\ I~in

El ltimo paso consiste en sumar la subportadora de color a la seal de lumi


nancia, para obtener as la seal compuesta. Esta seal, denominada eVBS
(Color- Video, Blankina and S)'nes), se obtiene sumando la luminancia y la cro
minancia. A su vez la crominancia se logra sumando las componentes I y Q o
U)' V, segn el caso, previamente moduladas.
Existe un formato intermedio entre las componentes y los sistemas como
puestos: e! y / e, S-Vdeo o S, VHS. Este tipo de seal de vdeo podra consi
derarse como un estado intermedio entre las componentes de color y la seal
compuesta, tanto en lo que se refiere al nmero de etapas de procesado que
sufre la seal de vdeo como en cuanto a la calidad que ofrece la imagen.
El sistema PAL, que naci doce aos despus que el NTSC, resuelve automa
ticamente los errores de matiz que pudieran producirse por giros de la fase
de la subportadora de color con respecto al bum, durante la transmisin.
Para corregir los errores de fase de la subportadora de color, que se traduci
ran en errores de matiz en la pantalla de! televisor, el sistema PAL invierte la
polaridad del vector V lnea a lnea, es decir, durante una lnea se envla R -y
normalmente; en la siguiente, con e! signo cambiado; en la siguiente, normal,
etc.
El proceso anterior no es perfecto, ya que produce, por un lado, prdida de
resolucin cromatica vertical, lo cual es perfectamente asumible, y, por otro,
ligeras desaturaciones del color, las cuales son mucho menos molestas que los
errores de matiz. El bUTSt se encarga de decirle al receptor qu lneas estn
afectadas por la inversin de! eje R - Y.
Al igual que el PAl, e! sistema SEeAM fue creado despus que e! NTSe y
supone una mejora, con respecto a ste, en lo referente a los errores de fase.
Tambin, igual que el PAL, el SEeAM se basa en la presuncin de que la cro
minancia de dos lneas consecutivas no cambia mucho y, si lo hace, el ojo
humano no es capaz de apreciarlo.
En SECAM las dos seales diferencia de color se envan alternadas, es decir,
en una lnea R - Y, en la siguiente B - Y, luego R - Y, etc. En este sistema se
utiliza la modulacin en frecuencia en lugar de la modulacin en amplitud que
utilizan los sistemas PAl y NTSC.
la eleccin de la frecuencia de la subportadora de color es un factor crtico
en los sistemas compuestos: debe ser lo ms alta posible, a efectos de produ
cir un patrn de puntos sobre e! receptor de blanco y negro lo ms fino posi
ble. Adems la subportadora y sus bandas laterales deben ubicarse en el espec
tro de la seal de vdeo (4,2 MHz en e! caso americano y 5 5,5 MHz en el
europeo). En concreto, se ha elegido una frecuencia de 3,58 MHz para NTSe
y de 4,43 MHz para e! PAL.
la relacin matemtica entre la frecuencia de la subportadora y la frecuencia
de lneas genera la conocida "secuencia de color", o "colouTjraminB", que es de
cuatro campos en NTSe y de 8 campos en PAL. Esta secuencia de color
puede imponer ciertas limitaciones en el trabajo del montador de vdeo.
El hecho de que la imagen de vdeo se descomponga en campos y lneas supo
ne que la informacin espacio-temporal est muestreada (descompuesta). Por
93

Tf:t~NOl ocL" ACTUAL DE TELEVISiN

esta razn su espectro es discontinuo, de manera que la energa tiende a agru


parse a mltiplos de la frecuencia bsica de muestreo, que es la frecuencia de
lneas.
Gracias a lo anterior se crean huecos, que son aprovechados por los sistemas
de color, para ubicar la informacin de crominancia. El espectro de la seal
PAL es ms complejo que el de la seal NTSC, como consecuencia de la
mayor complejidad de la relacin entre la frecuencia de la subportadora de
color y la frecuencia de lneas. Esto, a su vez, es consecuencia de la inversin
de polaridad de R - Y lnea a lnea.

I
CAPTULO

La digitalizacin
1. Ventajas de los sistemas digitales
El cambio de la televisin analgica a la televisin digital no se produce porque
esta ltima sea ms novedosa o ms sofisticada. Se produce porque la televisin
digital aporta ventajas notables con respecto a la televisin analgica:

TEcNICAS

Multigeneracin sin degradacin (1).


Fcil multiplexado de varias fuentes.
Predecible, reproducible y de calidad constante.
Tratamiento digital de errores.
Fcil almacenamiento, retardo y manipulacin.
Integracin en el entorno de ordenador.
Mejor utilizacin del canal (2).
Compresin de datos (3).
Posibilidad de autodiagnosis.

ECONMICAS
El precio de los componentes digitales se reduce cada ao.
(1) Mientras que las degradaciones de la seal de vldeo anal6gica (ruido, distorsin, intermoduladn, errores de tiempo, etc.)
son acumulativas y dificiles de distinguir de la propia seal, la posibilidad de regenerar el tren de pulsos digitales hace que la. seal digi
ta.l sea virtualmente inmune a taJes defectos. Una. seal binaria slo puede presentar dos valores posibles, de forma que cualquier otro
valor de ilmplitud puede ser considerado como una degradacin producida por el canal de transmisin o grabacin. Esto hace
que, a diferencia de 10 que sucede con ta. seal Ulalgica, las alteraciones de la amplitud de la seal sean separables de la infor
macin origInal. Por la misma razn es posible separar el ruido de la informacin tiL Puesto que el cambio de estado de la seal
binaria slo puede ocurrir en determinados momentos, tambin IOIi errores de tiempo (}Juer) son separables de la propia seal.
En definitiva, un bit es un bit con independenCia de su forma!
(2) Es posible "modelar" el espectro del canal de grabadon o de transmisin mediante el procesado de los datos (aleatori2.a
dn). Esto supone una utilizacin ptima del canal digital.
(3) La compresin de datos se basa. en la eliminadn de la redwl<ianda, la cual es mucho ms fici.l de detectar en el dominio digital.

94

95

La digit-lj/.J.ch'm
TECNOlOGlt\ AC1U\L Dl rlLEV)SI;:",--'

PRODUCCIN
Muy aJ'Gnzado: Existe todo tipo de equipos y normas digitales: En la actuali

No necesita ajustcs.
Sinergia informtica (4).

1.1. Ubicuidad de los sistemas digitales


Poco a poco los sistemas digitales se han ido haciendo ms presentes en la trans
misin de informacin. En la actualidad es posible transmitir cualquier tipo de
informacin mediante bits. Esta polivalencia de lo digital es, quiza, su mayor ven
taja.
En el pasado, cuando se empleaban medios analgicos de grabacin 'j transmi
sin, cada tipo de informacin precisaba de su propio 'j difcrente canal. El canal
tena que estar adaptado a las caractersticas de la informacin. As los canales de
voz eran distintos de los de radio y stos, a su vez, de los de televisin. Una vez que
una informacin ha sido digitalizada, slo tcnemos bits. No importa de donde pro
cedan o lo que signifiquen; slo son bits y se pueden transmitir por un mismo
canal. Un canal digital permite transmitir (o en su caso grabar) imgenes, sonidos,
voz, texto, grficos y cualqUier otro tipo de informacin, de la misma forma que
un disco de ordenador puede contener sonidos, imgenes, textos, etc.
En la tabla que sigue se muestra la evolucin en la transmisin de la infor
macin, mediante canales electromagnticos, durante los ltimos ochenta
aos.
Tabla 4.1 Evolucin "de analgico a digital" durante el siglo Xx.

Tipo de
Informacin
Cdigo
natural

1920
1940
1950
1970
1990

VOZ

MSICA

Frecuenc~s Frecuenc~s

TEXTO

DATOS

IMAGEN
FIJA

IMAGEN
MVIL

Cdigo
numrico

Frecuencias
visuales

Frecuencias
yisuales
espaciotemporales

--

Analgico
Analgico
Digital
Digital

Analgico
Analgico
Analgico
Digital

acsticas

acsticas

Cdigo
alfabtico

Analgico
Analgico
Analgico
Digital
Digital

Analgico
Analgico
Analgico
Digital
Digital

Digital
Digital
Digital

Digital
Digital
Digital

2. Situacin de la televisin digital


La situacin actual de desarrollo de la televisin digital varia dependiendo de la
fase de aplicacin: muy desarrollada en produccion/posproduccion, bastante des
arrollada en transmisin e inicindose en emisin:

(4) Los equipos basados en "pe" resultan mucho ms econmic05 que Jos "dedicados", Muy pronto veremos un pe 3.!>ocia.
do a prcticamente cualquie:T proceso de produccin o posproduccin de televisin

dad existe todo tipo de equipos de produccin de televisin en formato digi


tal, desde cmaras hasta mezcladores, telecines, OVE, tituladoras, paletas
grficas, magnetoscopios, conmutadores, matrices, codificadores, etc. Igual
mente existen normas de produccin de televisin digital, tanto para vdeo
compuesto como para componentes. Las normas digitales compuestas han
sido prcticamente abandonadas a favor de las normas por componentes.

TRANSMISIN
Medianamente OI'a nzado : El CCIT recomienda los niveles "L3" (34 Mb / s) )'

"L4" (140 Mb/s) en Europa, 44 Mb/s en Amrica y 32 Mb/s en Japn. Para


la transmisin pW1tO a punto se puede comprimir el tren binario desde los
216 270 Mb / s a 34, 69 140 Mb/ s, sin prdida subjetiva de calidad, lo que
supondra ocupar un U, dos U o un L4 de la jerarqua del ISDN. En gene
ral, estos sistemas utilizan factores de compresin muy bajos (4: 1 5: 1 como
mximo), con lo que la imagen descomprimida se puede editar y procesar,
aunque no es recomendable la multigeneraci6n, sobrc todo si se emplean dis
tintos algoritmos de compresin.

EMISIN
Poco avanzado: S610 algunas propuestas y sistemas en fase de inicio: ATSC en
EE. UU. y OVB en Europa. La emisi6n digital supone un cambio de normas

de emisin y una renovacin del parque de receptores (o la compra de adap


tadores externos), por lo que su desarrollo resulta ms lento. En la actualidad
existen varias normas de emisin digital, orientadas todas ellas a la alta de!l
nici6n, as como a los servicios multimedia. De todas, la ms avanzada es la
conocida como "Grand Al!iance" (y actualmente como ATSC) de los EE.UU.
Tambin se est muy avanzando en un conjunto de normas de emisi6n digital
de televisin en Europa, conocido como OVB, el cual contempla variantes
para satlite, cable 'j difusin terrena. Los algoritmos de compresin permi
ten que el canal de emisin digital sea incluso ms econmico (desde el punto
de vista del ancho de banda) que el canal analgico.

3. Seales de vdeo y anchos de banda


En televisin se pueden encontrar diferentes tipos de seales, cada uno de los
cuales tiene sus propias caractersticas, limitaciones y aplicaciones. La figura
siguiente muestra como partiendo de una seal RGB se obtienen seales en com
ponentes y en vdeo compuesto.
Para una norma de 625 lineas, rclacion de aspecto 4:3 y 50 campos por segun
do, con un factor de entrelazado de 2: 1, el ancho de banda de la seal RGB se eleva
por encima de los 1.5 MHz, ya que cada uno de los primarios debe tratarse con
total ancho de banda. En la prctica, cuando se trabaja en RGB el ancho de banda
suele ser an mayor, ya que se utilizan los primarios tal como los proporciona la
97

96

"J

La dipitah'laci6n
ECNOl-oclA ACfUAl DE TELEVISI/)N

:}~

la1 , 1,
"R"[

["8"

TODAS CON ANCHO


DE BANDA TOTAL
(MAS DE 15 MHz)

INVERSOR

SEALES DIFERENCIA
DE COLOR CON ANCHO
DE BANDA REDUCIDO

(MAS

~ Filtro paso bajo

D~}1~:'HZ)
"BY"

JUL

'.~

l''

~-

1..

(j..J-4:ot-...,:::>o::

Z=!ljOCZo!:;!C!J

~~ ~~Ci ~
"':>
'"
'"

ROJO

OOZW<O-'O

:>

"R-Y"

JL

COMPUESTO

COMPONENTES

PRIMARIOS RGB

1,33

+T.7-
.

,,0
-0.7--

VERDE

+O#89~_MODULADOR EN
CUADRATURA
(PALO NTSC)
SUBPORTADORA
+ SINCRDS

B-Y
SEAL COMPUESTA
NTSC O PAL
(ENTRE 4,2 Y 5.5 MHz)

Figura 4-.1.

Anchos de banda en funci6n del tipo de seal de vdeo.

cmara, es decir, sin filtrar. Esto supone unos 8 MHz por primario. Para una seal
por componentes "Y", R - Y, B -Y, el ancho de banda estara en torno a los 10 MHz
como mnimo (5 MHz para la luminancia y la mitad para cada una de las seales
diferencia de color). Una seal compuesta PAL ocupa s610 5 6 5,5 MHz.
En la actualidad la tendencia es tomar imgenes en RGB, procesarlas y grabar
las en componentes y emitirlas en compuesto. De esta manera se obtiene la mxi
ma calidad en los procesos de produccin y posproduccin y el mayor ahorro de
ancho de banda en la emisin. Los futuros mtodos de compresin permitirn la
emisin digital por componentes.
La conversin a componentes es una forma de reduccin de la informacin,
basada en la limitada resolucin cromtica del sistema de percepcin visual huma
no. Dicho de otra manera, las componentes digitales son una forma de compresin
analgica.
Reduciendo an ms la informacin de crominancia e intercalando los espectros
de luminancia y crominancia, se obtienen los sistemas compuestos. Estos sistemas
se basan en la compatibilidad con la seal de blanco y negro y, aunque fueron una
buena solucin en su momento, en la actualidad tienden a desaparecer. De todas
formas, an pueden subsistir durante un perodo que puede llegar a los 10 aos.
Vamos a ver, como ejemplo, las barras de color en formato RGB, componentes
y compuesto:
Las ocho barras de color pueden entenderse como combinaciones binarias de
los tres primarios RGB: En la tabla siguiente, un "1" en una columna determinada
98

-O 89

AZUL

Figura 4-,2.

Las barras de color normalizadas en formato RGB, componentes y compuesto.

significa que ese primario est presente en el color de la columna correspondien


te. Un "O" significa que el primario de esa columna no contribuye a la formacin
del color.
Como puede verse, la tabla de la
izquierda genera los tres colores pri
marias, los tres colores complemen
tarios, el blanco y el negro.
Las ecuaciones que permiten pasar
de los primarios RGB a las seales com
ponentes son:
y = 0,30R+0,59G+0, 11B
R -y = O,70R-0,59G-0, 11B
O 1
B - Y = -0,30R-O,59G+O,89B
R, G Y B contribuyen con distinto
peso al valor de la luminancia, en
funcin de la diferente sensibilidad
1 O O del ojo a estos colores (figura 4.3)
La seal compuesta se obtiene suman
do a la luminancia la ilormacion de
O color. As se logra la mxima compacta
cin de la seal y el mximo ahorro del ancho de banda, lo cual es muy importante a

Tabla 4.2. Formacin de las barras de color a


partir de Jos primarios RGB

R G B

BLANCO
AMARILLO
ClAN
VERDE
MAGENTA
ROJO
AZUL
NEGRO

1
O
1
O 1 O
1 O 1

1
1

1
1

O O 1
O O

la hora de emitir la seal.


99

TI.:C-:OLOG!A ACTUAL D[ 1 [L[\ISI~

La dlfltJJiza.C'n

o--,
O
--l

<t:

-.J

c::o ,
(1)

Z
W

(1) ,

LONGITUD DE ONDA

Figura 4.3.
Sensibilidad relativa a los primarios RGB.

4. Definicin de analgico y digital


4.1. Analgico
Analgico y digital son trminos utilizados muy frecuentemente, aunque no
siempre se entiende bien su significado. Se definen como analgicos aquellos
procesos y sistemas que resultan ser una analoga del hecho fsico que repre
sentan.
En la grabacin de audio la corriente elctrica generada por el micrfono es
una analoga de las variaciones de presin que inciden sobre su membrana.

AUDIO

~
1m- l 11//1

~~
[1
TIEMPO

~J

()'
r~!1
I rr/~
r~~h.. ,. /.~
-~.

'c.

0''

ri''V

x-0 /

_ TlEM~__ ...

Figura 4.4.

Ejemplo de proceso analgico.

100

l\ !\

1/' V \

::"'"

La primera emisin de televi


sin a partir de material graba
do en un magnetoscopio tuvo
lugar en los estudios de la
de Nueva York el 30 de
noviembre de 1956. Tres horas
ms tarde el mismo programa
(Douglas Edward and the
News) fue emitido desde los
estudios de la
en
Hollywood, para los especta
dores de la costa oeste (foto de
la izquierda). En los meses
siguientes otras emisoras im
portantes de EE. Uu. siguieron
el ejemplo de la ces.

ces

VDEO

Igualmente los patrones de intensidad y direccin magnctica grabados en la


cinta son anlogos a la corriente elcctrica aplicada a la cabeza de grabacin.
Durante la reproduccin el flujo magntico captado por la cabeza es converti
do de nuevo en una corriente elctrica, la cual vuelve a ser una analoga de la
informacin original. A la salida del magnetfono obtenemos otra vez variacio
nes de presin en funcin del tiempo (figura 4.4). La analoga se mantiene
durante todo el proceso.
En vdeo la analoga es menos evidente, pero existe tambicn. Puesto que la
informacin de vdeo vara en tres dimensiones (horizontal, vertical y temporal),
es necesario descomponer dos de ellas para poder representarla mediante una
seal elctrica, que slo vara en una direccin (el tiempo). La direccin vertical
se descompone en lneas, mientras que la temporal se descompone en campos.
Esto hace que la analoga slo se mantenga en la direccin horizontal, por lo que,
en cierto sentido, se puede decir que la seal de vdeo analgica se descompone o
discretiza en las direcciones vertical y temporal.
Los sistemas muestreados o discretizados son siempre ms robustos que los ana
lgicos puros (continuos). Por ejemplo, la degradacin que se produce al grabar
una seal de vdeo en una cinta VHS afecta mucho ms a la resolucin horizontal
que a la vertical o a la temporal. Esto se debe a que estas dos ltimas dimensiones
estn discretizadas, muestreadas y en cierto sentido digitalizadas.
La fotografa es una informacin analgica, ya que resulta ser una analoga
directa del hecho fsico que representa. Al menos en un caso ideal, la fotografa est
formada por un nmero infinito de puntos y a cada punto le puede corresponder
uno entre infinitos valores de gris (Figura 4.5).

....

::-:----..

~
-

,
,

.
..

~ ... ,~

ces

Figura 4.5.

Ejemplo de informacin analgica (a la izquierda) y digital (a la derecha).

101

La digitalizacin
Tl:CN( lLOGIA hCflV\L l)E"JEt E\'1~16N

15
14 __

4.2. Digital
El texto, en cambio, es una informacin digital, ya que est representada
mediante un cdigo. En el texto slo hay informacin all donde existe una letra
(si consideramos la direccin horizontal) o all donde existe una lnea (si conside
ramos la direccin vertical). Adems cada letra slo puede tomar uno entre 25
valores permitidos, ue manera que la informacin digital es discreta o discontinua,
tanto en el tiempo (que en este caso corresponde al espacio) como en las amplitu
des (que corresponden al alfabeto en el ejemplo del texto).
El texto es una informacin codificada. Responde a un cdigo bien definido y
perfectamente conocido por el emisor y el receptor, exactamente igual que el
vdeo o el audio digital. A menudo es interesante pensar en las caractersticas, ven
tajas y problemas de la comunicacin oral o escrita para entender mejor las sea
les digitales.
Si fotocopiamos repetidamente la fotografia y el texto nos encontraremos con que
al cabo de pocas generaciones la fotografia se habr convertido en una mancha borro
sa, mientras que el texto (que tambin habn\ degenerado) sigue teniendo el mismo
significado. Fotografiar la fotocopia de la fotografia no sirve de nada, mientras que el
texto se puede volver a rescrihir en cada nueva generacin. Siempre que se hace una
copia "de digital a digital" la informacin se regenera totalmente. Esto es lo que hacen
los magnetoscopios digitales cuando se realiza una copia o una edicin e!ectrrca: en
lugar de copiar directamente los bits que le entrega el reproductor, la mquina graba
dora genera bits nuevos, a partir de los antiguos, antes de grabarlos en cinta.

S. Conversin A/D
La mayora de las imgenes son en su origen analgicas, por lo que se necesita
convertirlas a digital, en un proceso denominado "conversin AjD", "digi~aliza
cin" y, en ocasiones, "codificacin":
El proceso de conversin AjO se logra en dos pasos:
El muestreo.
La cuantificacin.
El muestreo discretiza (convierte en muestras instantneas) la dimensin tem
poral de la seal anal6gica de entrada, mientras que la cuantificacin discretiza e!
rango de voltajes. El proceso completo puede entenderse como si alguien midiera
la amplitud de la seal de entrada a intervalos regulares de tiempo y expresara el
resultado con un nmero limitado de dgitos.
Por tanto, hay que tomar dos decisiones:
Cuntas muestras por segundo?
Cuntos bits por muestra?
El nmero de muestras por segundo, es decir, la frecuencia de muestreo, est
relacionado con el "ancho de banda", mientras que el nmero de bits por muestra
depende de! rango dinmico de la seal a codificar.
En la figura 4.6 puede verse una forma de onda que es muestreada o medida a
intervalos regulares. A continuacin cada muestra se convierte en un cdigo binario.

13
12.

. 11

. 10

r~

4-

:;(1

3
2

~.

0\ 1

>!

0--1

T1

11

11

11

T2 T3 T4

1I

11

11

T5 T6 T7

11

re

11
11
11
11
11
II
II
II
l'
".
T9 TlO T11 T12 T13 T14 T15 T16 T17 n8

3-...
t1. . L J .. . l rfi. ,~ ~ .L .1-...i.-l ~- ,LQ .11 - .1Q. JL .L
0101011001110111011'0110010'0100001101110100 01111001 10111011 1011 1010 1000
TIEMPO

--------.,

Figura 4.6.

El proceso de conversin se inicia tomando muestras a intervalos regulares.

5.1. El muestreo
El proceso de muestreo puede entenderse como la multiplicacin de la seal de
entrada por una seal impulsiva (la seal muestreante), que vale cero en todo
momento, excepto en los instantes de muestreo, en que vale uno (figura 4.7).

O,
:>

SEAL

DE ENTRADA

:J
lL

::

TIEMPO

IJJ_UJ._LL1Jl\lJJ-~

SEAL
MUESTREANTE

TIEMPO

RESULTADO DEL
MUESTREO

TIEMPO

Figura 4-.7.
Arriba se muestra la seal de entrada, mientras que en el centro puede verse la seal mues
treante, consistente en un tren de impulsos. Si ambas seales se multiplican, el resultado es un
tren de impulsos modulados (Pulse Amplirude Modulation).
103

102

TCCNOLOGIA ACTLJ:'\L DE

Tn"I~:\J;'JSl!'IC~)N~'

Como consecuencia, la seal muestreada valdr cero en todo momento, excep


to en los instantes de muestreo, en los cuales su valor corresponder al de la sei'al
analgica de entrada. Puesto que se trata de multiplicar la seal de entrada por
unos pulsos instantneos, se obtiene un tren de pulsos modulados en altura, es
decir, en amplitud.
Lo anterior eqUivale a la modulacin en amplitud de los impulsos de la seal
muestreante por la seal de entrada. Por esta razn a la seal muestreada se la
conoce tambin como "seal PAM" (Pulse Amplirude Modulation o modulacin de
impulsos en amplitud).
De la misma forma que en la AM de radio se producen bandas laterales por encima
y por debajo de la portadora, tambin en el proceso PAM se producen bandas laterales,
slo que en este caso la fi'ecuencia portadora es la frecuencia de muestreo. Para enten
der el efecto de las bandas laterales es necesario conocer los espectros de la seal de
muestreo y de la seal de entrada. El.espectro de la seal de entrada es el de la propia
sei'al de vdeo y su comprensin no suele plantear problemas. El espectro de la sei'al de
muestreo es algo ms complicado, como consecuencia de que dicha sei'al es disconti
nua, lo que supone que su espectro ser igualmente discontinuo
Una funcin peridica temporal f(t), como la seal muestreante, se puede des
componer en una serie de Fourier:
FACTOR REAL
f(t) = aol2 + a, coswt + a, cos 2wt + alcos 3Jt..... a,cos nWt
b, senWt + b, sen 2Jt + b l sen 3wt.. ... b, sen nWt
......

FACTOR IMAGINARIO
Un impulso rectangular puede considerarse como una funci6n par (simtrica),
en la que f(t) = f( -t), de forma que los coeficientes bn son cero, quedando slo los
trminos en coseno (factor real).

; t(t)

fl
I
I;l
-IL_Ji_J
,

Figura 4.8.
La seal impulsiva muestreante puede entenderse como una
funci6n par.

/JJJ LJ JJ:-+ lllJ llJ llL_.

~2.-.J

2T

3T

4T

5T

Cuando la duracin del impulso tiende a cero, todas las componentes adquieren

el mismo valor, de manera que el espectro se compondr de una serie infinita de

1/1',
lneas espectrales situadas en los armnicos de la frecuencia de muestreo fa
todas ellas de la misma amplitud.
Puesto que los impulsos rectangulares no poseen valores negativos, aparecer
una componente continua en el espectro, de frecuencia cero.
La teora de los prrafos anteriores puede entenderse mejor con ayuda de la
figura 4.10. A la izquierda puede verse, a modo de ejemplo, -la formacin de una
onda cuadrada, a partir de cosenoides de frecuencia creciente. Eneste caso la onda
cuadrada se obtiene sumando una cosenoide de la misma frecuencia y aml;m:ud que
la onda cuadrada, ms el tercer armnico con un poco menos de amplitud, ms el
quinto armnico con amplitud an menor ...

ONDA IMPULSIVA
Cualquier seal peridica
se puede descomponer en
seales senoidales o
cosenoidales puras

ONDA CUADRADA

JV\I\.I\NVVV'
+

.J\f\.I\.NI.NVV

~
I_L l_l LL L.LL

F, 3F, 5F, 7F, 9F, 11F,13F,15F,


FRECUENCIA

r,I1

~!J:~til.il(JQU

6T

7T

2Fo 3Fo 4Fo 5Fo 6Fo 7Fo 8Fo 9Fo

Figura 4.9.

Representaci6n temporal y frecuencial de la seal impulsiva.

+ / \ .! \
+
+

i " :' \

\, \

: ' " \

i \

: \. / \

"o

\.

\./

\ ....

(\J\(\: Irl! VI/'JI) If\ 1\1\(V\M\f\f'iII\f\ I\!\I\fIi\fV\l\/I/\


+ f\!\/\N\(\(I/I{\f\f\f\!IIW\\fV\{V\iVW.J\/II\iVI/VVlf\1I!1

+ !\lVWVIMlM!\IVIMf\lINI!\f\!lr\,~NWJWIfI!WiJlfV\i\i\
+ :W\i'vW,MnlJ\I\!\rJ\fIJIJ\IWi!V\IV'I'\n!l!vWVV\M~,f,IIMi\1\
+ MrVIMNV\fI!WJ\fIf,I\jr1,WII\'WvWIMIWilf',WJWV'II\M/VI

=llll

JJ .
11.J_J J.

IIJ._

F, 2F, 3F, 4F, 5F, 6F, 7F, 8F, 9F,

FRECUENCIA

Figura 4.10.
Descomposici6n de ondas complejas en series senoidales.
A la derecha de la figura 4.10 se muestra como obtener una seal impulsiva (que es
la que nos interesa) a partir de sei'ales eosenoidales. Aqu, adems de la cosenoide fim
damental, intervienen todos los arm6nicos y todas ellas eon igual amplitud.
Si una sei'al impulsiva se obtiene sumando todas las cosenoides, puede deducirse que
tal onda impulsiva puede descomponerse en eosenoides. En nuestro caso, la onda impul
siva es la seal muestreante que multiplica a la sei'al anal6gica de entrada.
En la figura 4.11 (a) puede verse el espectro de la seal de muestreo, el cual est
formado por rayas espectrales de igual amplitud, que se suceden a mltiplos de la fre
cuencia de muestreo. En 4.11 (b) se muestra el espectro de la seal de vdeo, la cual,
una vez muestreada, presenta el espectro de 4.11 (e), donde aparecen "copias" de la

104

lOS

T[eNOl Ol;IA An tlAL DL: TE! EV1SIN

(a)

..

L __.L L L_~~PE~;~~~:T~~EAL

Fo

O'

..

'.REcUENCIA
5.S MHz

APARENTE

ti
5.5 MHz I

Fo-5,5 MHz

(d)

(e)

Fo

t '\

2Fo

-~J

JFo

.Fo

Fo+5,5 MHl. '.


2Fo+S,5 MHz ",

2Fo-5,5 Mttl:
3Fo-5.5 Mkz ..

SI LA FRECUENCIA DE
MUESTREO ES INFERIOR
AL DOBLE DEL ANCHO
DE BANDA DE LA SEAL
A MUESTREAR, SE
PRODUCE SOLAPAMIENTO
ENTRE LAS COMPONENTES
DE ALIAS, EL CUAL
SE DENOMINA AllASSING

Figura 4.11.
Razones por las que puede producirse a]asin8 durante el muestreo.

seal de vdeo de banda base por encima y por debajo de las rayas espectrales de la
seal de muestreo. Estas "copias" se denominan "alias". Si la frecuencia de muestreo es
superior al doble de! ancho de banda de la seal muestreada, las copias o alias no se
solaparn entre ellas, ni tampoco con la seal de banda base, que vuelve a aparecer en
el espectro de la seal muestreada.
Durante la conversin digital-analgico se hace pasar la seal digital por un fil
tro paso-bajo como el mostrado en 4.11 (c). Este filtro permite individuali'lar la
seal de banda base, eliminando las alias. Puesto que no es posible o, al menos, no
es fcil construir filtros de corte abrupto, conviene dejar algo de espacio entre la
seal de banda base y la banda lateral inferior de FO. Si se mantiene e! ancho de
banda de la seal de vdeo, pero se reduce la frecuencia de muestreo, la seal de
banda base y la banda lateral inferior de FO, al igual gue las bandas laterales supe
riores e inferiores de los distintos mltiplos de la frecuencia de muestreo se sola
paran entre ellos. Este solapamiento se conoce como aliassina (figura 4. l1-d) Y da
lugar a la aparicin de "bajas frecuencias fantasma", que se Suman a la imagen. Un
diseo inadecuado del filtro paso-bajo de reconstruccin puede igualmente gene
rar aliassing (figura 4 .11-e).

5.2. Aliassing
El aliassina se produce siempre por una frecuencia de muestreo insuficiente. La
figura 4.12(a) muestra un ejemplo de aliassing espacial. En (a 1) podemos ver una ima
gen que contiene altas frecuencias en todas las orientaciones radiales, mientras que

15'"1_

30'
-"1

45

"(b1L~I~I~]-~1

ALIAS

... '.

~-...--

(a1 )

htn tfjbl~-----cn------..ESPE~~~~~R~~EAL
O

ALlASSING TEMPORAL
GIRO

"Fa"

ESPECTRO DE LA SEAL
~DE ViDEO

FILTRO DE PASO BAJO

(C)

3Fo

2Fo

ALlASSING ESPACIAL

FRECUENCIA

J.

(b)

La dipitalizacin

(a2)

GIRO

...@

('3)

.30'r

(b2)1f.1~1!]~1

Figura 4.12,

Ejemplos de a]iassin8 espacial y temporal.

(a2) nos muestra una estructura de muestreo similar a la producida en televisian,


como consecuencia de la exploracin por lneas. Cuando (al) y (a2) se unen, como
sucede en (a3), el resultado son productos de a]iassina, que se muestran como moars
de bajas frecuencias. Una vez que a una seal til se ha sumado aliassina, como en (a3),
resulta imposible separar la seal indeseable de a]iassina de la seal til sin mermar la
cantidad de informacin (resolucian) de la seal til.
Es frecuente ver en las "pelculas del Oeste" cama las ruedas de los carrua
jes parecen girar muy despacio, detenerse e incluso girar al revs. Este efec
to es consecuencia de que la imagen ha sido muestreada en el tiempo a 24 ips.
Si se muestran al espectador los cuatro fotogramas de la figura (b 1) en rpida
sucesin, tiende a percibir se la rueda como girando en sentido horario a 15
grados por fotograma, Para estar seguros del sentido de giro, pintamos uno de
los radios de negro. Ahora podemos ver que estos cuatro fotogramas son en
realidad consecuencia, de que la rueda ha girado 30 grados en sentido antiho
rario (b2). En este caso se ha producido "aliassina temporal".
De la misma forma que un malhechor utiliza varios nombres (alias) para escon
der su identidad y engaar a la justicia, una seal muestreada produce falsas sea
les (alias), las cuales pueden, si no se toman las precauciones adecuadas, enmasca
rar la informacian til, generando aliassina.
El aliassina es siempre un problema de incertidumbre. Imaginemos que el con
versor digital-analgico recibe un tren de pulsos como el mostrado en la figura 4.13
(a), a partir del cual debe generar una forma de onda que pase por los PWltoS de
muestreo. La solucin ms lgica e inmediata puede ser la mostrada en la figura 4.13
(b), donde la frecuencia de la seal reconstruida (f,N) resulta ser 1/4 de la frecuencia

106
\07

-: I:C;\'ULO(;i" :\CTUAL )E TElE\'I"\N

_____ liLili,gll~JllilciQ.B

(a)

\)

"

UNIDAD ARBITRARIA DE TIEMPO

2.

/\ 1\ /\ /\
\)

(b)

i
1
,1"
UNIDAD ARBITRARIA DE TIEMPO .

r,

(C)

L__ ~

UNIDAD ARBITRARIA DE TIEMPO

FRECUENCIA

0,5
1
1,5
FRECUENCIA (KHz)

0,75 KHz
(T=1,33 ms)

F...
A

0,5
1
1,5
FRECUENCIA (KHz)

FRECUENCIA

2. 4 6

e ()t'1oII1l'e1021}421i2B.103234)f;JII'IHH4(64~

FRECUENCIA

2..6

J.. .

,1.

e 1)t2'W1U3]oD}42{;:M:~m,}4lEiJIHO~.u~6Cl
FRECUENCIA

Figura 4.13.

Fs

iI

(b)
T

lJly.~

~A!\~tA~1A~~A

)\1!f/ MI\/r/ \IJYIM._\1.I\ij~'~/ ~(d)

UNIDAD ARBITRARIA DE TIEMPO

llllliUilili

2. ~ r; '!"'l?'I4'1'i'fl1l121tifi2ll)O:R;UlL\J11 40414HIHIJ

'. 1,

. L . ..LJ__

(a)
~

~ 6 8 tl'QWti":JIZ;>"'ifi2llXll1~36lUO~2.u"43

l.

\/ 1\)

FRECUENCIA DE MUESTREO = 1 KHz

(perlodo"r = 1 msl

1..

f'\,:, 'V\' ,Y,''1


"'1
"'," '"," , ,",
(C)",~,
"",;,'1
'1\ Ji !'\'I""'\
,',' j"
\'j',
1 ; \..'/ ' : ',
,', ,:

/\1:'
,

"

I "

"

"

'

,y

I I "i '
I 1,",":

I '
: 1
I
,

0,25 KHz
(T=4ms)
0,75 KHz
(T=1,33ms)

"1
,

"

"
1

i":'
'! 1

!'

,
1

,;
'

\' I

'",
'\'

~LJJ

0,5
1
1,5
FRECUENCIA (KHz)

i il i

F"

F. Fs

F"

0 . 7 5 , _ --" , . . ...
(T=1 33 ms)
0,5
1
1,5
2

,"
1

F. Fs

,! 1, I ,', !, 1,', ' ~75 KHz


:" "';,',
~':'~"'~'
'~:~'I'~'I,,(TO,57ms)
(d)!:,
";",,,j,.
i:',,,. ,i .,. 1
KHz

F"

FRECUENCIA (KHz)

Figura 4,14,
Relacin entre la frecuencia de la seal de entrada

y las frecuencias de alias.

Diferentes frecucncias de origen pueden gcnerar los mismos trenes de impulsos de salida si
no se toman las precauciones adecuadas.

de muestreo (Fs). Sin embargo, tambin la frecuencia (c) pasa por los puntos de
muestreo y sera, en principio, una solucin vlida.
Una forma de deshacer esta incertidumbre consiste en asegurar que antes
del proceso de muestreo ninguna seal contenga frecuencias superiores a la
mitad de la frecuencia de muestreo. Dicho de otra forma: asegurar que'cada
ciclo de la seal de entrada est representado por, al menos, dos muestras. Si
esto es as, durante el proceso de reconstruccin de la seal (conversin digi
tal-analgico) slo existir una forma de onda senoidal capaz de pasar por los
puntos de muestreo representados por los valores digitales. Si queremos
representar adecuadamente la forma de onda (c), deberemos aumentar la fre
cuencia de muestreo, tal como se hace en la figura 4. 13 (d).
Resulta interesante analizar la relacin entre la frecuencia de la seal de entrada y
las frecuencias de alias que pueden producirse. Adems de la propia seal de entrada,
cada tren de impulsos es capaz de generar dos seales "fantasma" o de "alias": una de
frecuencia igual a la frecuencia de muestreo menos la frecuencia de la seal de entra.
da y otra de frecuencia igual a la frecuencia de muestreo ms la frecuencia de la seal
de entrada. En realidad encontraramos infinitas seales de alias como las anteriores.
Concretamente, si llamamos "S" a la frecuencia de muestreo, "F" a la frecuencia de
entrada, "N" a cualquier nmero entero y "Fa" a la nueva frecuencia de alias, entonces
encontraremos Fa = NS F.
En el ejemplo de la figura 4.14 se ha utilizado una frecuencia de muestreo

de 1 KHz. Una seal de entrada de 0,75 KHz (la cual est por encima dellmi
te de Nyquist) generar los puntos de muestreo, indicados mediante pequeos
crculos en (b). El problema es que una seal de 0,25 KHz (c) generara tam
bin los mismos valores en los instantes de muestreo, de manera que sera
imposible saber si tales valores corresponden a la seal (b) o a la (c)
La frecuencia de la seal (c) es igual a la frecuencia de muestreo menos la fre
0,25 KHz). Si la seal de
cuencia de la seal de entrada (1 KHz - 0,75 KHz
entrada es menor que la mitad de la frecuencia de muestreo, la resta siempre ser
mayor que la seal de entrada, de manera que un filtro paso-bajo podr separar la
seal de entrada de la seal de alias. Adems se produce otra seal de alias en Fs +
F'N = 1KHz + 0,75 KHz = 1,75 KHz, pero sta es menos importante, ya que su
frecuencia est por encima de la de la seal de entrada, con lo que se puede sepa
rar fcilmente.

5,3, La cuantificacin
Una vez muestreada la seal, es necesario expresar el valor de cada muestra
mediante un cdigo (normalmente una palabra binaria) de longitud limitada. De
la misma forma que el muestreo representa la dimensin temporal, la cuantifica
cin sirve para preservar las amplitudes. Puesto que se utilizan palabras de longi
tud limitada, la precisin ser tambin limitada, por lo que la cuantificacin no
puede ser nunca exacta; en el mejor de los casos, ser una buena aproximacin al
valor analgico.

108

109

TI::CNOI-OGIA ACTUAl DE TI:! EVISIN

La dipitalizacin

Una seal analgica presenta un nmero infinito de posibles valores, entre un


mnimo y un mximo, mientras que la seal digital slo puede representar un
nmero limitado de valores, de manera que ser necesario redondear el valor de la
seal analgica al valor digital ms cercano.
En la figura 4.15 se han utilizado cuatro bits para representar cada mues
tra, de forma que pueden codificarse hasta 16 valores distintos (del O al 15).
Cualquier muestra que est por encima del umbral de decisin se redondea al
valor inmediatamente superior, come tindase un error por exceso. En caso
contrario, se redondea al valor inferior y el error ser por defecto.
Si llamamos "q" al valor de un intervalo de cuantificacin, el error mximo
cometido ser de 1/ 2q, ya que siempre usaremos el valor digital ms cercano.

"Ji-

15_

,I

13

U)12

---

~10

~ 9
a-: 8

~I

...J)

~ l-~I~

O 3

...J

~:1

:>

-- -

- I ---- ----/--.-1---1---

--~-----

~-= ~ ~~--

--- -

---

-0

- - - ~ --= =- - ---= -= ::-= == =I-I~-.-

. . . -----. ..

-- -

ERROR DE CUANTIFICACiN

TI T2 T3 T4

T5 T6 T7

'O
U)

--

I ~ T --------W!
;tI
-..:

(e)
4 BITS

:+F: 1'

lj-:--'-:-"-,

o.I-+~::l::

il~lt-c 1
Ill~

6ftE

TIEMPO

TIEMPO

\jI'>. \JI'>. 0" <J'\JI'>.,,'f' 0"

~~<~~q~~~~~~q~~~

ERROR DE CUANTIFICACiN

ERROR DE CUANTIFICACiN

ERROR DE CUANTIFICACiN

!I 8f1j------

(b)
3 BITS

TIEMPO

14

(a)
2 BITS

U)

...J

;?
(l)

::E

;:)

...

TB T9 T1D Tl1 T12 T13 T14 T15 T16 T17 T1B

L~LLL~5~~~4~~a~~LL

01010110 0111 0111 0111 ol1oi01 01000011 01116100 01111001 10101010101010011000

t1;MP-.O
Figura 4.) 5.

-_.-

-~-

--_.

Figura 4.16.

El error de cuantificacin decrece a medida que se aumenta el nmero de bits con que se

representa cada muestra.

----~

La cuantificacin es el redondeo de los valores de las muestras al valor admitido ms cercano.

~l nElero ~~_bit~Il_~.e~~ri9:" h~y_ que saber _c:l,l;I ~...~L val<~L4~I!1j49_Rer@i tidg_,en


una seal de vdeo de calidad profesional. En televisin se acepta como "buena" una
selacUyare1aci6n S/N est por encima de los 55 dB. La frmula que permite
conocer la S/N en televisin es:
Vs
S/N=20Iog
Vr
La frmula anterior significa que-taSIN dena seal de vdeo es igual a 20
veces el logaritmo de la relacin, entre el valor de la seal pico-a-pico (Vs) y el
valor del efectivo del ruido (Vr). Puesto que con cada bit de cuantificacin el error
se reduce a la mitad, la S/N mejorar 6 dB por bit utilizado (20 X l?g 2 "" 6). El hecho
de contemplar el valor eficaz del ruido, y no su valor pico-a pico, supone tener que
sumar a la S/N una constante de 10,8 dB. Por tanto, siendo "n" eLnmero de bits
~pteados, el valor definiti;:fu;~d;~.-~-_

\1 S/N

5.3.1. El ruido de cuantificacin

= 6n + 10,8 dB

'

Si deseamos una S/N por encima de SS dB, necesitamos utilizar ocho


bits/muestra (6 x 8 + 10,8 dB
58,8 dB). En algunas aplicaciones, como, por
ejemplo, en los telecines, mezcladores digitales, etc., se necesita una S/N ms alta,
por lo que la tendencia actual es utilizar diez bits/muestra en lugar de ocho.

En la figura 4. J6(a) se han utilizado dos bits para representar el valor de la seal
analgica, con lo que el peldao de ouantificacin "q" es igual a 1/4 del valor de la
seal "S". El error de cuantificacin ser J/8S. En 4.16 (b) se emplean tres bits,
lo que da ocho valores posibles, siendo el error de cuantificacin de 1/ 16S. Con
cuatro bits (4. J 6-c), el error de cuantificacin se reduce a 1/32S. Por tanto, cada
vez que se aade un bit se reduce a la mitad el error de cuantificacin.
Podemos entender el error de cuantificacin como una seal indeseada que se
suma a la seal til y que estar presente incluso despus de la conversin digital
analgico. Se habla, por tanto, de "ruido de cuantificacin".~oderdeterminar

5.4. El dither

~---,--------

El dicher es una seal de bajo nivel, tipicamente ruido blanco con una amplitud
de un nivel de cuantificacin pico-a-pico, que en algunas ocasiones se suma a la
seal analgica antes de ser muestreada. El diCher asegura que incluso la seal ms
pequea cruzar, al menos, un nivel de cuantificacin, de manera que los perodos
adyacentes correspondern a niveles de cuantificacin diferentes (figura 4.17)

I JO
111

.1,._~_shp~117_~C~l!
-~-,--.,- .~..!..!~~ -~-

.~--

---------

SIN DITHER

-"

0vf
-l-=/
JL
Lr
_ _ . _. _.. . _.

"'z
w-Q
.~

'"

>~8
::<0
::>w

CUANDO LA SEAL NO PRESENTA

SUFICIENTE AMPLITUD COMO PARA

PROOUCIRSE UNA MODULACiN "PAM",

EL DlTHER PERMITE UNA MODULACiN

DE ANCHURA DE IMPULSOS (PW'"

Figura 4. 17.

Aunque parezca extrao, un poco de ruido bicn calculado puede mejorar el proceso de digi

talizacin.

Cuando la seal de vdeo presenta altos niveles, el error de cuantilicacion es peque


io y puede entenderse realmente como ruido. A medida que la seal se hace mas peque
a, el error de cuantificacin se hace ms importante y comienza a correlacionarse con
la seal, es decir, el error deja de ser aleatorio y pasa a ser una funcion de la seal, lo que
significa que el ruido de cuantificacion se convierte en distorsin. Cuando la seal de
\1deo presenta muy baja amplitud se produce un efecto de contorneado o pasterizaci6n
de las imagenes, como consecuencia de que se utilizan pocos niveles de cuantifis:acion,
en areas relativamente grandes.
Si de alguna forma el crror de cuantificacin puede descolTelacionarse de la
seal de entrada, la seal cuantificada sera una funcin lineal de la seal de entra
da. Esta funcian de descorrelacin la realiza el dither, sumando un pequeo pedes
tal de ruido a la seal de entrada antes de ser digitalizada. La pequea cantidad de
ruido sumada a la seal hace que la respuesta del cuantificador sea imprevisible, lo
cuallinealiza la funcion de transferencia. Por el contrario, se produce una peque
a prdida en la rclacion seal a ruido, la cual resulta mucho mas tolerable que los
efectos de contorneado que se producira sin dither.

En el proceso de conversin digital-analgico se comienza por generar una


seal PAM a partir de los valores binarios de las muestras. En cste punto la seal
reconstruida presenta una apariencia escalonada, con transiciones bruscas entre los
diferentes valores de amplitud. Estas transiciones rpidas suponen la existencia de
coeficientes de alta frecuencia, que no estaban presentes en la seal original. Por
tanto, debemos hacer algo para "suavizar" la apariencia quebrada de la seal recons
truida. De esto se encarga el filtro paso-bajo de salida, el cual eliminara todas las
componentes de frecuencia que excedan la frecuencia de Nyquist. En ocasiones
este filtro se denomina "filtro suavizador".
El proceso de suavizado podda entenderse como si intentramos conectar los
puntos de amplitud representados por la seal PAM mediante una curva lo ms
suave posible (en trminos matemticos, la ecuacin de menor grado posible), de
forma que empleramos el menor nmero de puntos de inflexin y que todos ellos
fueran suaves Y simtricos (figura 4.18-c). Si en el proceso de muestreo se respe
t el criterio dc Nyquist, esta operacin de suavizado recompondr la forma de
onda origina1. Cualquier desviacin de la forma de onda suavizada (por ejemplo,
variaciones rpidas de nivel entre dos valores PAM) provendra de frecuencias por
encima del criterio de Nyquist
La labor de suavizado de la seal escalonada se realiza mediante un filtro paso-bajo,
cuya respuesta ideal es de tipo rectangular, con un corte abrupto a la mitad de la fre
cuencia de muestreo. La repuesta impulsiva de este tipo de filtros es una funcin
sen x/x, lo que significa que si a la entrada de este tipo de filtros inyectamos un pulso

-L

\' l .

(a)

112

M"'""'''''''
~.'

.....

'

<1':\ ~t ~
\)\)

,1'

\ '.<

\ ,.

.-cc=---- PUNTOS DE

( ('.tJ

"Y:

-/

..

:NODOS
INNECESARIOS

\j"> },.

'r'

\~\

MAL

,.,'

".~"'-"IIr- ....

r-. --.--T"

~\~

INFLEXiN

e,'

(e)

FORMA DE ONDA

J--'

1ENSGl-'ES

(b)

ORIGINAL
--F.ORMA.
. DEONDA

. '

TENSORES
ASIMTRICOS c-.

6. El filtro de reconstruccin
Una duda que suele presentarse en lo referente al proceso de muestreo es: qu
pasa con la informacin de la seal original, en los puntos comprendidos entre los
instantes de muestreo? Como es posible saber, durante la conversin digital-ana
logico, cual era el valor original de estos puntos no muestreados?

S-L

-- ., '
\~C-.\.' . __ ...I~_'<C

->'

BIEN
I

Figura 4.18.

Efecto de "suavizado" del filtro de reconstruccion.

113

TreNOlOGfA .... CTUAL DE THf.=VISJ()N

La di:Jitali~acjn

(/igw'a 4.19-a), a la salida obtendremos una seal de tipo senoidal cuya amplitud ir
decayendo paulatinamente (figura 4.19-b). Una caracterstica especialmente intere
sante de esta seal sen x/x es que vale cero en todos los puntos de muestreo, excep
to en el correspondiente al del pulso que la ha provocado, en el cual su valor es justa
mente el de dicho pulso. De esta forma la suma de todas las funciones sen x/x recom
pondr la forma de onda original, ya que en cada instante de muestreo la nica fun
cin sen x/x que aportar su valor es la del impulso correspondiente, mientras que
en los tiempos intermedios sern las otras funciones sen x/x las que proporcionarn
el suavizado necesario. Dicho de otra forma, cuando se eliminan de la seal escalona
da las altas frecuencias, lo que se obtiene es la seal suavizada original (figura 4. 19-c).
En la prctica este filtro paso-bajo de reconstruccin no presenta un corte
abrupto a la mitad de la frecuencia de muestreo. Por el contrario, se caracteriza
por una pendiente de atenuacin relativamente suave, lo que obliga a que las fre
cuencias ms altas permitidas en la seal de entrada sean algo inferiores a la mitad
de la frecuencia de muestreo.

-1

(a)
~
__~ILI

(b)

"

_"

"

~
+
+
+

110110111 - -

000100100~~
COMBINACION DE

TODAS LAS POSIBLES

TRANSICIONES

'--- FORMA

DE OJO

LOS ERRORES DE

AMPLITUD CIERRAN

EL OJO EN LA

DIRECCION VERTICAL

EFECTO COMBINA,

~~--~~--LPF

-;

LOS ERRORES DE ~
TIEMPO CIERRAN
EL OJO EN LA
DJRECCION HORIZONTAL

El diagrama de ojo es una forma sencilla y clara de medir la calidad de una seal
digital. Como en la mayora de las mediciones electrnicas, el eje horizontal repre
senta el tiempo, mientras que el vertical representa las amplitudes o voltajes.

L-.!

'"

001001000
110111011

7. El diagrama del ojo

"

001000100

--.j

-./ \

SEAL "sen x / x"

....- -

-/--~--~-\; - - - ; - - - -

'-"

r-/

----'

--t

CRUCES POR CERO ESPACIADOS A 1 I Fs

SUMA DE TODAS LAS SEALES sen xlx

(e)

Figura 4.19.
Un impulso rectangular pasado por el filtro paso-bajo se convierte en una funcin del tipo
sen x/x.

D~~;J:L~~~~S:>Mi
y DE TIEMPO

* * * * k

K:

Figura 4.20.

La suma de seales rectangulares filtradas genera una especie de "forma de ojo" que permite

analizar la calidad de la seal recibida.

El diagrama de ojo no es ms que la superposicin continua de las transiciones de


los datos del nivel bajo al alto y viceversa. Si inyectamos el tren de datos recibido en
un osciloscopio, el cual es disparado por una seal de reloj estable, las variaciones de
amplitud y el ruido cerrarn el ojo en la direccin vertical, mientras que las inestabi
lidades y errores de tiempo lo cerrarn en la direccin horizontal.
Mientras que el "ojo" presente una apertura suficiente, el receptor podr inter
pretar correctamente los estados binarios de la seal digital. Puesto que lo que
importa es la apertura del ojo, es posible tolerar ms inestabilidades temporales si
los errores de amplitud y el ruido son pequeos y viceversa. De todas formas, en
las aplicaciones reales suele especificarse un tiempo mlnimo y una amplitud mni
ma. Estos dos parametros forman una especie de rectngulo que se inscribe den
tro del diagrama de ojo.

8. Tipos de seales digitales de vdeo


RGB:

COMPUESTO:

Slo se utiliza en el interior de algunos equipos digitales,


como paletas grficas, CAD, etc.
Buena solucin a corto plazo:
- SMPTE-244M.

114

115

T::CNOLOGI" ACTUAL DI.

TELL\"I:,r"~N,-'

La mejor solucin a medio y largo plazo:'


ITU-R BT. 601 (CCIR 601).
Encoding parameters of digital television for stuclios.
EBU Techn. 3267E.
- Interfaces for 625line digital video signals,
SMPTE 125M.
- Bitparallel digital interface video signal 4:2:2.
La codificacin de la seal compuesta propone el muestreo y la cuantificacin de
una nica seal de vdeo (PAL, SECAM o NTSC). Tiene la ve;taja de que se pucde
intercalar directamente en un entorno analgico compuesto. Adems los equipos
compuestos son ms sencillos y econmicos que los equipos por componentes, Una
~ig!!:Ap.?r:a C0.!J1>l!.estom~ms 'lllcotra digital prcomponentes...Em~.fQ!!
tra, no resuelv~~.!.2roble!!!iLe;kUl!t.eI~;I,mbio-.de._tllllgr.am..~,}~
siqu!er~~se
empleara una fre<::t.J.~_ncia .de. rnu~.treQ y un; cQdificacinidentics~_Adems en el
montaje de programas digitalizados se producen los mismos problemas que en el
caso de la seal analgica compuesta: efectos de intermodulacin luminancia-cromi
nancia y secuencia de 8 y 4 campos para PAL y NTSC, respectivamente. Aunque este
tipo de seal digital tuvo su momento de gloria a finales de los 80 y principios de los
90, actualmente est cayendo en desuso, ya que en el trabajo en estudio se prefieren
las componentes digitales. De todas formas, an quedan equipos en produccin, por
lo que es til conocer dicha seal digital compuesta.
En la codificacin de la seal por componentes se muestrean y cuantifican tres
seales, es decir, Y, R - Y Y B - Y. ~-mo t:.9~,QSJJ)ssistems deteleyisin parten de
estas tres seales, se logra un mtodo mutuamente compatible. Adems la calidad
deJa seal digital por componentes es superior a la de la seal digital compuesta,
tanto en lo referente al ancho de banda de las seales diferencia de color como en
C:l:l.anto3rrud6d cuantificacin. gn la seilal digital por componentes desayarecen
los efectos de intermodulacin luminancia-crominancia', asrcomo fa-secuerd'4 u
.8 c;;p;;~: Algunos equipos digitalcs, como los g~neradores -de efectos, correcto
res de COloL)'_Sg!!:,.e;,~?Te~.genor,-mas,deben trabajar necesariamente por compp
ne~tes, ya que procesan por separado la luminancia y la crominancia.
Los principales organismos con competencias en la regulacin de normas de TV
digital son: European Broadcastin Union (EBU o UER), Society ?! Motion Picture and
Televisin EnBineers (SMPTE) y Telecommunication Standarization sector ?! the
InternationaI Telecommunications Unan (ITUR). Este ltimo hace las labores que
hasta 1993 vena realizando el CCIR (Comit Consultivo Internacional para la
Radiodifusin) .
COMPONENTES:

Resumen
Los sistemas digitales presentan ventajas, tanto econmicas como tcnicas,
con respecto a los sistemas analgicos.
Actualmente todos los tipos de informacin pueden convertirse a formato
digital, compartiendo as los mismos canales de grabacin y transmisin.
La televisin digital est muy desarrollada en las fases de produccin y trans
116

________________________________________ ~L2~l.gi1!111L..vi2!.!

misin punto a punto, mientras que se encuentra en fase de inicio en cuanto


a la emisin al espectador.
Al igual que en analgico, podemos encontrar seales digitales de tC'levisin
en formatos RGB, componentes)' compuesto, De ellos el ms empleado es el
de componentes digitales. El digital compuesto se utiliza cada vez menos y el
formato RGB digital slo se usa en grafismo.
Se entiende por analgica aquella forma de representar la informacin que es
una analoga del hecho fsico que representa, es decir, se mantiene una simi
litud fsica entre el hecho y su representacin.
Digital es toda forma de representar la informacin mediante cdigos num
ricos preestablecidos. Estos cdigos deben ser conocidos tanto por el emisor
como por el receptor. Ademas deben estar bien adaptados al canal de trans
misin.
Una de las principales ventajas de la televisin digital es su capacidad de mul
tigeneracin sin prdidas. Cada vez que S,.e. hace lJD- cQP-'::q~C!igi~u digi.l"
.k..s-cijg.l.dctricase regenera totalmente, eLdccjr. ~iC::l11.pre vQjven}Os il"g~ne
l:,ciQn~cero" .
La mayora de las imgenes son en origen analgicas, por lo que se tienen que
digitalizar. Las dos fases de la digitalizacin son: el muestreo y la cuantificacin.
El muestreo consiste en tomar muestras de la seal analgica a intervalos
regulares. El nmero de muestras por segundo o frecuencia de muestreo tiene
que ser, al menos, el doble del ancho de banda de la seal a muestrear.
Si no se respeta el criterio de Nyquist, se producir aliassinB, que no es otra
cosa que la aparicin de frecuencias fantasma, que se producen por interac
cin entre una seal de muestreo de frecuencia insuficiente y la seal anal
gica muestreada.
La cuantificaci<in~(,msis.te-el1e.()difkar-lasIllUCStras ..collun nmero limitado
d.~_.bits__Lt;; g.~ncra errores de redondeo, que se conocen como "ruido .de
.cuantificacin" .
fualQrdelruido _de cuantificacin disminuye 6 dB can cada bit extra utiliza
d.9 par_a cuantificar las muestras. En aplicaciones profesionales es deseable una
t.d-~lruid.o...decuantificaciu..de.al mcnos.55 dE.- EstOllOS conduce
<tlJtjli?ar como mnimo 8 bits por muestra.
Para mejorar ciertos procesos, especialmente los que utilizan operaciones no
lineales, es ms adecuado utilizar 10 bits por muestra.
~l dither es unaseald~Jui,<lo de bajo nivel que se suma a la seal analgi<.:a
a~eTa(fgitlizai6n_y.s\!..e-.~~gr~ 9..l.l<:_~I1.cI~~-Ja~~i}<lL 1l}MpC::.<.IIJe..a_cru
zar -L!ll.enos':!..J:t.Ili.y.~Lde c.ull!1 t !fl5,;acin .
El filtro de reconstruccin "s~a_vJ~:_~~0_~PA_M rectangular. .ste filtr~e
~t:!!<Lt!n.a:~sp.tteg<lJ!~~lsiv~sL~..~jp-Q Y-= sg!!E/~
El diagrama de ojo se utili~ara medir la ca~idad_ de_~~ii;~l __~!g!!a!~_~~nto
.!!ls "abieI~.e~!.~eL()io_'.m.s fc:iJ~~r~ept:ar los n:ros.dc los UllOS.
Existen normas que especifican los parmetros de las seales digitales com
puestas y por componentes. Los organismos reguladores ms importantes
son: EBU, SMPTE e ITU-R
117

CAPTULO

La norma 4:2:2
1. Introduccin
Al igual que sucede en el mundo analgico, tambin en digital hay dos formas
bsicas de codificar la seal de televisin: "en compuesto" y "por componentes".
Histricamente, la primera en normalizarse fue la seal de vdeo digital por com
ponentes y ser la primera que veremos aqu.
En un sistema analogico por componentes la informacion de la imagen viene
representada mediante infinitas variaciones de las amplitudes de los primarios
RGB o, ms comnmente, de las componentes Y, R -Y, B - Y, dentro de los lmi
tes fijados para cada seal. Es una caracterstica propia de los sistemas analogicos
que la degradacion de la seal a la salida es igual a la suma de todas las degrada
ciones introducidas por cada una de las etapas que tiene que atravesar. Esto supo
ne un lmite en el nmero de etapas que cada componente puede atravesar, antes
de que la calidad se deteriore tanto, que resulte inservible.
Tres son los tipos de distorsion que pueden empeorar la calidad de la seal ana
logica: distorsiones lineales, distorsiones no lineales y ruido. A stas habra que
aadir las inestabilidades de tiempo. En ambos casos una buena prctica tcnica
puede disminuir los efectos negativos sobre la seal de vdeo, pero nunca elimi
narlos completamente.
Por otro lado, la utilizacin de las componentes en el estudio, durante la pro
duccion y posproduccin, puede eliminar o disminuir algunos de los efectos inde
seables de la distorsiones, asociados a la seal compuesta. El precio que hay que
pagar es una mayor complejidad y coste en los equipos, en comparacion con los
basados en la seal compuesta.
Trabajando en digital, los defectos introducidos en la cadena de produccion
pueden limitarse a los generados por los procesos de conversin AID y DI A,
suponiendo que la seal es procesada, grabada y distribuida en formato digital y
119

TreNOl..oGi.".

AcrU.'\l DE - lL[V!SO:-:

que la codificacin a seal compuesta analgica se realiza una sola vez, justo ~ntes
de atacar al emisor de UHE En un sistema digital bien diseado las conversJOnes
A/D y D/ A (que son las que pueden introducir distorsiones) pueden limitarse ~n
solo paso, es decir, convertir a digital, hacer todo el trabajo en digital y convertir,
finalmente, a analgico.
La alternativa a la digitalizacin de las componentes es la "seal digital com
puesta", que se ver ms adelante en el prximo capitulo. Esta alternativa pudo
resultar atractiva en otro tiempo, como sistema econmico para evolucionar hacia
las componentes digitales. Actualmente el eqUipamiento en componentes digitales
es cada vez ms completo y asequible. Adems hay una tendencia hacia la distribu
cin e incluso la emisin en componentes digitales, ya sea con o sin compresin.

2. La norma 4:2:2
A principios de los SO la UER (Unin Europea de Radiodifusin) y la SMPTE
(su equivalente americano) se unieron para redactar una norma de televisin digi.
tal comn para todo el mundo, en un esfuerzo de unificacin sin precedentes. El
resultado fue una norma digital por componentes, conocida como 4:2:2, a partir
de la cual se derivan otras normas de la misma familia, tal como se ver ms ade
lante en este mismo captulo.
La norma 4:2:2 fue sometida a la aprobacin del CCIR (Comit Consultivo
Internacional para la Radiodifusin) y publicada por este organismo en 1982 con
el ttulo: Recomendacin 601: Parmetros de codificacin de televisin diBital para estudios.
Por esta razn la norma 4:2:2 se conoce tambin como "Rec 601" o "CCIR-601".
En 1993 se disolvi el CCIR y sus funciones fueron asumidas por otro organismo
ya existente: la "ITU- R", de manera que tambin es posible encontrar esta norma
bajo el epgrafe "ITU-R 601" (sobre todo en las publicaciones ms recientes).
Tambin suele emplearse la abreviatura DI, aunque esto es un tanto incorr~cto, ya
que DI corresponde a un formato de magnetoscopio digital.
En el documento inicial se recomendaba una resolucin de 8 bits por mues:
tra, aunque en la actualidad la tendencia es a utilizar 10 bits/muestra de forma
casi universal. Puesto que todava hay (y se sigue fabricando) mucho equipa
miento que utiliza S bits/muestra, en este libro se mostrarn ambos casos.

2. 1. Eleccin de la frecuencia de muestreo


El primer parmetro que tuvo que decidir el comit conjunto SMPTE/EBU (y
tal vez el que ms trabajo le dio) es la frecuencia de muestreo de las componentes
Y,R-Y,B-Y.

2.1.1. Frecuencia de muestreo de la luminancia


Para la seleccin de la frecuencia de muestreo de la luminancia en la seal por
componentes hay que respetar tres principios o criterios:
120

La

n~)rm;:_.:Ll~.(

pIXEL

*"1' RESPETAR EL CRITERIO DE NYQUIST


*"2' MUESTREO ORTOGONAL

l' e~: __J .'


1- -- .~:~ ~ ~ ~- .
/

._! .

...

-J

<{

u
::::
o::

UJ

>

'?-v

"'<v~<:(

0-' .

J:I

-*

~ 11
l_

'el :".1 [1

:. ,r 1, I f l ' : - ,
._ _-" l. J '-------' ,-----' 1_ L_ _
:':

[1 U II

[I.C:
-' :.1 :..1.1 ~j U ,. i~ L. L ::
_1

HORIZONTAL

,- I

=-~

:JLJ_~i-:,U

e; L' ...

l'.'

f--
1-'-

....1
~

3' FRECUENCIA DE MUESTREO UNIVERSAL

Figura 5.1.

La frecuencia de muestreo elegida debe proporcionar una parrilla de muestras que se alineen

ortogonalmente, tanto en el espacio eomo en el tiempo, y esto para las dos normas basicas de

televisin: 525/60 y 625/50.

l. La frecuencia de muestreo dcbe ser, por lo menos, igual al doble del ancho
de banda de la seal a muestrear (critcrio dc Nyquist). Puesto que hay nor
mas de televisin en que la luminancia alcanza los 6 MHz (L/SECAM y
](/SECAM), se necesita que la frecuencia de muestreo sea al mcnos de12
MHz.
2. Para facilitar el procesado en generadores de efectos, conversores de nor
mas, etc., es conveniente que las muestras se alineen formando parrillas de
filas y columnas (muestreo ortogonal). Esto significa que la frecuencia de
muestreo debe ser un mltiplo entero de la frecuencia de lnea. Dicho de
otra forma, la frecuencia de muestreo debe ser tal que una lnea contenga un
nmero exacto de perodos de muestreo.
3 .Par..Qbtener .una frecuencia de 1ll.~~jTt;Q.ivf:!:J.._~l.il.d!:.bg.s.e.r.m..ltiplv
detodas-las-frecucncias de lnea exi;tente.LeILelUlJ.ln<:IQ. _En la actualidad
existen dos normas bsicas: una con 525 lneas y 29,97 cuadros/ s y otra con
625 lneas y 25 cuadros/s, lo que corresponde a frecuencias de lnea de
15.734,26573 y 15.625 Hz, respectivamente.
NOTA: En el sistema americano de blanco y negro la frecuencia de lnea era exactamente de 15.750 Hz (30 x 525).
Cuando se introdujo el sistema NTSC se hizo de forma que la frecuencia de la 5ubportadora de color fuera un mltiplo
impar de la mitad de la frecuencia de lnea (455 X fL/2) y, adems, que la portadora de sonido se situara en un mltiplo
de l. mit.d de l. frecuencia de lineas por encima de l. ,ubport.dor. de color f,onido '" fcolor + 117 fl/2 '" 4,5 MHz.
Debido a la segunda condicion, la frecuencia de lincas no pudo mantenerse y se retoco a 15.734,26573 Hz, garantizn
dose aSl la compatibilidad. La cifra anterior est expresada con un error inferior a 10- 7 %.

Para poder generar una parrilla de pxel ortogonal, tanto en la norma america
na como en la europea, hay que encontrar un mltiplo comn de las dos frecuen
cias de lnea. E~ comn ml!!.?J~ui~J.h711.L(ji?LLll,62.u-t3.s~
121

TECNOLOGJA AC1UAI. CH' THf"'SIN

1 a norma 4:2:2

MHz, que est m~~!:._<!(bai~_~el.l:!i~~rio de l'1Y~1.!is!:J:l mnimo comn mlti


;loque, dem.~,.se_s.ital?Qr.SD_cin:E!_d~J..LMHzes 6.X2,2S.Mfu. :::::13,5 MHz.
.Esta es l<I:ecu.mt;:idt:..~1!estreo adoptada para la sl'iiitldelmninanci.a, JiWto _con la
norma de 525 lneas como en la de 625 lneas.

-~ta frecuencia de r!1U~stre()._~<:-p-[Q.ducen858 muestraspodne.-<;:QI!lple

.!~~~~a norma de 525 lneas y 864 mll~stra~P9r .lnea c0:r:!pJ~t<i. en la norma de 625

lneas.Veasefigura5. 2.

[m.c.m. de 15.734,26573 y 15.625 Hz

=2,25 MHz)

*6 x 2,25 MHz = 13,5 MHz

"* 13,5 MHz = 6 x 143


"* 13,5 MHz = 6 x 144

fLINTSC)
fl(PALJ

'"""''''''''' " 11
~-~_--~------r
864 MUESTRAS (625)

= 858

= 864

fL(NTSC)

fL(PAL)

L-- 429 MUESTRAS (~

Figura 5.3.
Disposicin de las muestras de luminancia y diferencia de color, en la norma 4:2 2.
Aunque la abreviatura 4: 2: 2 hace referencia a las frecuencias de muestreo de Y,
CB y CR, tambin podra entenderse como "por cada 4 muestras de Y, 2 de CB y
2 de CR" (vase figura 5.3). Por tanto, esta norma se caracteriza por presentar el
doble de resolucin horizontal de luminancia que de crominancia, mientras que la
resolucin vertical es la misma en ambos casos (CB y CR estn en todas las filas,
pero slo en una de cada dos columnas).

432 MUESTRAS (625)

[f3~5:6-:?5~5j .... [:iMPLIF-lcANooJ.... ..,.


Figura S.2.
El mnimo comn mltiplo de la frecuencia de lneas europea y de la americana es 2,25 MHz
y el m.c.m. que est, adems, por encima del criterio de Nyquist es 13,5 MHz.

2.1.2. Frecuencia de muestreo de CB )' C]{


Igual que sucede con las seales analgicas, se acepta que las seales diferencia
de color tengan un ancho de banda limitado, por lo que se muestrean a la mitad
que la seal de luminancia, es decir, a 6,75 MHz. Con esta frecuencia de muestreo
se producen 429 muestras por lnea total en la norma de 525 lneas y 432 mues
tras por lnea total en la norma de 625 lneas. Esta estructura de muestreo se repi
te a cada campo y cuadro. Puesto que se produce el doble de muestras de lumi
nancia que de cada una de las seales diferencia de color, las ltimas se toman coin
cidiendo con las muestras impares de la luminancia, o sea a la vez que la primera,
tercera, quinta, etc.
NOTA: Las frecuencias de mUestreo atadas estn pensadas para pantaJJas 4:3. Con la introduccin del formato 16:9
se ha propuesto que la frecuencia de muestreo se lleve en la misma proporcin en que se incrementa la relacin de aspec
to. Esto conduce a I 3,5 MHz )( 1,3 J
lB MHz (Iuminancia) y 6.75 xl, 33 9 MHz (crominanci.). 1,33 es la relacin
que hay entre 16:9 y 4:4, es decir, 16:914:3 = 1,33.

@X@)X@)X@X@)X

@X@)X@X@X@X

@)X@)X@)X@)X@X

@)X@X@)X@X@X

@)X@)X@X@)X@)X Ox LUMINANCIA
S-Y
@X@X@X@X@X O R-Y

2.2 . Seales codificadas


Como hemos visto, se trata de codificar las seales componentes, es decir,
la luminancia E'y y las dos seales diferencia de color (E'R-E'y) y (E'B-E'y). El
primer problema que hay que resolver es normalizar la amplitud de las com
ponentes de vdeo analgicas antes de su digitalizacin. Puesto que las compo
nentes analgicas de vdeo son un formato de produccin y no de emisin,
estn muy poco normalizadas, de forma que distintos equipos utilizan diferen
tes normas. En Europa el formato ms utilizado es el llamado EBU-l O, en ,el
~EJ:llminanc:~_~~_e.J{tie_nd~ <1e.0~OYp,:ra el negr<:h'!SJ Q,7V para el niv.el
de blanco. l,.'!.!il':t:il~s.dift:!~n.:ciele c:QIQr tienen Pl1plitudes mximas ds: 350
m V. Estos son los .Ei~!!.~s_~Iizad~~.0?0r. ejen:!l?JQ.Ll2-Q.r.JQL!P~n~~~-pi-s_
Betaca~~~f~!!Jl1orm<l de 62 5 ln~as)'.s_.C:':lllpos(~~~~.dig.\.![-H).
~~Il"l~~rg(),_'pa~a normalizar las amplitudes en televisin cligital se asume
que se -p.art~~lus.--primarjQ~RG.BJjj.adQs
.. IY. As la seal E'Y v'lriar entre O
~.'~=-~'Y_!~I1.slr como valores extremos +0,70 L'L Y -0,70 L V. para los
colores[Qjo y cin saturados al 100%, respec:tivamente. E'B-E'Y se elevar
para.el azul y el amarillo saturados al 100% a 1t-0,886V y -0,886V, respecti
vamente. Para reducir estos valores extremos a 1V, es decir, a O,S V, se uti
lizan unos coeficientes de ponderacin sobre la seal analgica antes de la
codifica~LQn:

KR = 0,5/0,701 = 0,713; KB = 0,5/0,886 = 0,564


122
123

TECNOLOGIA ACTUAL DE TEL[\'JSJO~' N~'_~

lOO_m\'

S-y

R-Y

La n(Jnlla ..~L2_. . 2

ma modulacin corresponden a los valores 240


aqu se deja un margen de tolerancia.

y 16, respectivamente. Tambin

3~0__r:nV

2.2.1. Convenciones sobre notacin

OV

-350 mV

Figura 5.4.
Niveles de amplitud de las seales analgicas por componentes, correspondientes a las barras
de color normalizadas del 100% de amplitud, segn la norma EBU-! O, utilizada, por ejem
plo, por el Betacam-SP (625/50).

De esta forma las seales diferencia de color se transforman en:

C R = 0,564 (B -Y); C. = 0,713 (R _Y)


Una vez atenuadas, ~Ypas.).3Jl[D~Y_~_~-,mielltr.a~Stl~_8_--=l-..2~derJOmina_
-eR. En alg\lOQs_!f:.~till.....de .origen.americ<Ul.Q_se_1Itilizala nomenclatura PB yPR,
~ ambas son_lotalrllente--equivalcntes,yaqueJos -coeficientes de tenuaciQn
S~<l~tamente los mismos para ambas normas.
Como muestra la figura 5.5, sc obtienen 120 niveles de cuantificacin para la
luminancia, dando al nivel de negros el valor 16 y al pico de blanco e! valor 235.
Se deja un pequeo margen de aproximadamente un 10% para eventuales sobre
modulaciones. En las seales diferencia de color se utilizan 225 niveles, de mane
ra que el valor analgico cero corresponde al valor digital 128. La mxima y mni-

Es frecuente encontrar distintos tipos de notacin en la representacin de los


valores de amplitud de las muestras: binaria, decimal y hexadecimal. Adems los
valores pueden estar representados en forma entera o mediante decimales. En
las figuras 5.6, 5.7 Y 5.8 pucde verse, que representando los valores de las pala
bras de 10 bits mediante decimales, sc mantiene la compatibilidad con las pala
bras de 8 bits, ya que en ambos casos el valor entero es el mismo para igual valor
de amplitud. En el caso de la representacin hcxadccimal se empIcan dos sm
bolos (de! O a la E) cuando se trata de mucstras dc 8 bits, ya que cada smbolo
hexadecimal puede representar cuatro bits. Cuando se trata de representar
hexadecimalmente muestras de 10 bits, se necesitan tres smbolos hexadecima
les; el de ms a la izquicrda sirve para representar dos bits ms significativos
mientras los otros dos reprcsentan cuatro bits cada uno.
NOTA: En la especificacin tcnica las palabras digitalc~ se expresan rn hase 10Y en forma decimal (conelos decimales),
lo quc facilita su interpretacin, con independencia de que las muestras est'n representadas con 8 o con 10 hits. En cualquier
caso, los 8 hits mas significativos se consideran la parte cntera, mientras que los dos bits adicionales (si estn presentes) repre
sentan la parte fraccional. Por ejemplo, la secuencia binari41 1111000 se expresa como 240, mientras que la scrucncvia
1111000001 se expresa corno 240,25. Cuando no se muestra parte fraccional, se asume que su valor binario es OO.

NIVELES DIGITALES
DECIMAL

HEXADECIMAL

BINARIO

FF

11111111

23S - E 8

8LANCO- 11101011

255

~~
~
~~
~

LUMINANCIA .y"

16 -

_255

C.~
0,5643 x (B-Y)

""'.;""

~ 1[-

::>'"
u::>

w~

NEGRO -

FF

240-FO

MAxIMO -

g~

0001 0000
00000000
11111111
11110000

",:$

1a

'\2 ~

uw

,"-00

1000 0000

~ ~9

MINIMO 0000 1000j


O - - - - - 0000 0000

f!J:3 o

~~

n.

Figura 5.5.
Niveles de cuantificacin de las seales de luminancia y diferencia de color, en el caso de las
barras normalizadas, expresadas con 8 bits por muestra. Se muestran los valores en notacin
decimal, hexadecimal (base 16) y en binario.

__TQ~ERANCIA

O- -

lJ

DE NEGRO

-47.9-NIVEL MINIMO

'--i--+-R\_NG.o1:l~51'RVMQ_B'\Rt..INCRQ!'ijZAGl!,iT--51.1
-48,7

r ~'~~

16-10

NIVEL

_y

~~<f

124

( Expresado de
(, forma entera

~n.

~~

CERO

--

0:,\

10

PERMITIDO

oo

BITS

Figura 5.6.

Detalle de la relacin entre la seal analgica de luminancia (Y), correspondiente a las barras de

color normalizadas del 100% Ysu representacin con 8 y 10 bits, en notacin decimal y hexade

cimal. Los niveles digitales 00 y FF, en el caso de utilizar 8 bits y 000, 001,002,003, 3FC, 3FD,

3FE Y3FFj en el caso de 10 bits, no estn permitidos para la representacin de las muestras_

125

Ti:-CN(}l OCiA AenlAl IH: TL:I.EVI"I{)N

La norma 4:2:2
NIVELES DIGITALES

i~~'! ,-

~~~,V
I

- Ri>.jllQB~@j\i,,,,-PARSI!:'CRDNliACQN
.

NIVELES
ANALGICOS
(ENmV)

~ :~:~.~

--==---i6i:ffiANC;;-

NIVEL MAXIMO
PERMITIDO

NiVEL MXIMO
DE CROMA

S-y
128

80

128.00

C;~g:~

'.

512 200
0.0 . _.... NIVEL CERO
DE CROMA
,--'-'. NIVEL MINIMO
\
DE CROMA
... _.lQLEAA'".N".C'"IA".-.--.-_.--_-._.-r- :~~~t.NlVEL MINIMO

vu
0001
fu_".!
_

DI oQ011,

---~-_._--~._--~

----~---

~(iQ.Rl'-.~~-llliIZA~

-3977

PERMITIDO

-400:0

figura 5.7.
Detalle de la relacin entre la seal analgica de CB' correspondiente a las barras de color nor
malizadas del 100% Y su representacin con 8 y 10 bits, en notacin decimal y hexadecimal.
Los niveles digitales 00 y FF, en el caso de utilizar 8 bits yODO, 001,002,003, 3FC, 3FD, 3FE
Y 3FF; en el caso de 10 bits, no estn permitidos para la representacin de las muestras.

cuales no se toman muestras, ya que esta parte de la seal se puede reconstruir


electrnicamente. La lnea activa digital se inicia un poco antes que la lnea acti
va analgica y dura exactamente 720 periodos de reloj de 13,5 MHz. Para faci
litar el intercambio y la conversin, el nmero de muestras por lnea activa en
la norma americana es tambin de 720. Puesto que el perodo de muestreo
tiene una duracin de 0,074074 flS (1/13,5 MHz), la linea activa durara
0,074074 flS x 720 = 53,3 IJS. Este valor es un poco superior al de la seal ana
lgica (52 flS en la norma 625/50), pero esto no supone ningn problema, ya
que en la reconstruccin DI A se borraran las muestras necesarias para devol
ver a la lnea analgica su valor nominal. Veanse figuras 5.9 y 5.10.
Tomando como referencia el punto OH, el muestreo de la linea activa digital se
inicia despus de 0,074074 flS x 132 == 9,778 flS (0,074074 x 122 = 9,037 flS en
525/60). En la norma americana de 525 lineas y 60 campos hay tambin 720
muestras por lnea activa, pero el numero de muestras no activas 858 -720 = 138
se divide en 122 antes de la linca activa y 16 detras de las muestras activas, de
manera que la diferencia en el nmero de muestras por lnea total entre ambas nor
mas queda confinada al periodo de borrado, lo que permite mantener la compati
bilidad.

NIVELES DIGITALES

Hr--~~~~~-------1
12,0

R-Y
128

80

128.00

512 200
0.0

_ NIVEL CERO

r-r'l

~~",-- F -l

DE CROMA

i6 00

(001~.7~
[-16Tl0'
l' 01

Oaci Hexa

1;00

' 64
4

-----..u=ij\W;!~-.----L396.9.N~~~M~6~o

040\ -.
-L-.--...

0041

,
. NIVEL MINIMO
'\.350.0 DE CROMA

-.-..--.--.-.IQC..

~ Hexa
:3: [-!W!~()B~i'BVf,JlQJ>;W;StNcilQ~ _~ ~~~:~
Decimal

l_.8_BIT~J_1QI3IJ~=

Figura 5.8.
Detalle de la relacin entre la seal analgica de CR, correspondiente a las barras de color nor

malizadas del 100% Y su representacin con 8 y 10 bits, en notacin decimal y hexadecimal.

Los niveles digitales 00 y FF, en el caso de utilizar 8 bits yODO, 00\,002,003, 3FC, 3FD, 3FE

Y 3FF; en el caso de 10 bits, no estn permitidos para la representacin de las muestras.

2.3. La lnea digital


La lnea digital se inicia 12 perodos de reloj (16 en la norma americana)
antes que la linea ana16gica, es decir, antes que el instante OH. A continuacion
aparecen 132 (122 en la norma americana) perodos de muestreo, durante los

7~Q+r!-:I32--1~---.~-.

0,9 fls

I
_._---_... _--9,8 fls

-.

720_.

53,3 fls

~_._--_.-.-..

64

_.---

.. - - .

~J.2
...

PERODOS

DE

MUESTREO

....-----"

0,9 fl
-

LOS PERiODOS DE MUESTREO ESTN


EXPRESADOS CON REFERENCIA
A UN RELOJ DE 13,5MHz

TIEMPO
EN IJs

Figura 5.9.

Representacin de la Enea digital para las normas de 625 Hneas y 50 campos. Los periodos de

muestreo estn representados en funcin de un reloj de I 3,5 MHz, es decir, en base a la seal

de luminancia.

126

127

f
~J LC.,rOlOGIA .,",CTUAL DE rI:LE\'J.\J()N

La nornJ.1 ,t:2:2

OH .... --

~.s

~"""C~-~

63,55
-

----~-

~-

.~~

_. __

_._~

...

Tabla 5.1 Parmetros ms destacados de la Rec-601-Norma 4:2:2. Es importante resaltar


que el nmero de muestras por /(nea activa, tanto de luminancia como de ca y
CR, es el mismo para las dos normas de televisin, lo que facilita la conversin de
normas, ya que una "lnea americana" 4:2:2 es igual que otra "europea" de la
misma norma
PARMETROS

SISTEMA
525 LfNEAS/60 CAMPOS 625 LfNEAS/50 CAMPOS

1. Seales codificadas

,I

11\:

MUESTREO

LJ
I
1

, - - - -720
-
1,18~ti.-I~O~2--"~__~
53,3 As
63,55 AS
/
fe------
TIEMPO
--o

.....

EN

~S

2. Nmero de muestras por


lnea completa
- Luminancia
- Cada seal diferencia de color.

Ji
I

PER~~DOS I

:16

O,g:s_

LOS PERioDOS DE MUESTREO ESTN


EXPRESADOS CON REFERENCIA
A UN RELOJ DE 13,5 MHz

Figura 5. IO.

2.4. Los filtros


La seal de luminancia (Y) muestreada a 13,5 MHz es filtrada, tal como se
muestra en la figura 5.11. Como puede verse, hay muy poca separacin 'entre la
frecuencia mxima de la luminancia en banda base (5,75 MHz) y la frecuencia de
Nyquist (6,75 MHz). Por esto se han especificado unos filtros antialisin8 y de
reconstruccin muy precisos.
Las seales diferencia de color se obtienen dividiendo la frecuencia de muestreo
de la luminancia por dos. En figura 5,11 se muestran los filtros correspondientes.
Por e! momento, la VER continua la investigacin sobre el empeoramiento de
la calidad de la imagen, en funcin de la sobreoscilacin y e! aliassin8, para dife
rentes tipos de imagen y antes y despus de! tratamiento.
Con carcter general se recomienda lo siguiente:

Ancho de banda para la luminancia


Plano por lo menos hasta 5,5 MHz,
A 6,75 MHz (Fsl2): -12 dB mnimo.
A 8 MHz: --40 dB mnimo.
El filtro analgico, anterior a la conversin analgico a digital de la seal de
luminancia, exige una atenuacin de ms de 40 dB a la frecuencia de 8 MHz,

858

864

429

132

Ortogonal, idntica para todos los campos y


cuadros. Las seales (R - Y) y (B - Y) se muestrean
a la vez que las muestras impares de la luminancia.
(primera, tercera, quinta, etc.)

3. Estructura de muestreo

122

--~~-----------

Representacin de la linea digital para las normas de 525 lneas y 60 campos, Los perodos de
muestreo estn representados en funcin de un reloj de 13,5 MHz, es decir, en base a la seal
de luminancia.

128

Y, (R-Y), (B-Y)

4. Frecuencia de muestreo
- Luminancia
- Cada seal diferencia de color

13,5 MHz
6,75 MHz
Cuantificacin lineal de 8 bits (opcional 10 bits), para
la luminancia y para cada seal diferencia de color

5. Codificacin
6. Nmero de muestras activas
por lnea digital
- Luminancia
- Cada seal diferencia de color
7. Correspondencia entre los niveles
de vdeo y de cuantificacin
- Luminancia
- Cada seal diferencia de color

720
360

220 niveles de cuantificacin. El nivel de


negro corresponde al nmero digital
16 y el nivel de blanco al nmero digital 235
225 niveles de cuantificacin.
El nivel cero corresponde al nmero digital 128

DURACiN DE UNA LINEA DIGITAL


SISTEMA
525 LfNEAS/6D
CAMPOS/MUESTRAS//ls
Duracin del intervalo entre el
origen de tiempo OH y el
principio de la lnea activa
Duracin de la lnea activa
digital
Duracin del rellano activo
Total

625 LINEAS/50
CAMPOS/MUESTRAS//ls

122/9,037

132/9,778

720/53,33
16/1,185
858/63,555

720/53,33
12/0,889
864/64

Ancho de banda de las seales diferencia de color


Plano por lo menos hasta 2,75 MHz.
A 3,375 MHz (Fsl2) -12 dB mnimo.
A 4 MHz: --40 dB mnimo.
129

T':CNOlOGIA ACTUAL DE lH EVISIN

La norma 4:2:2

'""~\~ -: I
IU-~RETARDO~
I""~~ '"", t."I
1O.7~J ."']12 dB -

-. -40 da'.-:-

_-=-:iJ=~

---

S.S MHz

, MH, --'.. !

'67SMHz
'(fSl21

R-vl

B-vl-u

1O.5~43

MUESTREO A 6,75 MHz.


MUESTREO A 13,5 MHz.

Figura 5. I J

-40 d l' .
-

.1'-

__ 1
S MHz

3'~~sI2l

"O

::~-Jr

~rl
2,7~~~Z-)':3.~~~HZ

2.75 MHz

--

Diagrama de bloques del codificador 4:2:2, resaltando la respuesta de los filtros previos a la
digitalizacin.

El filtro analgico, anterior a la conversin analgico a digital de las seales dife


rencia de color, exige una atenuacin de ms de 40 dB a la frecuencia de 4 Hz.
El ancho de banda de la luminancia y de las seales diferencia de color, tal como
vienen determinados por la frecuencia de muestreo y de los filtros paso-bajo, es
adecuado para la digitalizacin de un solo paso. Por el contrario, la digitalizacin
mltiple, como sucede cundo se conectan en cascada muchos conversores A/D
DI A, genera importantes distorsiones lineales que alteran la amplitud en funcin
de la frecuencia.

2.5. Familia de normas


Haciendo un poco de historia, en 1979 la UER decidi investigar la codificacin
de seales por componentes, eligiendo una frecuencia de muestreo para la lumi
nancia de 12 MHz, mientras que las seales diferencia de color se muestreaban a 4
MHz, naciendo la notacin 12:4:4. Posteriormente se aument la frecuencia de
muestreo de las seales diferencia de color a 6 MHz, para permitir mejores croma
keys digitales. Esto conduce a una notacin del tipo 12:6:6. Mientras tanto la
SMPTE propuso un sistema de codificacin de las componentes del tipo 14:7:7.
Finalmente se lleg, como hemos visto, a una solucin de compromiso con las fre
cuencias de muestreo 13,5:6,75:6,75 MHz. Esta solucin fue apoyada por la UER,
la SMPTE y la OIRT y se present al CCIR para su normalizacin. Puesto que
13,5 :6,75 :6,75 resulta muy largo, se escogi la expresin 4: 2:2 para simplificar.
130

2.5.1. La norma 4:4:4


La norma 4:2:2 da origen a toda una familia de normas, que se obtienen mul
tiplicando o dividiendo las frecuencias de muestreo bsicas. As, por ejemplo, cuan
do se desea hacer un croma-key digital, la resolucin de la crominancia de la norma
4: 2: 2 resulta insuficiente, por lo que sera ms conveniente utilizar una seal del
tipo 4:4:4. El efecto de eroma-key se basa en combinar una imagen de primer plano
tomada por cmara con otra imagen sinttica o natural de fondo. El personaje de
primer plano se coloca sobre un fondo de color uniforme, denominado "de croma
key". El incrustador sustituye, en la imagen de primer plano, las zonas del color de
croma-key (por ejemplo, azul saturado) por la parte correspondiente de la imagen
de fondo. Para esto el incrustador genera una "mscara" o perfil de recorte.
La clave para una buena incrustacin est en la calidad de la mscara. sta
la genera el mezclador de vdeo (o un equipo como el Ultimatte) separando
todo lo que es azul saturado del resto. Cuanto ms rica sea la informacin de
color, ms precisa ser la mscara. La norma 4:4:4 (figura 5.12) proporciona
el mximo de informacin de crominancia, ya que en esta norma todos los
pxe!es disponen de toda la informacin, es decir, cada pxel est representa
do por tres valores digitales, uno para la luminancia "Y" otro para la seal dife
rencia de color "R - Y" Y otro para la seal "B - Y", por lo que genera croma
keys de calidad excelente. A partir de un cdigo 4:4:4 se puede obtener una
seal de! tipo 4: 2: 2 mediante la eliminacin de una de cada dos muestras de

4:4:4

4x4

(405 Mb/s)

(540 Mb/s)

@)([:jI)(@J@@@@@@l)
@@@@@@@@@@
@@@@@@@@@@
@@@@@@@@@@
@@@@@@@@@@
II@@@@@@@@@@
4:2:2 (270 Mb/s)

xxxxx
xxxxx
xxxxx
xxxxx
xxxxx o
xxxxx o

x LUMINANCIA

NOTA: LA FRECUENCIA
BINARIA SE HA CAlCULADO
EN BASE A '0 BITS
POR MUESTRA

S-y

R-Y
o TRANSPARENCIA

Figura 5. 12.

Normas ''hacia arriba" derivadas de la 4:2:2.

131

TECNOL{)GIA I\CTlI:\L Ul r.E~L=E~\~IS~IO~ ~~'

las seales diferencia de color, aunque es necesario filtrar previamente dichas


seilales para evitar la aparicin de a!iassing.

2.5.2. La norma 4

En los generadores de efectos y paletas grficas puede ser necesario que cada
pxel est representado mediante una palabra para Y, otra para R _ Y, otra B _ Y Y
una cuarta como valor de llave o de transparencia (valor K), de manera que se pue
dan mezclar distintas imgenes, pero de forma que la imagen de fondo "se vea" a
travs de la imagen de primer plano. Es frecuente ver este efecto en los marcado
res de los programas deportivos.
Puesto que en este caso cada pxcl est definido por cuatro valores (Y, CB, CR y K),
esta norma se conoce como 4:4:4:4 o, abreviadamente, 4 x 4. El ltimo valor es una
variable, que puede ir desde O (totalmente opaco) hasta 255 (totalmente transparente).
En ocasiones el valor de transparencia se conoce como "canal alfa".

2.5.3. Lasnormas2:1:0,4:1:1 y 4:2:0

4:2:0/4:0:2

2:1:1 (135 Mb/s)


x
x
@
@
x
x
@
@
x
x
@
@
x
x
@
@
x
x
@
@
x
x
@

(202,5 Mb/s)

~x~x~x~x~x

@x@x@x@x@x

@x@x@x@x@x
Figura 5.13.
Familia de normas "hacia abajo" derivadas de la 4: 2: 2.

que en la lnea siguiente se omiten las muestras correspondientes a R -- Y Todas


estas variantes de calidad inferior pueden obtenerse submuestreando una seal
4: 2: 2. El problema es que, cuando haya frecuencias de vdeo, por encima de la
mitad de la nueva frecuencia de muestreo, se producir aliassing. La solucin con
siste en filtrar digitalmente la seal de vdeo antes del submuestreo. Igualmente es
posible la conversin hacia arriba. Por ejemplo, pasar de una seal 2: 1: 1 a otra
4: 2: 2, inventando nuevas muestTas por simple duplicacin o por promediado, aun
que en este caso la calidad dc la imagen sigue siendo la de la norma original.

2.6. Clculo de las frecuencias binarias


Las figuras 5.11 Y 5. I 2 muestran la disposicin ele las muestras en las distintas
normas derivadas de la 4:2:2. Adems en la parte alta de cada parrilla se muestra
la frecuencia binaria correspondiente a cada norma. Esta frecuencia binaria se
obtiene sumando la frecuencia de muestreo de la luminancia y de las dos seales
diferencia de color y multiplicando el resultado por el nmero de bits quc se uti
liza en la codificacin de cada muestra. AS, por ejemplo, en el caso de la norma
4:2:2 tendramos: 13,5 MHz + 6,75 MHz + 6,75 MHz
27 MHz x 10 bits
270 Mbits/ s. stas son las frecuencias binarias a las que necesitan comunicarse los
interfaces de tipo serie.
Otra cosa distinta es la cantidad de datos que es realmente necesario grabar
procesar. En efecto, no es necesario grabar o procesar los perodos de borrado
horizontal y vertical, de manera que es posible ahorrar un buen nmero de bits.
En este caso el clculo se hara como sigue:

Para la norma 4:2:2


Una lnea ocupa: 720 muestras de Y + 360 de CH + 360 de CR
1.440
muestras.
Una imagen ocupa 1.440 muestras x 576 lneas 829.440 muestras
Un segundo ocupa 829.440 muestras X 25 imgenes = 20.736.000 muestras.
En la norma bsica una muestra se codifica con un byte (8 bits), por tanto:
Un segundo ocupa 20.736.000 x 8 bits = 165.888.000 bits, o aproximada
mente 166 Mbits/ s.
En la actualidad la tendencia es a utilizar 10 bits por muestra, lo que mejora
las capacidades de posproduccin. En este caso tendramos:
Un segundo ocupa 20.736.000 x 10 bits = 207.360.000 bits, o aprox. 208
Mbits/s.
Para las normas 4: 1:1 y 4:2:0
En 4: 1:1 una lnea ocupa 720 muestras de Y + 180 de CB + 180 de CR
1.080 muestras.
622.080 muestras.
Una imagen ocupa 1.080 muestras X 576 lneas
Un segundo ocupa 622.080 muestras x 25 imgenes = 15.552 .000 muestras.
Representando cada muestra con 8 bits:
Un segundo ocupa 15.552.000 x 8 bits = 124.416.000 bits, o aproximada
mente 125 Mbits/s.

~x~x~x~x~x

@x@x@x@x@x
~X~X~x~X~X

J,----.!LuXl! 1-.L1,;f_2

Cuando se desea reducir el tren binario (como, por ejemplo, en aplicaciones


ENG o para la transmisin digital de seales) se puede recurrir a distintas estrate
gias de submuestreo, tales como 2:1:1,4:1:1 4:2:0/4:0:2 (figura 5.13). Esta
ltima consiste en submuestrear las seales diferencia de color, pero en la direc
cin vertical, de forma que en una lnea no se toman muestras de B - Y, mientras

4: 1: 1 (202,5 Mb/s)
@xxx@XXX@X II @
@XXX@xxx@x @
@xXX@XXX@X @
@xxx@xxx@x @
@xxx@XXX@X!I@
@xxx@xxxxj

x lUMINANCIA

OB-Y
o R-Y
o TRANSPARENCIA

132
133

Tl.CNOLOGIA I\n"UAI DF Ti;U::VISIN

La norma 4-:2:2

4: 1: 1 ahorra un 30% de bits con respecto a 4:2:2.


En 4: 2:0 la cantidad total de datos es la misma que en 4: 1: 1 (125 Mbits/ s),
pero las muestras se distribuyen de otra forma.
Puesto cjue estas normas tratan de "ahorrar" bits, no es normal utilizar 10 bits
en la codificacin de las muestras.
Para la norma 4:4:4

Una lnea 720 (Y) + 720 (CB) + 720 (CR)


576 lneas = 1.244.160 muestras/imagen.
X 25 imag/s = 31.104.000 muestras.
X 8 bits/muestra
250 Mbits/ s.
O bien, X 10 bits/muestra = 311 Mbits/s.
Para la norma 4 x 4

= 2.160 muestras/lnea.

Una lnea
720 (Y) + 720 (CB) + 720 (CR) + 720 (K)
2.880 mues
tras/lnea.
X 576
1.658.880 muestraslimagen.
X 25 imgenes/s
41.472.000 muestras/seg.
X 8 bits/muestra = 331.776.000 bits/s o aprox. 332 Mbits/s (el doble que
la 4:2:2).

O bien,

10 bits/muestra

= 415 Mbits/s.

2.7. Aplicaciones de las distintas normas

3. Interfaces para 4: 2:2

4: 2: 2 es la norma bsica de produccin profesional y es la que emplean la mayo


ra de los equipos que trabajan con componentes digitales, tales como magnetos
copios, mezcladores o generadores de efectos. Se puede decir que el mundo pro
fesional no acepta ninguna norma por debajo deI4:2:2, excepto en el caso de algu
nos magnetoscopios utilizados principalmente en informativos.
Los formatos de vdeo que utilizan la norma 4:2:2 son:
SIN COMPRESIN
CON COMPRESiN

D-1

D-5

Betacam-Digital
DVCPRO-50
MPEG-IMX

Betacam-SX
DIGITAL-S

OV
DVCAM
OVCPRO-25

Una de las ventajas ms importantes de la televisin digital es la perfeccin de la


multigeneracin en la posproduccin. Trabajando en digital se puede hacer cualquier
nmero de generaciones sin que se produzca degradacin. Para que esto sea posible
es necesario normalizar la conexin digital-a-digital entre los equipos. De esto se
Tabla 5.2 Documentos donde se recogen las principales normas sobre interfaces para
seales de vdeo digital.

VER
COMPONENTES 1983/1985
1) EBU paralfel interface for 625-line digital video signals - Techn 3246-E.
2) EBU serial interface for 625-line digital video signals - Techn 3247-E.

Cuando se desea obtener un factor de compresin elevado es mejor submuestrear


previamente alguna de las seales componentes. Por ejemplo, se obtienen mejores
resultados haciendo una compresin 5: 1 a partir de una seal de tipo 4: 2:0 que com
primiendo 7: 1 a partir de una seal 4:2:2, y ello a pesar de que el resultado fmal es el
mismo (25 Mbits/s en este caso). A continuacin se muestran los formatos de vdeo
que utilizan estructuras de muestreo 4: 1: 1 y 4: 2:0:
FORMATO/NORMA

Como puede verse en la tabla anterior, el DVCPRO-25 (un formato muy pen
sado para informativos) utiliza una estructura de muestreo 4: 1: 1. En el caso de DV
y DVCAM la estructura de muestreo es 4: 1: 1 en Amrica (525/60) y 4:2:0 en
Europa (625/50).
Hay que reconocer que la estructura 4:2:0 es, cuando menos, ms elegante que
la 4: 1: 1 (estn mejor igualadas las resoluciones horizontal y vertical de croma). Por
esto la 4: 2:0 es preferida cuando no se ha de convertir de digital a seal compues
ta (PAL o NTSC) para su emisin.
Algunos sistemas que utilizan 4:2:0 como esquema bsico de muestreo son:
DVD (Digital Versatil Disk), el sistema de compresin MPEG-2 y DVB (Digital Video
Bradeasting) .
Sera difcil, incluso para un experto, notar la diferencia entre una imagen
4:2 :2, otra 4: 1: 1 y otra 4:2:0; la calidad visual aparente es prcticamente la misma.
La diferencia est en la capacidad para ser posproducida: La norma 4:2:2 dispone
de croma en todas las lneas y de suficiente calidad de color como para hacer croma
keys correctos, aunque no ideales. En 4: 1: 1 la resolucin horizontal de croma no
permite hacer eroma-keJs aceptables.
La 4:2:0 no tiene crominancia en todas las lneas, lo que dificulta el procesado
en mezcladores, generadores de efectos, etc.

COMPONENTES 1991

1) EBU interfaces for 625-line digital video signals al the 4:2:2Ievel of CCIR Recomendation
601. Tech 3267-E.
2) EBU interfaces for 625-line digital video signals al the 4:4:4 level of CCIR Rec. 601. Tech
3268-E.
SMPTE
COMPONENTES

625-50

525/60

4:2:0
4:2:0
4:1 :1

4:1 :1

COMPUESTO

4:1 :1

1) NTSC Composite Video Signals. Bit para/lel Digital Interface SMPTE-244M.

4:1 :1

Component Video SignaI4:2:2. Bit para/lel Digital Interface SMPTE-125M.


Component Video Signal 4:2:2. Bit serial Digital Interface SMPTE-259M.

134

135

TECNOlO<.;IA ACTUAL D( TELEVI.sI~

encargan los interfaces de comunicacin digital. Teniendo en cuenta que se puede tra
bajar con sei'ales compuestas o por componentes y que la conexin puede ser del tipo
serie o paralelo, aparecen, en principio, cuatro tipos de posibles interfaces. A conti
nuacin se muestran las principales normas relacionadas con los interfaces para sea
les digitales de televisin.

Ventajas), desventajas de la conexin digital serie


La mayora de las maquinas trabajan internamente en formato paralelo, lo cual
parece un buen argumento a favor ele! interfaz paralelo. Sin embargo, cuando las dis
tancias son largas este tipo de interfaz presenta dos desventajas importantes:
l. El cable multicore es caro y los conectores demasiado grandes.
2. Es clifcil lograr un buen apantallamiento de un cable multicore sin que se
torne demasiado rgido y, ademas, existen problemas electrnicos aso
ciados con cste tipo de cables. Por ejemplo, la velocidad de propagacin
dc los pulsos en el interior de cada cable debe ser exactamente la misma.
Tambien se pucde producir intermodulacin entre los conductores.
La solucin a estos problemas es la conexin serie, en la cual todos los bits que
reprcsentan las muestras de vdeo son colocados uno detras de otro formando una
seal eIectrica que debe ser, ademas, autosincronizable. Aunque la frecuencia de bits
del interfaz serie es muy alta (mas de 200 Mb/ s), es posible transmitir la informacin
digital serie por un cable coaxial como los que se emplean para la seal analgica.
Aunque el ahorro en e! cable es obvio, la complejidad de la electrnica asociada es
muy superior, ya que se nccesitan registros de desplazamiento y multiplexores de alta
velocidad, tanto en el equipo emisor como en el receptor. Sin embargo, en la actuali
dad existen conjuntos de chips especializados en la serializacin-deserializacin de
seales digitales de video, por lo que en la mayora de las situaciones tiende a utilizar
se el interfaz serie.
Una desventaja potencial de! interfaz serie es que los tiempos adjudicados a cada bit
de vdeo, identificacin, etc. deben ser claramente definidos y, una vez normalizados,
resulta muy dificil incrementar el nmero de bits por muestra o cualquier otra caracte
rstica. En el caso de! interfaz paralelo, esto puede lograrse manteniendo el protocolo de
comunicacin y aumentando e! nmero de hilos del cable multicore.

3.1. El interfaz paralelo para seal 4:2:2


El interfaz paralelo utiliza los mismos conectores, patillaje y niveles e1ectricos
para la norma americana y para la norma europea y tanto para seales compuestas
como para seales por componentes (la seal digital compuesta se vera en el pr
ximo captulo).
El interfaz paralelo de la UER para seales por componentes digitales se corres
ponde con otra norma del SMPTE (ANSI/SMPTE 125M-1992). La UER especifi
ca adems dos hilos para la transmisin de los datos auxiliares. Este interfaz esta
previsto para conectar slo dos equipos, puesto que no presenta estructura de bus.
Los datos transmitidos por el interfaz corresponden a:
Las seales de vdeo (Y, R - Y, B - Y).
136

Las seales de referencia temporal.


Los datos auxiliares.
Las seales dc identificacin.
Estas seales se multiplexan en el tiempo y se transmiten como seales NRZ.
Los valores 00 y FF (en hexadecimal) estan prohibidos para la representacin de las
muestras, ya que se reservan como prdmbulos de sincronizacin.
Este interfaz emplea un conector de 25 pins, cuya asignacin se muestra en la
figura 5.14. Si slo se utilizan 8 bits, los dos menos significativos se ponen a cero.
Los 2 bits opcionales se denominan DATO-l y DATO-2 Yse refieren a la potencia
de dos que representan, es decir, 2 I Y 2-'. De esta forma se mantiene la compati
bilidad entre la notacines de 8 y 10 bits .

PIN N
1
2
3
4
5
6
7
8
9
10
11
12
13

PIN N
FUNCiN
14
RELOJ +
15
TIERRA
16
DATO 7 (MSB)+
17
DATO 6+
18
DATO 5+
19
DATO 4+
20
DATO 3+
21
DATO 2+
22
DATO 1+
23
DATO 0+
24
DATO -1+
} SLOEN
25
DATO -2+ SISTEMAS
MALLA
DE 10 BITS

FUNCiN
RELOJ TIERRA
DATO 7 (MSB)
DATO 6
DATO 5
DATO 4
DATO 3
DATO 2
DATO 1
DATO 0
SLOEN
DATO -1 SISTEMAS
DATO -2 DE '0 BITS

Figura 5.14-.

Disposicin de las patillas en el conector del interfaz paralelo.

3.1.1. Nive14:2:2
El interfaz 4: 2: 2 consiste en una conexin unidireccional entre dos equipos,
formado por 11 pares de hilos (10 de datos mas 1 de reloj).

Formato de los datos de vdeo


1
Los datos de vdeo son codificados de acuerdo con e! nivel 4: 2: 2 de la REC 60
del CCrR. Se trata, por tanto, de las seales de luminancia y diferencia de color,
previamente sometidas a correccin de gamma .

TFCNOLOGIA ACTUAL DE THE\'ISJN

La norma 4:2:2

Durante los intervalos de borrado de lnea y de campo se transmite el nivel de


negros y el nivel de modulacin cero, es decir, alternativamente 80 HEX,
10 HEX, 80 HEX, 10 HEX, etc., o, en notacin decimal, 128, 16, 128, 16.
El multiplexado
Los datos de video se multiplexan con una frecuencia de reloj de 27 MHz (13,5
MHz + 6,75 MHz) en el orden siguiente:
C IlO , Yo, C RO ' Y" C." Y" CR" Y" C"" Y., C R., Y, ...
Las tres primeras palabras (C.., Yo, CRO) corresponden a muestras cosituadas, es
decir, pertenecen al mismo pixel en la imagen. Luego viene una palabra del pxel
siguiente (Y ,), del cual slo se codifica la luminancia, luego otra tripleta cosituada
y asi hasta terminar la lnea.

+ 6,75

Es necesario adarar que en la definicin de la norma se dice: "Puesto que se produ


ce el doble de muestras de luminancia que de cada una de las seales diferencia de color,
las ltimas se toman coincidiendo con las muestras impares de la luminancia, o sea a la
vez que la primera, tercera, quinta, etc." Por otro lado, en el caso del interfaz, tal como
ha sido normalizado por los organismos reguladores, el primer pxel recibe el nmero
"cero", de forma que son los pxeles numerados pares y no los impares, los que forman
tripletas. En cualquier caso, lo importante es entender que en el primer pxel de la lnea
activa de la norma 4: 2: 2 se codifican la luminancia y las dos seales diferencia de color,
en el siguiente slo la luminancia, luego los tres, etc.

3.1.2. Nivel 4:4:4 y 4

En la norma 4:4:4 todos los pixeles tienen un valor para la luminancia, otro
para C. y otro para C R. En la norma 4:4:4:4 ( 4 x 4), los pixel es tienen, adems,
un valor de incrustacin o transparencia "K".

--==:...----=-==:.:.=---==---=:=====----=--'-_.

--~--~.~

--=~--=2-lll1--L

La conexin unidireccional en estos niveles comprende dos cables como los uti
lizados en la norma 4: 2: 2, de manera que la mitad de los datos circular por una
conexin paralelo estndar, mientras que la otra mitad lo har por una conexin
paralelo extra. Opcionalmente se pueden transportar las seales primarias R, G, B,
en lugar de Y, C R , C.
Los datos de vdeo se multiplexan a una frecuencia de 27 MHz y en el orden
siguiente:
Conexin A: C.o,Y o, CRO,Y" C""Y" C."Y" CR"Y., C""Y, ...
Conexin B: C,," K o, C. K" C,," K" C RH K" C,," K., C R" K, ...
"
Como puede verse en la figura
5.16, la conexin B transporta la seal de trans
parencia o llave "K", asi como las muestras correspondientes a las se'iales diferen
cia de color que faltan en la conexin A. Si se utiliza este interfaz para encaminar
se'iales primarias RGB, la disposicin de las muestras se obtiene cambiando G por
Y, R por C Ry B por C R. Si el valor "K" no se emplea (como en el caso de una seal
4:4:4), este se pondr a cero.

3.1.3. Disposicin de las muestras en la lnea digital 4:2:2


La figura 5.17 muestra la relacin temporal entre las seales analgica y digital
en la norma de 625 lneas. La lnea completa comprende 864 periodos (de 13,5
MHz), de los cuales 720 corresponden a la lnea activa.
Puede verse que la lnea digital empieza 24 periodos de reloj (con frecuencia de
27 MHz) antes que la referencia temporal analgica OH' A continuacin aparecen
cuatro palabras que transportan la seal de referencia temporal (TRS) y despus
un grupo de 280 palabras con datos de identificacin y auxiliares, seguidas otra vez
por cuatro palabras de referencia temporal. Finalmente vienen los datos de video,
los cuales terminan, naturalmente, 24 periodos de reloj antes de O".
El hecho de que la lnea digital se inicie 24 periodos de reloj antes que la lnea
analgica implica que el campo digital comenzar tambien 24 palabras antes que el
campo analgico

oXOxoxOxoxOxoxO

NIVELES 4:4:4 Y 4

C'VC'VC'VC'VC'VC'VC'VC'l
@XX@x@x@x
J

@lx@lx(@Jx(@Jx(@Jx

DO

N" DE
MUESTRA

X x x x @l x F:02
01

(@Jx(@Jx(@Jx(@x@lx

---03
D4

@l x (@J x x x (@J x

~g

iIQh

lIeV

X ili5lI X ili5lI X

lIeV

4:2:2
Figura 5. 15.

:::

I!'?!!

07
01

COMPONENTES Y. C,. C.

PRIMARIOS R, G. B
NaDE
MUESTRA

T- 1/27 MHz
_ 37 ns

~;LOJ~

Multiplexado de los datos de vdeo en el interfaz paralelo de la norma 4:2:2.

CONEXiN 8

CONEXiN 8

Figura 5.16.

Con dos interfaces paralelo 4: 2: 2 se obtiene un interfaz paralelo 4 x 4.

138
139

TrCN(JLOGIA AC rU.'\1 [H TlLE\'J.S1,,

La 119il1hl..1.,1_1

RELACiN ENTRE LA liNEA ANALGICA y LA DIGITAL

PRIMER CAMPO
eo~AAOO DE.CAMPO_ANAL~~~O E:i~~E,A.S ~ \ B~O~~OO O~_ ~~~E!1__

TIEMPO DE REFERENCIA

PARA EL ANAlISIS

DE UNA LINEA

.
j.

f10RR.&.DQ

rOH

_L1r- E~NIIL()G_'.C_A

i
BYTES ... ~

24

---

PRIMER OCTETO
ACTIVO

SEAL DE
REFERENCIA
TEMPORAL

t-

264 BYTES

lA4(j

-~'

-~

.--- [
1II
,
,
'i
__

24
BYTES

V!g:6~~~"l
F 11
V 00

-BY!ErlJS~_---TEMPORAL

11
11

ti _~o __----..!.o_

__;,J._..J
'

11 l

--'I--- _ J

.L

fljl

'---v------'

L.."RI~EA CAMI'OOlGITAl

-_._------

SEAL DE
REFERENCIA

.J

'---v------'

O[lINUo
OIGlT"l

11
11

~o

------~------

00
11
_10

00
11

00
11
~~ __ ~o

00
H
10

_.

00
11
'0

OAfOSOE

vlOEOOtGlTAl

00
11
10

DO
11
10.

00
11
10

00
11

10

00
11
l~

00
11

_10_

00 00
11
"
'_~ .. !~

OQ

11

__ ~?_

00
00

'_0_

00
00
.10

;~i,

INICIO

DE i

..4BYTES

.:

4 BYTES

~1'll~Et ~ ~?~~~?_ DE _Lt~EA D.I~~A~ k __ ~~EA DI~~_ ~CTlVA __

!
,"C

-___

_L!NEA DIGITAL
._. TOTAL
.. _ .. _

l""

D~~~:l

SEGUNDO CAMPO

{FIN DE LA

~o~_~~ f?~ ~~po ~AL~~~~5 ~~EA? ~ , B_~~? ~ _l~N~_~

Figura 5.17.
Relacin temporal entre la lnea analgica y la digital en la norma 4:2:2.

3.1 A. El borrado de campo digital


Para evitar tener gue utilizar medias lneas, la supresin de campo digital empeza
r y terminar, respectivamente, al principio y al final de una supresin de lnea digi
tal. De esta forma el borrado del campo digi,tal 1 durar 24 lneas, mientras que el
borrado del campo digital 2 durar 25 lneas. Esta es la razn por la que el nmero de
lneas activas por imagen en la norma digital es de 576, en lugar de las 575 a gue'esta
mas acostumbrados en el caso de la seal analgica.
El segundo campo analgico empieza a la mitad de la lnea 313. A fin de evitar
tambin aqu el tratamento de medias lneas, se hace comenzar el segundo campo
con el principio de la lnea 313. Por esto el segundo campo comprende 313 lne
as, mientras que el primero incluye 312. Esto no supone ningn problema, ya gue,
despus de la conversin digital-analgico, la seal se transforma en una seal de
vdeo normalizada.

3.1.5. La riferencia temporal


La seal de referencia temporal en el interfaz digital hace el mismo trabajo que
los sincronismos en el caso de la seal analgica. Puesto que en el caso de las sea
les digitales no se puede establecer la diferencia entre los datos de vdeo y los sin
cronismos en funcin del nivel (slo hay dos niveles y se corresponden con los
ceros y unos), tal diferenciacin se hace prohibiendo ciertas secuencias binarias

00
00

H 10

00
11

00
11

"
" "
" "
"
" " "" " "" " " " . ,'0

10__'_o_!'!. ___!!I____lO__ J.~ ___ ~_. __ lO

11

11

10

10

11
11

10

" 11" " "


"
'"0 .~1" ll?_
10

Figura 5.18.

Relacin temporal entre al borrado de campo analgico y el borrado de campo digital en la

norma 4:2:2, para la norma de 625 lineas y 50 campos. Ntese la forma en cambiar la secuen

cia de ceros y unos que representan los valores de F, V Y H.

para la representacin de las muestras activas, de forma que cuando tales secuen
cias binarias aparezcan, el equipo sabr gue se est iniciando una secuencia de sin
cronizacin. En los interfaces digitales estas secuencias se conocen como Time
Riference SiBnals o TRS.
Existen dos seales de referencia temporal por cada lnea digital. La pri
mera se localiza al inicio de la lnea digital y se denomina EAV (End eif Active
Video). La segunda se localiza al inicio de la parte activa de la lnea digital y se
denomina SAV (Start eif Active Video). Ambas se encuentran, por tanto, en el
borrado de la lnea digital y ambas estn formadas por cuatro palabras, gue
podrn ser de ocho o diez bts. El espacio comprendido entre EAV y SAV
puede usarse para datos auxiliares, tales como audio digital, datos de identifi
cacin de equipos o sistemas de comprobacin de errores. Si se emplean 10

140
141

TECNOLoc;IA ACTuAL DE -, H[VISIN

bits, los dos menos significativos no se tienen en cuenta. Las cuatro palabras
de referencia temporal tienen los valores hexadecimales siguientes: FF 00 00
XY, donde las tres primeras palabras forman un prembulo fijo, mientras que
la ltima es una variable, en la que el primer bit es un" 1" fijo. A continuacin
aparecen los bits "F", "V" Y "H", los cuales tienen el siguiente significado:
O durante el primer campo.
F
V = 1 durante el borrado de campo.
H = 1 al inicio del borrado de lnea.
Por tanto, trabajando con 8 bits la secuencia completa sera:
1111 11110000000000000000 IFVH P, P, P, Po
Los bits P, a Po son bits de proteccin de F, V Y H, que, mediante un cdigo de
Hamming, permiten la correccin de errores sencillos y la deteccin de errores
dobles. De todas formas, puesto que la informacin de F, V Y H se repite cada cua
dm, se puede proceder tambi<~n a una deteccin/correccin de errores por mayora.

La norma 4:2:2

mente cuando se conecte de forma directa a una salida cuyos voltajes extremos
correspondan a los del emisor.
Entrada mnima.-El receptor deber interpretar correctamente datos que apa
rezcan aleatoriamente y que produzcan las condiciones representadas en el diagra
ma de ojo de la figura 5.20.

M:E~~C'r~ ~~R'~~-~_:~:::~
T~AAA

,o: -:

~ ",~'~~:"-',

____

' . " :...

::~:~:~:

-1.79V.

DIAGRAMA DE OJO

}NIVEL BAJO

RELOJ
MEDIDO
ENTRE POLOS

':
..-u,
llOIDlI
ti.+

.
I

DE 0.8
A2V

'

DATOS
~-+--.

F
---

DURANTE EL
PRIMER CAMPO

-------._--

IV

DURANTE PERIODO
ACTIVO DE CAMPO
-_._--_._-._--

AL FINAL DEL
BORRADO DE LINEA

._.

TRs ( E A V ) V T R S (SAV)
4 PALABRAS"
4 PALABRAS

--~""

DURANTE EL
SEGUNDO CAMPO
------------~-~-

DURANTE BORRADO
DE CAMPO
-_._----------

rr
~

/ - -

280 Bms

-o

' - - - - - - . ... ------------'

~~

FFOO OOn

AL INICIO DEL
BORRADO DE LINEA

't

~
"
1 F V H P3 P2 P 1 Po

:t 11

os

T= 11(1728 FI) = 37 ns

DE08
A2 V

L_T,J

DURACiN DEL
IMPULSO DE RELOJ
= 18,5 ns

-2

1<
13

S"

FASE DE lOS
DATOS DE SALIDA

td = 18,5 ns 3 ns

Tmln = 22 ns
Vmin = 100 mV
Td

=Tmin/2 =11 ns

Figura 5.20.

Caractersticas elctricas del interfaz paralelo para seales 4:2:2.

'--v--J

Figura 5.19.

'

I
-j~--

.._oo

1>n.

MEDIDO
ENTRE POLOS

... _Tmin ~

}NIVELALTO

BITS DE PARIDAD PARA


COMPROBACiN DE ERRORES

Seales de referencia temporal en la norma 4:2:2.

3.1.6. Caractersticas elctricas del inteifaz paralelo


EL EMISOR:

RELOJ
Retardo diferencial reloj-datos.-El receptor deber interpretar correctamente los

datos cuando el retardo diferencial reloj-datos sea de 11 ns.


Anchura y ptter del reloj.-La anchura del pulso de reloj ser de 18,5 3 ns. Las
variaciones de tiempo, de los flancos de elevacin individuales, de los impulsos de
reloj, no superarn los 3 ns, promediando la medida sobre los flancos de eleva
cin, de al menos un campo completo.

3.2. El interfaz serie para seales 4:2:2

Impedanca.-La impedancia de salida es de 110 ohms.

El voltaje de continua en los bornes (DC offset) es de -1,29V 15% medido

con respecto a tierra.


La amplitud de la seal debe estar entre 0,8 y 2V.p.p. medidos sobre una resis

tencia de 110 ohms conectada a los terminales de salida, sin lnea de transmisin.

El tiempo de subida y bajada, entre los puntos del 20% Y el 80% de amplitud,

no ser mayor que 5 ns y no variar ms de 2 ns.


EL RECEPTOR
Impedancia.-La impedancia de entrada es de 110 ohms.
Entrada mxima.-El receptor deber interpretar los datos binarios correcta

Todos los parmetros del interfaz serie (las seales de vdeo, las seales de refe
rencia temporal, los datos auxiliares y las seales de sincronizacin) coinciden con
los del interfaz paralelo. La nica diferencia es la forma en que se transmiten los
datos y las caractersticas elctricas. Este interfaz consiste en una conexin unidi
reccional entre dos equipos, en la que las palabras de 10 bits (si se parte de palabras
de 8 bits los dos bits menos significativos se ponen acero), se transmiten formando
un nico tren binario, por un cable coaxial de un slo conductor. La velocidad bina
ria del interfaz serie ser: 27 Mpalabras/ s x 10 bits = 270 Mbits/ s. El bit de menor
peso de cada palabra es el que se transmite primero. Esto puede verse en la figura
5.21, donde MSB significa "Most Significant Bit" y LSB "Least Significant Bit".

142

143

:~\..-J\IUl(~~IA AL" I U('-!:.J2LL.lli~

_ _ _ _ _ _ _ _ _ _ _ ~ngLill.<L1:2: 4

,.

.,.

b) No contiene bajas frecuencias, puesto que no hay largas cadenas de ceros ()


unos.
c) Es autosincronizable, ya que se asegura la presencia de flancos o transiciones
cada pocos perodos de bit.
d) Puesto que e! estado lgico de los bits se basa en la deteccin de flancos )'
no de nive!es, este interfaz es insensible a los cambios de polaridad, es decir,
la informacin leda es la misma, con independencia de que se cambie la
polaridad de los cables.

0:0 ; O? ; --;?Q ; 0;;0

el! y el! y C'l y el! y e", y ~8 ~ C y CIl

@x@Jx@Jx@Jx@x'
@x@x@Jx@x@Jx
@x@x@lx@x@x
@x@x@x@x@x
@x@x@x@x@x
@lX@lx@x@x@x

3.2.2. Caractersticas elctricas del inte1az serie para seales 4:2:2

DATOS SERIF (NRZ

6~

B~

33

~~

0'"

G' {x) :::: l + x' + 1

Figura 5.21.

G2 (x)

=x' + 1

Multiplexado y cdigo de canal en el interfaz serie para seales 4:2:2.

La salida del emisor es asimtrica)' con una impedancia de la fuente de 75


ohms. Ell'alor de cresta a cresta debe estar entre 400 y 700 m V El vahaje conti
nuo a media amplitud de la seal digital dehe situarse entre + \ V Y --\ Y Los tiem

pos de sul)ida 'j ba)acla (entre ellO 'j el ~O% de amplitud) se situaran entre O,7S 'j
1,5 ns. La inestabilidad de los flancos ser inferior a O,l ns.
Los conectores utilizados debern ser de tipo ENe y sern capaces de tratar fre
cuencias de hasta 500 MHz.

3.2.1. El cdi80 de canal


Para evitar largas secuencias de ccros o de unos, que presentadan problemas de
propagacin por el cable coaxial, se aplica a la seal digital serie ID] barajado seudoa
1eatOl'io, mediante e! registro de desplazamiento mostrado en la figura 5.22. Esta fun
cin pucde entenderse como la SUma de una secuencia de bits aleatoria a los datos de
entrada. Si uno de los sumandos presenta Una pauta aleatoria (en realidad seudoalea
toria, para que pueda ser reversible), tambin la suma presentar pautas aleatorias. La
funcin seudoaleatoria la produce el polinomio generador G 1(x). A continuacin el
polinomio G2(x) genera un cdigo de canal NRZI (Non Retur to Zero lnverted), a efec
tos de lograr que la interpretacin de los datos no dependa del nivel de la seal, sino
de la presencia o ausencia de transiciones.
Los datos entran en formato paralelo en el registro de desplazamiento a una veloci
dad de 27 Mpalabrasls y salen en serie a una cadencia de 270 Mbl s. El circuito
aleatorizador suma los datos de entrada, con una secuencia aleatoria, pero predecible de
ceros y unos. La salida de! aleatorizador se hace pasar por un circuito, mediante el cual
los unos se convierten en transiciones)' los ceros en no transiciones. A la salida dcl cir
cuito aleatorizador la seal serie presenta las siguientes caraeteristicas:
a) La componente continua es cero o muy cercana a cero, ya que la seal se
encuentra en estado alto aproximadamente el mismo nmero de veces que
en bajo.

NOTA: En l. primera definicin del interfaz serie. cuando se trabajaba exciu.,;"amente con 8 bits, se especific6 un
c6digo de can.1 de conversin directa "8-9 bits". Con la ap.ricin de los interf.ces para 10 bits en 1991 se .bandon el
cdigo de canal de conversin directa en favor del cdigo de canal aleatorizador.

NO CONTIENE BAJAS

1 o
oo
oo o,
oo 1,
o11,
1 o

,,

FRECUENCIAS Y ES
AUTOSINCRONIZABlE
10000010110001111101

110001001000\110100

U1fLJlf LJUUUl

REGISTRO DE
NRZ
DESPLAZAMIENTO

CONVfRS()l1

PARALELO-SERIE

\/U\JUUI \J\

G1(X) =x+x+1

ALfAr()l1IZNJ011

l1000\OOlOClQll10100

lflSlILJ

N~2(X)=X+1
CQNVfRSOII

NMLFUWCO

~
NRZI

DATOS DE
SALIDA
SERIE A
270 Mbls

RELOJ A 270 MHz

RELOJ A 27 MHz

Figura 5.22.

Ejemplo de conversion de palabras de vdeo en paralelo en datos de canal serie en la norma 4:2:2.

4. Datos auxiliares
Se definen como datos auxiliares todos aquellos que pueden ser ubicados en un
interfaz de vdeo y que no representan informacin de la imagen activa o de sin
cronizacin-identificacin de vdeo. El nmero de aplicaciones que se puede dar a
los datos auxiliares es ilimitado. Por el momento, se han definido y normalizado
cuatro aplicaciones: audio insertado en vdeo, SDTI (una ampliacin de! SDl para

144

145

TErNOI (l<;JA ACTUAl DE Tel.EVISION

La norma 4:2:2

seales comprimidas), EDH (deteccin y tratamiento de errores) y cdigo de


tiempo. Otras aplicaciones se encuentran en estudio, como informacin de identi
ficacin de la fuente e informacin del tipo de plano. Todas estas aplicaciones se
basan en el aprovechamiento de parte del espacio dejado sin utilizar en los borra
dos horizontal y vertical.

Mbits/ s, lo que supone un 21 % o, si se prefiere, una quinta parte del total de datos
del SOl. Esto permitira hasta i 36 canales de audio digital insertado! o 18 pares
AES/EBU, aunque nadie utiliza tal capacidad.

4.2. Formato de los datos auxiliares


BORRADO
o ~ HORlznNTAl

DATOS _~
AUXILIARES ')

iiiiiii'

~g{.-=
"''''
g~
.1/

(a)

C/)

w
C/)
Q?~
a.. <t:
<t:
:J

VfDEO
ACTIVO

a. :J j .
ox~

O:J

<t:<t:

...J

l'

c'

oc fw

O Z

a.. w
Zo
Oz
a..

01

(b)
ViDEO
ACTIVO

...J

C/)

:JO

C/)

VANC

C/)

'Z

C/)C/)

'z
w

DATOS
.~ AUXILIARES - - - - )

ViDEO
ACTIVO

PRTICO

ANTERIQ~/ l- '\..-ATOS-

~:I:

VANC

E
SAV

ViDEO
ACTIVO

,
,

>..

PRTICO

TRS-ID,) ,AUXILIARES POSTERIOR

----

EAV = FINAl VIDEO ACTIVO


SAV= INICIO ViDEO ACTIVO
VANC:: OATOS AUX. EN BORRADO VERT.
HANC = DATOS AUX. EN BORRADO HoRIZ.

Figura 5.23.
Capacidad para transportar datos auxiliares en las seales digitales compuesta y por compo
nentes.

los datos auxiliares se organizan en paquetes antes de ser insertados en el inter


faz de vdeo. Cada bloque de datos puede contener hasta 255 palabras de usuario
(datos tiles para las aplicaciones), a las que acompaan cinco palabras (compues
to) o siete palabras (componentes) de referencia.
En el interfaz compuesto slo del sincronismo vertical tiene capacidad para 255
palabras. El sincronismo horizontal queda limitado a 55 palabras en total (NTSC)
o 64 (PAl) , aunque esto no es un problema, ya que el sistema es flexible y los
paquetes pueden tener cualquier longitud.
Cada paquete de datos se inicia con una bandera de datos auxiliares (AOF), cuyo
valor est prohibido para la representacin de las muestras de vdeo. A continuacin
aparece un identificador (DIO), que indica el tipo de datos que contiene el paquete
(audio digital, EOH, etc.). El nmero de bloque (OBN) es una palabra opcional, que
puede usarse para proporcionar un conteo secuencial a los paquetes, lo que permiti
ra al receptor determinar si se ha perdido algn paquete. Por ejemplo, durante la
conmutacin de dos fuentes de vdeo puede perderse algn paquete de los que van
incluidos en el intervalo vertical. En este caso el receptor procesara los datos de audio
para evitar el "clic" audible que se producira en este tipo de transicin. la siguiente
palabra es el contador de datos, el cual indica el nmero de palabras que forman los
datos tiles. A continuacin vienen los datos de usuario, que es la informacin til para

4. 1. Capacidad de almacenamiento
,
SEAL COMPUESTA.-En el caso de la seal compuesta (PAlo NTSC) los datos
auxiliares se ubican en los pulsos de sincronizacin horizontal y vertical. Ntese en
la figura (a) que no se utiliza todo el espacio dejado por los borrados, sino slo los
sincronismos en s mismos. En cada sincronismo de lnea se pueden ubicar hasta 64
palabras (de 8 10 bits). En cada impulso de sincronizacin vertical cabe un mxi
mo de 932 palabras y en los impulsos de preigualacin y postigualacin hasta 46
palabras. Si se hace un clculo de la capacidad total obtendremos unos 10 mega
bits/ s, en los cuales se debe incluir la informacin de identificacin, numeracin
de bloques y paridad para comprobacin de errores. Estos 10 megabits/s permi
ten incluir en el interfaz de vdeo hasta 4 canales de audio digital (2 pares
AES/EBU).
SEAL POR COMPONENTES.-En este caso los datos auxiliares (HANC) se ubi
can entre las seales de referencia temporal EAV y SAV, ocupando la prctica tota
lidad del borrado horizontal, como muestra la figura 5.23. Tambin la mayor parte
del borrado vertical es ocupado por los datos auxiliares, que en este caso se deno
minan VANC. As la capacidad total, sumando HANC yVANC, se eleva a unos 56

BANDERA DE DATOS

SUMA DE

IDENTIFICADOR (1 PALABRA)
N0 DE BLOQUE (1 PALABRA)

j j
ADF

DID

COMPROBACiN
(1 PALABRA)

fUENTA DE DATOS (1 PALABRA)

DATOS DE USUARIO
(255 PALABRAS MXIMO)

CHS

DBN DCN

L{AUDIO DIGITAL: FF H

EDH: F4 H

CDIGO DE TIEMPO: 60 H

COMPUESTO (1 PALABRA) -3FC


COMPONENTES (3 PALABRAS) -000 3FF 3FF

Figura 5.24.
Los datos auxiliares se estructuran en paquetes, formados por una cabecera, una zona de carga

y una palabra de comprobacin.

146
147

T[CNOLOGI:\ ACTUAL Dl nU:\'ISJN

LJ

aplicaciones que puede colocarse en e! paquete y que permite un mximo de 255


palabras de 10 bits. La ltima palabra de! paquete es una palabra especial (Check Sum),
que se obtiene mediante una sun1a ponderada, definida por un polinomio, de los datos
del paquete y que permite la comprobadn de eventuales errores ele transmisin.
o

Resumen
o

Trabajando en digital, los defectos introducidos en la cadena ele produccin


pueden limitarse a los generados por los procesos de conversin A/D y D / A,
suponiendo que la seal es procesada, grabada y distribuida en formato digi
tal y que la codificacin a sei'al compuesta analgica se realiza una sola vez,
justo antes de atacar al emisor de UHE
La norma bsica de produccin digital en televisin se conoce como 4:2:2. La
frecuencia de muestreo de la luminancia en esta norma es de 13,5 MHz. Esta
frecuencia respeta e! criterio de Nyquist genera un numero entero de mues
tras por lnea (muestreo ortogonal) y es comun a las dos norma bsicas de
televisin.

Las seales diferencia de color se muestrean a la mitad que la seal de lumi


nancia, es decir, a 6,75 Mhz cada una. Tambin en este caso se produce un
muestreo ortogonal y comn a las dos normas.
o Para reducir los valores extremos de las seales diferencia de color a 0,5V
se aplican unos coeficientes de ponderacin: KR
0,5/0,701 = 0,713;
KB 0,510,886 0,564. Una vez atenuadas, B-Y pasa a llamarse CB, mien
tras que R - Y se denomina CR.
o Los valores de amplitud de la seal de luminancia se codifican con 220 nive
les comprendidos entre el 16 (para el negro) y e! 235 para el blanco. Para las
seales de crominancia se utilizan 225 niveles, entre el 16 Y el 240. Los valo
res 00 y FF expresados en hexadecimal estn prohibidos para la representa
cin de las muestras.
'
Al igual que en analgico, la lnea digital se divide en perodo activo y perodo
de borrado. El perodo activo est formado por 720 muestras, tanto en la
norma europea como en la americana. El numero de muestras del borrado de
lnea cambia de una norma a otra.
o Los filtros antialiasing y de reconstruccin definidos en la norma garantizan
un ancho de banda plano de la seal de luminancia hasta 5,5 MHz. En el caso
de las seales diferencia de color esta cifra se reduce a la mitad.
o La frecuencia de muestreo y los filtros "paso-bajo" resultan adecuados para la
digitalizacin de un solo paso. Por el contrario, la digitalizacin mltiple,
como sucede cuando se conectan en cascada muchos conversores A/D-D/A,
genera importantes distorsiones lineales, que alteran la amplitud en funcin
de la frecuencia.
o La norma 4:2:2 da origen a toda una familia de normas, que se obtienen mul
tiplicando o dividiendo las frecuencias de muestreo bsicas: 4:4:4,
4 x 4, 2: 1: 1,4: 1: 1 y 4:2:0.
o La norma 4:4:4 se utiliza sobre todo en croma-keys digitales. La norma

148

4- X 4- tienr su aplicacin en equipos que trabajan con valor de incrustacin


(canal alfa). Las normas 4:1:1)' 4:2:0 se utilizan cuando se necesita ahorrar
bits, como, por ejemplo, en ciertos formatos de magnetoscopio digital utili
zados en informativos.
Trabajando en digital se puede hacer cualquier nmero de generaciones sin
que se produzca degradacin. Para que esto sea posible es necesario normali
zar la conexin digital-a-digital entre los equipos. De esto se encargan los
interfaces de comunicacin digital.
Teniendo en cuenta que se puede trabajar con seales compuestas o por com
ponentes), que la conexin puede ser del tipo serie o pa'alelo, aparecen en
principio cuatro tipos de posibles interfaces.
El interfaz paralelo utiliza los mismos conectores, patillaje y niveles elctricos
para la norma americana)' para la norma europea y tanto para seales com
puestas como para seales por componentes. Este interfaz emplea un conector
de 25 pins )' est preparado para trabajar con seales de 10 bits por muestra. Si
slo se utilizan 8 bits, los dos menos significativos se ponen a cero.
Las seales transmitidas por e! interfaz son:

Las seales de vdeo (Y, R - Y, H- Y).

Las seales de referencia temporal.

Los datos auxiliares.

Las seales de identificacin.

A la salida de! interfaz las seales se multiplexan siguiendo e! orden:

Cno,Yo, Cno,Y" C""Y" CR"Y" CM,Y.. CR.. Y\


o

norl1la~LZ

En la norma 4:4:4 todos los pxe!es tienen un valor para la luminancia, otro
para CB y otro para CR. En la norma 4:4:4:4 (o 4 x 4), los pxcles tienen,
adems, un valor de incrustacin o transparencia "K". La conexin se logra
mediante dos cables como los utilizados en 4: 2: 2, que trabajan en paralelo.
Los datos de vdeo se multiplexan a una frecuencia de 27 MHz y en el orden
siguiente:
Conexin A: Cuo,Y o, CRO,Y" Cn"Y" CR"Y" Cn.,Y., CR.,Y , .
Conexin B: Cn" Ko, CR" K" CRl, K" CR" K" C." K., CR" K, .
El borrado del campo digital" 1" dura 24 lneas, mientras que el borrado del
campo digital "2" dura 25 lneas. Por esto el nmero de lneas activas de la
imagen digital es de 576 y no 575 como en el caso analgico
La sincronizacin de lnea y campo se logra mediante la llamada TRS (Time
Rifrence SiBnal). Esta, a su vez, se divide en EAV (End <f Active Video) y SAV
(Start rfActive Video). Estas palabras de sincronizacin van colocadas al inicio y
al final de! borrado de lnea.
EAV y SAV estn formadas por cuatro palabras de 8 10 bits cada una de
ellas. Las primeras tres palabras son un prembulo fijo, mientras que la lti
ma informa sobre si estarnos en el primer o segundo campos, si estamos en
una linea activa o en una de! borrado vertical y si nos encontramos al inicio o
al final del borrado de lnea.
Todos los parmetros de! interfaz serie (las seales de vdeo, las seales de
referencia temporal, los datos auxiliares y las seales de sincronizacin) cain
149

TEcrWLOGIA ACTUAL DE TE' EI"S'N

ciden con los del interfaz paralelo. La nica diferencia es la forma en que se
transmiten los datos y las caractersticas elctricas.
Este interfaz consiste en una conexin unidireccional entre dos equipos, en la
que las palabras de 10 bits (si se parte de palabras de 8 bits los dos bits menos
significativos se ponen acero), se transmiten formando un nico tren binario,
por un cable coaxial de un solo conductor.
Para evitar largas secuencias de ceros o de unos, que presentaran problemas
de propagacin por el cable coaxial del interfaz serie, se aplica a la seal digi
tal un barajado seudoaleatorio. A continuacin los "unos" se convierten en
transiciones y los "ceros" en no-transiciones.

CAPTULO

La seal digital compuesta


1. Introduccin
Con la aparicin de los equipos de grabacin digital de vdeo surgi en la
comunidad tcnica una discusin acerca de los mtodos de grabacin por compo
nentes y compuesto. Algunos pensaron que los dos mtodos competiran entre s,
con el resultado final de un virtual ganador. En cambio, otros creyeron que ambos
formatos podran lograr un lugar en el mercado durante, al menos, una dcada, ya
que apuntaban hacia diferentes aplicaciones.
Antes de que el magnetoscopio digital fuera una realidad, la grabacin digital
de vdeo haba sido demostrada pblicamente durante unos diez aos. El enfoque
tcnico durante ese tiempo se dirigi a conseguir una tecnologa practica que
lograra los requerimientos operacionales necesarios. Se trabaj en paralelo en las
dos tecnologas, compuesta y por componentes, cada una de las cuales prob sus
ventajas para un segmento del mercado.
El primer magnetoscopio digital fue demostrado a mitad de los 70 por JoOO Baldwin,
de la Independent Broadcast Authority. A finales de los 70 y principios de los 80 se suce
dieron demostraciones por parte de Ampex, Bosch, Itachi, la NHK y Sony. Una buena
parte del trabajo inicial se realiz grabando digitalmente seales de televisin compues
ta. En la primavera de 1982 el Comit Consultivo Internacional para la Radiodifusin
aprob la recomendacin 601 como norma bsica de transmisin digital por compo
nentes. Grupos de trabajo del CCIR, el SMPTE Yla UER establecieron la norma para
el grabador digital por componentes (D 1), basado en la recomendacin 601 .
Reconocida la necesidad de grabadores digitales para ambos estandares, com
puesto y por componentes, ya que van dirigidos a diferentes aplicaciones dentro de
la industria de la televisin, se present en la NAB de 1986 un reproductor de
spots comerciales digital por parte de la casa Ampex, el cual estaba basado en el
formato digital compuesto.
150
151

La sciial JifitaG;~UD_-P~\t.:st.!
TlCNOlOGiA r\CTU-\l DE TELE\,ISIN

Aunque las incursiones iniciales en televisin digital se realizaron en formato com


puesto, los organismos reguladores normalizaron primero la seal digital por compo
nentes, considerada como la autntica solucin de futuro. Sin embargo, muy pronto
se vio que los equipos basados en componentes digitales, en especial los magnetosco
pios, resultaban muy caros, tanto en el coste de los equipos como en el consumo de
las cintas. Adems en aquella epoca (mediados de los ochenta) la mayora de los radio
difusores y empresas de produccin "trabajaban en entornos compuestos", de manera
que un magnetoscopio digital compuesto poda reemplazar directamente a otro ana
logico sin dejar obsoleto el resto del sistema de edicin, rnientTas aportaba la gran
ventaja de la grabacion digital: la mllltigeneracin sin prdidas.
Para satisfacer la demanda del mercado, en 1988 SONY y AMPEX lanzan el mag
netoscopio digital compuesto D-2. En este caso son los fabricantes y no los organis
mos reguladores los que inventan una norma deJacto que sera. posteriormente recogi
da y publicada por dichos organismos. Nace as la norma digital compuesta.

Como se ha dicho, la seilal compuesta se muestrea a una frecuencia equivalen


te a cuatro veces la frecuencia de la subportadora ele color. Esto hace que en oca
siones a las normas de television digital compuesta se las conozca como 4 fsc
NTSC y 4 fsc-PAL. La figura 6. 1 muestra las ventajas de relacionar la frecuencia de
muestreo de la seal compuesta con la frecuencia de la subportadora de color.

l~

LS.6~
""
l _ .1";;",J.A:

SENOIOE DE CROMA

ORIGINAL

56 n5 -

56 ns
----

69 ns

69-~SMU~~~~EOA 4 fe

69 ns

-PAL

SUMA PONDERADA
DE A YB (A'BY')

2. Eleccion de la frecuencia de muestreo


Desgraciadamente no es posible definir una norma de tclevision digital com
puesta que sea comn a las dos normas bsicas de televisin: NTSC y PAL.
Sencillamente las diferencias entre ellas son demasiado grandes como para inten
tarlo. En el caso del SECAM, debido a la modulacin en frecuencia de las seales
diferencia de color, las tareas de posproduccin son prcticamente imposibles en
formato compuesto, por lo que los radiodifusores y empresas que utilizan este sis
tema potenciaron desde sus inicios el trabajo en componentes, de manera que no
existe una norma digital para seales SECAM.
As pues, tenemos dos normas de seal de vdeo digital compuesta:
La norma 4f.. NTSC .
La norma 4t PAL.
El trmino 4C significa que la seal compuesta analgica, ya sea PAL o 'NTSC,
se muestrea a cuatro veces la frecuencia de la subportadora de color. Veamos la
razn: para facilitar el posterior tratamiento de la seal digital compuesta (separa
cin luminancial crominancia, ajuste de niveles y retardos, etc.) resulta conve
niente que la frecuencia de muestreo est sincronizada con la frecuencia de la sub
portadora de color. En particular estos procesos resultan ms sencillos si la fre
cuencia de muestreo es igual a cuatro veces la frecuencia de la subportadora de
color: fS
4C. Esto conduce a una frecuencia de muestreo de:
4 x 4,43MHz = 17,73 MHz en PAL y
4 x 3,58 MHz = 14,32 MHz en NTSC.
Como puede verse, no es posible lograr una frecuencia de muestreo universal
en este caso.
En la seal de video compuesta la relacin SclH cambia lnea a lnea e incluso
campo a campo. Por esta razn es conveniente digitalizar esta relacin, lo que sig
nifica muestrear y cuantificar los borrados de lnea. Slo es posible obviar el mues
treo durante el tiempo correspondiente al fondo del sincronismo horizontal. De
igual forma es necesario muestrear la mayor parte del borrado vertical.

i i i i

INSTANTES DE MUESTREO

SENOIDE DE CROMA
( \ DESFASADA 160" (2T)

DESFASE
DE2T

i i

RESTA PONDERADA
DE A YB (A-BY21

...

~1

i i

INSTANTES DE MUESTREO

Figura 6.1.

El muestreo a 4 veces la frecuencia de la subportadora de color facilita la separaci6n de la

lurninancia y la crominancia.

La separacin digital de las seales de luminancia (Y) y crominancia (C) es muy


fkil cuando la frecuencia de muestreo es igual a cuatro veces la frecuencia de la
subportadora de color. En este caso basta con sumar o restar el tren de muestras
retardado dos perodos de muestreo. La suma de los dos trenes de muestras (que
se encuentran en contrafase) anularia la informaci6n de crominancia, dejando s610
la informaci6n de luminancia. La resta de las dos seales desfasadas eliminara la
componente continua, es decir, la luminancia, quedando solo la informaci6n de
crominancia. Muestreando a cuatro veces la subportadora de color se produce un
cierto Ol'ersampling o sobremuestreo, lo que facilita la utilizaci6n de filtros de
reconstruccion de corte suave.

2.1. Muestras por lnea


En NTSC, muestreando a cuatro veces la subportadora de color, se produce un
nmero exacto de muestras por lnea, ya que esta norma presenta un desplaza
miento de medio ciclo de subportadora por lnea (fe = 227,5 O. Esto proporcio
153

152

La seal digital compuesta


TECNOI OGfA ACTUAL DE TELEVISiN

na un total de 4 x 227,5
910 muestras/lnea completa. En esta norma la lnea
digital activa acomoda 768 muestras, mientras que las 142 restantes se localizan en
el borrado horizontal.
En la norma PAL no es posible obtener un nmero entero de muestras por
lnea, como consecuencia de la suma del desplazamiento vertical a la frecuencia de
subportadora. En efecto, en esta norma la frecuencia de subportadora es igual a
283,75 veces la frecuencia de lnea, ms N 12 (N es la frecuencia de campo 50
Hz). El ltimo trmino "N 12" (desplazamiento vertical) equivale a sumar 25 Hz,
es decir, un ciclo completo por imagen o, lo que es lo mismo, 180 grados por
campo. De esta forma se producen 4 x 283,75
1.135 muestras/lnea ms 4 x
1ciclo/625 lneas
1.135,0064 muestras/lnea. Sin embargo, resulta convenien
te tratar la imagen como si cada lnea comprendiera un nmero entero de mues
tras (muestreo ortogonal), de manera que se hace como si cada lnea estuviera for
mada por 1.135 muestras/lnea exactamente. Puesto que en realidad tenemos cua
tro muestras ms por imagen, lo que se hace es despreciar dos muestras en cada
borrado de campo.
Las muestras de vdeo deben sealar la fase de la subportadora de color. Por
esto se hace coincidir la fase de muestreo con la fase del burst ( 135 grados). Las
otras dos muestras se toman a 45 grados. De esta forma se obtienen muestras a
45, 135, 215 Y 305 grados. Si la fase de muestreo del burst es la correcta, se obtie
nen los valores mostrados en la figura 6.2, abajo. Cualquier diferencia entre los
valores intermedios del burst y el nivel de borrado (64) se entender como un error
de la fase de muestreo. Dicho error generar una tensin capaz de reposicionar la
fase del convertidor analgico-digital.

2.2. Fase de muestreo


En la norma americana (SMPTE 244M) el muestreo de la seal compuesta fue
definido con referencia a los vectores l y Q, en lugar de R- Y Y B-Y, como suele ser
normal. La figura 6.3 muestra que cualquier vector de crominancia puede repre
sentarse mediante los vectores 1 y Q o R - Y Y B - Y; basta con desplazar ligera
mente la fase de muestreo. La intencin original de la norma NTSC era asignar
diferentes anchos de banda a la seal "1" (1 ,3 MHz) ya la seal "Q" (0,5 MHz), lo
que permite una mejor resolucion en el eje rojo-cin, donde la agudeza visual cro
mtica es mxima.
EJE RY

.90"

EJE J
+1230

VECTOR DE

CROMINANCIA

33

" ~.--=----+'

EJE

...33 0

~ ..

/\~\
--

Figura 6.3.
Diagrama polar mostrando la relacin
entre los vectores de color 1 y Q por
un lado y R - Y YB - Y por otro.

,.

EJE BYO"
(REFERENCIA)

FASE DEL

BURST .180

En la figura 6.4 pueden verse los instantes de muestreo de la seal compuesta


PAL. Estos instantes estn sincronizados con la subportadora de color y se toman
coincidiendo con las fases 135, 225, 315 Y45.

INSTANTES DE MUESTREO

-u+v -u-v u-v


I

u+v
I

-SUBPS::~

+U

REFERENCIA GENERADA
A PARTIR DEL BURST

VALORES CUANDO EL
BURST SE MUESTREA
CORRECTAMENTE (8 BITS)

-v
FASES DE MUESTREO (PAL)

Figura 6.2.

Nmero de muestra por lnea en la seal digital compuesta NTSC y PAL.

0
+1350 +225 +315 +45
Figura 6.4.

Instantes de muestreo de la seal compuesta PAL.

l5S

154

TECNOLOGA ACTUAL DE TELEVISiN

La seal dig.!J.-.LcompUc;;lJ

La figura 6.5 muestra que se puede pasar de un sistema basado en R - Y/B _ Ya


otro de tipo IIQ, cambiando simplemente los instantes de muestreo. En la norma
NTSC-4 f" es necesario que los instantes de muestreo coincidan con los picos de
amplitud positiva y negativa de las seales 1 y Q. La parte superior de la figura
muestra los instantes que resultaran adecuados si se trabajara con las seales dife
rencia de color R - Y Y B - Y, mientras que la parte inferior ilustra en qu momen
tos es necesario muestrear la seal compuesta para sincronizarla con los ejes 1 y Q.

OH

100%

100%

50%

50%

0%

rn

01

R-Y

,',

'\\

o'

+90 0

28,2_D~.~

1.."5"6A os
---'" I ..

0%

. '"

+-Numero de muestra

45 GradoS-rJ : 28.2 ns

BURST

+18Do

O'l

ril11iJl

B-Y

/:'. .

..

OH
NTSC

PAL

IMPULSOS DE
MUESTREO A
4fsc. T= 56.4 os

.Q

oQ

-1

~ _Numero de mue!llra
.Q

-<-1

.Q

.1

J_L_LLLllL

33

Gr;~dos

.... --~--

:..

23,3 __os

.. 46,6

n!;.

~: ~~_

,,_

,.:

34.9 ns

IMPULSOS DE
MUESTREO A
4fsc. T= 69,8 os

Figura 6.6.

.:

,
i

O'

La fase de muestreo dc la scal compuesta se define cn funcin dcl punto de media amplitud

del flanco anterior del impulso de sincronizacin de lnea. Aqui se muestran los instantes de

muestreo y los ticmpos correspondientes a la seal PAL (izquierda) y NTSC (derecha).

'.

BURST

,'.

+90 0 +180:

'.

j-

I
+123

3. Rango de amplitudes

,)
Q
+213 +303

-,

-Q
I
Q
+33 0 +123 +213 +303
INSTANTES DE MUESTREO

-Q
+330

+123

Figura 6.5.
Instantes de muestreo de la seal compuesta NTSC, en funcin de los ejes de crominancia I

y Q (ahajo).

Aunque se trate de una norma digital, sigue siendo una seal PAL, por lo que

es necesario conservar y codificar la secuencia PAL de 8 campos (4 campos en

NTSC). Para esto se define la fase de los impulsos de muestreo en funcin del

punto O" de la seal analgica (relacin Sc/H). Este punto corresponde al punto

de mcdia amplitud de! flanco anterior del impulso de sincronizacin de lnea.

En estc punto OH la fase de la subportadora de la seal PAL debe ser de cero grados
cuando se est codific.ando el inicio de la linea uno del campo uno. En estas circunstan
cias la fase de muestreo ser tal que el punto O" quedar ubicado exactamente entre dos
instantes de muestreo, es decir, el punto O" quedar a igual distancia de los dos instantes
de muestreo de ambos lados (vase figura 6.6 izquierda). En el caso de la seal NTSC,
la relacin SclH se define tambin en funcin del punto de media amplitud del impul
so de sincroniz.acin horizontal, pero referido a la linea 10 del primer campo. Ntese,
en la figura 6.6 derecha, que el desplazamiento de 33 de los ejes 1 y Q con respecto a
la subportadora reconstruida a partir del burst provoca que los instantes de muestreo no
estn exactamente centrados con respecto al instante O".

En la figura 6.7 puede verse la relacin entre los niveles de la seal analgica
NTSC y los niveles digitales correspondientes en notacin decimal y hexadecimal,
expresados con 10 bits por muestra. En este caso se trata de las barras de color del
100% de amplitud de croma. Ms concretamente, esta seal de prueba se deno
mina "100/7,5/100/7,5", donde e! primer nmero describe el nivel de los colo
res primarios durante la transmisin de la barra blanca. El segundo nmero se
refiere al nivel de los primarios durante la transmisin de la barra negra. El terce
ro identifica el nivel de los primarios durante la transmisin de la mxima modu
lacin de croma, mientras que el cuarto se refiere al nivel de los primarios duran
te la transmisin de! nivel mnimo de crominancia. Por tanto, e! "7,5" indica la pre
sencia del llamado "pedestal" o tambin set-up, tpico de la seal NTSC.
En esta norma se ha definido la utilizacin de 10 bits por muestra, lo que propor
ciona 1,024 niveles, numerados del O al 1.023 en decimal, o del 000 al 3FF en hexa
decimaL Al igual que sucede en la seal por componentes, los valores 000, 001,002,
003, 3FC, 3FD, 3FE Y 3FF estn prohibidos para la representacin de las muestras, ya
que se reservan para propsitos de sincronizacin y referencia temporal. Esto pro
porciona 1.016 niveles para la codificacin de las muestras, que, expresados en deci
mal, van desde el 4 hasta el 1. O19, Y en hexadecimal, desde el 004 hasta el 3FB. Al
fondo de sincronismos se le asigna el valor decimal 16, correspondiente al O10 hexa
decimaL El nivel ms alto de la seal, que corresponde al amarillo y al cin, se codifi
ca con e! valor decimal 972 (3CC,,). Esta norma proporciona un pequeo margen de
tolerancia en los niveles bajos, desde el nivel decimal 4 hasta el 16 (004" a 010,,), Y en
los niveles altos, desde el 972 al 1.019 en decimal (3CC" A 3FB,,). La tolerancia total

156
157

La seal dieital compuesta

Niveles
analgicos

mV

IRE

Niveles
digitales

TOLERANCIA

Osc Hexa

998,1

139,1

1023

3FF _o.

994,2
992,9

139,2
139,0

1020

934,3

130,8

912

3FC RE::;RVADO
3F8.
_
3CC IQb~~_i'J~IA

714.3

100,0

1019

NIveles
analgicos

NNeles
digitales

mV

Oaci Hexa

913,0
909,2

-.-_

320.

.--.--------------

--1 001;1/1;1 de croma


1144

700.0

800

3FF
3FC RESERVADO

:~~:: ---~~;_9-~TOLERAN9IANEGATlv~~-~~~Oxl;l~~n~:e~~~:~lficado

---- Max. nivel cuantificado

1023
1020

>4C

iii

ro

ro

11

"I~

"1"'E~

U
53,b

1.5

282
240

-285,7
-300,7

-40,0

,.

-'42,1

-302,3
-306,1

-112,3
--42,8

Nivel de borrado

010 - __ L-J.
004 mL~RANGlA
003

000

240

~ Ig. 13
a: 1l

llA
oFO

13

~"'12.~

OFO

Nivel da brrado

1:;

1l

g,
~

z"

Fondo de sincronismo

.__ .

11 ~

Figura 6.8.
Rango de amplitudes de la
seal digital compuesta PAL.

-300,0

004

-301 ;l

003 -

-3.04,8

Fondo de sincronismo
_.-_... - -

-----

000 RESERII.'\JJQ - - .

RES~RYADO::-'::======---

-----~

----

Figura 6.7.

Rango de amplitudes de la seal digital compuesta NTSC.

equivale a 1 dB Ypermite acomodar los errores de nivel que pudieran presentarse en


la seal de entrada. La relacin sei'ial a ruido de cuantificacin se reduce, como con
secuencia, en la misma cantidad, es decir, en 1 dB.
Debe entenderse que lo anterior se refiere a la relacin entre el nivel de pico
de la seal de entrada y el nivel RMS del ruido y que aqu como seal de entrada
se entiende toda la seal, desde el fondo de sincronismo hasta e! mximo nivel de
modulacin de croma. De! conjunto de niveles permitidos, la seal de luminancia
(que es la ms crtica) emplea poco ms de la mitad, de forma que en el caso de la
seal compuesta es especialmente necesario la utilizacin de 10 bits por muestra.
En la figura 6.8 se muestra la relacin entre los niveles de la seal analgica PAL
y los niveles digitales correspondientes en notacin decimal y hexadecimal, expre
sados con 10 bits por muestra. En este caso se trata de las barras de color del 100%
de amplitud de croma. Ms concretamente, esta seal de prueba se denomina
"100/0/100/0". Puede verse que la seal PAL no dispone de pedestal y que, por
tanto, el nivel de negro coincide con el nivel de supresin o borrado.
En esta norma se ha definido la utilizacin de 10 bits por muestra, lo que pro
porciona 1.024 niveles, numerados del O al 1.023 en decimal o del 000 al 3FF en
hexadecimal. Al igual que sucede en la seal por componentes, los valores 000,
001, 002, 003, 3FC, 3FD, 3FE Y 3FF estn prohibidos para la representacin de las
muestras, ya que se reservan para propsitos de sincronizacin y referencia tem
poral. Esto proporciona 1. O16 niveles para la codificacin de las muestras, que,
expresados en decimal, van desde el4 hasta e! 1.019, Y en hexadecimal, desde e!

004 hasta el 3FB. Al fondo de sincronismos se le asigna el valor decimal 4, corres


pondiente al 004 hexadecimal. A diferencia de lo que sucede en el caso de la seal
compuesta NTSC, en PAL no se deja tolerancia entre el fondo de sincronismos y
el mnimo nivel de cuantificacion permitido: son e! mismo valor.
El nivel ms alto permitido a la seal analgica de entrada es de 903,3 mV,
correspondiente al valor digital 1.019 o 3FB". Esto est claramente por debajo de
la excursion mxima de los hemiciclos positivos de las seales amarillo y azul de
las barras lOO/O/lOO/O, que llegan hasta 933,5 mY. Sin embargo, lo anterior no
genera problemas, gracias a que los instantes de muestreo se han elegido de forma
que no coincidan con los momentos de mxima amplitud de las seales amarillas

INSTANTES DE MUESTREO
-U+V

-U-V

u-v

U+V

+135or----,-~T-l+45

+2250 +315
SUBPORTADORA DE

REFERENCIA GENERADA

A PARTIR DEL BURST

0
._-~

16I"-__ J
'", _

---

Nivel de
luminancia

-- - ,; O.6-2V-

--O ' 934V

1.0,886V'\

Barra

amarilla da1100%

Figura 6.9 .
Los instantes de muestreo de la
barra amarilla del 100% de ampli
tud, nunca alcanzan el mximo de
excursin de la seal analgica.
159

158

TlCNOlOGIA ACTU:\L PE TEUV/SI6N

La sUlal digital COI.!W-Q..Wi!

o cin. Por ejemplo, el valor ms alto realmente muestreado de la seal amarilla es


de 0,886 mV, lo cual est claramente por debajo de los 903,3 mV permitidos. Lo
anterior puede verse en la figura 6.9. En PAL los valores de cuantificacin estn
mejor aprovechados para la seal til que en NTSC.

100%

FLANCO ANTERIOR
DEL IMPULSO DE
SINCRONIZACiN

50%

~
(b)
I

4'

O%L-

DE LINEA

NUMERO DE MUESTRA

955 956 957 958 959 90Q

4. Numeracin de las muestras

Con una frecuencia de muestreo fl


14,3181 MHz (nominalmente 14,32
MHz) y una frecuencia de exploracin horizontal ~, = 15.734,25 Hz, e! nmero
de muestras por lnea total en la norma digital compuesta NTSC es de:
f,NTSc/f, = 14,3181 MHz / 15.734,25 Hz

LINEA 624

44.2 ns
_69.8 os

(b)

(a)

L1NEAACTIVA DIGITAL (\
(768 MUES7RAS)
'"

I (

LINEA 1

Ui
l' );

Hu'
'.

.... (O:.!6!L_17,6.a:9!l!Ji
(0.909)'

. LINEA COMPLETA' (63,55 ~;).,

BORRADO DIGITAL
DE LINEA
(142 MUESTRAS)

Figura 6.10.
Numeracin de las muestras de la lnea digital compuesta NTSC.

tantes de muestreo 784 y 785. La primera de las 910 muestras corresponde a la


primera muestra de la lnea activa, es decir, la numeracin de las muestras comien
za despues del borrado de lnea. Esta muestra se numera "O". La ltima muestra,
numerada 909, se localiza al final del borrado de lnea de la lnea analgica siguien
te. Esto es distinto a lo que sucede en el caso de la seal digital por componentes.
Las muestras a 767, ambas inclusive, contienen la lnea digital activa.
La figura 6.11 (a) muestra la numeracin normalizada de las muestras a nivel de la
lnea digital PAL. La figura 6.11 (b) muestra en detalle el flanco anterior del impulso de

160

(kINEAl

Sil .

i 1

. ..

JQ.:J!47L
(O, 1.134)

~(948.'134J.

BORRADO DIGITAL
DE LINEA
(187 MUESTRAS)

LiN'ECOMPLETA (6~~)-'
Figura 6.11.

Numeracin de las muestras de la lnea digital compuesta PAL.

sincronizacin de lnea, El nmero exacto de muestras se calcula dividiendo la frecuen


cia de muestreo por el nmero de lneas que se producen en un segundo:

["'AJf,

NUMERO DE MUESTRA

\ I

= 910 muestras/lnea

FLANCO ANTERIOR
DEL IMPULSO DE
SINCRONIZACN
DE LINEA

LINEA 525

~NEA625

(a)

LINEA ACTIVA DIGITAL


(948 MUESTRAS) i

La lnea digital activa acomoda exactamente 768 muestras. Las 142 muestras
restantes forman el intervalo de borrado horizontal. En la figura 6.10 puede verse
la numeracin de las muestras de la seal digital NTSC. El punto de media ampli
tud, de! flanco anterior del sincronismo de lnea analgica, debe caer entre los ins

LINEA 524

= 17,734465 MHz /

15.625 Hz = 1.135,0064 muestras/lnea

La fraccin 0,0064 significa que en una lnea se habrn producido 0,0064 mues
tras extra y despues de un campo completo: 312,5 x 0,0064 = 2 muestras extra.
Dicho de otra forma, si se entiende que cada lnea tiene exactamente 1.135 mues
tras, entonces la ltima debera tener 1.137 (dos ms) para compensar el pequeo
acarreo de 0,0064 muestras de cada lnea.
Puesto que la numeracin no puede pasar de 1.134 (el cero tambien cuenta), la
penltima muestra de la ltima lnea debera ser la nmero uno y la ltima la nme
ro dos. Esto hara que la primera muestra de la lnea siguiente fuera la nmero tres y
no la uno, como debe ser. El truco para mantener constante la numeracin de las
muestras, a nivel de la referencia temporal de la lnea digital, consiste en no numerar
las dos ltimas muestras de la ltima lnea de cada campo. Estas dos muestras no se
borran: permanecen en su sitio, pero no reciben numeracin. La primera de las 1.135
muestras corresponde a la primera muestra de la lnea activa, es decir, la numeracin
de las muestras comienza despues del borrado de lnea. Esta muestra se numera "O".
La ltima muestra, numerada 1.034, se localiza al final del borrado de linea de la lnea
analgica siguiente. Esto es distinto a lo que sucede en el caso de la seal digital por
componentes. Las muestras a 947, ambas inclusive, contienen la lnea digital activa.
Si se multiplica el perodo de muestreo (1/17,734475 MHz 56,38 ns) por el
nmero de muestras de la linea activa digital se ver que la duracin de la lnea acti
va digital es superior a la de la lnea activa analgica (53,45 .ts vs 52 .ts), pero, al
igual que sucede con la seal compuesta, esto no supone ningn problema, ya que
durante la conversin digital-analgico se borran las muestras necesarias para
reconstruir la duracin correcta de la lnea analgica.

161

TfCNOl OCJA ACTUAl DE TEII-VISIN

La senal dil'ital comDucsta

5. Referencia temporal de identificacin

Tabla 6.2 Sealizacin de linea en el sistema NTSC, mediante cinco bits de la palabra

TRS.
La seilal digital compuesta incorpora informacin de sincronizacin (referencia
temporal) e identificacin. Esta informacin aparece slo despus de cada flanco
anterior de cada impulso de sincronizacin de lnea (a diferencia de la seal por
componentes, en que aparece dos veces por cada borrado de lnea). La seal de
referencia temporal (TRS) est formada por cuatro palabras de 10 bits, con valo
res hexadecimales: 3FF, 000, 000, 000. En la seal NTSC estas palabras se locali
zan en las muestras 790, 791, 792 Y 793 (vase figura 6.12). Despus de las pala
bras TRS se encuentra una palabra de 10 bits (muestra 794).

SEALIZACiN DE LINEA NTSC


BIT 7

BIT6

O
O
O
O

O
O
O
O

B"5
O

B"4
O

ffiT3
O

0 1 1

1
O
1

O
1
1

Tabla 6.1 Sealizacin de campo en el sistema NTSC mediante tres bits de la palabra
TRS. Las combinaciones decimales 4, 5, 6 Y 7 no se aplican en este caso, ya

N.O DE LINEA
No utilizado
1 (264)
2 (265)
3 (266)
29 (292)
30 (293)
2:31 (2:294)

que en la seal NTSC la secuencia de campos es de 4.


SEALIZACIN DE CAMPO EN NTSC
BIT 2

BIT 1
O

BIT O

O
O
O

1
1
1
1

FIN DE LA LINEA ACTIVA DIGITAL

11

(14E H ) - - -. .

.......

784 (OA4 H )

~~~------50%

C--785 (044 H )

767-782
(OFOH )

1
I
(010,) ~I
',1

'1

787

790

791

f92

.---"--.. ..---"----,.

793

TRS.
SEALIZACiN DE CAMPO EN PAL

PATRN FIJO DE
REFERENCIA TEMPORAL
Figura 6. J 2.

BIT2

BIT 1

BIT O

NMERO DE CAMPO

O
O
O
O

O
O

O
1

1
2

1
1
O
O
1
1

O
1
O
1

3
4
5
6
7
8

909~
. 111
'1

1
1
1
1

INICIO DE LA LINEA
~ DIGITAL ACTIVA

1854

1850

I~

El nmero entre parntesis


corresponde al valor de la
muestra en notacin hexade
cimal y con 10 bits/muestra

794

A~

",

3FF 000 000 000 P P b7 b6 b5 b4 b3 b2 b1 bO


IDENTIFICACIN
(PALABRA VARIABLE)

Ubicacin de la seal de referencia temporal en el sincronismo de lnea, en la seal digital


compuesta NTSC e identificacin de las muestras, en torno al borrado de lnea.
162

Tabla 6.3 Sealizacin de campo en el sistema PAL mediante tres bits de la palabra

FIN DEL BORRADO


HORIZONTAL DIGITAL

TRSID I
DATOS
;.rr79S-849 UXILlARES
~.'',_""'' ' ,_ .,t'f:~;.";;,,,~
(55 palabras)

r-"----..

las tablas siguientes:

FIN DE LA LlNEAACTlVAANALGICA

0-

En la seal PAL las palabras TRS se localizan en las muestras 967, 968, 969 Y
970 (vase figura 6.13). Despus de las palabras TRS se encuentra una palabra de
ID bits (muestra 971 en PAL y 794 en NTSC) con datos de identificacin, segn

1 3

0
O

NMERO DE CAMPO

O
1

Tabla 6.4 Sealizacin de lnea en el sistema PAL mediante cinco bits de la palabra

TRS.
SEALIZACiN DE LNEA PAL
BIT 7

BIT6

O
O
O
O

O
O
O

BIT 5

BIT 4

BIT 3

N.O DE LINEA

O
O
O
O
O
1
O
1
O
011

No utilizado
1 (314)
2 (315)
3 (316)

O
1

29 (342)
30 (343)
2:31 (2:344)

163

11 siill-!ii.gjt~lJ!J2-q9.!
Tl5-'NOI.OGiA "CTU!\l DE TEU\'I.. . 10:-

IN DE LA LINEA ACTIVAANALOGICA
FIN DE LA LINEA ACTIVA DIGITAL

. .

(HE")

'.

957 (09B")
---- 50%
958 (069,,)

948-954
(100")

18;~ado

~~a;~~~i1g~
1.1340

'1~
e

:CIO DE LA LINEA
:VDIGITALACTIVA

;*
~{

FIN DEL BORRADO

(004") 967~

TRS.:!,O

, :1.038
1.037
'1.036

-=

DATOS

.Jt~f972-1.03S-AUXlllARES
~",'w~lP",,::-. ~
,(.64 palabras)

968

969 970

3FF 000000 000

PATRN FIJO DE
REFERENCIA TEMPORAL

la milad

-"fi3()rrado digital

-.i--.e campo

~ .. '"

." "'-. '"l-!!

11 .,.l.~

!1'i.

~\'
"'=~

Campos de video
Ac1ivos (11 y IV)
-P.ue~~

Anal~gleo

Figura 6.13.

Ubicaci6n de la seal de referencia temporal en el sincronismo de lnea, en la seal digital

compuesta PAL e identificacin de las muestras, en torno al borrado de lnea.

De la mitad de la

linea 263 el final


de la lIf1ea 525

~cuadm
,~,!"

:~

.,'1-",

El campo digital activo NTSC excede al campo analgico activo, ya que empie
za antes y termina despus. En los campos impares el intervalo de borrado verti
cal digital se extiende desde la muestra 768 de la lnea 525 hasta la muestra 767 de
la lnea 9, ambas inclusive. En los campos pares el borrado abarca desde la mues
tra 313 de la lnea 263 hasta la muestra 767 de la linea 272. La figura 6.14 mues
tra la relacin entre los perodos activos de los campos analgico y digital de la
seal compuesta NTSC.
Al igual que sucede con los campos, tambin la duracin de la linea digital acti
va excede a la duracin de la lnea activa analgica, sobrepasndola, tanto en su ini
cio como en su final. Por tanto, la lnea activa digital incluye los bordes del borra
do analgico de linea. Esto ayuda a enmascarar los posibles efectos de rizado y
Isobreimpulsos, generados por el limitado ancho de banda del filtro de reconstruc
in del convertidor DI A, como consecuencia de los rpidos cambios de nivel que

;lo

de la linea 263

IDENTIFICACiN

(PALABRA VARIABLE)

6. El campo digital

Del InicIO de la

Ifnea 10

Pb7 b6 b5b~4-b3-b2-b1-b~O

El bit 8 forma paridad con los bits Oa 7. El bit 9 es el negado del 8. Los bits Oa 2 indi
can la secuenda PAL de 8 campos, mientra~ que los bit~ 3 al 7 indican la cuenta de linea
en las proximidades del sincronismo vertical, es decir, de la lnea 1 a la 30 (o entre la 314
y la 343, si se trata del segundo campo). Las lineas de numeradn superior a 30 (o 343)
tienen todas el mismo indicador en la sealizadn de linea. Puede verse que el TRS de la
seal compuesta contiene una palabra 000 extra con respecto a la palabraTRS para com
ponentes. Esto puede usarse como "identificador de tipo" en un sistema de interfaces,
donde se combinen seales de diferentes normas.

A,:,a.l~gco

Del mIC'O de la

019~tal

numero entre parntesis


corresponde al valor de la
muestra en notacin hexade
cimal y con 10 bilsimueslra
El

971

j5

Campos de video
aclfVOS (1 y 111)

-lmp;,tes

Hnel!l 21 8 la mrlad
dI! la linea 263

~~~~~~,,"~1r. _U;;'~"".""",,_~

967

v . ::?

d.gilal
de campo

21~Bt'~"

HORIZONTAL DIGITAL

962

11

BonadoI

1.0
~'1':

525 _ _ .

Del~:~~273

a la linea 525
(ambas inclusive)

'\'11

1(1"'f;,t, dig~tal

actIvo

~. DCU.d'~
analgICO
activo

Figura 6.14-.
Comparaci6n entre el cuadro anal6gico y el digital en la norma NTSC.

se producen en los lmites entre el borrado y la zona activa. El borrado de lnea


digital se extiende desde la muestra 768 hasta la muestra 909, ambas inclusive, de
todas las lneas fuera del intervalo de borrado vertical.
La norma NTSC especifica que la relacin entre la fase de la subportadora y la
posicin de! impulso de sincronizacin horizontal (SC/H) en el dominio digital
debe ser igual a cero. En analgico, la SC/H se define como una seal en la que e!
punto de referencia horizontal (O,,) es coincidente con el paso por cero de una
senoide, sincronizada con el bUTSt (una senoide continua que tenga la misma fase
que el burst). La relacin entre la frecuencia de la subportadora NTSC y la fre
cuencia de exploracin horizontal provoca que la direccin del paso por cero alter
ne entre hacia arriba y hacia abajo en campos sucesivos. El campo 1se define como
aquel en el que el primer paso por cero de la lnea 10 tiene direccin hacia arriba.
Esta especificacin tan detallada y precisa debe mantenerse, por ejemplo, en todas
las fuentes de seal asociadas a un sistema de edicin, si se quiere que los insertos
de vdeo resulten correctos.
El campo digital activo PAL excede al campo analgico activo, ya que empieza
antes y termina despus. En los campos impares el intervalo de borrado vertical
digital se extiende desde la muestra 382 de la lnea 623 hasta la muestra 947 de la
lnea 5, ambas inclusive. En los campos pares el borrado abarca desde la muestra
165

64

TITN()Uh;IA ACTUAl DI- n:II:\'I'ilN

La scilal dIgital compuesta

948 de la lnea 310 hasta la muestra 947 de la lnea 317. La figura 6.15 muestra la
relacin entre los perodos activos de los campos analgico y digital de la seal
compuesta PAL.
Al igual que sucede con los campos, tambin la duracin de la lnea digital activa
excede a la duracin de la lnea activa analgica, sobrepasndola, tanto en su inicio
como en su fina!. Por tanto, la lnea activa digital incluye los bordes del borrado ana
lgico de lnea. Esto ayuda a enmascarar los posibles efectos de rizado y sobreimpul
sos generados por el limitado ancho de banda del filtro de reconstruccin del conver
tidor DI A, como consecuencia de los rpidos cambios de nivel que se producen en
los lmites entre el borrado y la zona activa. El borrado de lnea digital se extiende
desde la muestra 948 hasta la muestra 1.134, ambas inclusive, de todas las lineas fuera
del intervalo de borrado vertical.
Puede resultar extraa la forma trapezoidal del campo digital activo PAL (figu
ra 6. 15). Esto es slo una representacin grfica y es consecuencia de que la fase
de muestreo est sincronizada con la fase de la subportadora de color y que, por
otro lado, la frecuencia de muestreo no es un mltiplo exacto de la frecuencia de
lneas. Lo anterior supone que una lnea digital contiene un cierto nmero de
muestras y un poco ms. En concreto, una lnea digital (total) PAL contiene
1.135,0064 muestras, de manera que el primer intervalo de muestro de la lnea
23-_

Borrado

an8/gico

decampo

FadO
2~aMI~'itj,t~.AAQana
1

5-

digital
de campo

24----

Campos de \l/deo

actIVos (1 y Ul)

-Irnpares-

Analgico

De la mitad de la

linea 23, al final

de la linea 310

De?~~:~la6

a la linea 310
(ambas inciu$Jve)

Borra~o

310

311~

312_
317

~_ _""''';<~~

-/f B~rr.8do
\ I dlgllal

31B-r.t:'':~$w;,
campo1335~_~
?._

analgIco
de

de campo

siguiente no es completo, producindose un pequeo desplazamiento. Al terminar


la imagen se habr acumulado un desplazamiento total de 0,0064 x 625 4 mues
tras, lo que equivale a dos muestras por campo. Este desplazamiento es tan peque
o (1 1 2 nsl campo) que no tiene efectos reales sobre la imagen; slo hace que el
muestreo de la seal compuesta PAL tenga que catalogarse como "no-ortoBonal". En
la figma 6.15 puede verse que, en cualquier caso, la falta de ortogonalidad queda
confinada a la tolerancia entre el campo digital y el analgico.

7. Caractersticas de los interfaces


En la seal digital compuesta, ya sea NTse o PAL, se utilizan los mismos inter
faces de comunicacin que en la seal digital por componentes. Existen, por tanto,
dos tipos de interfaces o sistemas de conexin para seal digital compuesta: para
lelo y serie.
El interfaz paralelo consiste, igual que en componentes, en once pares de hilos
que conectan un dispositivo con otro. Diez pares transportan los datos correspon
dientes a la seal de televisin o los datos asociados, mientras que el par once trans
porta la seal de reloj sincrnica. Se dispone adems de un par extra para la cone
xin de la seal de tierra. Los datos se numeran desde DATO-O a DATO-9. DATO
O YDATO-l son opcionales y pueden utilizarse para aumentar la resolucin de las
muestras de vdeo, desde un mnimo de 8 bits hasta un mximo de 10 bits. La fre
cuencia de transmisin de datos y, por tanto, la frecuencia de la seal de re!oj es de
4 x fse = 17,734475 MHz en PALy de 14,31818 MHz en NTSC. El interfaz para
lelo resulta adecuado para conectar equipos separados unos 40 m entre s.
Tambin el interfaz serie para seales digitales compuestas es igual que en e! caso
de componentes. Si se utilizan cables coaxiales de calidad, el interfaz serie permite
distancias de conexin hasta 200 m. Los 10 bits generan una seal serie con una tasa
binaria de 177,34475 Mbits/sen el caso de la seal PAL y de 143,1818 Mbits/ s en
el caso de la seal NTSC. El cdigo de canal utilizado para la aleatorizacin, control
de bajas frecuencias y De es el mismo que el empleado en el interfaz para seales
por componentes digitales, es decir, el RNRZI, y utiliza los mismos polinomios
generadores: GI(x) = x' + x' + 1 y G,(x) = x + l.

336~

337

Resumen

Ca~pos de video

actIvos (11 y IV)

-Pares-

Analgico

Del Inicio de 336

a la milad de la 623

De

1~:Pr::1 318

l la linea 623

(ambas ll'lcJuslve)

sn

Cuadro

..

.. digital

AD

iil.1iVO

cuadro
analgico
activo

Figura 6.15.
Comparacin entre el cuadro analgico

y el digital en la norma PAL.

La norma digital compuesta surge para satisfacer las necesidades de! merca
do, que a mediados de los ochenta demandaba equipos ms econmicos y
directamente insertables en el entorno compuesto. Se trata de normas dise
adas inicialmente por fabricantes y recogidas despus por los organismos
reguladores.
Para facilitar el posterior tratamiento de la seal digital compuesta (separa
cin luminancia/crominancia, ajuste de niveles y retardos, etc.), resulta con
veniente que la frecuencia de muestreo est sincronizada con la frecuencia de
la subportadora de color.

166
167

TLC:~OLOGlt\ ACU,\L DE TEU::V!";:--:

Ll sCJ'laLili..giWsJ.~IJU1lIf:'i~

En particular estos procesos resultan mas sencillos si la frecuencia de mues


treo es igual a cuatro veces la frecuencia de la subportadora de color: f, = 4e.
Esto conduce a una frecuencia de muestreo de: 4 x 4,43MHz
17,73 MHz
en PAL y 4 x 3,58 MHz = 14,32 MHz en NTSC.
o En la seal de vdeo compuesta la relacin SCA/H cambia lnea a lnea e inclu
so campo a campo. Por esta razn es conveniente digitalizar esta relacin, lo
que significa muestrear y cuantificar parte de los borrados de lnea.
o En NTSC, muestreando a cuatro veces la subportadora de color, se produce
un nmero exacto de muestras por linea, ya que esta norma presenta un des
227,5 fL). Esto
plazamiento de medio ciclo de subportadora por lnea (fc
proporciona un total de 4 x 227,5
910 muestl"as/linea completa. De stas,
768 corresponden a la linea activa y 142 al borrado de linea.
o En PAL se producen 1.135,0064 muestras por linea, aunque se hace como si
hubieran exactamente 1.135 muestras/linea. De stas, 948 corresponden a la
linea digital activa y 187 al borrado de linea. Puesto que en realidad tenemos
cuatro muestras mas por imagen, lo que se hace es despreciar dos muestras en
cada borrado de campo.
o Las muestras de vdeo deben sealar la fase de la subportadora de color. Por
esto se hace coincidir la fase de muestreo con la fase de! burst ( 135 grados).
Las otras dos muestras se toman a 45 grados. De esta forma en PAL se
obtienen muestras a 45, 135, 215 Y 305 grados.
o En la norma americana el muestreo de la seal compuesta fue definido con
referencia a los vectores "1" y "Q", en lugar de R - Y Y B - Y, como suele ser
normal. La intencin original de la norma NTSC era asignar diferentes
anchos de banda a la seal "1" (1,3 MHz) ya la seal "Q" (0,5 MHz), lo que
permite una mejor resolucin en el eje rojo-cian, donde la agudeza visual cro
mtica es mxima. As las fases de muestreo en esta norma son: + 123, + 213,
+303 Y +33 grados.
o En la norma digital compuesta se define de forma precisa la relacin SC/H.
En el caso de la seal PAL, en el punto 0 11 la fase de la subportadora debe ser
de cero grados, cuando se est codificando e! inicio de la lnea uno del campo
uno. En estas circunstancias la fase de muestreo sera tal que e! punto OH que
dar ubicado exactamente entre dos instantes de muestreo, es decir, el punto
O" quedara a igual distancia de los dos instantes de muestreo de ambos lados .
En el caso de la seal NTSC, la re!acin SC/H se define tambin en funcin
del punto de media amplitud de! impulso de sincronizacin horizontal, pero
referido a la linea 10 del primer campo. El desplazamiento de 33 de los ejes
I y Q con respecto a la subportadora reconstruida a partir del burst provoca
que los instantes de muestreo no estn exactamente centrados con respecto
al instante OH'
o En la norma NTSC se ha definido la utilizacin de 10 bits por muestra, lo que
proporciona 1.024 niveles, numerados del O al 1.023 en decimal o de! 000 al
3FF en hexadecimal. Al igual que sucede en la seal por componentes, los
valores 000, 001, 002, 003, 3FC, 3FD, 3FE Y 3FF estn prohibidos para la
representacin de las muestras. Esto proporciona 1.016 niveles para la codio

168

ficacin de las muestras. Al fondo de sincronismos se le asigna el "alor deci


mal 16, correspondiente al O1O hexadecimal.
En PAL se aprovecha un poco mejor e! rango dinamico disponible. Por un lado, no
se deja tolerancia por abajo (el fondo de sincronismo se codifica con el valor deci
mal 4, en Jugar del 16) y, por atTO lado, se utiliza el pl-incipio de "tolerancia nega
tiva" en la cocJifcacin de los valores mas altos de <'Tominancia.
La seal digital compuesta incorpora informacin de sincronizacin (referen
cia temporal) e identificacin. Esta informacin aparece slo despus de cada
flanco anterior de cada impulso de sincronizacin de linea (a diferencia de la
seal por componentes, en que aparece dos veces por cada borrado de lnea).
La seal de referencia temporal (TRS) esta formada por cuatro palabras de 10
bits, con valores hexadecimales: 3FF, 000, 000, 000. En la seal NTSC estas
palabras se localizan en las muestras 790, 791, 792 Y 793 (en PAL, de la 967
a la 970). Despus de la las palabras TRS se encuentra una palabra de 10 bits
(muestra 794 en NTSC y 971 en PAL) que es la que aporta la informacin de
identificacin.
Los bits de la palabra de identificacin informan sobre la secuencia de color
(4 campos en NTSC y 8 campos en PAL) y el nmero de lnea en torno al
borrado vertical (desde la lnea 1 a la 31 y sus equivalentes en el segundo
campo).
El campo digital activo, tanto en NTSC como en PAL, excede al campo ana
lgico activo, ya que el primero incluye mas lneas que el segundo y, ademas,
las lneas digitales son mas largas que las analgicas. Esto permite acomodar
los errores de codificacin o artificios que pudieran producirse en las transi
ciones entre los borrados y las zonas activas.
En la seal digital compuesta, ya sea NTSC o PAL, se utilizan los mismos
interfaces de comunicacin que en la seal digital pOI' componentes. Existen,
por tanto, dos tipos de interfaces o sistemas de conexin para seal digital
compuesta: paralelo y serie.

169

I
I

CAPTULO

Compresin en vdeo
1. Introduccin
La digitalizacin de las imgenes ofrece muchas y muy importantes ventajas,
algunas de ellas ya enumeradas en e! captulo 4. El mayor xito de! vdeo digital se
produjo en posproduccin, donde e! alto coste de los equipos quedaba compensa
do por la mayor calidad y la multigeneracin ilimitada sin perdidas.
Por otro lado, una produccin normal de TV genera unos 200 Mbits/ s. Tal fre
cuencia binaria requiere grandes capacidades de almacenamiento y enormes
anchos de banda para su transmisin. La utilizacin masiva del vdeo digital slo
ser un~ realidad si se reducen las necesidades de almacenamiento y de ancho de
banda. Este es justamente e! propsito de la compresin.
Casi todas las aplicaciones actuales emplean compresin. Formatos de magne
toscopios como el Betacam Digital, DVCPRO, DVCAM, DIGITAL-S, Betacam SX
o MPEG-IMX, soportes multimedia como el DVD, sistemas de televisin digital,
como ATSC o DVB, etc., todos ellos utilizan la compresin de datos para propor
cionar ms y mejores servicios. Es, por tanto, necesario conocer los principios
bsicos, las tcnicas y los trucos que permiten, por ejemplo, reducir desde 200
Mbits/ s a slo 6 Mbits/ s un tren binario sin que apenas sufra la calidad de la ima
gen en movimiento.
Estudiar los procesos que permiten comprimir las imagenes y sonidos no slo
es necesario, sino que, adems, puede resultar, para cualquier persona inquieta, un
ejercicio interesante y hasta fascinante.
La compresin permite al usuario elegir la combinacion de parmetros de
muestreo y factores de compresin que mejor se adapten a sus necesidades. Esta
nueva filosofa de "norma a la carta" esta desplazando a los viejos y rgidos concep
tos de "frecuencia de lneas", "frecuencia de campos" y "codificacin del color PAL,
171

TlCNOLOGI..I ACTUAL D[ TU,,,J!c'-I'.c:""'I<j')N-'-'

NTSC y SECAM", Distintos factores de compresin significan distintas frecuencias


binarias (el equivalente en digital al concepto de ancho de banda), lo que supone,
a su vez, distintos niveles de coste)' prestaciones en la grabaCin, en e! procesado
y en la transmisin.

Comj2fs.,<;jllS!L\l~!

Tabla 7.1 Algunas aplicaciones de la compresin.


APLlCACION

64 Kb/s

2-4 Kb/s

5,07 Mb/s

8-16 Kb/s

64 Kb/s

4-16 Kb/s

10,13 Mb/s

64-768 Kb/s

1,5 Mb/s

64-128 Kb/s

30,41 Mb/s

1,5 Mb/s

2:1 :0

Vdeo calidad radiodifusin


720 x 576 pxeles;
8 bits/muestra

165,88 Mb/s

4-6 Mb/s

4:2:0

HDTV
1.920 x 1.152 pxeles;
8 bits/muest.

884,73 Mb/s

16-25 Mb/s

8:4:4

Voz: 8 Kmuestras/s;
8 bits/muestra

2. Para qu comprimir?

Audio digital (estreo)


44,1 Kmuestras; 16 bits/muestra

La compresin est de moda, pero eso no es razon suficiente para utilizarla. La


compresion puede servir, por ejemplo:

Vdeo en CD-ROM
352 x 288 pixels

Para lograr mayor calidad, fiabilidad, robustez, etc. en un soporte determina


do, como, por ejemplo, DVTR o DAT (al grabar menos datos, las pistas pue
den ser ms anchas y las longitudes de onda grabadas en cinta ms largas).
Para aumentar el tiempo de grabacin y reducir el tiempo de acceso en los
magnetoscopios.

Notas

Con compresin

Tal flexibilidad permite, por ejemplo, transmitir "deo digital por los cables de
cobre utilizados por las compaii.as telefonicas, por cables coaxiales o de fibra opti
ca, por los transmisores VHF /UHF o por satlites de comunicacin directa al usua
rio (D8S), cada uno de ellos con su propia tasa binaria y su propio nivel de calidad.
Otro factor de gran influencia es la aparicin de los ordenadores tipo PC, capa
ces de generar)' manipular imgenes a muy bajo coste. En el entorno de los estu
dios de televisin esta pequea maravilla, compacta, eficiente y verstil, est revo
lucionando las tcnicas de produccion. En la mayora de los casos el vdeo sobre PC
necesita la ayuda de la compresin.

Para ubicar audio y vdeo en soportes donde no sera posible: CD-ROM,


canales de transmisin estrechos, etc.

Frecuencia binaria
Sin compresin

Vdeo a baja frecuencia


temporal, 177 x 120
pxeles; 8bits/muestra
Audioconferencia
8 Kmuestras/s; 8 bits/muestra
Videoconferencia
352 x 240 pxeles;
8 bits/muestra

10 cuadros
segundo

Solo "V"

Para poder enviar ms programas sobre un mismo soporte: DVD, vdeo bajo
demanda, etc.
En la tabla 7.1 podemos ver algunas posibles aplicaciones de la compresin en
vdeo y audio.
Consideremos la transmision de una pgina grfica mediante FAX. El tamao de
la pgina suele ser el llamado DIN-A4 (297 x 210 mm). La resolucion ms frecuente
es de 200 puntos/pulgada. Puesto que cada punto solo puede ser blanco o negro, ste
puede codificarse con un solo bit, lo que genera 3,74 Mbits/pgina. Si se transmitie
ra esta informacion a travs de un modem de 14,4 Kbits/s, seran necesarios 5,62
minutos para transmitir la pgina completa. Gracias a la compresin, la transmisin
puede realizarse en slo 17 segundos, lo que supone reducir el coste a 1/20.
Consideremos ahora la reproduccin de vdeo a partir de un CD-ROM
(720 x 576 pxeles, 25 imgenes por segundo). Esta aplicacion genera una fre
cuencia binaria de algo ms de 20 Mbytes/segundo (166 Mbits/s exactamente). A
esta frecuencia binaria slo se podran almacenar 30 segundos de vdeo en los 650
Mbytes de capacidad de! CD-ROM. Aplicando compresin podemos almacenar
hasta 74 minutos de vdeo en movimiento (150 veces ms), aunque con una cierta
prdida de calidad.
172

3. Teora de la informacin
La informacion de las imgenes de vdeo puede dividirse en tres partes:
El elemento rcdundante: Informacin repetitiva o predecible. Una seal de vdeo
contiene mucha informacin redundante. Un pxel tiende a parecerse a sus
vecinos (redundancia espacial). Una imagen tiende a parecerse a la que le pre
cede y a la que le sigue (redundancia temporal).
El elemento irrclevante: Informacin que el ojo humano no es capaz de apreciar.
El clcmento bsico: Informacin que no es redundante ni irrelevante y que debe
retenerse.
La compresion pretende reducir (idealmente eliminar) tanto la redundancia
como la informacin irrelevante. Desgraciadamente, las fronteras entre estos
tres elementos son borrosas, en especial entre irrelevante y perceptualmente
bsica. La habilidad a la hora de separarlas depende de la "inteligencia" del codi
ficador, de la cantidad de memoria utilizada para el anlisis y del retardo per
mitido.
173

Compresin en ,"ideo
JlCN()1 O{;iA ACTUAl nE Tf:Ll:.\I~IO~

3. l. Tipos de compresin
Conceptualmente podemos dividir los sistemas de compresi6n en tres tipos: sin
prdidas, subjetivamente sin prdidas y subjetivamente con prdidas.
Tabla 7.2 Los tres tipos bsicos de compresin: sin prdidas reales, subjetivamente sin
prdidas y subjetivamente con prdidas.
TIPO

PRECISiN

Sin prdidas
reales
Subjetivamente
sin prdidas

Precisin
bit a bit
Errores no
perceptibles
Errores
perceptibles
pero tolerables

Subjetivamente
con pridas

FACTOR DE
COMPRESiN

APLICACiN

Bajo nivel de
compresin
Nivel medio de
compresin

Informtica

Alto nviel de
compresin

Comunicacin

Broadcast

Los compresores utilizados en informatica necesitan una precisin "bit-a-bit".


Esto hace que el factor de compresin (relacin entre la cantidad de datos antes y
despus de la compresin) sea variable, ya que depende de la cantidad de redun
dancia que contenga el archivo original. Al tener que respetar la integridad de los
datos, el factor de compresin medio suele ser pequeo (entre 1: 1 y 1O: 1).
Adems varia con la complejidad del archivo.
En audio y vdeo se pueden tolerar ciertas prdidas de informacin, cuando se
sabe que no van a ser percibidas por el espectador (codificacin perceptiva). De
esta manera se logra un factor de compresin mayor (2: 1 a 40: 17). Ademas se
puede hacer que el factor de compresin sea constante, tolerando mas prdidas
,
subjetivas cuando la redundancia es menor.
La mxima compresin se logra cuando se permiten errores que el espectador
o el oyente pueden ap'eciar, pero que son tolerables en una aplicacin dada. Por
ejemplo, en aplicaciones de "videoconferencia", puede ser suficiente con imgenes
en blanco y negro, de poca resolucin espacial y con una frecuencia de refresco de
imagen (resolucin temporal) muy baja. Otra aplicacin de este tipo poddan ser
las copias de vdeo y audio para aplicaciones iifJ-line. En estos casos se pueden
lograr factores de compresin de mas de 100: 17.

3.2. Entropa vs redundancia


Toda imagen contiene una cierta cantidad de redundancia, la cual se define
como aquellos datos que son repetitivos o predecibles. La diferencia entre la can
tidad total de datos de un mensaje y su redundancia se conoce como "entropa".
Por tanto, el contenido de informacin real o entropa de una muestra es una fun
cin de cun diferente es sta con respecto a su valor predecible. Una onda senoi
dal, por ejemplo, es muy predecible, puesto que todos los ciclos son iguales y no

ocupa ancho de banda. En el otro extremo, el ruido


aleatorio es totalmente impredecible y, por tanto,
imposible de comprimir.
El lenguaje humano es un buen ejemplo de redun
dancia. Si un camarero nos pregunta que deseamos
tomar, podramos contestar: "Seria tan amable de
traerme una taza de caf solo, por favor?". Sin embar
go, "Cafe solo, por favor" resulta igual de comprensi
ble, ya que la accin de traer esta implcita en el
hecho de servir un cafe y, ademas, ya se sabe que hace
falta una taza que lo contenga. Dejando de un lado la
cortesa, "Un caf solo" hubiera sido suficiente e
incluso "Un caf" bastara.
Los sistemas de compresin intentan eliminar
toda la redundancia posible. Sin embargo, la redun
dancia no es siempre mala, ya que, por otra parte, da
seguridad al mensaje. De hecho, a la hora de proteger un mensaje contra posibles
errores del canal de transmisin, grabacin, etc., todos los sistemas aaden una
cierta cantidad de redundancia (debidamente calculada) a los datos originales. Si el
camarero no hubiera oido bien la palabra "caf", seguramente las palabras "taza" y
"solo" (que son redundancia) le habrian dado una pista.
Puede notarse en representacin espectral de la figura 7.1 que, dada una infor
macin concreta, no todas las frecuencias existen simultaneamente Y con total
energia. Igualmente, en el histograma puede verse que el numero de ocurrencias

SEPARACiN

ENTROpIA-REDUNDANCIA

CODIFICACiN
SIN P(RDIDAS

IMAGEN

ORIGINAL

REDUNDANCIA

ANCHO DE BANDA

*'"

l~l
FRECUENCIA

CODIFICACiN

CON P(RDIDAS

"

~1\Li~:~l
o

VALOR DE

LAS MUESTRAS

Figura 7.1.
Toda imagen est formada por eiertas cantidades de redundancia y ciertas otras de entropa.
La codificacion sin perdidas respeta toda la entropa mientras elimina la redundancia. La cDdi

llcacion con prdidas permite eliminar parte de la entropa.


175

174

T lCNOL<.lM...:-\C1 U)\L D'~L~I",T",L"-Lll.!I"SI,,6,,,;-,--

de los valores digitales de los pxeles est polarizado hacia ciertos valores. Son estas
ca-actersticas de la seal las gue permiten la compresin
Por definicin, la comp-esin elimina la redundancia gue toda informacin con
tiene. Sin embargo, la redundancia es esencial para Iogra- gue los datos sean resisten
tes a los errores del canal de grabacin o transmisin. Los datos comprimidos son ms
propensos a presentar errores gue los no comprimidos. Por tanto, los sistemas guc
emplean compresin deben utilizar esguemas de proteccin contra errores ms
potentes. Por ejemplo, el Betacam-Digital Comp-ime ligeramente (2: 1) los datos
antes de grabarlos en cinta, por lo gue requiere un 20% ms de redundancia para pro
teccin contra errores que el D-S, que no comprime. Como norma, la compresin
de datos no se emplear gratuitamente; slo cuando sea necesaria.
La entropa, sobre la que ya se ha hablado en el apartado anterior, es una medi
da del desorden o de la impredictibilidad. Esto resulta un tanto raro para los tc
nicos de televisin, acostumbrados a asimilar el desorden con el ruido y la parte de
la seal gue no es ruido con la informacin. El concepto importante es el de la pre
dictibilidadj un mensaje perfectamente predecible no contiene ninguna informa
cin. Si sabemos Jo que va a decir un mensaje, nuestro almacn de informacin no
cambia despus de recibirlo. Si el mensaje es en alguna medida impredecible, ten
dremos ms informacin despus de recibirlo. Por tanto, entropa significa info'
macin nueva e impredecible.

4. Redundancia y entropa en las imgenes de televisin


Separar la redundancia de la entropa es como separar el grano de la paja. La
mies trillada abulta mucho, pero tiene poca sustancia. De igual forma, las imge
nes digitalizadas consumen muchos bits, aunque posean poca informacin real.

4. 1. Redundancia estadstica
Prcticamente todas las imgenes contienen grandes cantidades de informacin

repetitiva o predecible. Si no se utilizaran sistemas de reduccin de datos, estos

valores idnticos se repetiran, llenando innecesariamente el canal de transmisin

o de grabacin. Puesto que la informacin de televisin fluye en tres dimensiones

(horizontal, vertical y temporal), podemos encontrar redundancia en cualguiera

de ellas. As un punto de la imagen tiende a parecerse a sus vecinos de la izquierda

y la derecha; una lnea tiende a ser similar a la de ms arriba y a la de ms abajo;

una imagen suele parecerse a la que le precede y a la que le sigue. En los dos pri

meros casos se habla de redundancia espacial, mientras que en el ltimo se habla

de redundancia temporal.

4.2. Redundancia perceptuaI


Adems de la redundancia estadstica, las imgenes de televisin contienen
informacin real, no repetitiva ni predecible, pero que el sistema de percepcin

-'c"'Q"-'JTllf!! csilJ QDJ~.kQ

visual humano no es capaz de apreciar o, dicho de otra forma, que si se elimina, la


calidad subjetiva de la imagen no empeora o apenas lo hace. Si el sistema de per
cepcin visual humano no es capaz de ver ciertos "errores de codificacin", tales
errores no afectan a la calidad percibida. Por tanto, ciertos valores pueden ser alte
rados y en algunos casos incluso eliminados del tren binario, sin que esto suponga
una degradacin apreciable de la imagen.

4.3. Entropa de las imgenes


Como se ha visto, la entropfa es una medida del contenido real de informacin
de una imagcn que ha sido digitalizada. Segn la teora de la informacin, la ocu
rrencia de un suceso poco probable contiene ms informacin que la de otro ms
probable. A partir de esta observacin puede decirse que la entropa define la difi
cultad de codificacin de una imagen. Lo anterior significa gue si, analizando una
cierta cantidad de informacin ya recibida, el nuevo dato es altamente probable,
tal dato contiene muy poca informacin real o, lo gue es lo mismo, muy poca
entropa.
La entropa tambin se define como "la mnima cantidad de informacin pro
mediada por muestra binaria que es necesario preservar para poder reconstruir la
informacin original sin incertidumbre". Una imagen digitalizada en blanco y
negro, con 256 niveles de gris (8 bits/muestra), podra, por ejemplo, indicar, des
pus de una codificacin diferencial "entropa
4,14". Esto significa que, como
promedio, son necesarios 4,14 bits/muestra para codificar toda la informacin de
la imagcn, de forma gue la reconstruccin posterior no suponga ninguna prdida
de informacin.
Otro esguema de codificacin estadstica ms avanzado que la diferencial podra
dejar la imagen con una "entropa = 3,88", aungue existe un lmite tearico deno
minado entropa mnima. Si un sistema de compresin dc vdeo reduce la tasa bina
ria por debajo del valor de entropa mnima, una parte de la informacin de la ima
gen se perder inevitablemente.

4.4. Redundancia en tres dimensiones


Cuando sc desea obtener un factor de compresin e1cvado, es necesario elimi
nar tanto la redundancia espacial como la temporal. Hay varios procedimientos
para eliminar o reducir la redundancia espacial, la mayora de ellos basados en el
anlisis de las frecuencias gue componen la imagen. Para reducir la redundancia
temporal, lo que se hace es no enviar las imgenes de vdeo en s mismas, sino la
diferencia entre ellas. Por ejemplo, una de cada diez imgenes se podra enviar
completa, mientras gue de las otras nueve slo se enviara la medida en que cada
una difiere de la anterior. Con este sistema pueden lograrse factores de compre
sian elevados, pero hay gue tomar algunas precauciones. Por ejemplo, podra ser
necesario enviar una imagen completa extra cada vez que hubiera un cambio de
plano.

176
177

TECNOLOGIA ACTUAl. DE TEI.I:VI,lf)N

mm

mm

mm

iIDf

mm

mm

e{

U-'
Zc{

p@

c{u

Z""

i
I

:::lffi

o>
w

el::

U'?

'::v
::0~~O~

REDUNDANCIA
HORIZONTAL

:-tv~tv~

Figura 7.2.
La redundancia espacial puede apreciarse por la similitud entre elementos vecinos en una
misma imagen. Basta con observar un grupo de fotogramas de pelcula de cine, para ver que
las imgenes en movimiento contienen, adems, redundancia temporal.

Los sistemas que comprimen temporalmente (tambin denominados de com


presin intercampo o de compresin intercuadro) no son adecuados para la graba
cin digital profesional, ya que en este tipo de aplicaciones interesa que una ima
gen sea una entidad en s misma y no la diferencia codificada de la imagen o im
genes precedentes. A la hora de editar, el montador desea poder cortar en cual
quier punto, sin que esto rompa ninguna secuencia de codificacin.
Para entender cmo se puede comprimir una imagen es necesario cOIlocer las
caractersticas espectrales de las imgenes de vdeo. Una seal de vdeo conven
cional ocupa un espectro que puede extenderse desde O a 6 MHz. Sin embargo, la
mayora de las imgenes de vdeo que representan objetos naturales estn com
puestas bsicamente por bajas frecuencias. Las altas frecuencias aparecen slo en

~~,:.
-".l

las zonas de finas texturas o en los


bordes de los objetos (como en las

rayas de la chaqueta o en los bordes

que delimitan al presentador de la

figura 7.3). Por tanto, se puede pen

sar que una imagen como la de dicha

Figura 7.3.

Ejemplo de frecuencias espaciales en im

genes de televisin

178

I
I

ComDrcsin en video

figura contiene una gran cantidad de informacin relacionada con reas de bajas
frecuencias y muy poca informacin en reas de altas frecuencias.
Se puede concluir que cuando se procesa vdeo digital podramos asignar el
numero de bits en funcin de la frecuencia: ms bits en las zonas de baja frecuen
cia (que contienen la mayor parte de la informacin) y menos bits en las zonas de
altas frecuencias (que contienen muy poca informacin). Asignando adecuadamen
te el numero de bits en funcin de la frecuencia, se puede reducir considerable
mente la cantidad de datos que representan la imagen sin que sta se degrade. Sin
embargo, lo anterior se basa en supuestos estadsticos, de forma que nada asegura
que el contenido de informacin en las altas frecuencias sea siempre bajo.

5 . Tcnicas de reduccin de datos


Los sistemas reales de compresin de datos, actuales y potentes, son combina
ciones de muchas y variadas tcnicas o herramientas. stas pueden dividirse en dos
grupos: herramientas de "compresin sin prdidas", tambin llamada "compresin
matemtica" o "compresin entrpica", y herramientas de "compresin con prdi
das" o "compresin perceptual". Aunque durante las ltimas dcadas se han des
arrollado muchas herramientas de compresin "con prdidas" y "sin prdidas", slo
algunas son adecuadas para la compresin de imgenes. A estas herramientas habra
que aadir algunos "trucos" que ayudan igualmente a reducir la tasa binaria. La
figura 7.4 resume las herramientas y trucos empleados en la compresin JPEG
Uoint Photo8raphic Experc Group) para imgenes estticas y MPEG (Motion Pieture
Expert Group) para imgenes en movimiento, as como en algunos formatos de
magnetoscopios digitales.

INFORMACiN

ORIGINAL PCM

>1

JPEG

M-JPEG

MPEG-1

MPEG-2

DVCPRO
p-DIGITAL
DIGITAL-S

Figura 7'+.
Tcnicas de reduccin de datos, con y sin prdidas utilizadas en los sistemas de compresin
JPEG, MPEG YDVTRs.
179

TECNOLOGIA ACTUAL DLrW~"'~IS~I(~)~~

Adems de las tcnicas mostradas en la figura 7.4, existen otTaS que o bien estn en
desarrollo o resultan difciles de aplicar a las imgenes de televisin, por lo que no sern
tratadas en este libro. Entre ellas cabe destacar la KLT (Transformada de Karhunen
Loeve), la WHT (transformada de Walsh-Hadamard), los lI'al'e/ets y los fractales.
Ninguna de las tcnicas que aparecen en la figura 7.4 es capaz, por s! sola, de
proporcionar una reduccin significativa de los datos en el tratamiento de las im
genes de televisin. Es la combinacin inteligente de muchas tcnicas y trucos lo
que permite reducir la tasa binaria, manteniendo el mximo de calidad. As!, por
ejemplo, los sistemas MPEG combinan en un mismo codificador todas las tcnicas
mostradas en la figura 7.4.
Resulta conveniente, a la hora de estudiar la tecnolog!a de la compresin de
imgenes, dividir las distintas tcnicas o herramientas en dos grupos: con prdidas
y sin prdidas, tal como se muestra en la figura 7.4. En los sistemas reales se
comienza por aplicar las herramientas de compresin con prdidas o compresin
perceptual, eliminando la informacin no apreciada por el ojo. La informacin
resultante es sometida a continuacin a los procesos de compresin sin prdidas, o
compresin entrpica. Sin embargo, desde el punto de vista didctico resulta ms
aconsejable estudiar primero los procesos de compresin sin prdidas y dejar para
el Hnalla compresin perceptual.
A continuacin se irn desgranando una a una las distintas tcnicas o herra
mientas de compresin; primero, las entrpicas (sin prdidas) y luego las percep
tivas (con prdidas). En esta primera aproximacin, cada tcnica es un mdulo de
estudio, independiente y aparentemente inconexo. Sin embargo, pronto se ver
que es la unin o combinacin de varias herramientas y trucos, lo que permite dis
poner de sistemas eficaces de compresin.

~\illJJli-~~(ll__L~!lJ_:iJ~

6.2. Codificacin de secuencias


Podemos imaginar una aplicacin como el fax, en la que se transmiten, en blan
co y negro, pginas impresas. La transmisin se hace digitalmente a travs de line
as telefnicas, por lo que interesa reducir el tren binaro. Puesto que los puntos
elementales que componen la imagen slo pueden ser blancos o negros, se puedc
codificar cada muestra con un slo bit, el cual podra ser" 1" para el blanco y "O"
para el negro. La pgina podra analizarse por lineas, de forma similar a como se
hace en televisin.
Por otro lado, en una pgina normal suele haber zonas muy grandes en blanco
(lo que produce largas secuencias de unos), as! como zonas en negro (largas secuen
cias de ceros). En lugar de estar repitiendo constantemente: blanco, blanco, blan
co... , sera ms corto decir "n veces blanco", es decir, no transmitir el valor de cada
muestra, sino el nmero de veces que un valor se repite hasta que se cambia de
valor. En el ejemplo de la figura 7.5 esto ha permitido pasar de 89 bits a slo 20.
Puede verse que la eficacia del cdigo no depende slo del tipo de codificacin
utilizado, sino tambin de la probabilidad de ocurrencia de cada smbolo (entro
pa). Si se ha logrado una reduccin importante de los datos en el ejemplo anterior
es porque la probabilidad de repeticin de un mismo valor es alta. Cuanto mayo
res sean las cadenas de ceros y unos, mayor ser la eficacia de este tipo de codifi
cacin.

COLOR

CODIGO

;~-

6. Tcnicas de compresin sin prdidas


Puede verse en la figura 7.4 que las principales herramientas de compr~sinsin
prdidas incluyen: supresin de borrados, RLC (Run Lenaht Codina, o codificacin
de secuencias) VLC (Variable Lenaht Codina o codificacin de longitud variable) y
DCT (Discret Cosine Tranifrm o transformada en coseno discreto).

DATOS
ORIGINALES

illiTilTrl-~Tilr'nnlGGQ
T['JilTiIq-pnTI
1Jll . . ] 1J]ltQ':t'I, , .11llL
l!L
_, _ ..}!J [1,.69 BITS
J

Casi un 20% de la duracin de una linea de televisin corresponde al periodo de


borrado de linea. Seria un lujo innecesario digitalizar, procesar, grabar y transmitir una
informacin que ya se sabe cmo ha de ser. Hay que recordar, a partir de la definicin
de entropa, que si sabemos de antemano cul ser el contenido de un mensaje ste no
contiene informacin real. De igual forma, un 8% de las lineas de televisin pertenecen
al borrado vertical y pueden omitirse en la codificacin. Despus de la descompresin,
el equipo oportuno ya generar, si resulta necesario, los sincronismos horizontal y ver
tical, sea en forma digital o analgica. En la norma 4:2:2 bsica (8 bits/muestra) la
supresin de los borrados permite reducir de 216 Mbits!s a 166 Mbits!s.
180

..

'-------~~'--~'---v----'
JO UNOS

26 'CEROS'

CODIFICACiN

f:U~~~EUNE~TC~~
~~~~~6~EN

24 'UNOS'

9 'CEROS'

r-.---- I
r
3'
~~OJ~~_~i~_' __]
~ ~MB6Cf~aJr.20
I'--'--'~-l

6. 1. Supresin de borrados

NEGRO

..... .-J

'T

r-

BITS

Figura 7.5.

El principio bsico de la RLC consiste en indicar el nmero de veces que un valor se repite

hasta que aparece otro distinto.

NOTA: Es necesario anadir informadn de sincronizacion para indicar cundo se inicia la descrlpcin de una cadena
de ceros o unos, especialmente cuando el nmero de bits que define cada cadena puede ser variable.

181

TI:cNO/ O(;iA ACTUAL IX 1 :/ [\'ISlClN

Com!Jresn en \'deo

El ejemplo anterior muestra slo una posible implementacin del RLC. En


MPEG, por ejemplo, lo gue se hace es codificar slo los valores distintos de cero,
poniendo a continuacin el nmero (run) de ceros gue siguen hasta gue aparece
otro valor distinto de cero. As, por ejemplo, la secuencia 45,0, O, 0, 12, 7, 0, 0,
0,0,0,0,23 se codifica como 45,3,12,0,7,6,23 Y se lee: 45, tres ceros, 12,
ningn cero, siete, seis ceros, veintitrs. Puede verse gue se forman "parejas" de
"valor real-nmero de ceros". Si esta forma de aplicar la RLC en MPEG es eficaz
es porgue se sabe de antemano gue se producirn largas cadenas de ceros.

rente. Cuanto mayor sea la polarizacin de la probabilidad estadstica de cada


carcter, ms eficiente podr ser la codificacin con longitud variable.
Si el cdigo Morse se utilizara con otro idioma, como, por ejemplo, el polaco,
la eficacia sera muy inferior, ya gue la estadstica del idioma polaco es diferente de
la del idioma ingls. Por ejemplo, en polaco la letra "z" es bastante frecuente. De
aqu se deduce que un estudio adecuado de las probabilidades de ocurrencia de
cada smbolo resulta clave para una codificacin eficaz.

6.3. Codificacin de longitud variable

6.3.1. El cdiBo H!!lJman

Una forma de reducir el tren binario consiste en analizar las posibilidades de


ocurrencia de cada valor digital. Esto se puede entender pensando en cmo fun
ciona el cdigo Morse, desarrollado para comunicacin y gue utiliza un alfabeto
basado en combinaciones de puntos y rayas.
A efectos de lograr la mxima eficacia, el cdigo Morse adjudica combinacio
nes de rayas y puntos ms cortas a las letras del alfabeto gue aparecen con mayor
frecuencia, as como combinaciones ms largas, a las que aparecen con menor fre
cuencia. Este cdigo fue desarrollado para su utilizacin en el idioma ingls, en el
cual letras como la "e" y la "t" se usan muy frecuentemente, mientras gue la "g" y la
"z" se emplean raramente. Como puede verse en la figura 7.6, la "e" y la "t" utili
zan cdigos cortos, mientras gue la "g" y la "z" emplean los cdigos ms largos. Por
tanto, si el idioma ingls puede codificarse eficazmente mediante un cdigo como
el Morse es porque la probabilidad de ocurrencia de cada letra del alfabeto es dife-

El "Huffman" es uno de los ms populares cdigos de longitud variable. Para


comenzar se colocan todos los smbolos en orden descendente de probabilidad
de ocurrencia, de manera gue el ms probable aparezca arriba y el menos pro
bable abajo. A continuacin se conectan los dos menos probables (en la figura
7.7 el 4 y el 5) y se suman sus probabilidades. El resultado de la suma se entien
de como un valor "unin A", que en este ejemplo es de 0,08. A continuacin se
buscan los siguientes dos valores menos probables (aqu el 2 y el 3), los cuales
proporcionan la unin "B", La siguiente operacin ser conectar las uniones "A"
y "B", ya que la probabilidad de ambas es menor que la probabilidad del siguien
te valor hacia arriba (aqu el 1). El procedimiento contina hasta que todos los
smbolos tengan su conexin. Todo lo que gueda por hacer es asignar un cero o

SIMBDLO

PROBABILIDAD

0,50
0.22
0,14
0.06
0,05
0,03

PROBABILIDAD DE OCURRENCIA Y CODIFICACiN

DE LONGITUD VARIABLE

(a) 2
3
4
5

REGLA DE
CODIFICACiN

12

e
t

SIMBOLO
PROBABILlDAO
._
-
0,50

O
0,22
1
0,14 2
0,06
3
0,05

e t.

qz

(e)
--e_
--e

ALFABETO

Figura 7.6.
El cdigo Marse es un buen ejemplo de codificacin de longitud variable.

0.50
0,22
0,14~

0,06
0.05~

0,03

O.03~8

__
(e)

PROBABILIDAD
-----

--

ro
O

g::

O
1
(b) 2
3
4
5

--~

(EN EL IDIOMA INGLfS)

~--

~~ 6

SIMBOLO

SIMBOLO

CDIGO

O
10
1100
1101
1110
1111

1
2
3
4
5

(d)

Figura 7.7.

Huffman genera cdigos de longitud variable en funcin de la probabilidad de ocurrencia de

cada smbolo.

182
183

TLCNOLOGIA I\CTU:\L DE

TLllqSclc~N~

un uno a cada rama de una unin, con la condicin de que las dos ramas deben
tener cdigos opuestos.
En estas condiciones el cdigo correspondiente a cada smbolo S' obtendr
leyendo el valor (cero o uno) correspondiente a cada rama que se atraviesa, al ir
desde el punto de probabilidad unidad (a la derecha) hasta el smbolo que se quie
re codificar (en la izquiel-da). Puesto que se siguen caminos distintos, nunca un
cadigo corto podr ser prefijo de otro ms largo. La relacin entre los smbolos y
los cdigos que les corresponden puede establecerse de manera fija o actualizarse
peridicamente mediante tablas de consulta eue se envan al receptor.
La implementacin ms sencilla)' prctica del c6digo de Huffman consiste en
almacenar en unas memorias, tanto en el codificador como en el decodificador, la
correspondencia entre los valores de entrada y salida, realizando la conversin por
el mtodo de "look-up tahles" (consultar tablas).

6.3.2. La codificacin aritmtica


En la codiflcacin VLC-Huffman cada smbolo de entrada genera una palabra
codificada de salida. Esto significa que la mxima compresin que puede propor
cionar este sistema sera la correspondiente a un bit por smholo de entrada. Es
posible ohtener mayores factores de compresin combinando varios smbolos de
entrada en una misma unidad, que podramos denominar "mensaje". Auneue esto
se puede hacer dentro elel contexto de codificacin Huffman, la complejidad de
cmputo se dispara, Adems, si las probabilidades de ocurrencia de cada smbolo
cambian, resulta necesario redisear las tablas de correspondencia Huffman.

HUFFMAN
sMBOLO PROBABILIDAD

a
b

e
d
e
f
x

MENSAJE:

0,05
0,2
0,1
0,05
0,3
0,2
0,1

CDIGO

CODIFICACiN ARITMTICA
SIMBOlO PROBABILIDAD

10101
01
100
10100

11i
00 \
1011

a
b

e
d

e
f

SUBINTFRVAlO

0,05
0,2
0,1
0,05
0,3
0,2
0,1

0,00-0,05
0,05-0,25
0,25-0,35
0,35-0,40
0,40-0,70
0,70-0.90
0,90-1,00

bbccfe

I
I

SIN COMPRESiN: 7 SMBOLOS x 3 BITS/sMBOLO = 21 BITS


VLC-HUFFMAN: 0101 10010000111011

(TOTAl= 18 BITS)

VLC-CODIFICACIN ARITMt:TICA: 0001001 001 000011

(TOTAL= 16 BITS)

Figura 7.8,
La codificacin aritmetica es otra forma de codificacin de longitud variable, algo ms eficaz
que la de Huffman.
J 84

CQ!lll-llI~tQILl_Jid.h

La codificacin aritmtica es un sistema de compresin sin prdidas que se


beneficia del tratamiento de multiples smbolos en una nica unidad o mensaje. Al
igual eue en Huffman, la codificacin aritmtica comienza por analizar la pl"Obabi
lidad de ocurrencia de cada smbolo, pero, en lugar de darle un valor de probabi
lidad, le asigna un "subintervalo" de probabilidad, de manera cue la suma de los
subintervalos genera un intervalo unidad (entre
J). Durante la codificacin se
parte del intervalo unidad. A continuacin se establecen los lmites, superior e
inferior, del primer simbolo (en este ejemplo la "b"j los limites son 0,05 y 0,25).
En el siguiente paso este subintervalo (que vale 0,2) vuelve a entenderse como el
intervalo unidad y dentro de el se buscan los lmites del siguiente slmbolo (otra "b"
en nuestro ejemplo). Estos nuevos lmites son ahora 0,06 y 0, l. Repitiendo el
mismo proceso para la "c" se obtiene 0,07 )' 0,74. Si se contina el proceso, los dos
lmites tienden a converger y en nuestro ejemplo, despus de codificar el smbolo
"x" (cue se coloca como final del mensaje) los lmites super-ior e inferior resultan
ser: 0,0713360 y 0,0713336_ Estos numeras codifican perfectamente el mensaje
del ejemplo (bbccfex). En la prctica no es necesario codificar ambos lmites, sino
cualcuier numero comprendido entre ellos, como 0,0713348389, que, como
puede comprobarse, corresponde a 2-4 + 2-7 +2-10 + 2-15 + 2-16 y que, por
tanto, puede representarse con 16 bits.
En la codificacin aritmtica lo que se codifica es un "camino" o una "va" desde
el intervalo 0-1 hasta un subintervalo menor. Cuantos ms smbolos se vayan aa
diendo al mensaje, ms precisa deber ser la Vla que conduce al subintervalo final
y, por tanto, ms bits harn falta para codificarla.
Al igual que en el cdigo de Huffman, a los conjuntos tle datos ms probables
le corresponden subintervalos mayores, los cuales necesitan menos bits de preci
sin para ser descritos. Si el subintervalo es muy grande, puede redondearse a cual
quier cifra de pocos decimales dentro de tal subintervalo; si es muy estrecho, defi
nir un tramo muy preciso.
Es importante recordar que tanto la RLC como la VLC son tcnicas de com
presin sin prdidas, es decir, ya se aplicuen juntas o por separado, estas tccnicas
permiten la recuperacin exacta de los datos despus de la descompresin.

)'

6.4. Introduccon a la DCT


La DCT (Discrete Cosine Traniform o transformada en coseno discreto) es la base
de sistemas de compresin tales como JPEG, MPEG, DVCPRO, Betacam Digital,
etc. La prctica totalidad de los sistemas de compresin para imgenes de televi
sin, ya sea en captacin, distribucin, contribucin, edicin o emisin, se basa en
la ubicua DCT. Se trata de un sistema de compresin por transformacin, es decir,
la DCT no opera sobre el valor de las muestras de vdeo, sino sobre su represen
tacin frecuencia!.
La DCT, aplicada a imgenes de televisin, procesa bloques amplitud de los de
pxeles y los convierte en bloques de valores de frecuencia. En s misma la DCT no
introduce prdidas, siendo, por tanto, un proceso totalmente reversible. Sin
embargo, para que ello sea cierto, en imgenes en que las muestras han sido cuan
185

Tf:CNOI

ocIA

AC-TlIAI DE TElL:\,ISlN

Comnresin

tificadas con 8 bits, los coeficientes frecuenciales deben codificarse con una preci
sin de 12 a 13 bits/ coeficiente. Al contrario de lo que se cree: "la DCT no com
prime, sino todo lo contrario" y "la OCT, en s misma, no introduce prdidas". Lo
que sucede es que la OCT se utiliza como herramienta para ayudar a comprimir.
Siendo la DCT el ncleo o alma en torno a la cual giran las dems herramien
tas de compresin, nada ms ser dicho por ahora. Abriremos un poco ms ade
lante un apartado completo sobre ella.

7. Tcnicas de compresin con prdidas

26

25 24
23

22

21 20

--

-1

19 ,8 -

17
16

Lo anterior significa que adems de la compresin matemtica, sin prdidas,


podemos echar mano de las llamadas herramientas de compresin perceptual. Son
estas ltimas las que proporcionan, como se ver ms adelante, la mxima poten
cia de compresin. Tambin aaden un poco de "sal" a la tecnologa, ya que intro
ducen una cierta subjetividad, haciendo que la compresin sea en parte una cien
cia yen parte un arte. Gracias, o por culpa, de la compresin perceptual, dos codi
ficadores pueden proporcionar distinto nivel de calidad de imagen, a pesar de uti
lizar el mismo material de entrada y producir la misma tasa binaria de salida.

7.1. Codificacin diferencial (DPCM)


La OPCM puede encuadrarse dentro de las tcnicas con prdidas o dntro de
las tcnicas sin prdidas. Si se utiliza sola, ser una tcnica con prdidas o no se
garantizar ninguna compresin. Usada en conjuncin con otras tcnicas, la DPCM
puede ayudar a comprimir incluso sin prdidas.
Si la redundancia es la culpable de que el tren binario se dispare innecesaria
mente, una solucin puede consistir en no codificar el valor absoluto de las mues
tras, sino la medida en que cada muestra difiere de la anterior. Esto es lo que hacen
los sistemas OPCM (Diferencial Pulse Cade Modulatian). Puede verse en la figura 7.9
que de esta forma se reduce considerablemente la amplitud de los valores a codi
ficar, lo que significa tener que emplear menos bits por muestra. En el ejemplo de
la figura 7.9, para codificar la seal PCM hacen falta cinco bits por muestra, mien
tras que la seal DPCM necesita slo tres bits para codificar cada valor diferencia.
De todas formas, es evidente que ser necesario enviar el valor absoluto de alguna
muestra, precediendo a los valores diferencia, de manera que el decodificador
tenga un punto de partida para poder reconstruir los valores originales.
Un problema asociado a la codificacin diferencial es que es propensa a la pro
pagacin de errores. En efecto, si durante la transmisin, grabacin, etc. se alte-

ddeo

'-.,"
-

.........
- - 1......... _

.........

'

"l"

15 14 -~

13 ,2
11

5 BITS POR
MUESTRA

-_._.-_ ....
Afortunadamente las imgenes de televisin, despus de descomprimidas, no
necesitan ser idnticas a como eran antes de la compresin: basta con que lo
parezcan! En comunicacin audiovisual, el decodificador final es siempre el
mismo: el espectador. Si para l la calidad de las imgenes y sonidos es apropiada,
entonces no importa en absoluto cuntos errores y redondeos se hayan cometido
en la codificacin.

'-/1"

/1/1

("1),

~-.-....._,._._.-.-,.-.-._,._--

..

PCM

20212222232625262423212120202019191817 16 15 1411 12

-O-PCM-[)N=(M--)-:.:-M

MO MI MI
..

3 BITS POR
MUESTRA 'F

.~

-- - -

- .

/1\

o' ./,-,'-.,/,
2-

_N+1

M23

1\/'\.1 ' I/"""--,,,v-"-'_I_'-' I!


./'-

+1 +1 0+1 +3 -1 +1-2 -1 -2

o 1 o o -1 o -1

oo~m

OPCM

,\V

-1 1 1 -1

~3

+1
~

Figura 7.9.

En la DPCM no se codifica el valor absoluto de las muestras, sino la diferencia entre el valor

de una muestra dada y otra u otras muestras de referencia.

ra uno de los valores diferencia, el valor de la muestra actual ser incorrecto,


pero, adems, sern incorrectos tambin los valores de todas las muestras que
aparezcan a continuacin. Para evitar esto se pueden intercalar muestras con su
valor absoluto entre los valores diferencia. Por ejemplo, se puede hacer que una
de cada diez muestras no est codificada como valor diferencia, sino que se enve
con su valor absoluto, es decir, enviar un valor absoluto, nueve valores diferencia,
un valor absoluto, etc. Otro problema asociado a la codificacin DPCM es que la
reduccin de bits slo es posible si los valores diferencia se mantienen claramen
te ms pequeos que los valores absolutos y, desgraciadamente, no hay nada que
garantice esto ltimo.

7.1.1. DPCM con prediccin adaptativa


En la figura 7. 1O (a) puede verse una estructura ortogonal, en la que todas las
muestras se han codificado con su valor absoluto. En (b), una de cada cuatro mues
tras se codifica con su valor absoluto, mientras que tres de cada cuatro se codifican
con un valor diferencial. Para optimizar el clculo del valor diferencial se adopta
una estructura en diagonal o "al tresbolillo".
Para que el valor diferencial sea lo ms bajo posible, se comienza por obtener
una prediccin o aproximacin al valor de la muestra diferencial. En el ejemplo de
la figura 7.10 Cc) esta prediccin se calcula promediando el valor de tres muestras
vecinas (de las cuales se enva su valor absoluto), segn la frmula mostrada en la
figura. De esta forma se obtiene un valor que resulta estadsticamente aproximado
al valor real y que se conoce como "valor de prediccin". A continuacin se com

186
187

IlCNOLOGIA AClUAl lJL TlU,\'ISIClN

Cun!l[~sil1

(a)

UN" N ,

I!J I!J I!J I!J I!J I!J I!J I!J I!J

@ @ @ @ @ @ @ @ @ @

LINEA N+1

@ @ @ @ @ @ @ @ @ @

LINEA N-1

(b)

LINEA N

L NEA

liNEA N+1

CODIFICACION
ABSOLUTA

(!] @ (!] (!] (!] @ (!] (!] (!] @

,f!] (!] (!] @ (!] (!] (!] @ (!] f!]

I (!]

Vf"R_~1-t:(N13~(~~i!~~,~_
Al A3 - - - - - - - - - - - - - - - - - - - A25
A2 A4
A24

CODIFICACION
DIFERENCIAL

PRED (N.b) =x.A(N,a) + y.A (N-l.e) + yA(N+l,e)

(x =1/2; Y=1/4)

m (!]j~) m (!]
N I @i PR~DI m (!] [A]
N+1 I m m-e@) m (!]
N-1 I

(d)
N-1
N
N+1

PROBABILIDAD
DE OCURRENCIA

5125

5/25

5/25

'id~..2

5/25

5/25

VALOR

PROBABILIDAD
DE OCURRENCIA

11/24

-1

6124

r--0PCM

@ f!] (!] (!] @ (!] (!] (!] @

Ll:Jr1"An-(An-1)

VALOR

(e)

VALOR

ell

m (!]e@) m (!]
@i'I~~EDlrn-@
(!] me@) m l!1

fi

1:

----.

(b) OIFEREN~CIA
ENTRE ADYACENTES

r-- L1f\\lr- ---\J7-&~-''17\V'

.01,
-2

D1 D3 - D2 D4

- -

D23

D22

4124

2/24

-2

1/24

Figura 7. 11.

Figura 7.10.

La DPCM "polariza" la probabilidad de ocurrencia de los smbolos, baciendo ms eficaz la aph

El rendimiento de la DPCM se puede mejorar adoptando esquemas de prediccin variables


adaptados a la informacin real.

cacin del paso que realmente comprime: la codificacin de longitud variable.

para e! valor de prediccin con el valor real de la muestra, de forma que la dife
rencia entre ambos se denomina "error de prediccin". Es este error de prediccin
el que finalmente se codifica con un nmero limitado de bits. La magnitud del
error de prediccin depende de cun acertada sea la prediccin, lo cual, a su vez,
depende del contenido de la escena. Por ejemplo, en zonas estticas de la imagen
una prediccin por promediado entre cuadros dara un error de prediccjn muy
pequeo (e incluso nulo), mientras que en zonas en movimiento sera ms apro
piado un promediado dentro de! mismo campo. La prediccin adaptativa vara el
esquema de prediccin en funcin de! contenido del programa. Suele distinguirse
entre tres esquemas de prediccin bsicos: intracampo, intercampo e intercuadro.
La conmutacin entre un modo y otro se hace por bloques de pxeles y se comu
nica al receptor mediante unos cuantos bits extra.

7.1.2. Combinar DPCM y VLC


En ocasiones no es posible lograr que e! valor diferencial sea mucho ms
pequeo que el rango de valores absolutos. Sin embargo, la codificacin dife
rencial sigue siendo an til. En la figura 7.11(a) puede verse una codificacin
PCM en la que el rango de valores va de O a 4, es decir, hay cinco valores posi
bles. Si se pasa a una codificacin diferencial, el rango de valores ir de -2 a + 2,
lo que sigue dando cinco valores posibles. Sin embargo, puede verse que en la
codificacin PCM la probabilidad de ocurrencia de cada uno de los valores es la

misma, mientras que en la codificacin DPCM algunos valores son ms proba


bIes que otros.
Cuando la probabilidad de ocurrencia est polarizada en alguna direccin, es
decir, cuando unos valores son ms probables que otros, puede utilizarse la codifi
cacin de longitud variable (Variable Length Coding o VLC), en la cual se asignan
palabras ms cortas a los valores con mayor probabilidad de ocurrencia y palabras
ms largas a los valores menos probables. Esto es lo mismo que se hace en el cdi
go Morse, tal como se ha visto en el apartado 6.3
En este ejemplo los valores ms probables son "O" y "-1" por lo que se les
otorgan los cdigos OY 10. A los valores menos probables se les otorgan los cdi
gos ms largos (11 10 Y 11 11). Para que el decodificador sea capaz de saber dnde
comienza y dnde termina cada palabra hace falta que ninguna palabra pueda ser
prefijo o inicio de otra ms larga. La reduccin de bits lograda puede calcularse
como sigue: en PCM: 25 palabras x 3 bits
75 bits; en DPCM: (11 palabras x
1 bit) + (6 palabras x 2 bits) + (4 palabras x 3 bits) + (2 palabras x 4 bits) + (1
palabra x 4 bits)
44 bits. A stos habra que aadir 3 bits de una palabra inicial
de valor absoluto, con lo que habra 47
PROBABILIDAD
bits.
VALOR
CDIGO
DE OCURRENCIA
Al inicio del apartado 7.1 se ha dicho
O
11/24
O
que la DPCM se puede aplicar con o sin
-1
6/24
10
prdidas. En el ejemplo anterior, la DPCM,
4/24
110
1
por s misma, no logra comprimir en abso
luto los datos, aunque, por otro lado, tam
2
2124
1110
poco introduce errores. Al combinarla con
1/24
2
1111

188
189

TECf'JOI.ociA ACTUAL nE TELE\'I\IN

Comnresin en \-<ieo

la VLC se obtiene una reduccin importante de los datos y, en este caso, sin prdi
das o errores de codificacin.
Puede decirse que la DPCM produce una reduccin de la entropa de la seal
original. Muchos valores diferencia se concentran en o alrededor de cero, como
consecuencia de la alta probabilidad de encontrar zonas de color uniforme en las
imgenes. Por otro lado, en imgenes altamente detalladas seran posibles valores
diferencia incluso mayores que los valores absolutos. En tal caso podra utilizarse
una cuantificacin no lineal, donde las infrecuentes diferencias de gran valor (posi
tivas o negativas) se cuantificaran con poca precisin (peldaos de cuantificacin
grandes), mientras que los ms frecuentes valores pequeos se representaran con
mayor precisin. Se cometeran errores, pero stos seran infrecuentes y, adems,
el sistema de percepcin visual humano es poco sensible a tales errores, cometidos
en la codificacin de altas frecuencias, ya que pertenecen a elementos de imagen
contrastados, capaces de enmascararlos.
De los prrafos anteriores se sacan dos conclusiones:
La codificacin diferencial descorrelaciona los valores de amplitud de los
pxeles, preparndolos para aplicar otras herramientas, tales como la VLC.
Si se utiliza la DPCM de cuantificacin no lineal, los errores cometidos son
enmascarados por la propia imagen.
En la prctica la DPCM, tal y como se ha explicado aqu, no se utiliza en nin
gn sistema de compresin de imgenes de los que podramos llamar avanzados.
Sin embargo, los conceptos de la codificacin diferencial, de la polarizacin de la
probabilidad de ocurrencia unida a la codificacin de longitud variable y del
enmascarado por parte de sistema de percepcin visual de los errores de codifica
cin no lineal s que se aplican y son los que realmente hacen que los sistemas de
compresin funcionen. Como se ver en este mismo captulo, el concepto de codi
ficacin diferencial se transforma en "codificacin intercuadro" o en "transforma
da" DCT, pero eso vendr un poco ms adelante.

compresin o bien partir de la mxima informacin posible y aplicar ms compre


sin. Los formatos de la gama DV (DV, DVCAM YDVCPRO-25) se basan en el pri
mer principio, mientras que el Betacam-SX prefiere partir de 4:2:2 y aplicar ms
compresin. Quin tiene razn? Probablemente los dos. Submuestrear, por ejem
plo, a 4: 1: 1 y limitar el factor de compresin a 5: 1 (como en la familia DV) parece
que preserva algo ms de calidad visual que partir de 4: 2: 2 y aplicar una compre
sin 7: 1. Por otro lado, una estructura de muestreo tan "dbil" como la 4: 1:1 puede
quedar afectada despus de unas pocas generaciones de posproduccin.
Si se desean factores de compresin ms altos, es necesario submuestrear tambin
la luminancia, con la consiguiente prdida de resolucin visual. Esto es lo que se
hace, por ejemplo, en e! sistema MPEG-I . En este caso se trata de lograr, a partir de
una entrada 4: 2: 2 de 166 Mbits! s, una seal de salida comprimida a slo 1,5
Mbits! s. MPEG-l submuestrea en las tres dimensiones. Para comenzar, descarta uno
de cada dos campos, reduciendo tanto la resolucin temporal como la vertical. A
continuacin la seal 4:2 :2 se convierte en otra de tipo 2: 1:0. As se genera una com
presin 5: 1. Los procesos posteriores logran una compresin 21: 1, que, multiplica
da por la lograda por el submuestreo, proporcionan una compresin global 105: l .

8. Codificacin por transformacin


A menudo es difcil descubrir la redundancia cuando se representa la seal en fun
cin de! tiempo. La seal de vdeo, por ejemplo, puede tomar cualquier valor entre O
y 255 (8 bits) o entre O y 1023 (10 bits). Por tanto, la entropa de cada pxel es muy
alta, ya que puede tomar cualquier valor con igual probabilidad. Si la entTOpa de la
imagen es igual a la suma de la entropa de los pxeles que la componen, sta ser tam
bin alta. Esto es lo que sucede cuando la excursin de la seal de vdeo es grande,
como en la figura 7.12 (a). Cuando la seal de vdeo est cerca del nivel de negros (b)
o del pico de blanco (c), la entropa es menor, pero esto sucede aleatoriamente.

7.2. El submuestreo
Una forma sencilla y directa de reducir la cantidad de datos que representan una
imagen consiste en "submuestrear", es decir, eliminar selectivamente algunas de las
muestras que la componen. Es un mtodo eficaz de reduccin de datos, aunque
produce prdida de resolucin y puede generar componentes de aliasina, que pue
den degradar la calidad de la imagen original. Por esto el submuestreo no suele
aplicarse a la seal de luminancia. Slo las seales de crominancia son submuestre
adas, como sucede en las normas 4: 2:0 y 4: 1: 1. Estas dos variantes de la norma
4:2:2 se utilizan en ciertos formatos de magnetoscopios digitales con compresin,
mientras que los sistemas MPEG utilizan exclusivamente la variante 4:2:0 (si no se
tiene en cuenta un perfil especial 4:2:2 para aplicaciones profesionales).
Submuestreando de 4:2:2 a 4:2:0 o a 4: 1: 1 se obtiene un ahorro de aproxima
damente un 30% en la tasa binaria. Existe en la comunidad tcnica un debate no
cerrado sobre qu es mejor: submuestrear antes de comprimir y limitar el factor de

~.

(a)

A11TI

~)
lT11l1nnm,...

1~
4I1JlJJ,

. . . .

~.~~I~i~ IK 'L

FRECUENCIA

5,5 MHz

DOMINIO DEL TIEMPO

>.W<

MJC.

MJC

MAx.

DOMINIO DE LA FRECUENCIA

~A~h~IIL~~h'IL'.J\!~hhl.L,~fhJllll!M
... I=J--1~~fJ=~3
VVVVMrY',,"''''VVVI~T'Y~'1Il~~iV
J.&--n'~J.J- ~C;~~'!~_
Figura 7.12.

La representacin frecuencial facilita la deteccin de la redundancia,

a la vez que permite procesar por separado bajas y altas frecuencias.

190
191

Comprcsivll
TECNOLOGA AC/ UAl /)[ '/ E/I",E"I'1;">1"/("'''''---/

Una forma de detectar la redundancia y aislar la entropa consiste en transfor


mar la seal desde el dominio del tiempo hasta el dominio de la frecuencia. Si nos
fijamos en el espectro de la seilal de vdeo veremos que a menudo su amplitud esta
dstica decrece con la frecuencia. En otras palabras, la probabilidad de ocurrencia
de todos los valores es similar en el caso de las bajas frecuencias, mientras que esta
probabilidad est dccantada o polarizada hacia valores bajos, en el caso dc las altas
frecuencias (figura 7.12, centro). Esto significa que la parte baja del espectro posee
una alta entropa, mientras que la parte alta prcscnta baja entropa. De aqu se saca
la conclusin de que si podemos manejar las componentes de frccuencia baja y alta
por separado, podremos comprimir las componentes de alta frecucncia, puesto
que presentan baja entropa.
Para esto es necesario transformar la representacin temporal en otra dc tipo
frecuencial. Un ejemplo dc esta dualidad lo tenemos en la msica, donde la forma
de onda sera la representacin temporal, mientras que la partitura equivaldra a la
representacin frecuencial. Ntese que es posible codificar el valor de muchos
cientos de muestras con slo unos pocos smbolos frecuenciales en la partitura
(figura 7. 12 , abajo).

8.1. Transformada de Fourier


A finales del siglo XVIII el barn Jean Baptiste Fourier descubri un mtodo
que permite descomponer cualquier fenmeno fluctuante peridico, desde las
ondas luminosas hasta las mareas ocenicas y los ciclos solares, en un conjunto de
componentes senoidales o cosenoidales.
Las figuras 7.13 (a) y (b) mucstran que, si se conoce la amplitud y fase de cada
componente de frecuencia, se pucde, mediante la suma lineal de las componentes
senoidalesl cosenoidales, obtener cualquier forma de onda. En los sistemas digita
les la forma de onda est expresada mediante un nmero discreto de muestras.
Como resultado, la transformada de Fourier proporciona un nmero discreto de
frecuencias. Esto se conoce como "Transformada dc Fourier Discreta" o DFT
Como puede verse en la figura 7.13 (b), resulta vital conocer la fase de cada una
de las componentes frecuenciales, ya que una alteracin de la fase de cualqUiera de
las componentes alterara la forma de la onda reconstruida.
Hay muchas formas de expresar la fase y una de ellas consiste en dar un valor
de seno y otro de coseno, ya que la combinacin de ambos valores (positivos o
negativos) proporciona cualquier valor de fase desde O a 360 grados (c). La DFT
analiza el espectro de un grupo de muestras para ver si contienen una serie de fre
cuencias predeterminadas.
Para saber si una serie de muestras contiene una frecuencia determinada, la
DFT multiplica la forma de onda de entrada por una forma de onda senoidal de esa
frecuencia, conocida como "funcin base". A continuacin suma o integra los pro
ductos de la multiplicacin. Si la seal de entrada posee esa frecuencia, la suma
integrada de los productos ser distinta de cero. Si la frecuencia que se busca no
esta presente en la seal de entrada, la suma integrada ser igual a cero. La magni
tud de la integral es proporcional a la amplitud de la frecuencia buscada.
192

' A
A
'
IW\

DIENTE

DE SIERRA

ONDA
CUADRADA

+
+
+

1:

ell yuc(~

AMPLITUD

r--~',.. .

! DEL COSENO
~~~-=--

J).J'

+
'
~
+
'

(e) - :

AMPLITUD

~t_'f__~EL SENO

MAM+~
:
~

"]fct
FUNCiN
SIMTRICA

FUNCiN
ASIMTRICA

(a)

(b)

.~;~k~~:~:~:to
vERDE

ClAN

AZUL
VIOLETA

(d)
Figura 7.13.

Menos utilizada que la representacin temporal, la frecuencial tiene, sin embargo, muchas

aplicaciones. La dispersin de la luz blanca al pasar por un prisma puede ser un ejemplo de

descomposicin de una onda compleja en componentes basicos.

Por tanto, si la seal de entrada posee un nmero elevado de frecucncias, todas


ellas sern excluidas excepto una. El proceso contina, cambiando cada vez la fre
cuencia de la funcin base. Es posible quc la frecuencia buscada pase dcsapercibida
si se gira la fase 90 grados, puesto que el producto de dos seales en cuadratura da
siempre cero como valor integral. Por tanto, la DFT debe hacer una bsqueda adi
cional, utilizando la funcin coscno, que no es otra cosa que la funcin seno gira
da 90 grados.
La amplitud relativa de las contribuciones en seno y coseno revela la fase de la
componente buscada de la seal de entrada. Por tanto, cada frecuencia discreta del
espectro de la seal dcbe ser el resultado de un par de bsquedas en cuadratura.

8.2. Teora de la OCT


La DCT es una variante de la transformada discreta de Fourier, en la cual los
coeficientes de las componentes en seno se han eliminado, quedando, por tanto, un
solo nmero por componente espectral. Como muestra la figura 7.13 (a), las fun
ciones simtricas proporcionan s610 coeficientcs en coseno. En el caso de la seal
de vdeo, lo que se hace es tomar un cierto nmero de muestras y copiarlas de
manera especular sobre el eje temporal, como en la figura 7.14 (a). Esto propor
ciona una funcin par o simtrica, la cual pucde ser representada con slo los coe
193

TECNOLoc;iA ....CTUAI. DE Tri EVISION

Conmn:sln en "deo

MUESTRAS
REPETIDAS
Y GIRADAS

MUESTRAS DE
ENTRADA

(a)_~r--jIDili; tU j~,_

EJE DE

SIMETRIA

LAS COMPONENTES
EN SENO
SE RESTAN

:JJ b

LAS COMPONENTES
EN COSENO

~E SUMAN

I I 11 I_IJ 1111111111

-- -:OOOw.rJJJifIJ.

.... -=
il~~~ll1mUN

:::;:;::::;~~~~

-8~

Figura 7.14.
La OCT se obtiene copiando especularmente los bloques de entrada antes de aplicar la OFT.
La copia especular cancela las componentes en seno, dejando slo las componentes en coseno.

ficientes en coseno. La figura 7.14 (b) muestra que la fase de todas las componen
tes de un bloque se oponen en direccin a las del otro. Esto significa que, cuando
se suman para proporcionar la tranformada del bloque doble, todas las componen
tes en seno se cancelan, dejando slo las componentes en coseno, que dan nombre
a la transformada. A pesar de que de esta forma se han de manipular el doble de
muestras, los clculos se simplifican mucho al poder trabajar slo con los compo
nentes en coseno. Por supuesto, cuando se realiza la transformada inversa, la parte
doblada e invertida de la forma de onda es descartada.
En el caso del procesado de imagen se necesita una transformacin bidimensio
nal, capaz de encontrar todas las frecuencias horizontales, para todas las frecuen
cias verticales, de manera que el nmero de bsquedas ser igual al nmero de fre
cuencias horizontales a buscar, multiplicado por el nmero de frecuencias vertica
les a buscar. La DCT permite realizar la transformacin bidireccional, haciendo el
cmputo en cada direccin separadamente.
Para comenzar, la imagen se divide en pequeos bloques de m por n muestras.
En principio puede utilizarse cualquier valor para m y para n, como, por ejemplo
4 x 4, 8 x 4, 8 x 8, 16 x 16, etc. Si se utilizan bloques de 8 x 8 pxeles, las fre
cuencias horizontales que podrn contener irn desde cero (nivel de DC) hasta 4
ciclos por anchura de bloque. Lo mismo sucede con las frecuencias verticales, que
irn tambin desde DC hasta 4 ciclos por altura de bloque. La combinacin de fre
cuencias horizontales y verticales proporciona los 64 posibles coeficientes que
pueden verse en la figura 7.15, donde las frecuencias horizontales crecen de

~;

loo-!
;

(b)

00 iXJj Ci@:

~~ - _.~~~((((

--

"

~~~fE9

:;moom
~~m~B

Figura 7.15.
Con la OCT la imagen se divide en pequeos bloques de 8 x 8 pxeles. A continuacin los 64
valores de amplitud se convierten en 64 valores, que representan las frecuencias presentes en
el bloque. La figura muestra los 64 coeficientes frecuenciales, con frecuencias horizontales
crecientes (de izquierda a derecha) y frecuencias verticales crecientes (de arriba abajo).

izquierda a derecha; las verticales, de arriba abajo, y las diagonales, de la esquina


superior izquierda a la esquina inferior derecha. De esta forma los 64 pxeles del
bloque han proporcionado 64 valores o coeficientes de frecuencia.
El tamao de los bloques es una solucin de compromiso entre la eficiencia en
la cuantificacin de los valores frecuenciales (los bloques grandes seran mejores en
este sentido) y la eficacia en la estimacin de movimiento (un tema que se ver un
poco ms adelante), favorecida por bloques pequeos. Los experimentos han
demostrado que se gana muy poco con bloques DCT grandes, los cuales aumentan
el "efecto mosaico" de la imagen cuando se aplican fuertes factores de compresin.

8.2.1. Interpretacin de la DeT


A menudo resulta difcil entender la relacin entre la representaci6n temporal
o espacial de una seal y su traducci6n a coeficientes de frecuencia. La figura 7.16
(a) es una representacin espacial de un bloque de pxeles de 8 x 8, es decir, cada
cuadradito representa un pxel. Se trata de la luminancia de una seal en diente de
sierra, que crece de negro a blanco, cuando se analiza de izquierda a derecha. En

194
195

TECNOLOGI,\ AC'TUAL UE T[l[\'\SI:-"

______
l_ill~.i2.Ds..n.TIdsQ

1I1I mJ~@]~ ;
IIII IJ~@]~ ;;
1I1I ~f~ ;j
(a) IIII ~~@]~ ~
1I1I lJf~~ o
1I1I ~@0]@]~ ~
1I1fI IJ~~ ~
1I1IJ lIJ~@]] z
"1

FRECUENCIAS HORIZONTALES
QUE INTERVIENEN EN LA SEAL
EN "DIENTE DE SIERRA"

Figura 7.16.

@jEJ0@)0EiJ00
00000000
000rol0000
(b) 00000000
00000000
00000000
00fOl0fOl01olioJ
00000000

~
~

~
~

I-~'\ ~ ~ ~ ~ ~ ~ ~ ~

+
~~43.50;, \

V V\ VV \AA WN lIi

40%

41%

~
~ ~o IN,RTIDO

~ _ ~

1.1%
INVERTIDO

~~

otra dimensin; en el caso de imgenes, la combinacin dc todas las frccucncias


horizontales para cada una de las frecuencias verticales. Visto de esta forma, el con
cepto sigue siendo todava muy abstracto.
La figura 7.17 muestra otra forma de entender los coeficientes OCT. La aplica
cin de la OCT sobre un bloque de 8 x 8 pxeles genera una tabla de 8 x 8 coefi
cientes de frecuencia. Cada coeficiente puede entenderse como una "trama" bsica
predefinida. Las tramas van desde completamente lisa hasta mxima frecuencia
horizontal y vertical (esta ltima sera similar a un tablero de ajedrez de 8 X 8 casi
Has). Una vez realizada la OCT, cada una de las tramas tiene su propio "valor" o
"peso" en la formacin del bloque de la imagen original.
La idea es la siguiente: si dispusiramos de una transparencia de cada una de las
tramas y pudiramos ajustar el valor de contribucin de cada trama, obtendramos,
sumando todas las transparencias, la imagen original, es decir, podramos pasar del
dominio de las frecuencias al dominio de las amplitudes. La suma podra lograrse
proyectando un haz de luz a travs de las transparencias.

'J'l.

Relacin cntre los componentes frecuenciales de un grupo de muestras y su representacin


temporal.

este caso concreto la seal no presenta variaciones en la direccin vertical, de


manera que puede analizarse como si se tratara de una seal unidimensional.
Esta seal en diente de sierra puede obtenerse sumando una serie de contribu
ciones de seales ms simples. La primera contribucin es el nivel de continua (o
nivel OC), que no es otra cosa que el nivel medio de la seal en diente de sierra.
Si no se sumara el coeficiente de OC, el resultado sera una seal bipolar, donde el
gris medio se situara en "cero voltios", el negro en "-V" y el blanco en "+V".
Intuitivamente puede verse, que el primer coeficiente senoidal (invertido) de fre
cuencia horizontal debe tener mucho peso en la obtencin del diente de sierra, ya
que se parecen enormemente! El siguiente coeficiente no interviene en la suma (su
punto medio tendera a desplazar el punto medio de la seal en diente de sierra
hacia abajo -si se suma en positivo- o hacia arriba -si se suma en negativo-). El
siguiente coeficiente (invertido y con mucho menos peso) nos aproxima ms a la
funcin en diente de sierra y as hasta terminar con el coeficiente de peso -1 ,1 .
Es cierto que al sumar un nmero limitado de coeficientes nunca obtendremos
una seal en diente de sierra perfecta, pero tampoco hace falta, ya que, al tratarse
de una seal muestreada, sus componentes de frecuencia son limitados.
Resulta relativamente fcil entender la descomposicin de una seal unidimen
sional compleja en una serie de funciones simples. Algo ms complicado puede
resultar extender este concepto a funciones bidimensionales (en nuestro caso, las
imgenes formadas por una dimensin horizontal y una vertical).
Matemticamente una funcin bidimensional puede entenderse como la com
binacin de todas las frecuencias de una dimensin con todas las frecuencias de la
196

IMAGEN DE 720 X 576


DIVIDIDA EN BLOQUES
DE 8 , 8 plXELES
. -

,._-.,

..ltJI#tbj:3M I

rt;P1:+t1=l:ttK~~9~
"1

'YolA)

BLOQUE
DEUN
8,8
plXELES

Figura 7.17.

Otra forma de interpretar la DCT.

8.2.2. La DeT no comprime: ayuda a comprimir!


En el ejemplo de la figura 7.18, Y para simplificar, la imagen se ha dividido en
bloques de 4 x 4 muestras. Como consecuencia, la OCT bidimensional ha propor
cionado un bloque de 4 x 4 coeficientes de frecuencia, de manera que se han pro
ducido tantos coeficientes como muestras haba en el bloque original. Por tanto, la
OCT en s misma no comprime. Es ms, una representacin precisa de la OCT
exige entre 12 y 13 bits por coeficiente. Sin embargo, puede verse que en el blo
que de muestras la posibilidad de ocurrencia de los distintos valores es aproxima
damente igual, mientras que en el caso de las componentes frecuenciales los valo
197

TlCNOLoc;iA ACTUAl Df THE"I.'ilN

COnlJ)resin en ddeo

modo de tasas de varianza de distinta frecuencia. Estos valores difirenciales se


denominan "coeficientes AC"
(t."

823L
. . , ecturo en Z18ZQ8

..

ca\)

BLOQUE ORIGINAL DE 4 x 4 MUESTRAS

Del BIDIMENSIONAL
VALOR

MXIMO

; 32
'28
';24

',.

'20

"2
8

D/~~

4ftO~

CC1/y

En la figura 7.19 (a) la seal de entrada presenta slo suaves variaciones en la


direccin horizontal. El valor de la esquina superior izquierda de la DCT (c) repre
senta el valor de frecuencia cero, es decir, la componente continua de! bloque o, si
se prefiere, el valor promediado de todos los pxeles del bloque. Lgicamente este
coeficiente es e! de mayor energa, de manera que proporciona el valor ms alto.
A estos valores ms altos, pero infrecuentes, se les otorgan los cdigos VLC ms
largos. Por otro lado, a los valores ms frecuentes, como 0, 1 Y -1, se les otorgan
los cdigos ms cortos, El cero, por ejemplo, podra codificarse con un solo bit.
Ntese que si slo se codificaran los coeficientes de DC de cada bloque de la ima
gen aparecera una especie de "efecto mosaico", es decir, la imagen seguira man
teniendo su nivel medio.

I<:O/Yr"l(

000
Figura 7.18.
Ntese la polarizacin en la probabilidad de ocurrencia de valores altos en las bajas frecuen
cias de la representacin frecuencial.

res estn muy polarizados. El coeficiente de la esquina superior corresponde a la


frecuencia cero, es decir, al nivel de DC, y es el que tiene la mxima amplitud. A
medida que nos movemos hacia la esquina inferior, ya sea a travs de las filas o de
las columnas, la amplitud decrece rpidamente, de manera que en las proximida
des de la esquina inferior, que corresponde a las altas frecuencias, la mayor parte
de los coeficientes son cero o estn muy cerca de cero. Esta polarizacin del valor
de los componentes de frecuencia facilita la codificacin de longitud variable, de
manera que podemos emplear palabras cortas para la codificacin de los valores
ms frecuentes y palabras largas para la codificacin de los valores menos frecuen
tes. Esto es similar a la polarizacin de la probabilidad de ocurrencia de los valores
de amplitud proporcionada por la DPCM.
Aun siendo procesos distintos, podra relacionarse, aunque slo sea a efectos
pedaggicos, la DPCM con la DCT. La primera trabaja en el dominio de las ampli
tudes temporales, mientras que la segunda lo hace en el de la energa de las com
ponentes frecuenciales. Sin embargo, ambas hacen esencialmente lo mismo: pola
rizan la probabilidad de ocurrencia de los distintos valores. As podramos enten
der la DCT como una DPCM especial que proporciona, por un lado, el valor
medio de un grupo de muestras (valor DC) y, por otro, los valores diferenciales, a
198

LJUU;;J

CJOU~

GDD~
IIDDO~

mOUU2
~UOD~
IiiUUU~
0:5]@]~[50][6D]@J[6D]~
_
UJ

0~~~~~@J[6D]~

0:5]@]~~~@][6D]m

0:5]@]~~~~~~
lCJJlssJ@]~~~~~~
lCJJlssJ[25J~~~~~~

lCJJlssJ~~~@J~~

0lssJ~~~~~~~

G0EOJ0~ITJ@]ITJITJ
~ITJITJITJ0lCJJlCJJ0lCJJ

~ITJITJITJITJITJ00ITJ

~ITJITJ0000ITJ0

~ lCJJ0 0lCJJlCJJlCJJ l~ lCJJ


lCJJITJlCJJlCJJ~~00

~lCJJ0lCJJlCJJ00lCJJ0
u

~~0lCJJlCJJlCJJlCJJlCJJlCJJ

en

UJ

::

~ o ~' o h' o~
l/o Va VOl l/o 170 170 170 170
43,5

FIN

..

UJ

o;Vo) l/o-' Va l/o-

0)/0 V~

al/, l/, Va l/o

o, l/o Va~

en

UJ

0;1/0~ Va Vo~ Va

0,,170 ~.

o l/o Va" Va Va

o l/o" V o

01/0 Va l/o) l/ou,

0)/0 V~

:=
UJ

-'

::

o~ Va, ~ 170 ~1/0Va


-

Figura 7. 19.

La forma ms eficaz de leer los coeficientes frecuenciales proporcionados por la DCT es

siguiendo una pauta en zigzag. Estadsticamente es la forma de asegurar que pronto se encon

trarn largas cadenas de ceros.

199

TI;C:'-!OLOGII\ ACTUI\1. UI: TLl[\,\I;'\

_ _ _~C~O~l1"lp.r(':-;i('1Jl en ,ci..-'O

Cuando el bloque DCT representa la seal de luminancia de, por ejemplo, una
sei'ial 4:2:2, resulta ventajoso realizar la lectura o serializacin del bloque siguien
do una pauta en "zigzag", comenzando por el coeficiente de menor frecuencia
espacial (en la esquina superior izquierda) y terminando por el de mayor frecuen
cia espacial (en la esquina opuesta). De esta forma, en la mayoda de las imgenes,
la secuencia de coeficientes tiende a decrecer rpidamente e incluso en la mayora
de los bloques DCT se llega muy pronto a una situacin en que todos los coefi
cientes restantes son cero. Una vez que se alcanza esta situacin, resulta ms con
veniente transmitir un cdigo especial de FIN, en lugar de seguir enviando ceros
repetidamente. Esto es similar a la marca de final de archivo (EOF o End f!.f File)
que se coloca despus del ltimo byte de informacin real de un archivo de orde
nador. Un clster determinado del disco duro contendr muchos bytes despus de
la marca de EOF. Tales bytes fueron en su momento escritos por el sistema 'opera
tivo durante el formateo del disco, pero no contienen informacin real y no sern
ledos por el programa de aplicacin.
En la prctica pueden utilizarse dos pautas o esquemas para la lectura de los
coeficientes frecuenciales de la DCT. La pauta de la figura 7.20 (a) proporciona una
lectura simtrica de los coeficientes horizontales y verticales y es preferida en el
caso de imagenes no entrelazadas, es decir, cuado los bloques DCT pertenecen a
una imagen formada por un solo campo secuencial. La pauta (b) muestra una ten
dencia a Icer primero los coeficientes verticales y es preferida cuando hay mucha
informacin vertical, como sucede en el caso de imagenes entrelazadas, en que los
bloques codificados pertenecen a un campo concreto de los dos que forman la ima
gen. En tal caso las filas consecutivas de los valores de amplitud del bloque DCT
corresponden a lneas de televisin separadas en dos unidades en la imagen, por lo
que la probabilidad de aparicin de altas frecuencias verticales es mayor.

A V1
IV )
/
/

V1

VV ) IIV )V1
11

( Al ( Al
) ) ) 'V [) 'V /
/

1
11

/
I

1/

I
1/

9. Recuantificacin de los coeficientes


Es bien sabido que la sensibilidad al ruido en las imgenes de television no
depende del \'alar absoluto del ruido, sino de la relacin entre el nivel de la seal
y el nivel del ruido, de forma que en las zonas oscuras de la imagen el ruido es
mucho ms visible que en las zonas claras, ya que en estas ltimas la propia imagen
tapa al ruido. Esto es lo mismo que sucede con el soplido de las cintas de audio, el
cual slo se percibe durante los silencios o en los "piansimos". El NICAM, que es
un sistema de compresin de datos de audio, saca provecho de este fenmeno de
enmascaramiento.
Tal vez sea menos conocido el hecho de que la perceptibidad del ruido en las
imgenes depende tambin de las frecuencias espaciales a las que se aade. Tal
como se puede ver en la figura 7.21, el sistema de pereepcion visual humano mues
tra mxima sensibilidad al ruido en las zonas lisas o de baja frecuencia, mientras
que decae rpidamente a medida que aumenta la frecuencia. En otras palabras, las
altas frecuencias espaciales enmascaran el ruido. Estas altas frecuencias correspon
den a las finas texturas o a los bordes de los objetos. En estas zonas el ruido gene
rado por los errores de codificacin es "ocultado" por las propias tramas y detalles
finos de la imagen. Este fenmeno de enmascaramiento es la base de la compre
sin perceptual aplicada a las imgenes de televisin.
Disponer de una representacin frecuencial permite explotar este tipo de
enmascaramiento. Lo que se hace es dividir los coeficientes frecuenciales por un
factor de ponderacin, siendo este ltimo funcin de la frecuencia. El efecto de
este proceso de ponderacin es el de reducir desproporcionadamente la precisin
en la codificacin de los coeficientes que representan las altas frecuencias. El pro
ceso es como sigue: los distintos valores frecuenciales proporcionados por la DCT

0+10 dB

OdB-

o:::

W -10 dB
O
Z -20 dB

Q..

1/

-30 dB-

O -40 dB
::J -SO dB

o:::

-r-

(a)
Figura 7.20.

FRECUENCIA ESPACIAL

(b)

Los dos posibles esquemas de lectura de los coeficientes frecuenciales proporcionados por la DCT.

200

Figura 7.21.

La perceptibilidad del ruido depende de la frecuencia a la que se suma, mxima en las bajas

frecuencias

y minima en las altas.


201

TH'NOLOGIA ACTUAl

1)[

1 El 1:\'ISIOj\.'

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _-'c"'"lIl,,ll'pre:-,i() 11 ('11 ,-dcll

son divididos por cantidades que dependen de la posicin de cada valor en el blo
que de coeficientes. Los valores situados mas arriba y a la izquierda prcticamente
no son alterados, mientras que el factor de divisin aumenta de izquierda a dere
cha y de arriba abajo. Los coeficientes atenuados son a continuacin redondeados,
por truncamiento de decimales, a los valores normalizados ms prximos. Por otro
lado, el decodificador dispone de la tabla de coeficientes de divisin que se han
aplicado a los valores frecuenciales y lo que primero har es multiplicarlos por una
matriz inversa a la que utiliz el codificador. De esta forma lo que se pierde es pre
cisin en la representacin de los valores frecuenciales, especialmente en los
correspondientes a las altas frecuencias, aunque se respeta el valor de magnitud a
groso modo. En otras palabras, los coeficientes son recuantificados individualmente,
con peldaos cuyo tamao aumenta con la frecuencia. De esta forma se logra aho
rrar bits extra en la representacin de las altas frecuencias. Por tanto, el proceso
completo sera: divisin-truncada-reconstruccin. Estos conceptos pueden enten
derse mejor con un pequeo ejemplo:
Tabla 7.3 Ejemplo de recuantificacin por divisin. redondeo y escalado, basado en
cuatro zonas de frecuencia.
ZONA EN LA
TABLA OCT
Valor de DC

ORIGINAL PONDERACiN

RESULTADO

(Sin
desplazamiento)
= 111
(Desplazando 1
bit) = 110

PRECISiN

111

x1 =111

Frecuencias
bajas

111

x1/2=011

Free. mediasbajas

111

x1/4=001

Alto redondeo

Free. mediasaltas

(Desplazando 2
bits) = 100

111

x1/8=000

Frecuencias
altas

(Desplazando
3 bits) = 000

Se convjerte
en cero

111

x1/16=000

(Desplazando 4
bits) = 000

Se convierte
en cero

Total
Ligero
Redondeo

En la tabla 7.3 se ha utilizado un esquema de ponderacin fijo basado en divi


dir el hloque de coeficientes DCT en cinco zonas: una para el coeficiente de DC y
cuatro para los coeficientes de AC. En este ejemplo, y para que resulte ms didc
tico, se supone que todos los coeficientes tienen el valor binario "111". Puede verse
en la columna de la derecha que el resultado final es la codificacin del valor de
De con total precisin. Por otra parte, hay un ligero redondeo en las bajas fre
cuencias, un redondeo ms alto en las frecuencias medias-bajas y, en este caso, una
puesta a cero en las frecuencias medias-altas y altas. Los redondeos hacen que cier
tos valores aparezcan con mucha mas frecuencia que otros. Por ejemplo, el valor
"lOO" ser muy frecuente, ya que los valores originales "IJl", "110", "101" y, por
supuesto, "lOO" podrn degenerar en "lOO" si se les aplica el redondeo "x 1/ 4". Lo
anterior ayuda a la codificacin de longitud variable, basada en la polarizacin de
la probabilidad de ocurrencia.

Por otro lado, cuando los valores de entrada son bajos y el redondeo fuerte
(como en el caso de las frecuencias medias-altas)' altas), el proceso anterior gene
rar largas cadenas de ceros, a las que se aplicar la codificacin de secuencias o el
cdigo especial de "final de bloque" (EOB). En la practica muchos sistemas de com
presin aplican un factor de divisin distinto para cada uno de los coeficientes espa
ciales del bloque DCT, como en el caso del ejemplo sigUiente:
16
12
14
14
18
24
49
72

11
12
13
17
22
35
64
92

10
14
16
22
37
55
78
95

16
19
24
29
56
64
87
98

24
26
40
51
68
81
103
112

40
58
57
87
109
104
121
100

51
60
69
80
103
113
120
103

61
55
56
62
77

92
101
99

La tabla anterior muestra los factores por los cuales son divididos los coeficien
tes de frecuencia proporcionados por la DCT para los bloques de luminancia en el
sistema de compl'esin de imagenes estaticas JPEG. Esta tabla representa unos
niveles de recuantificacin de los coeficientes muy agresivos (en JPEG se puede
escoger entre un conjunto muy variado de tablas en funcin del grado de compre
sin deseado). Utilizando esta tabla, las imagenes reconstruidas mostraran con
mucha probabilidad ciertas degradaciones. Para comenzar, la mxima precisin, o,
si se prefiere, la minima recuantificacin, se obtiene en (H
O, V 2) Y en (H
1, V = O), frecuencias espaciales a las cuales el sistema de percepcin visual huma
no presenta la mxima sensibilidad, Por la forma en que trahaja la DCT, dividir por
16 el valor de DC equivale a no perder precisin.
Lo anterior significa introducir errores en la representacin de la magnitud de
las altas frecuencias espaciales, es decir, sc introduce ruido en estas frecuencias,
pero, como se ha visto, en estos casos el ruido puede ser tolerado. Tambin puede
entenderse como una cierta prdida de resolucin en las altas frecuencias de la
imagen, con lo que se parece a los VTR analgicos, donde las seales de alta fre
cuencia son reproducidas con menor precisin que las de baja frecuencia como
resultado de la grabacin en FM.

1O. Todas las herramientas juntas


Cuando se desea obtener un factor de compresin alto, manteniendo el maxi
mo grado de calidad posible, es necesario combinar varios procesos distintos. En
este ejemplo se trata de comprimir la informacin de una imagen en s misma, es
decir, sin procesar la redundancia temporal. ste podda ser el caso de un magne
toscopio digital, como el DVCPRO, Betacam-Digital, etc. El primer paso consiste
en dividir la imagen en bloques de 8 x 8 pxeJes. Estos bloques, que representan la
informacin de luminancia de la imagen, son sometidos a la transformada DCT
bidireccional. A continuacin el bloque es ledo en zigzag y el valor de cada coefi

202
203

TI.:C\'OI.()().\ ,KllUL DI. I [LJ:\'I~IO:\,-'

ciente recuantificado en funcin de la frecuencia gue representa, es decir, de su


posicin en el blogue transformado. A la salida del recuantificador se procede a la
codificacin de secuencias y a continuacin a la codificacin de longitud variable.
El ltimo paso consiste en formar paguetes de bits de longitud fija para su trans
misin, grabacin, etc.
La DCT no se realiza sobre el valor de amplitud de los pxeles. Por el contrario,
previamente se resta a cada muestra un valor fijo de 128 (con lo que los valores resul
tantes podran ser positivos o negativos). Esto se hace para gue el rango de amplitu
des de las tres seales (Y, R Y YB Y) se extienda entre los mismos margenes (hay gue
recordar gue las seales diferencia de color pueden ser positivas o negativas y estan
centradas en cero). As, en el nuevo bloque de amplitudes, al gris medio le corres
ponde un valor "cero"; el valor positivo mas alto es 127 y el mas bajo ~ 127 (por sim
plificacin, en la figura se han mantenido los valores absolutos). A continuacin se
realiza la DCT de cada bloque. Los valores proporcionados son expresados con una
resolucin mnima de la bits, lo que eguivale a multiplicar por cuatro (aadir dos
ceros a la derecha es multiplicar por 22, es decir, por cuatro). En la figura 7.22 puede
seguirse el dlculo del coeficiente de DC, desde el bloque de amplitudes hasta el blo
que de coeficientes frecuenciales. El valor de DC se calcula como el valor promedio
de todos los valores de amplitud del bloque de codificacin.
Un problema gue se genera con este tipo de codificacin es que el factor de
compresin es variable, ya que est en funcin de la entropa de la imagen de
entrada. Esto supone que la tasa de bits a la salida del compresor ser tambin

l.8btS

10 bits ..

~ XI 231) 30 2)(]

-JO 2Xl JO 230 I


30 230 30 no 30 130 JO 130 I

2l:) 230 no 130 2X1 230 'lO 130

230 :no 230 2JO no 2JO 230]]0


I

!
I

~~~ ~~~ ~;~ ~;~II


'~'73

f&4"~80"lJO.128"511

lJ

I}U

II
~2Oe~36--0~J9-t----:-!l4-~JI

((16.30':(481230))

0.10

.A8

o o o o o o 01
o -17 o 37 o .91

u IrI

Sb 1~ ~ I~ ~ 2~ ~
2

-25

-14

~I

o--.iJ

-54

01

o
87

16

27

"

L~_-----.J

Figura 7.22.
Esquema de un compresor intracuadro, desde la formacin de los bloques OCT a la entrada
hasta la salida de los paquetes comprimidos.
204

- -3

-138

.1J8 .25

II

La cantidad de informacin redundante e irrelevante en la seal de vdeo


depende de la complejidad de la' escena. Agu "complejidad" se refiere a la cantidad
ele detalle que contienen las imgenes y el grado de correlacin o "pautas" que pre
senta dicho detalle (informacin espacial), as como a la cantidad de movimiento y
su predictibilidad (informacin temporal).
As pues, tanto el porcentaje de redundancia como el de irrelevancia son fun
cin del tiempo. Adems el tamao de ambos componentes no depende el uno del
otro. Si se guiere mantener una calidad constante, la cantidad de informacin
remanente (la relevante) ser variable.
La lnea 1 de la figura 7.23 muestra cmo se elimina la mayor parte de la redun
dancia sin tocar para nada el resto de la informacin, por lo que se puede trans
portar la seal comprimida sin que se produzca ninguna degradacin (compresin
sin prdidas). Esto genera una seal de calidad estable, pero una tasa de datos de
salida variable. En la lnea 2 se elimina parte de la informacin relevante o "bsica"
(compresin con prdidas). As se logra una tasa de salida de datos estable a cam
bio de una calidad variable. Una frecuencia de datos estable es necesaria en el caso
de la transmisin digital y en la grabacin en cinta de vdeo. En la lnea 3 no se eli
mina ningn tipo de informacin (no hay compresin). Es la nica forma de garan
tizar a la vez "calidad estable" y "tasa de salida de datos estable". El precio que hay

-39

000000001

IMAGEN

:~g

11. El btiffer de salida

13

230 2301JO 1JO no 1JO 230 130


/ 2l) 2JO 230 230 2JO 2JO 2JO 2JO

5h4-208____

208

variable, lo cual no resulta conveniente en la gl'ah<lcin o transmisin de imgenes


en televisin, ya gue los canales tienen un ancho de banda fijo. Para resoh'Cr este
problema se permite gue los coeficientes de ponderacin, gue regulan el proceso
de recuantificacin, puedan ser ms o menos severos en funcin de la ocupacin
de la memoria ele salida. Cuando la memoria est poco llena, los coeficientes de
frecuencia apenas son alteraelos. En caso contrario, stos se atenan en m<l)'or
medida. ste ser el tema del prximo apartado.

U
O~

!~~~~~! INFORMACiN REDUNDANTE

I
I

~m~

JINFORMACIN IRRELEVANTE
INFORMACiN RELEVANTE

Figura 7.23.

La cantidad de informacian relevante que puede contener una sei'al de video vara en funcan

del tiempo.

20S

TrCNOloC!A :\Cl tHI DI Tri H',\():\,

Compresin en vdco

""~"-"

12.1. Redundancia temporal

Paquetes de informacin

....

~"_.--,-.-

Detector
de nivel

,: i('r

"1
~:;"

Control del grifo

i:'~,~

t~-Jt
~;
..-".~

,--..

Buffer

La redundancia no slo existe dentro de las imgenes, sino tambin entre ellas.
Una secuencia de imgenes, representando una escena en movimiento, es un con
junto de muestras temporales. En una escena tpica los cuadros que representan las
muestras temporales tienden a mostrar un cierto grado de similitud. En otras pala
bras, se obtendra un cierto xito si se predijera una imagen a partir de otras im
genes ya disponibles. Esto significa que la nueva imagen contiene muy poca infor
macin real o, en trminos ms tcnicos, muy poca entropa.

~,

Caudal de Informacin esta~

Figura 7.24.

Out

Se trata de evitar que el bidn ni se desborde ni se vace. Un mecanismo regula la cantidad de


informacin cerrando o abriendo el grifo de la recuantificacin.
Compresin perceptual

que pagar, en este caso, es un ancho de banda mucho ms elevado que en el caso
de los sistemas que emplean compresin.
Algunas apucaciones permiten tasas de bits variables, pero en el caso de los mag
netoscopios digitales y en la mayora de las aplicaciones de televisin es necesario que
la cantidad de bits grabados, procesados o transmitidos por unidad de tiempo sea esta
ble. Cmo convertir una informacin de complejidad variable en una tasa de salida
estable? La solucin consiste en disponer de un bt!fJer o almacn de salida que regule
en cada momento la "dureza" de la compresin. Se trata de evitar que el bt1Jer se vace
o se desborde. Si el bt1J est a punto de desbordarse, el factor de compresin se redu
ce; si est casi vaco, se aumenta. De esta forma es posible lograr una tasa de daros de
salida estable con una calidad de imagen "casi estable". Esto puede compararse a man
tener un bidn de agua con un llenado ptimo (sin que se vace ni se desborde), a
pesar de que los aportes de agua son variables en el tiempo.
En resumen, la "compresin intracuadro" consiste en la elaboracin de los valo
res DCT, seguida de la recuantificacin de los coeficientes y de la codificacin de
longitud variable. El control de llenado asegura una tasa de datos de salida estable,
forzando la recuantificacin si fuera necesario.

OCT

=Transformada en coseno discreto


X =Recuantificador
VLC =Codificacin de longitud variable

Figura 7.25.

Diagrama de bloques basico de la compresin intracuadro.

La redundancia de informacin entre cuadros sucesivos puede ser aprovechada


codificando y transmitiendo slo aquello que cambia de un cuadro a otro. El con
cepto bsico de la compresin temporal se ilustra en la figura 7.26. Para simplifi
car, en esta imagen se ha congelado el fondo y slo se ha permitido al tiburn avan
zar unos pocos pxeles hacia la derecha y hacia arriba, de un cuadro a otro. Si res
tamos ambas imgenes obtendremos algo similar a la figura 7.27, donde todo el
fondo vale cero y slo contiene informacin real aquello que se ha movido.

12. Compresin temporal


En los apartados anteriores se ha utilizado el concepto de "correlacin espacial".
Por tal se entiende la medida en que el valor de un pxel depende o est relacio
nado con el valor de los pxeles vecinos. Alta correlacin significa que el valor de
un pixel es muy dependiente del valOl' de los otros pxeles de la imagen; baja corre
laCin, todo lo contrario. Por tanto, correlacin y redundancia son trminos liga
dos el uno al otro.

Figura 7.26.

Entre dos imagenes consecutivas existe un alto grado de similitud o correlacin.

206
207

T;T1'\(n~)GA ,'CTlP'

,")Ie-.,-,1I~I",E~\",\"-Ic'J,,,~,-'

_
__

Figura 7.27.
Residuos obtenidos al restar dos im
genes consecutivas.

Si se hiciera la DCT de la imagen de la figura 7.27, est claro que todos coefi
cientes de todos los bloques correspondientes a las zonas del fondo valdran cero
(al menos en un caso ideal). Slo los bloques que incluyen el tiburn de primer
plano presentaran valores reales. Tan largas cadenas de ceros seran fcilmente tra
tadas por Jos pl"Ocesos de codificacin de longitud variable y codificacin de
secuencias.

12.2. Compensacn de movimiento


Es posible ir un paso ms adelante en la reduccin de datos gracias a las tcni
cas de prediccin y compensacin de movimiento. Basta con pensar que, aunque el
tiburn se haya movido de un frame a otro, sigue siendo e! mismo tiburn y man
tiene la mayora de sus atributos de forma, color, textura, iluminacin, etc. La idea
bsica es comunicar al decodificador las fronteras que delimitan la forma del tibu
rn y la medida y direccin en que se ha movido de un cuadro al siguiente. El deco
dificador slo tendr que recuperar el tiburn de! cuadro "A" y copiarlo desplaza
do en e! cuadro "8".
Hoy por hoy los codificadores no son capaces de reconocer la forma de los obje
tos y procesarlos como entidades. En lugar de csto, ]0 que se hace es dividir la ima
gcn en bloques de compensacin de movimiento, llamados "macrobloques" (por
que suelen incluir varios bloques DCT), por ejemplo, de 16 x 16 pxeles, como en
la figura 7.28. A continuacin se busca en qu medida los macrobloques de pxe
les de la imagen "A" se han desplazado cn la imagen "B". Para ser ms exactos, son
los macrobloques de la imagen "B" los que se desplazan dentro de un rea de bs
queda predeterminada (por ejemplo, movindolos 16 pxeles en la direccin
horizontal y 8 en la vertical) y se comparan con los macrobloques correspon
dientes de la imagen "A". Aquella igualacin que d mnima diferencia se toma
como "vector de desplazamiento". A continuaci6n e] codificador "resta" el macro
bloque de la imagen "8" (la actual) del macrobloque desplazado de la imagen "A"
(la anterior). Este resto o residuo ser posteriormente procesado como si se trata
ra de un macroblo que de imagen normal, es decir, DCT + ZIGZAG + VLC. .. La

COmpc>J,' Cl.Ul!l~

Figura 7.28.

En este? ejemplo (un tanto ideal) la

mayora cte los bloques proporcionan

residuos cero )' bloques de desplaza

miento nulos. Slo unos pocos blo

ques se han movido de la imagen "A"

a la "E".

diferencia es que como el bloque contiene muy pocos valol'es rcales y, en cualquier
caso, estos son muy pequeos, contendr igualmente muy pocos coeficientes de
frecuencia reales, los cuales sern, adems, de escasa energa. Ciertamente con esta
tcnica es necesario codificar, adems de los coeficientes DCT, los vectores de des
plazamiento, para lo cual se necesitan bits extras. Aun as, es eficaz. Slo se nece
sitan dos valores (uno para H y otro para V) para comunicar el movimiento de un
conjunto de 256 pxeles (16 x 16). Adems los vectores de desplazamiento pre
sentan una gran correlacin entre ellos, ya que son consecuencia del movimiento
de objetos slidos, por lo que se utiliza para ellos codificacin diferencial DPCM.
As pues, para cada bloque (en este ejemplo de 16 x 16 pxeles) se obtiene un
"vector de desplazamiento", formado por dos parmetros: desplazamiento hori
zontal y desplazamiento vertical del bloque. En las zonas estticas el vector valdr
cero, en las zonas en movimiento el valor del vector de desplazamiento servid. para
reconstruir la imagen "B" a partir de la "A".
Puede compararse la codificacin intercampo con las tcnicas DPCM estudia
das en apartados anteriores. En ambos casos no se procesan valores absolutos, sino
valores diferencia. Esto descorrelaciona la informacin, disminuyendo la entropa.
La situacin pintada en los prrafos anteriores es un tanto idlica. Para comen
zar, los objetos al moverse no slo cambian de posicin, sino tambin de tamao
cuando se acercan o se alejan de la cmara. Igualmente pueden girar, mostrando
partes nuevas, o desvelar, al moverse, zonas de la escena que no estahan presentes
anteriormente. Adems siempre est presente un cierto nivel de ruido, el cual, al
ser aleatorio, cambia de una imagen a otra.
El tiburn de la figura 7.26 probahlemente se aleje o se acerque a la cmara al
tiempo que se desplaza hacia la derecha, cambiando su tamao. Adems seguro que
los pececillos del fondo no se quedarn quietos. Al contrario, huirn rpidamente
y no todos en la misma direcci6n. En una situacin como sta hasta el pulso de!
operador de cmara introducir movimiento y, por tanto, descorrelaci6n entre
imgenes. As los vectores de movimiento de los distintos bloques de imagen sc
parecen menos entre ellos, a la vez que los bloques restados entre imgcnes no sue
len proporcionar residuos nulos, lo que significa que habr un cierto nmero de
coeficientes reales en los valores DCT.

208
209

Th'NOL(}(;h ACTUAL DI: TEI f\'ISJ()~

ComDrL'~i6n en

Aunque no sea perfecta, la codificacin intercuadro reduce notablemente el


nmero de coeficientes de frecuencia que hay que codificar. Dado tu1 cierto nivel
de calidad, las "imgenes diferenciales", tambin llamadas "imgenes predecidas",
ocupan como promedio entre la mitad y la tercera parte que las imgenes que se
comprimen en s mismas, denominadas estas ltimas "de compresin intracuadro".

"dlO

Adems, al igual que suceda con la codificacin DPCM, la compresin intercua


dro tiende a propagar errores, los cuales no se cancelan hasta que aparece una ima
gen intracuadro. Intercalando una imagen intra cada once imgenes diferenciales se
tendra un tiempo de espera de mas/menos medio segundo como promedio en el
momento de encender el televisor o cambiar de canal. Sera necesario, adems,
insertar una imagen intra extra cada vez que se produjera un cambio de plano.

13. Combinar espacial y temporal


Los sistemas que necesitan un alto factor de compresin, manteniendo un buen
nivel de calidad de imagen, necesitan combinar las tcnicas de compresin espacial
y temporal. Comparese la figura 7.29 con la 7.25. Los procesos de compresin son
esencialmente los mismos, slo que los pasos de transformacin, compresin per
ceptual y compresin entrpica no se realizan sobre bloques DCT de la imagen de
entrada, sino sobre bloques obtenidos como diferencia entre la imagen actual y la
precedente.

In
Out

14. Precompresin
Puede resultar muy til "preparar" o, al menos, "cuidar" las imgenes antes de
la compresin. De esta forma podr:in obtenerse factores de compresin elevados
con alta calidad de imagen. Aunque se trata de procesos previos a la compresion,
se han dejado deliberadamente para el final del captulo, ya que ahol'a puede enten
derse claramente su necesidad.
En general, las mejores imgenes para ser comprimidas son aquellas que pre
sentan el nivel ms alto de calidad con el mnimo de ruido o distorsiones. Entre los
artificios que afectan y perjudican a la compresin puede destacarse: ruido aleato
rio, restos de intermodulacin luminancia-crominancia (imgenes que proceden
de PAL) y correccin de apertura excesiva (DTL).
La figura 7.30 sera un ejemplo de imagen apropiada para la compresin.
Muestra zonas fciles, con poco detalle, y zonas ms difciles, pero es una imagen
limpia, sin ruido ni artificios.

Decodificacin locsl

OCT =

Transformada en coseno discreto


VLC = Codificacin de longitud variable
X = Recuantificador
(VlC"+DCT")= De longitud variable a fija + DCT inversa

Figura 7.29.

Diagrama de bloques simplificado de la compresin intercuadro.

Para simplificar, el diagrama de bloques de la figura 7.29 no contempla la com


pensacin de movimiento. Debe notarse la presencia de un conmutador de entra
da, necesario para cambiar del modo "intracuadro" al modo "intercuadro". Para
lograr un factor de compresin alto interesa que la mayora de las imgenes se
codifiquen en el modo intercuadro. Sin embargo, una de cada "n" debera codifi
carse en el modo "intra". En aplicaciones como la difusin de television digital, la
distancia entre dos imgenes "intra" determina el tiempo de reaccion del televisor
al cambiar de canal, ya que ste necesita esperar a disponer de una imagen codifi
cada "intracuadro" (espacialmente) para poder iniciar el trabajo de decodificacin.
210

Figura 7.30.

Una imagen "normal" con zonas de bajas frecuencias (cielo, agua, nieve) y de

altas frecuencias (vegetacin y texturas en las montaas), pero, en cualquier

caso, una imagen limpia.

211

TI~C:\()l ()(;IA ACTLJ.\1. /H. 1I;LE\ IS:\'

COlllPresin en 'Ideu

14. 1. El ruido
De todos los artificios posibles, el peor es el 'uido aleatorio, ya que, por defi
nicion, no contiene redundancia. Los sistemas de compresion interpretan el ruido
como infonnacion bsica e intentan codificarlo con la mayor precision. As! limitan
el nmero de bits disponibles para codificar la parte realmente importante: la
informacin perceptualmente bsica. Las imgenes ruidosas son tan malas candi
datas a la codificacion con compresion, que estn apal'eciendo en el mercado equi
pos (no precisamente baratos) dedicados a la supresion o minimizacion de ruido,
especialmente para la compresion. Tambin los araazos y suciedad de las pelculas
de cine puede entenderse como ruido aleatorio, ya que no se sigue ninguna pauta
predefinida, producindose al azar.

Figura 7.32.

En la imagen de la izquierda, un exceso de correccion de detalle aumenta la entropa de la

imagen y dificulta la compresion. A la derecha, imagen deliheradamente suavizada para facili

tar llna fuerte compresin posterior.

14.3. Suavizado de imagen


Cuando se desea obtener factores de compresion muy elevados, puede ser ti!
"suavizar" previamente la imagen. Esto supone una cierta prdida de resolucion de
la imagen comprimida, pero es mucho ms tolerable que la aparicion de artificios
como consecuencia de un exceso de compresion.

14.4. Otros defectos de entrada

Figura 7.31.

Imagen "muy ruidosa" poco apropiada para la compresion.

14.2. Exceso de correccin de apertura


La correccin de apertura horizontal y vertical (conocida como DTL) tambin
reduce la eficacia de los sistemas de compresin. Se trata de un proceso introducido
por la cmara de vdeo con la intencin de proporcionar imgenes ms nltidas y bri
llantes. Por otro lado, un exceso de correccin genera bordes muy marcados (e
incluso dobles bordes) que aumentan e! contenido de altas frecuencias, estresando el
sistema de compresin con detalles irrelevantes. Por suerte, el DTL puede ajustarse,
de manera que es aconsejable reducir el nivel de correccion de apertura cuando se
sabe que las imgenes van a ser comprimidas. La experiencia determinar e! grado
de correccin adecuado en funcin de! sistema y e! factor de compresin utilizado.
212

No se trata de hacer una relacion exhaustiva de todos los posibles defectos de la


seal de entrada al codificador, pero s es necesario citar al menos algunos propios
de las pelculas de cine, que son despus convertidas a vdeo y digitalizadas. Entre
stos destacan las ralladuras y la suciedad, especialmente al inicio y al final de la
cinta. Otro defecto importante que puede dificultar enormemente la compresion
es la inestabilidad o temblor de los fotogramas cuando se encuentran en la venta
nilla de proyeccin expuestos a la luz. Tal temblor se traduce en movimiento,
"estresando" los procesos de compensacion de movimiento y compresin inter
cuadro.

15. Artificios de la cOlnpresin


Si no se utiliza adecuadamente o si se abusa de ella, la compresin puede intro
ducir defectos y artificios en la imagen que pueden llegar a ser muy molestos. En
general, las degradaciones introducidas por los sistemas analgicos, tales como la
reduccin de la resolucin por falta de ancho de banda o el ruido por mala S/N,
resultan bastante "naturales" para el sistema de percepcin visual humano. No as
las degradaciones introducidas por la compresin, las cuales resultan mucho ms
artificiosas e intolerables. Entre estas ltimas cabe citar:
213

COlllnrCSJn en \deo'
TLCNU! Ola.'\ ACTUAl DI" TJ~'-rU';J(')'\

BLOCK/NG (efecto mosaico).-A la imagen codificada se suma una estructura de


bloques, que denuncia las fronteras de los bloques de DCT y/ o de los macroblo
ques de compensacin de movimiento.
BLUR/NG (emborronado).-En una imagen determinada la reduccin de infor
macin real, genera efectos de emborronamiento y una especie de corrimiento de
tintas (smearing)
EDGE BUSYNESS (actividad de los borcles).-Un efecto de distorsin en torno a
los bordes de los objetos, caracterizada por una variacin temporal de su nitidez o
agudeza o por una variacin espacial elel ruido. Puesto que se elimina ms infor
macin en las zonas de alta resolucin, se genera un "ruido" en los bordes de las
imgenes.
ERROR BLOCKS (bloques errneos).-Una forma de distorsin en la que uno o
ms bloques de la imagen recibida no se corresponde con la escena original y a
menudo contrasta mucho con los bloques adyacentes. Por ejemplo, pueden apare
cer bloques congelados o en negro.
MOSQY/TO N01SE (ruido nervioso).-Causado pOI' errores de cuantificacin
entre pxeles adyacentes. A medida que el contenido de la escena vara, los tama
os de los escalones de cuantificacin varan tambin, de forma que los errores de
cuantificacin producidos se manifiestan como "puntos negros centelleantes", que
se asemejan a mosquitos y que se muestran aleatoriamente en torno a los objetos
de la escena.
QYANTlZATlON NO/SE (ruido de cuantificacin).-Representacin inadecuada
de la seal original que se produce durante el proceso de conversin de digital a
analgico. Los procesos de compresin posterior pueden enfatizar este tipo de
ruido.

Resumen
La compresin permite al usuario elegir la combinacin de parmetros de
muestreo y factores de compresin que mejor se adapten a sus necesidades.
Muchas aplicaciones actuales no seran posibles sin la compresin.
La informacin de las imgenes de vdeo puede dividirse en tres partes:
-- El elemento redundante: Informacin repetitiva o predecible. Una seal de
vdeo contiene mucha informacin redundante. Un pxel tiende a parecer
se a sus vecinos (redundancia espacial). Una imagen tiende a parecerse a la
que le precede ya la que le sigue (redundancia temporal).
- El elemento irrelevante: Informacin que el ojo humano no es capaz de apre
cIar.
-- El elemento bdsico: InforllJcin que no es redundante ni irrelevante y que
debe retenerse.
Toda imagen contiene una cierta cantidaJ de redundancia, la cual se define
como aquellos datos que son repetitivos o predecibles. La diferencia entre la
cantidad total de datos de un mensaje y su redundancia se conoce como
"entropra
, " .
,
Es posible encontrar redundancia tanto en el espacio como en el tiempo. Hay

varios procedimientos para eliminar o reducir la redundancia espacial, lal


mayora de ellos basados en el anlisis de las frecuencias que componen la
imagen. Para reducir la redundancia temporal lo que se hace es no enviar las
imgenes de vdeo en s mismas, sino la diferencia entre ellas.
Los sistemas que comprimen temporalmente (tambin denominados de
compresin intercampo o de compresin intercuadro) no son adecuados para
la grabacin digital profesional, ya que en este tipo de aplicaciones interesa
que una imagen sea una entidad en s misma y no la diferencia codificada de
la imagen o imgenes precedentes.

Los sistemas reales de compresin de datos, actuales y potentes, son combi

naciones de muchas y variadas tcnicas o herramientas. Estas pueden dividir

se en dos grupos: herramientas de "compresin sin perdidas" y herramientas

de "compresin con prdidas". A la primera categora corresponden: RLC,

VLC, DCT y supresin de borrados. Son tcnicas de compresin con prdi

das el submuestreo, la DPCM y la recuantificacin de los coeficientes.

Adems se utilizan algunos trucos, tales como lectura en zigzag, marcado de

EF y compensacin de movimiento.

La codificacin de secuencias codifica la longitud de las cadenas, es decir, el

numero de veces que un valor se repite hasta que aparece otro distinto.
La codificacin de longitud variable otorga cdigos cortos a los smbolos ms
frecuentes y cdigos largos a los menos frecuentes. Para que sea eficaz es
necesario que la probabilidad de ocurrencia est polarizada hacia ciertos valo
res. El Huffman es uno de los cdigos de longitud variable ms populares.
Tambin se utiliza la llamada "codificacin aritmtica".
La OCT, aplicada a imgenes de televisin, procesa bloques que representan
la amplitud de los de pxeles y los convierte en bloques de valores de fre
cuencia. En s misma, la DCT no introduce prdidas, siendo, por tanto, un
proceso totalmente reversible.
La OPCM no codifica el valor absoluto de las muestras, sino la medida en que
cada muestra difiere de la anterior. De esta forma se reduce considerable
mente la amplitud de los valores a codificar, lo que significa tener que emple
ar menos bits por muestra.
Una forma de detectar la redundancia y aislar la entropa consiste en trans
formar la seal desde el dominio de! tiempo hasta e! dominio de la frecuen
cia.
En el caso del procesado de imagen se necesita una transformacin bidimen
sional capaz de encontrar todas las frecuencias horizontales para todas las fre
cuencias verticales, de manera que el nmero de busquedas ser igual al
nmero de frecuencias horizontales a buscar, multiplicado por el numero de
frecuencias verticales a buscar.
La OCT polariza la probabilidad de ocurrencia de los distintos valores. Esta
polarizacin del valor de los componentes de frecuencia facilita la codifica
cin de longitud variable, de manera que podemos emplear palabras cortas
para la codificacin de los valores ms frecuentes y palabras largas para la
codificacin de los valores menos frecuentes.
215

214

T~C1\( tI )(,] ..\ :\CTlL\1 1_1'-'--'-T"'U"-J-'.'.L1\"'IC-'-'}:'\.'-

La lectura en zigzag y el marcado de "final de bloque" (EOB) acortan la codi


ficacin y facilitan la compresin.
El sistema de percepcin visual humano muestra mxima sensibilidad al ruido
en las zonas lisas o de baja frecuencia, mientras que decae rpidamente a
medida que aumenta la frecuencia. En otras palabras, las altas frecuencias
espaciales enmascaran el ruido. Este fenmeno de enmascaramiento es la base
de la compresin perceptual, aplicada a las imgenes de televisin.
Cuando se desea ohtener un factor de compresin alto, manteniendo el mxi
mo grado de calidad posible, es necesario combinar varios procesos distintos.
La cantidad de informacin l-edundante e irrelevante en la seal de vdeo
depende de la complejidad de la escena. Se necesita un bt1fer de salida que
controle el nivel de recuantificacin de los coeficientes frecuenciales. As se
logra una tasa de salida de datos estable, con un nivel de calidad casi estable
La redundancia no slo existe dentro de las imgenes, sino tambin entre
ellas. En una escena tpica los cuadros que representan las muestras tempora
les tienden a mostrar un cierto grado de similitud. Los sistemas que quiel-en
conseguir un alto nivel de compresin intentan eliminar tambin la redun
dancia temporal.
Es posible ir un paso ms adelante en la reduccin de clatos gracias a las tc
nicas de prediccin y compensacin de movimiento.
Puede resultar muy til "preparar" o al menos "cuidar" las imgenes antes de
la compresin. De esta forma podrn obtenerse factores de compresin ele
vados con alta calidad de imagen.
En general, las mejores imagenes para ser comprimidas son aquellas que pre
sentan el nivel ms alto de calidad con el mnimo de ruido o distorsiones.
Entre los artificios que afectan y perjudican a la compresin pueden desta
carse: ruido aleatorio, restos de intcrmodulacin luminancia-crominancia
(imgenes que proceden de PAL) y correccin de apertura excesiva (DTL).

CAPTULO

Los sistemas de compresin

1. Introduccin
Afortunadamente no son muchos los sistemas de compresin de imgenes uti
lizados en televisin y, lo que es ms importante, parece haber una tendencia clara
a la simplificacin. Los sistemas de compresin de imgenes actuales se limitan a:
JPEG: para retoque fotogrfico de imgenes estticas.
M-JPEG: para compresin intracuadro de imgenes en movimiento.
MPEG-l Y MPEG-2: que forman una familia completa de normas de com
presin para todo tipo de aplicaciones.
Grupo DV: para compresin intracuadro aplicada a los magnetoscopios digi
tales DV, DVCAM, DVCPRO-2S, DIGITAL-S Y DVCPRO-SO.
A esto habra que aadir algn sistema de compresin para seales de contri
bucin (distribucin entre centros de produccin, transportadores de sea1cs,
etc.), tal como la Rec 723 del CCIR (ahora ITU-R I3T. 723). Por otro lado, el
grupo conjunto de expertos EBU-SMPTE recomienda la utilizacin de slo dos
familias de sistemas de compresin: MPEG y DV, siempre que sea posible.

2. El sistema JPEG
JPEG significa Joint Picture Experts Group (grupo unificado de expertos en im
genes). Es un formato de compresin de imgenes estticas, basado en la codifica
cin del dominio trasformado. La aplicacin inicial de este sistema era el retoque
fotogrfico, aunque, al ser durante aos el nico sistema ms o menos normaliza
do de compresin de imgenes, fue adoptado por los primeros equipos de pos
prodUCcin de vdeo, tales como editores no lineales y los llamados Slow-Motion
(discos duros para repeticin de jugadas deportivas).
Oficialmente el JPEG corresponde a la norma internacional ISO /IEC 10918- 1
216

TrC:'\IOLOGI.\ ACrU-\1 ()f- TFlf\'I\I!\'

Los sislcma:'l dc compresin

(Diairal CompTeHion ond Codina l' Continous Tone Stilllmoaes). Tambin puede encon
trarse en la recomendacin ITU-TT.81. El texto de Jos documentos del ISO )' del
ITU -T es idntico.

Inicialmente se decidi que el ncleo bsico del sistema JPEG seran las imge
nes monocromas y que, en el caso de imgenes en color, la compresin se aplica
ra por separado a cada uno de los componentes de color. Si se parte de una ima
gen monocroma, con una resolucin de ent-ada de 8 bits/muestra, la meta origi
nal era lograr imgenes "reconocibles" con 0,25 bits/pxel; de calidad "excelente"
con 1,0 bits/pxel e "indistinguible" del original con 4 bits/pxel. A medida que se
fue avanzando, el comit JPEG se impuso metas ms exigentes, de manera que en
las pruebas finales se lograron los sigUientes resultados: 0,083 bits/pxel (recono
cible), 0,75 bits/pxel (excelente) y 2,25 bits/pxel (indistinguible). Se defini,
adems, un nuevo nivel de calidad de 0,25 bits/pxel, denominado "til". Aunque
en JPEG se puede escoger el factor de compresin desde, digamos, 2: 1, hasta ms
de 100: 1, se obtienen resultados muy interesantes y calidades "casi transparentes"
con factores de compresin hasta 15: 1.
Cuando JPEG se aplica a seales vdeo, antes de la compresin las imgenes se
pasan al espacio de las componentes de color. Si, POI- ejemplo, la imagen se ha ori
ginado en RGB, se realiza una transformacin (mediante una matriz de multipli
cacin 3 X 3) a Y, Cb, Cr. A continuacin las componentes de color se submues
trean en un factor de 2, tanto en la direccin horizontal como vertical. Con esto
se reduce a la mitad la cantidad global de datos.
Despus la imagen se divide en macrobloques (MB), donde cada MB est for
mado por cuatro bloques de luminancia de 8 x 8 pxeles cada uno, un bloque de
Cb de 8 X 8 pxeles y un bloque de Cr, tambin de 8 X 8 pxeles. Cada bloque de
8 X 8 ser posteriormente tratado de forma independiente.
El siguiente paso consiste en transformar cada bloque, desde el dominio de las
amplitudes al de las frecuencias espaciales, utilizando una DCT discreta de 8 x 8.
Con esta operacin la mayor parte de la energa del bloque se concentra en' el valor
de DC y en unos pocos coeficientes AC.
JPEG aplica un codificador diferencial (DPCM) sencillo a los coeficientes de
DC de los bloques DCT, a partir de los bloques adyacentes de luminancia, es decir,
los coeficientes de DC no se codifican con sus valores absolutos, sino con valores
diferencia con respecto a los valores DC de bloques DCT vecinos (figura 8.1).
Ahora ya puede obtenerse la mayor compresin en JPEG: una vez que se ha eli
minado la energa de DC de la imagen, los restantes coeficientes frecuenciales
pueden cuantificarse aTo55o-modo. Esta cuantificacin burda introduce errores, pero
tales errores no se introducen directamente en el valor de los pxeles (en el domi
nio espacio-amplitud), sino en los coeficientes frecuenciales (en el dominio trans
formado). Afortunadamente los errores en el dominio transformado no son muy
perceptibles. JPEG utiliza una tabla de cuantificacin de valores discretos para los
coeficientes frecuenciales, que depende del coeficiente particular en cada momen
to. La tabla se ha diseado en funcin de la agudeza espacio-frecuencial del sistema
de percepcin visual humano: los errores relativamente grandes son tolerables en
las frecuencias espaciales altas.
218

2.1. Aplicacin de la codificacin Huffman


Una vez realizada la cuantificacin de las componentes frecuenciales, estos coefi
cientes cuantificados presentan propiedades estadsticas redundantes. Leyendo la tabla
de coeficientes en zigzag se aprecia una cierta tendencia a obtener largas cadenas de
ceros y otras secuencias (ciertos valores son ms probables que otros). Esto permite a
JPEG aplicar la codificacin de longitud variable Huffman. Este ltimo paso no intro
duce prdidas y, en cambio, mejora mucho la capacidad de compresin de las imgenes.
Finalmente, JPEG empaqueta los coeficientes de AC y el coeficiente de DC
mediante la codificacin de secuencias (codificacin de cadenas mediante descripto
res, que dicen el nmero de veces que se repite el mismo valor, hasta que aparece otro
distinto). JPEG utiliza un mtodo bastante sofisticado para la codificacin de secuen
cias, basado en la codificacin de "categoras y bits adicionales", los cuales forman, al
juntarse, los llamados "descriptores". Veamos cmo se codifica una determinada
secuencia. Supongamos que despus de realizar la DCT sobre un bloque de 8 x 8
pxeles se obtiene, leyendo en zigzag la siguiente secuencia de datos: 2, -21, -8, O, O,
O, O, O, -3, todo ceros. Se trata de los primeros nueve coeficientes de AC, ya que el
coeficiente de DC se codifica por separado y no entra en la codificacin de secuencias.
Tabla 8.1 Utilizacin de la codificacin de secuencias en el sistema JPEG.
Cadena
Ceros/categora
Palabra
Bits adicionales

2
0/2
01
10

-21
0/5
11010
01011

-8
0/4
1011
0111

00000, -3
Todo Ceros
5/2
EOB
111111110111
1010
00

En el ejemplo anterior, para codificar los nueve coeficientes de frecuencia OCT,


ms el smbolo especial EOB (final de bloque), se han necesitado 40 bits (fila "pala
bra" + fila "categora"). Esta codificacin se basa en dividir los posibles valores pro
porcionados por la DCT en categoras. A continuacin se codifica el nmero de la
categora a que pertenece el valor y unos pocos bits adicionales que especifican su
posicin dentro de la categora.
Tabla 8.2 Categoras y bits adicionales para la codificacin de los coeficientes de AC.
Ntese que el nmero de bits adicionales iguala a valor de la categora.

Categora

Valores incluidos en la categora

Bits adicionales

1
2
3
4
5
6
7
8
9

-1. 1

-3,-2,2,3
-7.-6,-5,-4,4.5,6.7
-15,
-8. 8,
15
-31
-16.16, , 31
-63
-32, 32,
63
-127
-i34. 64,
,127
-255
-128. 128
255
-256, 256
,511
511

O, 1
OO. 01. 10, 11
000, ,011,100
111
0000 ,0111,1000, ,1111
00000 , 01111. 10000 , 11111
etc.
etc.
etc.
etc.
219

1[Ci\'OlOC--\ ,.\C'1 U;\L

pr TEU\'l'iru.'

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _----.!Lus sistema.': de cOllllJl"I:si6n

La combinacin 0/2 (ningn cero, \'alOl- 2) pertenece a la categora 2. Esta cate


gora se codifica con al (tabla 8.3)' los bits adicionales 10 mostrados en la tabla 8.2.
Tabla 8.3 Parte de la tabla de cdigos de Huffman para los coeficientes de AC de la lumi
nancia.
Cadena/
tamao

Longitud
del cdigo

EOB

4
2
2

0/1
0/2
0/3
0/4
0/5

4
5

Palabra codificada

1010
00
01
100
1011
11011

._.

. ...

1/1
1/2
...
2/1
2/2
2/3

4
5

1100
11011

. ...

....

5
8

11100
11111001
1111110111
...
111010
111110111
111111110101

...

3/1
3/2
3/3

10
....

6
9

12

...

. ...

4/1
4/2
4/3

6
10
16

...

....

111011
1111111000
1111111110010110

...

....

5/1

. ...

1111010

Igualmente el "~21 ", que pertenece a la categora 5, debe codificarse como


"0/5", que significa "ningn cero, valor incluido en la categora S". Esta combina
ci6n recibe el cdigo "110 10" (segn la tabla de Huffman mostrada en 8.3), pero a
este cdigo hay que aadirle los bits adicionales "O 1O11" (por el -21), segn la tabla
8.2.

Como puede verse, el proceso completo es bastante complicado y no vale la


pena dedicarle ms tiempo. Lo importante es entender que a partir de los valores
DCT se forman "descriptores". Cada deSCriptor incluye un valor de longitud de la
cadena de ceros, seguido de un valor de categora. A cada combinacin de longi
tud y categora se le adjudica una palabra codificada de Huffman. Ahora, puesto
que cada categora incluye varios valores posibles, la palabra codificada Huffman es
seguida por un cierto nmero de bits que indican cul de los posibles valores den
tro de la categora es el adecuado.
Puede verse, a partir de la figura 8.1, que la codificaci6n JPEG utiliza las
herramientas y trucos clsicos propios de los sistemas basados en transformacin
DCT.
220

Figura 8.1 .

Diagrama de bloques del codificador-dccodificadO!- JPEG. Se muestra slo un canal, por ejem

plo, el de luminaneia.

JPEG incluyc dos modos bsicos de compresin:


1. Compresin sin prdidas basada en codificacin predictiva, seguida de codi
ficacin aritmtica o codificacin Huffman, donde la seal decodificada es
idntica a la original, pero el factor de compresin es muy pequeo (garan
tizado 1,6: 17; tpico 2: 17) y, adems, la frecuencia binaria de salida es varia
ble .
2. Compresin con prdidas (perceptual) basada en DCT progresiva o secuen
cial. En este caso el factor de compraesi6n es ms alto y puede ser elegido
por el usuario en funcin de la calidad deseada. Los factores de compresin
tpicos, en el modo "con-prdidas", estn entre 8: 1 y 100: 1. Adems, gracias
a los vectores de cuantificacin variables, se puede obtener una frecuencia
de salida binaria estable.

2.2. Caractersticas del JPEG


Aunque la normalizacin de este sistema se inici a mediados de los 80, en los
ltimos aos han aparecido nuevos mtodos de compresin basados en la "codifi
caci6n por transformacin", los "vectores de cuantificacin", el "filtrado en sub
bandas", los "wavelets" y los "fractales". La meta o propsito del JPEG ha sido
lograr una serie de requisitos mostrados a continuacin.
Dos modos de codificacin: entr6pica (sin prdidas) y perceptual (con perdi
das).
Utilizar las ltimas tcnicas de compresin.
Permitir a las aplicaciones (o al usuario) escoger entre calidad de imagen y
grado de compresin.
221

Tt,C:'\JOI od ..... ACTlJ.\1 nl- TI:I n"I'iIO;'\.'

Los si.sT~mas

Trabajar con independencia del tipo de imagen (sin limitacin por dimensin
de la imagen, espacio de color, tamai'io y forma del pixel, etc.).
Relativamente baja complejidad de cmputo, que permite soluciones "slo
software", incluso en ordenadores de gama media.
Permitir la codificacin secuencial (una sola pasada) y la codificacin progre
siva (mltiples pasadas).
Ofrecer la opcin de "codificacin jerrquica", mediante la cual se puede
obtener una "copia de baja resolucin" sin necesidad de descomprimir la ima
gen con resolucin total.

Las prinCipales caractersticas del sistema JPEG son:

Eleccin del espacio de color, RGB o Y, Cb, Cr.


Eleccin de la estructura de muestreo: 4:4:4, 4:2:2 o 4:2:0.
Tamao de imagen variable hasta 65.536 pxeles por 65.536 lneas.
Precisin de la seal de entrada de 8 bits en el sistema bsico y de 8 a 12 bits
en el sistema extendido.
Precisin del proceso de cuantificacin DCT de 9 bits.
Utilizacin de un cuantificador DPCM lineal para el coeficiente de DC.
Proceso de cuantificacin adaptativa a nivel de los macrobloques de
16 x 16 pxeles.
Mxima precisin de los coeficientes de DC
11 bits.
Tablas de recuantificacin diferentes para Y, Cb y Cr.
Esquema de RLC- VLC Huffman modificado.
Tablas de Huffman "descargables" incluidas en el archivo de imagen.
Factor de escala variable en base a bloques.
Slo compresin espacial.
Eleccin entre exploracin entrelazada o progresiva.
Tratamiento de errores del canal, mediante la definicin de varios cdigos de
sincronizacin que limitan los efectos en la propagacin de errores.
Puesto que la compresin JPEG se realiza exclusivamente dentro del cuadro
(compresin intracuadro), resulta espeCialmente adecuada para aplicaciones inter
activas donde es necesario acceder a cualqUier imagen en cualqUier secuencia posi
ble.

de comlJresin

Una particularidad del M-JPEG es que suele utilizar codificacin adaptatil'a (la
dureza de la recuantificacin de los coeficientes es variable) para proporcionar un
nmero fijo de bits por cuadro, lo cual es muy adecuado a las aplicaciones de tele
visin. Puede decirse que mientras JPEG es esencialmente un sistema "calidad
constante-frecuencia binaria variable", e! M-JPEG es un sistema de "calidad varia
ble-frecuencia binaria constante".

3.1. Variantes M-JPEG


Existen dos variantes: Baseline M-JPEG (M-JPEG base) y Machematcally Lossless
M-JPEG (M-JPEG matematicamente sin prdidas).

Baseline M-JPEG
La norma ISO 10.918 define la codificacin M-JPEG. El vdeo se muestrea,
normalmente, segn la Rec. ITU-601, con 8 bits por muestra. Alternativamente
puede utilizarse e! formato SIF (352 x 288 x 25 campos). La estructura de codifi
cacin es del tipo 4: 2: 2. La frecuencia binaria de la seal comprimida puede variar
desde aproximadamente 1 Mbyte/ s para una calidad tipo VHS, hasta ms de 15
Mbytes/ s para una calidad superior al Betacam SP. M-JPEG utiliza siempre com
presin intracuadro, por lo que resulta adecuada para los sistemas de edicin no
lineal.
Aparecen artificios o defectos espaciales con frecuencias por debajo de
6 Mbytes/ s. Por encima de esta frecuencia binaria los artificios existen, pero no
son visibles. La norma M-JPEG no hace mencin a la codificacin de audio, por lo
que cada fabricante implementa su propia solucin.
El M-JPEG se utiliza, sobre todo, en las estaciones de edicin no lineal, desde
rjJ-line hasta on-line y para un amplio segmento de! mercado: desde la produccin
multimedia hasta la posproduccin de alto nivel. El coste del codificador M-JPEG
es relativamente bajo, ya que se trata de un sistema simtrico, donde la compleji
dad del algoritmo se reparte a partes iguales entre el codificador y el decodifica
dor.

M-JPEG sin prdidas

3. El M-JPEG
Como se ha visto en el apartado anterior, JPEG es un sistema de compresin de

imgenes de tipo "intracuadro", donde todo el procesado se realiza dentro de la ima

gen. Motion-]PEG o M-]PEG es bsicamente lo mismo que JPEG, pero adaptado a

las imgenes de televisin (tamao del rster, espacio de color, etc.). Al igual que

]PEG, el Motion-]PEG es un sistema de compresin slo intracuadro. El concepto es

sencillo: cada imagen de la secuencia de vdeo se codifica como una imagen ]PEG.

El Motion-JPEG no forma parte de las normas JPEG, siendo un estndar de


Jcto creado por los fabricantes que, sin embargo, ha proporcionado una potente
herramienta de compresin, durante una poca en que no se dispona de otros sis
temas. Parece que la llegada de las normas MPEG est desplazando al M-]PEG.
222

El M-JPEG, matemticamente sin perdidas, utiliza slo los algoritmos


M-JPEG que son matemticamente reversibles, es decir, la codificacin de longi
tud variable, la codificacin de secuencias, etc., pero no aquellos que, como la
recuantificacin de los coeficientes de frecuencia DCT, se basan en las caractersti
cas del sistema de percepcin visual y que suelen denominarse como compresores
perceptivos. El esquema de codificacin es del tipo ITU -601 , con 8 bits por mues
tra y estructura 4: 2: 2. Dependiendo del tipo de imagen, se obtienen frecuencias
binarias del tren comprimido entre 9 y 15 Mbytes por segundo (entre 72 y 120
Mb / s), lo que proporciona factores de compresin entre 2,5: 1 y 1,5: 1. La princi
pal ventaja del sistema M-JPEG sin perdidas es que proporciona una calidad total
de la seal despues de descomprimida, es decir, igual que un D-1 . La editabilidad
es la misma que en la variante baseline, aunque con el sistema sin perdidas no hay
lmite en la composicin multicapa, ya que no se genera ningn tipo de artificio
223

Tl.ll'!()U)(;I.,\ l\Clll:\J l>L TLU.H.... J()\

que pueda propagarse de una pasada a la siguiente. Desde 1997 estn empezando
a aparecer en el mercado sistemas de edicion no lineal basados en la yariante sin
prdidas M-JPEG, orientados hacia la posproduccion on-line de alta calidad.

Factores de compresin
Puesto que se trata de un sistema de compresion estrictamente intracuadro, el
factor de compresion logrado con los compresores M-JPEG perceptiyos (con pr
didas) no puede ser muy alto. En aplicaciones profesionales de edicion no lineal sue
len utilizarse factores de compresion entre 3: 1 y 6: 1. Los discos duros para repeti
ciones de jugadas deportivas pucden lIcgar hasta 8: J, pero no ms. Por su lado, los
comprcsores M-JPEG sin prdidas no supcran factores dc compresion de 2: 1.
Por desgracia, el M-JPEG no es un sistema normalizado, de manera que los dis
tintos fabricantes han optado por soluciones diferentes. Prcticamente cada equi
po utiliza una yariante distinta del M-JPEG. Esto significa que, por ejemplo, un edi
tor no lineal basado en M-JPEG no puede comunicarse directamente con un "slow
motion", aunque los dos utilicen compresion M-JPEG. Normalmente el intercam
bio debe realizarse decodificando (a Rec. 601 en e! mejor de los casos) y volvien
do a recodificar en el equipo receptor. En un futuro inmediato muchas aplicacio
nes reemplazarn el M-JPEG por el ms moderno MPEG, de forma que e! inter
cambio en el dominio comprimido ya ser posible.

_ _ _ _ _ _~l,u~.."i:'llcma:-. (J~1..~~J!l+)j ..~:\ln

MPEG~MbiIS/~~

.~f

[SDT~r
=
dV: .c.r--/
2

a5 Mbils/s;:1II.

'&1'

5 a 15 Mbits/s

r=====!!!!!!!!!!

HOTV

Figura 8.2.

La familia MPEG cubre todo tipo de aplicaciones, desde baja definicin (LDTV) hasta alta

rlefinicin (HDTV).

4. La familia MPEG
El Movina Picture Experts Group (MPEG) es un grupo internacional formado bajo
los auspicios de! ISO Yel lEC. Las normas desarrolladas por este organismo se han
dividido en dos grupos: MPEG-1 y MPEG-2.
Los siguientes documentos recogen la normalizacion MPEG:
ISO/lEC 11172-1 MPEG-1 Systems.
ISO/lEC 11172-2 MPEG-I Video Codina.
ISO / lEC 11172-3 MPEG-I Audio Codina.
ISO/lEC /3818-1 MPEG-2 Systems.
ISO/lEC 13818-2 MPEG-2Video Codina.
ISO / lEC 13818-3 MPEG-2 Audio Codina.
El MPEG-1 comenzo en 1988, con la intencion de lograr un procedimiento de
codificacion capaz de ubicar imgenes en movimiento en soportes de tipo CD
ROM. Para esto es necesario rebajar la frecuencia de bits a solo 1,5 Mbits/s. sta
es la frecuencia de transferencia de datos de un eD de audio, de! cual se deriva e!
CD-ROM. En el CD la seal de audio se muestrea a 4-4-, 1 KHz (una reminiscencia
de la poca en que la seal de audio PCM tena que grabarse en cintas de vdeo).
Cada muestra se cuantifica con 16 bits. Por tanto: 4-4-,IKHz X 16 bits x 2 canales
J ,41 Mbits/s. A esto hay que aadir algunos datos de sincronizacion, identifica
cion, usuario y proteccion contra errores, lo que conduce a una frecuencia binaria
de 1,5 Mbits/s. Con una frecuencia de bits tan baja, el sistema MPEG-1 no puede
proporcionar imgenes de calidad broadcast. Probablemente su aplicacion ms nor
mal sea la de mostrar imgenes en movimiento sobre pantalla de ordenador.

El MPEG-2 es, en realidad, una familia de sistemas capaz de proporcionar imge


nes y sonidos para receptores, que pueden ir desde LDTV hasta HDTY. En principio
el MPEG-2 se ha diseado para proporcionar imgenes de alta calidad, tanto a nivel
de contribucin como a nivel de emisin digital. La resolucin de las imgenes
MPEG-2 se acerca a las de la norma CCIR 601 (720 x 576 pxeles!cuadro en la
norma 625/50 y 720 x 480 pxeles/cuadro en la norma 525/60). La frecuencia de
bits puede ir desde 2 hasta 100 Mbits! s. El MPEG-2 permite seales de entrada de
tipo secuencial y de tipo entrelazado. Tambin soporta la nueva relacion de aspecto
16:9, as como multiples canales de audio y vdeo dentro del mismo tren binario.

4.1. El sistema MPEG-1

MPEG-1 es un sistema que emplea codificacion intercuadro con prediccion y


compensacion de movimiento. Para mejorar el proceso de prediccion, los macro
bloques de 16 x 16 pxeles del campo actual son comparados con todos los posi
bles bloques de 16 x 16 pxeles del campo anterior, que pueden obtenerse sobre
un rea de bsqueda dada. El bloque que proporciona la mejor igualacion se selec
ciona para su codificacion y se resta del bloque del campo actual. Este proceso de
igualacion minimiza los valores diferencia transmitidos y compensa el movimiento
de los objetos dentro de una imagen. Esto se conoce como compensacion de movi
miento. Por supuesto, es necesario enviar, adems de los valores diferencia, el valor
del vector de movimiento.

224

225

Los

sistl'll1il'\

dt: compn'si('JJl

TreNO] OGA -\CTLI:~I DE TfL[\'I.'iI('P,'

4. J .1. Compensacin de movimiento


La compensacin de movimiento es el proceso que sigue a la prediccin y fun
ciona de la siguiente forma: se enva una imagen "1" (intra-cuadro), la cual es, ade
ms, almacenada para ser comparada con la prxima imagen de entrada y encon
trar los vectores de movimiento de los diferentes bloques que componen la ima
gen. La imagen "1" se desplaza de acuerdo a estos vectores y se compara con la pr
xima imagen para producir los datos diferencia. Tanto los datos diferencia como el
valor de los vectores son transmitidos. En el receptor, la imagen original ''I'' se
almacena en memoria, se desplaza segun el valor de los vectores y a continuacin
.~.

Resta A desplazado de B ___'"'

A.

l:]

Qr:l:]

UliJiza los
vectores para
desplaur A

,,-~

..

r~l-~

~', )~[-

\)'l~t
~
i

...

1--.

8:

--""

predecidas intercuadro pasan a denominarse imgenes tipo "P", Lgicamente, la


primera imagen dc un grupo que deba ser tratado independientemente debe ser
de tipo "1", Puede ser necesario disponer de imgenes de tipo "1" con una cierta fre
cuencia para permitir la edicin)' el cambio de canal en el receptor, Aunque la fre
cuencia de aparicin de imgenes '']'' es variable, tpicamente una de cada doce
(parmetro M) es de este tipo. Esta imagen "1" servir de referencia para la codifi
cacin y decodificacin de las correspondientes imgenes "p", La distancia entre las
imgenes "1" y las "P" se denota mediante el parmetro "N",
El sistema MPEG proporciona, adems, un nuevo tipo de imagen denominada
"bidireccional" o, abreviadamente, "B". A diferencia de las "p", las imgenes de tipo
"B" pueden predecirse a partir de imgenes que son anteriores o posteriores en el
tiempo. Las imgenes "E" tienen una doble utilidad: en primer lugar, la prediccin
bidireccional proporciona una mejor aproximacin al valor real, lo que reduce el
error de prediccin, a la vez que se reducen tambin los efectos del ruido. En
segundo lugar, cuando un objeto se mueve por la pantalla, el borde anterior del
objeto va tapando u ocultando partes del escenario, mientras que el borde poste
rior va descubriendo o revelando nuevas partes del escenario. En el primer caso la
igualacin de los bloques de la imagen actual debera hacerse con referencia a algu
na imagen que la preceda en el tiempo. En el segundo caso la igualaci6n debed.
hacerse con referencia a alguna imagen que sea posterior, donde la parte corres
pondiente del escenario haya sido ya revelada. Cuando no se produce ocultacin ni
revelado del escenario, se puede utilizar una mezcla de prediccin hacia adelante y
hacia atrs al 50%. Esto genera el doble de vectores de movimiento, pero reduce

PREDICCiN HACIA DELANTE


Midefll

movimiento
entre Ay B

Figura 8.3.
La compensacin de movimiento se basa en la comparacin, bloque a bloque, de la imagen
actual con la imagen previa. Los bloques de la imagen actual se mueven dentro de un rea de
bsqueda y se restan de los bloques correspondientes de la imagen anterior. La posicion que
d mnima diferencia generar los vectores de desplazamiento.
los datos diferencia se suman para recrear la imagen "P" (predecida).
Se puede enviar cualquier nmero de imgenes "P" (datos diferencia ms vec
tores) entre dos imgenes "1". Tanto las imgenes "1" como las "P" pueden ser some
tidas a posteriores procesos de compresin.

.......

_....

--

PREDICCiN BIDIRECCIONAL

4.1.2. ImBenes J, P, B
Como ya se ha comentado, en la terminologa MPEG las imgenes (o bloques)
codificadas intracuadro se denominan imgenes tipo "1", mientras que las imgenes

Figura 8.4-.

Tanto las imgenes ''1'' como las "P" pueden servir para predecir la.-; imgenes "B", aunque estas

ltimas no se utilizan nunca como predictores.


227

226

TEC~'()lOGI:\ :\CTLJ:\L DI: TEll.\'ISf(').'\'

Lo:-. sistcma::; dc

el error de prediccin. Las imgenes "E" pueden obtenerse a partir de imgenes "1"
o de imgenes "P", pero ellas mismas no pueden servir de prediccin, de manera
que no pueden propagar los errores que pudieran contener.
Bits 3, 2, 1

Modo

000

No intra
Intra
Hacia delante
Bidireccional
Hacia atrs

OO1

O1 O
O1 1
1 OO

En la codificacin de las imgenes "P" y "E", la DCT, RLC, VLC, etc. se aplican
sobre la imagen diferencial compensada en movimiento, es decir, sobre los resi
duos obtenidos al restar la imagen actual de la imagen o imgenes de referencia.
En MPEG-l todos los macrobloques (ME) dc una imagen "I" dcben codificarse
como "intracuadro". En cambio, los ME de las imgenes "P" pueden codificarse
como "intra" o como "no-intra" (temporalmente reconstruidos a partir de una ima
gen previa). Por su parte, los ME de una imagen "E" pueden seleccionarse entre
"intra", "predecidos hacia delante", "predccidos hacia atrs" o "bidireccionales". La
cabecera de cada ME contiene, entre otras, la siguiente informacin: "Macroblock
type", con una serie de conmutadores (bits) mostrados en la tabla anterior.

4.1.3. Diagrama de bloques del codificador MPEG-f


Para conseguir una frecuencia de bits tan baja (slo 1,5 Mbits/s), el MPEG-1 no
debe eliminar slo la redundancia, sino que necesita eliminar tambin una buena parte

ENTRA.DA CONV.E.RSIN
4:2'2
2'1 'O -lo
1srF
-----+ ELIMINACiN
2"'CAMPO

Error de prediCCin

de imagen

~r. ~p~.

"B~

Vectores "B"
haCia adelanle
o hacia atrs
Veclores .p~
haCia adelante

Imagen decodificada _
localmenle
(s610 "1" o P")

Figura 8.5.
Diagrama de bloques del codificador MPEG-I.
228

(Omprc;;;jOll

de la entropa. La entropa de entrada se reduce submuesb-eando en las tTes dimen

siones. Si la seal de entrada es del tipo 4: 2: 2, se comienza por descartar uno de cada

. dos campos. A continuacin la seiial 4:2:2 se convierte en ob'a del tipo 2: 1:0, lo que

reduce los datos originales a 3/16. Esto genera lo que se conoce como "famuto de

enb'ada fuente" (SIF). Despus de esta compresin 5: 1 se forman los macrobloques de

16 x 16 pixeles. Esto genera 6 bloques DCT por cada macrobloque (4 dc Y, I dc CR

y 1 de CE, todos ellos de 8 x 8 pxeles). Los procesos posteriores mosb'ados en la

figura logran una compresin 21: 1, que, multiplicada por el submuesb'eo previo 5: 1,

proporciona una compresin global superior a 105: 1. De esta manera se pasa de los

168 Mbits/s iniciales a 1,5 Mbits/s.


Las imgenes submuestreadas SIF son almacenadas en una memoria, la cual per
mite acceder a ellas "fuera de secuencia", es decir, cn un orden distinto al de entra
da. Esto es necesario para la codificacin bidireccional "E". La primera imagen de
un grupo ser siempre de tipo "1", A continuacin el codificador elige entre pre
diccin hacia adelante, prediccin hacia atrs), prediccin al 50% para cada macro
bloque, codificando la que proporcione el menor erl'Or. El codificador dispone de
un decodificador local, al que le sigue un almacn de imagen. Este almacn per
mite el acceso a imgenes de referencia pasadas y futuras, necesarias para la codi
ficacin bidireccional. En la codificacin predictiva algunas veces la prediccin con
compensacin de movimiento es perfecta, de manera que el errO!' de prediccin es
cero. En este caso MPEG envla al decodificador un cdigo cspecial, dicindole que
no existe error de prediccin y que puede obtener los valores del bloque utilizan
do slo los vectores de movimiento.
MPEG-1 permite la codificacin "slo audio" o "slo video", La capa II de la
especificacin de audio, por ejemplo, ha ganado aceptacin en la industria del
audio para aplicaciones de distribucin (enlaces dc contribucin, captaciones en
localizaciones remotas, ete.). La capa 1II es la base del famoso formato MP3.

4.2. El sistema MPEG-2


El MPEG-1 qued prcticamente congelado en 1991. Las modificaciones que
en el se introdujeron despus de esa fecha slo tuvieron inters acadmico, ya que
ese mismo ao se inici el b-abajo de normalizacin del MPEG-2, el cual se con
virti en un estndar en 1995. La meta inicial fue sencilla: puesto que MPEG-l no
puede trabajar con vdeo entrelazado), slo soporta calidad SIF, se necesitaba una
norma que incluyera seal de vdeo con calidad de radiodifusin.
El MPEG-2 es una superextensin del MPEG-I, en el sentido de que es capaz
de decodificar seales comprimidas MPEG-l. Esto hace que la familia MPEG sca
adecuada para todo tipo de aplicaciones, desde videoconfercncia hasta alta defini
cin. MPEG-2 podda definirse como un MPEG-l al que se han aadido ciertas
mejoras, tales como herramientas para trabajar con seales entrelazadas, una sin
taxis escalable, un conjunto de perfiles y niveles, que permitcn acomodar un rango
muy amplio de aplicaciones y una "capa del sistema" que permite generar trenes
binarios "multiprograma".
Es importante resaltar que las normas MPEG no define la forma en que debe rea
229

TH'NOI nGI;:\ ACTlI-\L D[ rEI E\'';l\J

Los sistemas de comnrcsin

!izarse la codificacin o las herramientas concretas que deben usarse, sino la sintaxis y
la semntica del tren binario, tal y como debe entenderla el decodificador. La "semn
tica" es simplemente W1a coleccin de reglas (en ocasiones llamadas algoritmos) que
le dicen al decodificador cmo recomponer la informacin, mientras que la sintaxis
se refiere a las cabeceras, descTiptores, orden de multiplexado de la informacin, etc.
Cualquier tren binario que respete estas normas podr ser catalogado como MPEG.
Esto proporciona una gran flexibilidad al sistema, ya que es posible ir mejorando las
herramientas de codificacin, obteniendo ms calidad y mayores factores de compre
sin. Lo nico que hay que respetar es la sintaxis y la semntica.
Un punto fuerte de los sistemas MPEG es su flexibilidad en el nivel de calidad de
imagen, principalmente determinado por la n-ecuencia de bits. En MPEG-2 aparece,
adems, el concepto de "escalabilidad". Este principio supone que lm decodificador
MPEG-2 relativamente econmico puede decodificar imgenes vlidas utilizando
solamente una parte del tren binario. Los datos de vdeo consisten en una serie de tre
nes binarios, Bamados "capas". La primera capa se conoce como "capa base" y siempre
puede ser decodificada independientemente de las dems. Las otras capas se denomi
nan "capas de realce" y pueden utilizarse para mejorar la resolucin espacial, la reso
lucin temporal y otras caractersticas escalables. Cuando slo se utiliza una capa se
dice que los datos de vdeo no son escalables. Si se emplean dos o ms capas se dice
que los datos presentan una "jerarqua escalable". Una ventaja adicional de la escalabi
lidad es que ayuda a que los datos de vdeo sean ms resistentes a los errores de gra
bacin/transmisin, reservando las vas con mejores caractersticas de error para la
capa que contiene la informacin de base.

Las principales caractersticas de la norma MPEG-2 pueden resumirse en:

Permite diferentes frecuencias de muestreo de la crominancia (4-:2:0, 4:2:2,


4:4:4).
Permite entradas de vdeo entrelazadas y progresivas.
Contempla el procesado de seales "pulI-dawn 3:2" procedentes de telecine
americano (24 ips a 30 fps).
,
Permite ventana "pan-and-scan" mvil a partir de imgenes ms apaisadas.
Amplio rango de calidades de imagen, desde LDTV a HDTV
Genera canales con tasas de bits fijas y variables.
Contempla modos de "bajo retardo" para comunicaciones bidireccionales.
Acceso aleatorio al tren binario (para decodiflcacin rpida, cambio de canal, etc,).
Puede decodificar seales MPEG-I (compatibilidad hacia abajo).
Se puede editar el material codificado (este aspecto debe mejorarse y est en
revisin).
Avance rpido y rebobinado del material codificado grabado en cinta, con
calidad de visionado.
Tren de bits resistente a errores.
NOTA: El "pull-dolYll 3:2" es un mtodo utilizado para convertir las 24- imgenes de la pelcula de cine en los 30 cuadros de
televisin del sistema americano NTSC. En este sistema se trabaja con 60 campos. Si cada fotograma se descompusiera en dos

campos, tendramos 48 campos/s. La relacin entre 60 y 24 es 2,5: 1, es decir, para realizar la conversin cada fotograma tendra
que generar 2,5 campos. Puesto que: esto no es posible, la solucin consiste en generar tres campos con el primer fotograma, dos
con el segundo. tres con el tercero. dos con el cuarto. etc. siguiendo una secuenda 3:2:3:2 ... es decir. con cada cuatro campos
de entrada se obtienen cinco campos de salida. por simple duplicadn del segundo campo. de una de cad. dos imgenes.

Puesto que la funcin del MPEG es reducir la tasa binaria, no tendra sentido
codificar dos veces el mismo campo. Por esto, cuando se procesa material de vdeo
americano (525/60) procedente de telecinado, el codificador busca e identifica el
campo repetido, el cual omite, codificando slo 24 ips, 'pero aadiendo una indi
cacin para el decodificador: "esto es material vdeo procedente de cine que debe
inflarse de 24 ips a 30 ips en el momento de su exhibicin".

4.2.1. PedIles y niveles

en

MPEG-2

En el apartado anterior ya se ha comentado que uno de los puntos fuertes del


MPEG-2 es el concepto de "escalabilidad". sta se logra estructurando el tren bina
rio en varias capas (hasta tres), comenzando por la capa base independiente y aa
diendo una o dos capas de realce. As se genera la matriz de perfiles y niveles mos
trados en la figura 8.6.
Los perfiles pueden entenderse como conjuntos de herramientas de codifica
cin y se refieren a la forma en que se comprimen y codifican las imgenes. Cada
perfil es ms sofisticado que el anterior y aade herramientas o mtodos suple
mentarios. Los niveles se refieren al grado de calidad y la aplicacin y van desde

~
625/50

NIVEL

SIMPLE
No Imgenes B
4:2:0
No escalable

ALTO

PRINCIPAL
Imgenes B
4:2:0
No escalable

SNR

ESPACIAL

ALTO

Imgenes B
4:2:0
SNR escalable

Imgenes B
4:2:0
SNR escalable
Espacial escalable

Imgenes B
4:2:064:2:2
SNR escalable
Espacial escalable

60 Mb/s (mx.)

100 Mb/s (mx.)

1.920 pixels
1.152 lineas

120 Mb RAM

ALTO-1.44D

60 Mbls (mx.)

60 Mb/s (mx.)

60 Mb/s (mx.)

1.440 pixels
1.152 lineas

64 Mb RAM

126 Mb RAM

126 Mb RAM

PRINCIPAL

256 Mb RAM

15 Mb/s (mx.)

15 Mb/s (mx.)

15 Mb/s (mx.)

20 Mbls (mx.)

6 Mb RAM

16 Mb RAM

32 Mb RAM

32 Mb RAM

BAJO

4 Mb/s (mx)

4 Mb/s (mx.)

352 pixels
26611noas

4 Mb RAM

6 Mb RAM

720 pixels
576 lineas

..... En los modos escalable SNR. escalable espacial y perfiles altos. se permite como
mximo una capa de realce SNR (adems de la capa base).
..... En los modos escalable espacial y perfiles altos se permite como mximo una
capa de realce espacial escalable (adems de la capa de base y la capa de realce
SNR).
..... Las lneas por cuadro se refieren al nmero de lneas activas.
..... Las cifras sobre memoria RAM se refieren a los decodificadores y pueden variar
segn su implementacin.
Figura 8.6.

Combinaciones de perfiles y niveles aceptados en la codificacin MPEG-2.

230
231

TEC~L\

:\1..'"' U\I

nr 1 ,,".I~X"-\'.L:I.''''''.!c)\,---

Lo~-.:&~tJ::.!l1i!_~d~~-..!.!.l.i..Jrc~0JJ
_

"alta definicin" hasta calidad "VHS". Con cuatro niveles v cinco perfiles pueden
obtenerse hasta ,einte combinaciones. Sin embar-ao no todas parecen tiles. En la
b '
actualidad c;nce de las veinte combinaciones posibles pueden ser consideradas
aprobadas. Estas se conocen como "MPEG-2 CanjOrmancc Paints". Las fuerzas del
mercado determinarn qu combinaciones terminan por imponerse.
Antes de la transmisin, el audio, el ddeo y otros datos ~uxiliares se combinan
en un mltiplex llamado "A/PEG-2 Trampart Strcam" (TS). Este es un sistema de
paquetes de longitud fija, en el cual cada paquete est formado por 188 bytes, de
los cuales 184 contienen datos ti!cs. Finalmente el MPEG-2 aade una informa
cin de servicio, llamada "Pra8rammc Specific InjOn~atian" (PSI), la cual etiqueta cada
servicio de! mltiplex )' comunica al receptor los detalles esenciales, tales como los
canales de audio que acompaan al vdeo. Existe un segundo tipo de mltiplex,
denominado "Pro,qram Stream ", que utiliza paquetes de longitud variable y est
orientado a la distribucin multimedia, como se ver ms adelante.

CAPA BASE

IMAGEN MEJORADA

+
CAPA DE~~AL~".
//~

Uno de los aspectos ms interesantes del MPEG-2 es su estructura de capas,


gracias a la cual es posible obtener un sistema escalable. Se define como escalable
aCjue! sistema en el que una corriente de bits (denominada informacin principal o
capa base) puede ser decodificada por todo tipo de receptores, desde los ms sen
cillos hasta los ms caros)' sofisticados. Esta capa base puede estar submuestreada
o subcodificada (menos muestras o menos bits por muestra) con respecto a la ima
gen original, pero siempre puede ser decodificada individualmente. A partir de
aCju el tren binario contendr una o varias capas de realce, Cjue podrn ser aadi
das a la capa base en los decodificadores ms sofisticados, para mejorar de alguna
forma la calidad de la imagen. La tabla de combinaciones dc perfiles y niveles de la
figura 8.6 propone dos formas o tipos de escalabilidad: espacial y SNR. Veamos con
unos ejemplos su utilidad.
'
Escalable SNR: Una codificacin MPEG convencional que aplique una fuerte
recuantificacin de los coeficientes de AC generar una imagen con una relacin
seal/ruido (SNR) moderada. Si esta imagen se decodifica localmente en el pro
pio codificador y se resta pxe! a pxcl de la imagen original, se obtendr una "ima
gen de! ruido de cuantificacin frecuencial". Esta segunda imagen diferencial puede
ser, a su vez, comprimida y transmitida como sei'al de realce. Un decodificador
sencillo slo decodificar e! tren binario bsico y ruidoso, mientras Cjue un deco
dificador ms complejo puede decodificar ambos trenes binarios )' combinarlos
para obtener una imagen de bajo ruido. ste es el principio de escalabilidad 5NR.
Escalable espacial: Como alternativa, se pueden codificar slo las bajas frecuen
cias de una imagen HDTV, las cuales generarn el llamado "tren binario bsico",
suficiente para un receptor SDTV convencional. Decodificando localmente la ima
gen de baja definicin y restndola de la original se obtiene una imagen de realce,
la cual puede codificarse como seal de ayuda. Un decodificador adecuado combi
nar ambas seales para recrear la imagen HDTV ste es el principio de la escala
bilidad espacial, ilustrado en la figura 8.7

~-~";,,.J' t.__

--

-,. .,(

4.2.2. Escalabilidad en MPEG-2

___ ,"

./

/ (
/

i,,"

.... ' " I

/,'

,~

\:',

Figura 8.7.

Una imagen de alta definicin puede lograrse sumando lIna seal dc "capa base" y una seal dc

realce

Jl

La mejora, o escalabilidad, puede referirse a la relacin seal a ruido, a la reso


lucin de la luminancia, a la resolucin de la crominancia o a la resolucin tempo
ral. En los futuros sistemas de alta definicin digital puede resultar ventajoso dis
poner de una seal base, a partir de la cual puedan obtenerse diferentes niveles dc
resolucin y calidad. Los receptores porttiles suelen disponer de una instalacin
de antena de menor calidad, de manera que los datos de la capa base debern
transmitirse con mayor proteccin contra errores. Estos receptores porttiles de
pantalla pequea podran descartar los coeficientes de las altas frecuencias antes de
proceder a la DCT inversa. Las capas de realce se pueden transmitir con menor
proteccin contra errores, ya que sern decodificadas por receptores con antena
fija. En el caso de deterioro grave de la seal, la presencia de la capa base fuerte
mente protegida asegura que la degradacin de la imagen se producir de forma
progresiva, lo cual nos acerca un poco al tipo de degradacin Cjue se produce en la
seal analgica.

4.2.3. Estructura del mltiplex MPEG-2


El elemento ms peCjueo del mltiplex MPEG se denomina "bloCjue" )' tiene
un tamao de 8 lneas por 8 pxeles. En la figura 8.8 puede verse que los bloques
se agrupan formando "macrobloques" (MB), de acuerdo con alguno de los perfiles
233

232

Tf.CNOI OdA AClUAL f)[ TU EVISIN

Los sislcmJ~ de cOnlnrcsin

GRUPO

-BLoaUE

00]

o~?

C, CR

MACROBlOQUE 1MB)

(Gap)

IMAGEN
IMAGEN

IMAGEN
GEN
l,MA

DE IMAGENI,::ES
(Gap)

GRUPO

-BLOQUE

/~

DE IMAGEN;yC

.;:;;

13Jl2J 8J 0
y

~(j GRUPO
\>'"

4:2:0

DE IMAGE;rt!

4:2:2

(Gap)

0[1] 00
0000

IIVII"I'-"C:'"

IMAGEN

y c. c

NOT:\: !"llt:ntras 'lUl' f\.lPEG-l no IInpOI1(' limitaciollC's en ellJl1lailo dcl segmento, que pu~'dc ir desde llll solo MB
hasta una Imagen completa o cualquier otTO tamao intermedio, MPEG-l ohliga a que todo e} segmento est contenido
en una misma HI.l de MB. PUCc!C' ser una fila completa o menos, pero nunca ms.

Veamos ahora el mltiplex MPEG, desde el elemento mayor hasta el ms


pequeo. El tren binario forma una estructura jerrquica que comienza en la
secuencia de vdeo y termina con los bloques DCT (figura 8.9). Cada nivelo capa
de la estructura posee su cdigo de arranque y su cabecera. Esta ltima contiene
informacin sobre el contenido de esa capa. Las extensiones son datos adicionales,
no bsicos, de la capa en que se encuentran. Las informaciones ms importantes
que contienen las capas y sus cabeceras se muestran en la tabla 8.4

R'

MACROBLOQUE (MB)

Tabla 8.4 Principales utilidades de cada elemento del mltiplex MPEG-2.


SECUENCIA

--BLOQUE

4:4:4

[Q]IT] 00 lTI[I)
00 0~ LUlm
y

C.

CR

GRUPO DE
IMGENES
IMAGEN

MACROBLOQUE (MBI

SEGMENTO

Figura 8.8.

(SL/CE)

Estructura del tren binado MPEG-2, desde el bloque hasta la secuencia.

MACROBLOQUE
BLOQUE

MPEG-2. Los macrobloques 4:2:0 estn formados por 4 bloques de luminancia, 1


bloque de cn y 1 bloque de CR. Los MB 4:2:2 contienen 4 bloques de luminan
cia, 2 bloques de CB y 2 bloques de CR. Los MB 4:4:4 contienen 4 bloques de
luminancia, 4 de CB y 4 de CR. Como puede verse, los MB 4:2:2 contienen en
total 8 bloques, es decir, 512 muestras (256 de "Y" ms 128 de "CB" ms 128 de
"CR"). Los segmentos (slices) son conjuntos de macrabloques que siguen la secuen
cia de lneas horizontales propia de televisin. Los segmentos pueden variar de lon
gitud, desde un mnimo de un macrobloque hasta un mximo de una lnea de
anchura por 16 de altura.
El inicio y fin de un segmento deben localizarse dentro de una misma lnea. Los
segmentos proporcionan un mecanismo adecuado para el tratamiento de errores.
Cuando se produce un error en el tren de datos, el decodificador puede saltar al
siguiente segmento. Una imagen est formada por un cierto nmero de segmen
tos. Las imgenes pueden ser de tipo "1", "P" o "B" y se agrupan para formar "gru
pos de imgenes" (GOP). Tpicamente hay 12 imgenes por GOp' el cual comien
za siempre con una imagen "1", aunque algunos decodificadores pueden detectar
cambios entre campos sucesivos y, si el cambio es sustancial, el codificador supone
que se ha producido un cambio de escena y fuerza una nueva imagen "1", acortan
do el GOP La codificacin intercuadro se realiza siempre dentro de un GOP (salvo
en GOP especiales, llamados "abiertos"). Finalmente, uno o varios GOP se unen
para formar una "secuencia de vdeo", la cual tiene su propio cdigo de inicio y de
fin, as como datos que definen el tamao de la imagen, las frecuencias de mues
treo y las matrices de cuantificacin.

Tamao de imagen, relacin de aspecto y frecuencia de cuadro.


Frecuencia binaria y necesidades de memoria del decodificador.
Unidad de acceso aleatorio.
Cdigo de tiempos.
Informacin de tiempo (referencia temporal y llenado del buffer).
Tipo de codificacin (1, P o B).
Informacin de direccionamiento intracuadro.
Unidad bsica de tratamiento de errores.
Estructura bsica de codificacin.
Mtodo de codificacin, vectores de movimiento, cuantificacin.
Coeficientes DCT.
Fin de bloque.

CAPA DE SECUENCIA

SECUENCIA DE ViDEO

"N

SECUENCIA DE ViDEO

ro

SECUENCIA DE ViDEO

I~

B = CODIFICADA BIDIRECCIONAL
DCl = TRANSFORMADA EN COSENO DISCRETO
EC = CDIGO DE FIN
GOP = GRUPO DE IMGENES
I = CODIFICADA INTRACUADRO
P = CODIFICADA POR PREDICCION
SC = CDIGO DE INICIO

Figura 8.9.

Cada elemento del mltiplex, desde el bloque hasta la secuencia, dispone de su propia cabe

cera y datos de identificacin adicionales.

234

235

TLC:'\'(}.LOllJ-\ ACTUAL DI: TLl.L\1.'\10:\

Lo::; 5i-tCIJ1c:!l:_~ LU;.I)P~~i.iJJ]

4.2.4. Notas sobre el mltiplex MPEG-2


La secuencia, que es el elemento de mayor tamao del mltiplex, se corres
ponde con el "Elemcntal)' Strcam", "ES" o "corriente bsica" (una forma de
estructurar los datos que se ver un poco ms adelante).
o Existen GOP denominados "abiertos", en cuyo caso algunas imgenes "B" del
GOP pueden hacer referencia a imgenes 'T' o "P" que no estn en ese GOP.
o Una "imagen" puede ser un cuadro o un campo. Es posible conmutar dinmi
camente entre codificacin en modo cuadro y codificacin en modo campo,
de imagen a imagen. La codificacin en modo cuadro se prefiere cuando la
imagen contiene mucho detalle y poco movimiento, mientras que la codifica
cin en modo campo es mejor en el caso de rpido movimiento.
o En MPEG-2 hay un parmetro denominado "aspca-racio-iriformacion", que defi
ne la relacin de aspecto del pxel. Este mismo parmetw define, en MPEG
1, la relacin de aspecto de la imagen completa.
o En el modo cuadro cada bloque DCT est formado por lneas de ambos cam
pos entrelazados. Los bloques de crominancia 4:2:0 deben codificarse siem
pre en el modo DCT-cuadro.
o En el modo DCT-campo cada bloque est formado por lneas DCT de un solo
campo. Los bloques de crominancia 4: 2:0 no deben codificarse nunca en el
modo DCT-campo, aunque est permitida la prediccin basada en campo para
este tipo de bloquc.
o

Cuando el primer campo (topjeld) de una imagen se codifica como "P" o "B",
el segundo campo (bottonjcld) debe codificarse de la misma forma. Sin
embargo, si e! primer campo se codifica como "1", el segundo podr codifi
carse como "1" o como "P" (predecido a partir de! primero).

4.2.5. Reordenacin de las imgenes


La eficacia de la codificacin MPEG depende en gran medida de! tamao de los
GOP. En general, GOP largos, llenos de imgenes "P"y"B", permiten reducir al mxi
mo la tasa binaria, manteniendo la calidad de la seal. Sin embargo, e! tamao del
GOP no puede ser arbitrariamente largo, puesto que cualquier operacion de monta
je, conmutacin o simplemente de seleccin de canal debe hacerse en las fronteras del
GOP. Cuantas menos imgenes "1" contenga e! mltiplex, ms tendr que esperar el
decodificador para poder sincronizarse y comenzar a proporcionar imgenes tiles.
En muchas aplicaciones, especialmente en distribucin, se utilizan grupos de 12
imgenes (GOP 12), lo que significa que habr 11 imgenes entre dos de tipo "1"
consecutivas, equivalente a 1/, segundo de seal de vdeo. Es una buena solucin
de compromiso, entre eficacia y retardo.
En la figura 8.\0 (a) se muestra una secuencia tpica de imgenes MPEG-2. sta
se caracteriza por los llamados "parmetros M y N", siendo "M" el nmero de im
genes comprendidas entre dos de tipo "1" ms la imagen "1" inicial, mientras que "N"
es el nmero de imgenes entre una de tipo "1" o "P" y otra de tipo "1" o "P" ms la
12 Y N
3.
inicial de! subgrupo. En este ejemplo (que es bastante tpico), M

Figura 8.10.

La reordenaci6n de las imgenes facilita el trabajo del decodificador.

En la figura 8. 10 (b) se muestra la misma secuencia que en (a), pero con las im
genes numeradas. ste es el orden en que las imgenes han sido producidas y, por
supuesto, el orden en que deben ser mostradas en el televisor. Sin embargo, antes
de la transmisin las imgenes son reordenadas, de manera que el decodificador
disponga siempre de los predictores antes que de las imgenes diferenciales. En
otras palabras, para decodificar una imagen de tipo "B" es necesario disponer pre
viamente de las imgenes "1" y "P" que han servido para su codificacin. La figura
8.10 (c) muestra el orden real de transmisin. Ahora puede cntenderse el relativa
mente largo retardo asociado con la codificacin MPEG-2: la imagen "B-2" no
puede se codificada hasta disponer de la "P-4", generando el llamado "retardo de
reordenacin" de 2 cuadros. Ntese que es el nmero de imgenes "B" consecuti
vas y no el tamao de! GOP el que determina el retardo. En el mltiplex no se
enva informacin especial sobre la reordenacin de las imgenes, ya que cada ima
gen indica en su cabecera cul es su tipo y a qu otras imgenes hace referencia.
La utilizacin de imgenes "B" obliga a disponer de mayor potencia de cmpu
to, a la vez que aumenta e! retardo de codificacin y el tamao de! buffer. Por otro
lado, la codificacin se hace ms eficiente, especialmente con bajas frecuencias
binarias. Tambin se reducen los efectos del ruido gracias al promediado en la pre
diccin.

236

4.2.6. El lanzamiento en MPEG-2


El entrelazado de campos existe desde los inicios de la televisin y se diseo
para disminuir el efecto de parpadeo, sin aumentar el ancho de banda de la seal
de vdeo. Esta tcnica, que ha sido titil durante muchos aos, se basa en solapar
entre ellos parte de los espectros vertical y temporal. Esto genera artificios cuan
do bordes horizontales, o casi horizontales (altas frecuencias verticales), se mue
237

Los sistemas dc" compr<:slon


TI-e)'!)1 oci, . \ CTlJ,,'1 DITU l'n'IO~

ven por la pantalla, es decir, cuando coexisten altas frecuencias verticales)' movi
miento. Como consecuencia del solapamiento entre el espectro vertical)' el tem
poral, convertir una imagen entrelazada en otra progresi\'a no es una tarea trivial.
Los dos campos que componen una imagen representan instantes de muestreo
elistintos (separados 20 ms en el sistema 625/50). En presencia de movimiento,
un bloque Del' obtenido a partir ele los dos campos presentara lneas alternativas
de contenido muy distinto. Esto producir frecuencias verticales de todo tipo,
haciendo ineficaz la codificacin. MPEG-2 ofrece herramientas para codificar
imgenes entrelazadas en combinaciones altamente eficaces. Aunque son muchos
los expertos que creen que el entrelazado de campos debera haber muerto hace
tiempo, pruebas visuales de evaluacin realizadas en el ATEL (Ad,'anced Telel,jsion
Emll/acion Laborator] o Laboratorio de Evaluacin de Televisin Avanzada, un labo
ratorio de evaluacin de la calidad de las imgenes EOTV y HOTV, dentro del
proyecto ATSC americano, situado en Ottawa, Canad) con espectadores no
expertos demostr que, para una frecuencia binaria determinada, el entrelazado
permita imagenes "subjetivamente mejores" que la exploracin progresiva. De
todas formas, ste es un debate no cerrado y todo parece indicar que el entrela
zado tiene los das o, mejor dicho, 105 aos contados. Veamos los distintos modos
de codificacin.
Una imagen codificada como "1" puede consistir en una imagen "1" (secuencial)
o en un par de campos tipo "1" o un campo "1" seguido de un campo "P" predecido
a partir del campo ''I''.
Una imagen codificada como "P" puede estar formada por una imagen "P" o por
un par de campos "P", mientras que una imagen codificada como "B" puede com
prender una imagen "13" secuencial o por un par de campos "13", El tipo de codifi
cacin puede elegirse imagen a imagen y se indica en la cabecera de sta. Como
puede verse, MPEG permite afrontar el entrelazado de campos de muchas formas
distintas.
En una imagen "tipo campo" los campos se procesan secuencialmente, de forma
que los macrobloques contienen slo muestras de un campo concreto y represen
tan reas de la imagen de 32 lneas de altura.
MPEG-2 define dos tipos de codificacin OCT, siempre en base a macrobloques
de 16 x 16: OCT-cuadro y OCT-campo, DCT-cuadro es exactamente igual que en
MPEG-I. Los pxeles de luminancia del macrobloque de 16 X 16 se dividen en
cuatro bloques de 8 x 8 simplemente por su posicin espacial. En la DCT-campo
la division horizontal es la misma, pero la divisin vertical se hace tomando las
ocho lneas del primer campo (aqu llamado "campo superiOl'''), para formar los
dos bloque superiores y ocho lneas del segundo campo (o campo inferior), para
los dos bloques DCT inferiores (vase figura 8.11). Los bloques diferencia de color
(que slo tienen ocho lneas por el submuestreo 4: 2 :0) se asume que pertenecen
siempre al campo superior.
La DCT-campo es ms eficiente cuado hay una diferencia significativa entre los
dos campos que componen un cuadro, generalmente como consecuencia del movi
miento.
Las imgenes codificadas como dos campos separados siempre utilizan DCT

,'" . .
:,'

ffl+I-t-J,=--~:
~:::==:.... ~,~
_~----.

---=. __
:=
-..

_,

'," ;1','

','L'_

11~l:'-

..
"

:1
;11 ,., .

j.

I
'"

.....

, .<===:-:............

'-.-1

.";;~r ':.:
lt.... ---

---...

',','_ ,; :' ." ..

' ...

-,;.j.,

,-,

l..

'

;,;

,,"

Modo DCT-cuadro

~:l~I;'1,

::'1;-1:,

---,

..

'I:>~,~'J.~.~~~S\:~:/;I

r:

,,' -

~,jf~

'fl--".~'~:.I'''F.

ffir':>""-

...

,.r.a"~<\'');.. l...

:: fl~,J;

':<'f~-.,

,.

~/":~~

'-":,F'J

Modo DCT-campo

Figura 8.11.

DCT-cuadro y DCTcampo en la codificacin MPEG-2.

basada en campos (como en la parte inferior de la figura 8.11), ya que es la mane


ra en que se han formado los macrobloques. Por otro lado, las imgenes codifica
das como cuadros pueden utilizar OCT-campo o DCT-cuadro. En este ltimo caso
la seleccion se hace en base a macrobloques, de forma que la cabecera de cada
macrobloque debe especificar el tipo de DCT utilizada.
Otra herramienta disponible es la eleccin del patrn de lectura en zigzag de
los coeficientes de AC del bloque DCT. En el caso de imgenes entrelazadas suele
preferirse la pauta mostrada en la figura 7.20 (b), la cual se ha diseado para maxi
mizar la longitud de las cadenas de ceros, en presencia de componentes de energa
vertical, resultantes del movimiento.

4,2.7. Estimacin y compensacin de movimiento


Cuanto mas precisa sea la estimacin de movimiento, ms eficaz ser la codifi
cacin. La estimacin y compensacin de movimiento es un aspecto de la codifi
cacin MPEG, en que las distintas soluciones aportadas por los fabricantes pueden
diferir de forma notable. Las tcnicas involucradas en estos procesos estn sujetas
a constante investigacion. En la deteccin de movimiento prevalecen dos tecnicas:
"la igualacin de bloques" y la "correlacin de fase". En la mayora de los casos los
fabricantes utilizan el algoritmo de "igualacin de bloques" (block matehin8), mas
sencillo que el de "correlacin de fase". Ademas las bsquedas se realizan aten
239

238

Tr.c:-.;ur ()('/:\ \Cllt\l DI: lLLLY/;-'l\):,\


._

diendo solamente a la seal de luminancia. Con este metodo la estimacin de


movimiento no resulta muy precisa, de forma que este es un campo en el que se
puede progresar de manera significativa.
IstlaJacin dc bloqtlcs.-La igualacin de bloques es la ms simple de las tecnicas
empleadas en la estimacin de movimiento. En una imagen dada se selecciona un
bloque ele pxe!cs y se almacena Como referencia. Si el bloque seleccionado es
parte de un objeto en mO\'imiento, deber existir un bloque de pixelcs similar en
la siguiente imagen, pero en una localizacin distinta. La igualacin de bloques sim
plemente mueve el bloque de referencia ele la primera imagen sobre la segunda,
buscando una zona ele pxcles que proporcione la igualacin. Cuando tal igualacin
se encuentra, el desplazamiento necesario para obtenerla se codifica como vector
de mO\imiento.
Aunque conceptualmente simple, la igualacin de bloques requie-e una gran
cantidad de potencia de clculo, puesto que se debe probar cada posible movi
miento dentro del rea de bsqueda. Por ejemplo, si se asume que el objeto puede
haberse movido en un rango de 16 pxeles, ser necesario comprobar J 6 desplaza
mientos horizontales para cada uno de los 16 posibles desplazamientos verticales,
lo que requiere ms de 65.000 comparaciones.
Una forma de reducir la cantidad de calculo necesaria es realizar la igualacin
por etapas. Con este sistema la primera etapa resulta imprecisa, pero cubre un
buen rango de desplazamientos, mientras que la ltima etapa resulta muy precisa,
pero cubre un rango de movimiento muy pequeo. La primera etapa de igualacin
se realiza sobre una imagen fuertemente filtrada y submuestreada que contiene
muy pocos pxeles y requiere muy pocos desplazamientos. Cuando se encuentra
una igualacin el desplazamiento se utiliza como base para una segunda etapa, que
se realiza con una imagen menos filtrada. La ltima etapa se puede realizar con la
precisin que se desee. Se puede decir que se trata de un sistema por aproxima
ciones sucesivas.
Corrclacin dcJasc.-La correlacin de fase se basa en el hecho de que si una seal

compleja (formada por diferentes frecuencias) es desplazada en alguna direccin,

cada frecuencia COmponente sufrid. un giro de fase proporcional al valor de dicha

frecuencia. Por ejemplo, si consideramos una seal unidireccional formada por una

frecuencia fO ms otra fI-ecuencia 2fO, la cual se desplaza en una cierta magnitud,

el cambio de fase experimentado por la frecuencia 2fO ser el doble que el corres

pondiente a la frecuencia fo. En el dominio espacial un cambio de fase correspon

de a un desplazamiento fsico. Si se analizan las diferencias de fase de las compo

nentes espectrales entre dos campos o cuadros sucesivos es posible medir el movi

miento del bloque.

La correlacin de fases trabaja realizando la trasformada de Fourier de dos cam


pos sucesivos y restando despues las fases de las componentes espectrales. Las com
ponentes de fase se someten a continuacin a una transformada inversa, que direc
tamente revela unos pieos cuya posicin corresponde al movimiento entre los cam
pos.
En la prctica todo el proceso se realiza bidimensionalmente. Se comienza por
calcular la transformada de Fourier bidimensional de cada campo. A continuacin

_ _ _~_Q~)J... tCJllJ; c(....1Q!_~_'::.()11

se restan las fases)' se realiza la transformada bidimensional iIncersa. Como salida


se obtiene un campo plano, del cual se eleYan picos tridimensionales. Esto se cono
ce como superficie de correlacin. La posicin del pico en la superficie de corre
lacin indica la direccin del movimiento.
Sin embargo, existe un principio de incertidumbre en el proceso de correlacin
de fase: la precisin en el dominio transformado es incompatible con la precisin
en el dominio espacial. Aunque la correlacin de fase mide con gran precisin la
velocidad)' direccin del movimiento, no puede especificar en que parte de la ima
gen se ha producido dicho movimiento. Resulta necesa-io localizar elicha zona de
la imagen, en un proceso posterior ele igualacin, cuya eficacia se ve dramtica
mente mejorada por la informacin proporcionada por el proceso de correlacin
de fase. Este proceso posterior puede ser del tipo de igualacin de bloques.

4.2.8. Prediccin basada en cuadro y en campo


La prediccin de movimiento basada en cuadro es el mtodo mas sencillo y el
mismo que se utiliza en MPEG-1 . En este caso el estimador de movimiento busca
la mejor regin de 16 x 16 pixe!es, en la imagen de referencia, pa'a igualar las
muestras de luminancia de! macrobloque que esta siendo codificado en la imagen
actual.
La prediccin basada en campo separa los campos superior e inferior, tanto del
macrobloque que esta siendo codificado como de la imagen de referencia. Aqu la
regin de bsqueda ser aquella que mejor iguale una parrilla de 16 x 8 pxeles
correspondiente al campo superior o al campo inferior del macrobloque actual. Es
facil notar que una zona de 16 x 8 pixeles de un campo conereto corresponde a 16
x 16 en la imagen entrelazada.
En las imgenes tipo "cuadro" se puede elegir entre prediccin en base a cuadro
o prediccin en base a campo, con la posibilidad de conmutar de uno a otro modo
a nivel de los maerohloques. Si se elige prediccin en base a campo, el vector ele
movimiento para el macrobloque del campo superior actual podr determinarse a
partir de la mejor igualacin encontrada en el campo superior o en el campo infe
rior de la imagen de referencia. Igualmente, para el macrobloque del campo infe
rior actual, la bsqueda se har en los dos campos de la imagen de referencia (figu
ra 8.12, abajo).
Por otro lado, slo la mejor de las dos igualaciones es utilizada para generar un
nico vector de movimiento, el cual se utiliza para predecir tanto el campo supe
rior como el inferior del macrobloque. La figura 8. 12 muestra los distintos esque
mas de prediccin, tanto en base a cuadros como en base a campos. En la parte
inferior no se ilustra la prediccin del cuadro 2 por razones de claridad.
En MPEG-2 una secuencia de video puede ser codificada como "progresivo" o
como "entrelazado". En las secuencias entrelazadas las imagenes pueden codificar
se como cuadros o como dos campos codificados separadamente. En este ltimo
caso se habla de "imagenes-campo" y la prediccin busca la mejor igualacin para
un grupo de 16 x 16 muestras (todas de un mismo campo) en los dos campos pre
vios. Si se est procesando el primer campo (llamado campo superior), los dos

140
141

TECNOLOGIA ACTUAL DE TE! E\'ISUJN

Lo~ sj~l('ma..

Imagen I
ro

Imagen B

Cuadro O
-----------1

~' I
J.__L

Imagen B

Cuadro 1

I~

LJR

_ _ ~~

~~

PrediccIn
haCia adelante

~=:r------i

1.0

8.'

Imagen P

~-.9,[Q_L

E-~
~8.
0c=---r=------=-~~

-,

8.. I
iE
~ -- 1

L--=: _ _::J

PredIccin
hacia adelante

Cuadr03

I~
18.
lE
1(3

J\

P'OdiCCln
haCia adelante

P,.diccin
haCia aIras

Prediccin basada en cuadro


Imagen

Imagen B

Imagen B

~{

~[-

01

J[-

Imagen P

~uac!ro_~ __

1..0

~R
~
f

r" ~._.Gu{l~ro3
- --1

~~I

&'

1.0
E;
J~
1
I lE
'111..... \.h' ~

~. __

Hacia delan

el

Prediccin basada en campo

Figura 8.12.
Predicci6n basada en cuadro y prediccin basada en campo.

campos previos sern los dos campos que forman la imagen anterior. Por otro lado,
si se est procesando el segundo campo (campo inferior), los dos campos previos
sern el campo inferior de la imagen anterior (espacialmente cosituado) y el campo
superior de la imagen actual (temporalmente cosituado). En cualquier casd, el vec
tor de movimiento elegido se aplica al macrobloque completo.
Las imgenes tipo "campo" pueden utilizar tambin con compensacin de movi
miento 16 x 8. En este modo se obtienen dos vectores de movimiento separados
a partir de los dos campos previos, para las secciones de 16 x 8 superior e inferior
de! macrobloque. Los dos vectores son transmitidos y utilizados para la parte
correspondiente del macrobloque. La determinacin de los campos previos se hace
igual que en el prrafo anterior.
Existe un modo extra de codificar las imgenes entrelazadas, ya sea para im
genes tipo cuadro o tipo campo, denominado "dual-prime" o "doble-bsico". La uti
lizacin de los vectores de movimiento "dual-prime" slo est permitida para im
genes de tipo "P" y slo cuando no hay imgenes de tipo "B" entre la imagen actual
y la imagen de referencia (la imagen precedente "1" o "P"). En este modo slo se
encuentra un nico vector para las 16 x 8 muestras de luminancia de un campo
concreto de la imagen -cuadro (16 x 16 en e! caso de imagen -campo), buscando en
el campo previo de la misma numeracin (superior o inferior). A partir de este
vector se deriva un "vector incremental" (con valores -1, O o + 1, tanto en "x"

de compresin

como en "y"), buscando la mejor igualacin (de las nueve que pueden obtenerse
desplazando el bloque 1 posicion en "x" e "y") para la misma regin, pero con
respecto al campo de polaridad opuesta. En el decodificador los dos bloques iden
tificados por el vector completo y el vector incremental son promediados para for
mar el bloque predictor. Esta tecnica ha demostrado ser altamente eficaz. En
muchos casos la utilizacion del modo "dual-prime" con imgenes tipo "P" puede
reemplazar, con menores exigencias de cmputo y menor retardo ue codificacin,
a las imgenes "B".
Cada vector tiene una componente horizontal y una componente vertical. La
resolucin en la medida de! movimiento es de '/ 2 pxel. En caso de que el valor "x"
o "y" de! desplazamiento de un vector sea impar, la prediccin real para un pxel ser
e! valor promediado de los dos valores adyacentes. Est claro que se necesitan un
montn de bits para transmitir los vectores de movimiento en los modos de pre
diccin "campo" o "16 x 8". Por tanto, estos modos de prediccin slo se utilizarn
cuando la prediccin basada en cuadro no proporcione resultados satisfactorios.
La figura 8.13 muestra el diagrama de bloques del codificador MPEG, cuando
este trabaja en el modo intracuadro, es decir, cuando est codificando imgenes "1".
La seal de entrada es dividida en bloques y sometida a los procesos tpicos: OCT,
VLC, etc. En esta figura el bloque marcado con una "Q" representa la recuantifica
cin de los coeficientes frecuenciales. Por su parte, la figura 8.14 muestra e! traba
jo del codificador MPEG en los modos "P" y "B". Puede apreciarse, a la entrada del
circuito, la presencia de un almacen para la reordenacin de las imgenes de entra
da. Esto es consecuencia de que el codificador necesita disponer de las imgenes de
referencia antes de poder procesar la imagen diferencial. Puede verse tambin que
la OCT y procesos posteriores no se realizan sobre la imagen de entrada, sino sobre
una imagen diferencial compensada en movimiento. Una cuestin interesante es que
la imagen predecida no se compara con la imagen de referencia tal como llega al
codificador, sino con la imagen de referencia localmente reconstruida, ya que es esta
imagen reconstruida la que e! decodificador del receptor podr utilizar como refe
rencia. Esta reconstruccin local la realizan los bloques QI y OCT ' .

Para reordenacinJ '

Modo I

del GOP
Reordenado

Figura 8. 13.

Diagrama de bloques del codificador MPEG2 trabajando en el modo "".

242
243

TU_'\iOLOGj" ACr\)[!lALI-1IJCLI.,"I-1LLUc.:.\'-!'I.~q!..'():,:,,,

Almacn de magenes

Figura 8,14.
Diagrama oe bloques del codillcador MPEG-2 trabajando los modos de codificacin intercua
dro "P" o I'B".

4.2.9. MPEG-2 en entorno prifesional


La codificaci6n MPEG-2 se pens, sobre todo, para la distribucin de material
audiovisual, ya sea por radiodifusin o mediante soportes tipo CD-ROM o DVD.
Aunque el MPEG-2 es ya una norma bien definida y aceptada, presenta importan
tes limitaciones en su uso en el entorno profesional. En MPEG-2 las posibles val'ja
ciones del tren binario segun las combinaciones de niveles y perfiles son enormes.
Como resultado, el procesado y la edicin del tren binario MPEG-2 codificado
resulta prcticamente imposible. Esto significa que las seales MPEG-2 convencio
nales debern ser, las ms de las veces, decodificadas a banda base R-G1, en cada
etapa de procesado, incluso para una simple edicion por corte, Por supuesto, las
operaciones de posproduccin complejas, como cortinillas, fundidos y efectos
especiales, necesitarn siempre la decodificacin previa a banda base, ya esten codi
ficadas en M-JPEG o en MPEG-2. Esto es consecuencia de que el contenido del
tren binario no representa directamente la seal de vdeo. Los ms importantes
"puntos flojos" de las normas MPEG-2, en su aplicacin en el estudio, podran
resumirse como:
o

244

El MPEG-2 se optimiz para aplicaciones de distribucin punto-a-multipun


to, con codificacin de un solo paso, pero no se consider las caractersticas
en multigeneraci6n.
No se tuvo en cuenta las necesidades de ciertos procesos, tales como el croma
key. Para procesos de este tipo la estructura mnima necesaria es la 4:2:2.
Slo se codifican las lneas activas de la seal de vdeo; no se ha previsto la
codificacin de las lneas de borrado vertical, algunas de las cuales contienen
informaci6n vital, como, por ejemplo, el "c6digo de tiempo".
El lmite superior de la frecuencia binaria del MP@ML es de 15 Mbits/s. Las
evaluaciones del grupo MPEG han demostrado que una imagen de calidad
subjetiva similar a CCIR R-601 se puede alcanzar con frecuencias binarias de
unos 9 Mbits/ s para aplicaciones de primera generacin, pero esto slo se

---'Lu!'

,~i~tcma.:;

Jl:

Cur!.lJ2lS;.~H)JJ

logra con GOP de 12 cuadros, lo que significada una precisin en la edicin


de 6 cuadros; vlido para la radiodifusin, pero no para su aplicacin en
estudio, Estas evaluaciones han demostrado tambin que despus de la terce
ra generacin las imgenes no mantienen la calidad necesaria para aplicacio
nes de estudio,
En la actualidad muchos sistemas de edicin no lineal utilizan una variante de la
norma JPEG diseada para imgenes estticas, Esta va-iante se conoce como M
JPEG (Motion-JPEG). Sin embargo, esta solucin presenta las siguientes desventajas:
o El M-JPEG no est normalizado, de forma que las aplicaciones de distintos
fabricantes no son compatibles entre ellas.
La mayora de las aplicaciones M-JPEG producen trenes binal-ios de frecuen
cia variable, lo cual es apropiado para almacenamiento en disco duro, pero no
para grabacin en cinta magntica y distribucion por canales de ancho de
banda estable.
o El M-JPEG no define la codificacin de seales de audio y su multiplexado
con seales de vdeo.
Teniendo en cuenta estas deficiencias, algunos fabricantes propusieron la determi
nacin de unos parmetros especiales para la aplicacin del MPEG-2 en estudio. Esto
llev a la creacin de un subgrupo MPEG, con el objetivo de crear un "perfil de estu
dio". Una posibilidad consista en usar el "perfil alto/nivel 1.440" (que s permite la
codificacin 4: 2: 2), pero esto dispara la velocidad de procesamiento y las necesidades
de memoria y excede los requisitos de una seal de definicin estndar. En lugar de
esto se opt por la creacin de un nuevo perfil, denominado 4:2:2P@ML(perfil prin
cipal/nivel principal, con estructura de codificacin 4:2:2).
Las ventajas de la variante MPEG 4:2:2P@ML pueden resumirse en:
o Se mantiene un ancho de banda total de la crominancia (4:2:2 en lugar de

;;;;:
625/50

NIVEL

SIMPLE

PRINCIPAL

SNR

No imgenes-B

Imgenes-S
4:2:0
No escalable

Imgenes-B
4:2:0
SNR escalable

~:2:0

No escalable

ALTO

80 Mbls (mx.)

, .920 pixeles
1.152 lineas

120MbR~

;Z:m~.)

ALTO-1.440
1.440 plxeles
1.152 lineas

4 MbRAM

PRINCIPAL

15 Mbls (max)

720 plxeles
576 Uneas

8 Mb RAM

BAJO
352 plxeles
288 lineas

ESPACIAL

Imgenes-B

~:2:0

~2:0 ~:2:2

SNR escalable
Espacial escalable

SNR escalable
Espacial escalable

4:2:2
SO Mb/s (mx.)
32 Mb RAM

./

~ ~ ----
MbRAM

RAM

4 Mbls (mx.)

4 Mbls (mx.)

4Mb RAM

8 MbRAM

ALTO

Imagenes-B

100 Mb/s (milx)


256 Mb RAM

80 Mbfs (mx.)

128 Mb RAM
20 Mb/s (mx.)
32 Mb RAM

Figura 8.15.
El "4:2:2P@ML" es una extensin del "MP@ML", especialmente diseado para aplicaciones
profesionales,
245

Los sistemas de comoresin

TLC~OI_()(;iA .\t 'Ttll\l DE1 H.E\'I'11 ()!\:

4:2:0). Un nico paso por los filtros de submuestreo raramente presenta pro
blemas de limitacin de! ancho de banda de la croma, aunque en algunos casos
puede apreciarse una cierta prdida de detalle en imgenes crticas. De todas
formas, el proceso de submuestreo implica una operacin previa de filtrado,
lo que genera una prdida an mayor de ancho de banda en la multigenera
cin. Se podra considerar la utilizacin de filtros de corte abrupto, pero la
experiencia ha demostrado la aparicin de rizado de croma, asociado a la uti
lizacion de este tipo de filtros. La solucion ms directa es preservar el ancho
de banda de la crominancia original del nivel +: 2: 2.
Aumento de las lneas codificadas para incluir algunas de las correspondientes
al borrado vertical. En concreto, se aumentan 32 lneas por cuadro, lo que
eleva la cuenta de 480 a 512 por cuadro en paises 525/60 y de 576 a 608lne
as por cuadro en pases 626/50.
Aumento de la frecuencia binaria del tren codificado hasta 50 Mbits/ s. Ellmi
te de 15 Mbits/ s de! MP@ML es una Iimitacion demasiado severa cuando se
desea buena calidad en multigeneracion. En particular, resulta deseable man
tener e! GOP en un valor lo ms bajo posible y esto slo puede lograrse si se
desea un resultado de calidad, con frecuencias binarias relativamente altas.
Compatibilidad hacia atrs con e! nivel principal. Como consecuencia del
incremento de la frecuencia binaria, se necesitan btiffers de Video ms grandes,
pasando de 16 a 32 Mbits de RAM en el decodificador. Resulta interesante el
hecho de que el grupo 4:2:2 no ha afrontado todava los problemas de multi
generacin de la seal de audio comprimida. Una vez que la seal de Video
alcanza una frecuencia binaria relativamente alta, resulta justificado permitir
la multiplexacin de las seales de audio MPEG sin compresin; el audio slo
representa una pequea parte del tren binario global (muy inferior al 10%).

4.2.10. Calidad de la imagen 4:2:2P@ML


El subgrupo MPEG responsablc del perfil 4: 2: 2 ha realizado una serie de prue
bas para determinar el nivel de calidad que puede obtenerse con el nuevo perfil.
Las prucbas incluyeron compresin-descompresin de primera y octava genera
ciones.
Para simular los problemas que puedcn producirsc en una posproduccion com
pleja en "cascada", se realizaron los siguientes anlisis de secuencias:
Caracterlsticas de multigeneracin con desplazamiento espacial alternado de
la imagen en cada generacin. El desplazamiento espacial significa que la ima
gen se desplaza horizontal y verticalmente dos pxeles y dos IIncas entre las
primeras y segundas generaciones, no se altera en las terceras y cuartas y
vuelve a su lugar en las quintas y sextas. Este desplazamiento espacial simula
el reposicionamiento de la imagen cuando sta pasa por un generador de efec
tos digital (DVE).
Caractersticas de multigeneracin con un desplazamiento temporal del GOP
(grupo de imgenes) entre generaciones. El desplazamiento temporal significa
que la estructura GOP se desplaza un cuadro entre la primera y la segunda gene246

DESPLAZAMIENTO
ESPACIAL

DESPLAZAMIENTO
TEMPORAL

ORIGINAL
B
SECU~IP

-----,
,

'

-----.

I
I
o
f

'!!;i

5ffi
0..>

~ g=i~

(/)

Cl

~P.J~NCI'
MODIFICADA

LAS FRONTERAS DEL NUEVO


BLOQUE DCT NO COINCIDEN
CON LAS DEL ANTIGUO

UNA IMAGEN PUEDE SER


"1" ANTES DEL DESPLAZA
MIENTO Y "P" O "B" DESPUS

Figura 8.16.

Condiciones de prueba de calidad de las imgenes codificadas MPEG-2 4:2:2P@ML.

raciones y de nuevo entre la quinta y la sexta generaciones. El desplazamiento


temporal simula el efecto de diferentes realineamientos del GOP, que pueden
prodUcirse despus de la multigeneracion. Este desplazamiento de un cuadro es
una simulacin realista, ya que sera pura casualidad que dos generaciones de
codificacion comenzaran con el mismo cuadro. Con este tipo de desplazamien
to un cuadro determinado podra ser codificado como "P" en la primera genera
cion, como "B" en las generaciones 2, 3 Y5 Ycomo "1" en la cuarta.
Resuhados.-Con 50 Mbits/ses posible utilizar GOP muy cortos (slo "1" o "l
B") mientras se mantiene una calidad excelente en multigeneracin. A 30 Mbits/ s
es necesario usar GOP de tipo "I-B" para lograr calidad "excelente" (equivalente a
grado 5 CCIR). A 20 Mbits/s es necesario usar GOP ms largos del tipo "I-B-B-P"
y se reduce el nmero de generaciones que proporcionan "calidad excelente". Esto
sugiere que, aunque se pueden usar frecuencias binarias tan bajas como 20 Mbits/ s
para la etapa inicial de adquisicion, los trabajos de multigeneracin deberan reali
zarse entre 30 y 50 Mbits/ s.
Una pregunta que surge a menudo es: qu calidad puede obtenerse a una fre
cuencia binaria determinada? Aunque esto depende del tipo de material de programa
que se desee codificar, en lo que sigue se dan algunas indicaciones orientativas.
La relacion entre la frecuencia binaria y la calidad de Video depende del tipo de
compresion empleado. Aqul se comparan tres tipos de compresin MPEG: la apli
cada sobre imgenes SIF (imgenes previamente submuestreadas a 352 plxeles1288
lneas), imgenes con formato de entrada MP-ML (720 pxeles/576 lneas) y
4:2:2P@ML (como en MP-ML, pero sin submuestreo extra de la crominancia).
El formato SIF ofrece la mejor calidad de imagen para frecuencias binarias por
debajo de 5 Mbits/s, aunque si la fuente de imagen es una pelcula de cine, toda
va el MP-ML se muestra superior. En este caso el SIF resultara ventajoso por
debajo de 3,5 a 4 Mbits/ s. El SIF proporciona una calidad aceptable para aplica
ciones interactivas y multimedia.
247

11 CNOL(l;l." :\CfU\1 \)1 TLI.[n .... [o.'\

L().\.~~lna~s.1L~,:_~!~2!:!:'~:~).!~

MEJOR

MEJOR

SIF-IPB

MP-IPB

CORRIENTE DE PROGRAMA vs CORRIENTE DE TRANSPORTE

PES DE

viDEO ~

DATOS DE

ViDEO

",

"

CODIFICADOR
DE VIDEO

GENERADOR

DE PAQUETES

-'
Cl(l)

SLO lB

<l:

SLO I

I[

CODIFICADOR
AUDIO

-----.

GENERADOR
DE PAQUETES

<l:
U

",

PES: PACKETIZED ELEMENTARY STREAMS


(CORRIENTES BSICAS EN PAQUETES)

",
",

PS: PROGRAM STREAM


(CORRIENTE DE PROGRAMA)

"
10

20

::>

DATOS DE
AUDIO

4:2:2

-.J

CORRIENTE
DE PROGRAMA
(PROGRAM STREAM)

5n.

",

4:2:2

30

40

FRECUENCIA BINARIA MPEG~2 (Mbits/s)


Figura 8.17.
Relacin entre frecuencia binaria)' calidad de imagen para varios tipos distintos de codificacin.

El MP-ML (perfil principal~nivcl principal) proporciona la mejor calidad para


frecuencias binarias entre 5 y 15 Mbits/s. Este formato proporciona una calidad
adecuada para la radiodifusin e incluso la transmisin punto a punto de progra
mas de televisin donde no es necesaria la multigeneracin.
El nuevo perfil 4:2:2 ofrece alta calidad en aplicaciones de multigeneracin. En
este caso la relacin entre la frecuencia binaria y la calidad obtenida depende del
tipo de imgenes codificadas (1, Po B). Segn la combinacin elegida, la codifica
cin 4:2:2 puede ser hasta dos o tres veces menos eficaz que la MP-ML
Existe una asociacin profesional abierta, establecida en julio de 1988, que
agrupa a ms de 70 empresas u organismos, desde fabricantes de equipos hasta
radiodifusores y otros usuarios finales, denominada "Pro-MPEG Forum", creada
para asegurar la interoperatividad de los productos MPEG-2 en el entorno profe
sional. El Frum incluye tambin a diseiadores y fabricantes de circuitos VLSI.
Aunque no se trata de un organismo generador de normas, el Frum trabaja en
estrecha colaboracin con organismos tan importantes como SMPTE y EBU. El
Forum proporciona un puente entre las nuevas normas de televisin digital publi
cadas por estos y otros organismos y su implementacion prctica e interoperativa.
E-mail: admin@pro-mpeg.org; web: www.pro-mpeg.org.

4.2.11. Transporte de los datos en MPEG-2


Se dispone de dos sistemas distintos para multiplexar corrientes binarias bsi
cas (elemental)' bit streams) procedentes de distintas aplicaciones en un mismo canal
de transmisin. Uno de estos mtodos se basa en el uso de paquetes de longitud
248

xw

"

x
~

~~

-'
::>

CORRIENTE
DE TRANSPORTE
(TRANSPORT STREAM)

----..

TS: TRANSPORT STREAM


(CORRIENTE DE TRANSPORTE)

Figura 8.18.

A partir de los paquetes "PES" de video), audio se pueden formar "corrientes de programa" o

"corrientes de transporte".

fija y el otro en paquetes de longitud variable. En ambos casos se comienza por


formar los "PES" (corrientes bsicas en paquetes) de longitud variable. La diferen
cia entre los dos mtodos se produce en la etapa final de multiplexado.
Se trata aqu de definir las siguientes utilidades:
Un protocolo para la transferencia de datos en forma de paquetes.
Un mtodo para sincronizar el codificador y el decodificador.
El multiplexado y demultiplexado de los datos que representan los distintos
servicios.
La posibilidad de enmascarado para acceso condicional.
La necesidad de disponer de dos mtodos distintos de multiplexado es conse
cuencia de los diferentes entornos de aplicacin. Las "corrientes de transporte"
(TS) se han definido para entornos ruidosos (con mala SNR), en los que se pueden
producir prdidas de datos. tstos incluyen sistemas de almacenamiento y, sobre
todo, canales de radiodifusin, ya sean terrenos, por satlite o cable. Los paquetes
TS tienen una longitud fija de 188 bytes. Los errores o la prdida de datos en los
paquetes PES pueden suponer una prdida completa de sincronizacin en el pro
ceso de decodificacin.
Las "corrientes de programa" (PS), por otra parte, se han diseado para medios
relativamente libres de ruido, como, por ejemplo, CO-RM. Los paquetes que
forman el PS presentan longitudes variables. La definicin del sistema PS en
MPEG-2 viene tambin motivada por la necesidad de compatibilidad con el siste
ma MPEG-I.
La transcodificacin entre los dos formatos o sistemas de multiplexado es de
todas formas, viable y se pueden construir interfaces que conviertan TS en PS y
viceversa. En la prctica la mayora de las aplicaciones ATV (televisin avanzada),
249

TfCNOI OCJA ACTUAL DE llL~\'ISIr--.

w l
oS

Los sistt:mas de

FORMACiN DE TSs y PSs A PARTIR DE PESs

wW

1-1
zO::

wO
ir fu
O::z

8;?
1

~i'

w
ie:.

coml)n..~sill

Hay una relacin entre los paquetes TS dc 184 bytes y las celulas ATM. Estc lti
mo es un sistema de transmisin de datos de alta velocidad no sincrnico, til tanto
para operacin en reas locales como en grandes reas. De los 188 bytes del paque
te TS, cuatro bytes se utilizan como cabecera y 184 como carga til para transpor
tar informacin de audio, vdeo, etc. Por otro lado, las clulas ATM ticnen un
tamao de 53 bytes, de los cuales 48 bytes representan la carga til y 5 la cabece
ra. De esta forma un paquete TS puede ser transportado en cuatro clulas ATM.

~~
11>1

ww

~a

4.2.12. Corriente de transporte multiproBrama

!!!.:
0::0:

O::z

8w
wi"

!O.

w",

1-::;

~;?

0::"
0::0
00::

0n.

tales como DBS (radiodifusin directa por satlite) y CATV (televisin por cable)
se basan en normas deJacto, que utilizan paquetes de longitud fija.
Ya se utilicen TS o PS, el nivel ms elemental del multiplexado consiste en la
formacin de los PES, los cuales transportan informacin de una fuente de datos
determinada (vdeo, audio-1 , etc.) y presentan longitudes variables. Cada codifi
cador genera su propio tren de PES, los cuales se multiplexan de la forma ms ade
cuada. Aunque los PES se pueden usar para conectar directamente un codificador
y un decodificador, generalmente forman la base de corrientes de datos ms com
plejas: las corrientes de programa (PS) y las corrientes de transporte (TS) de las
que se ha hablado en prrafos anteriores.
Una corriente de programa (PS) permite el uso conjunto de varias corrientes
elementales de vdeo y audio. Con los PES se forman paquetes que a continuacin
se organizan en "paquetes de corriente de programa" de longitud variable. Estos
paquetes, que suelen ser bastante largos, disponen de una cabecera que proporcio
na toda la informacin necesaria. Por tanto, los paquetes de corriente de programa
son simples colecciones de paquetes PES. Por otro lado, la mayora de los esquemas
de correccin de errores se han diseado para trabajar con bloques de datos de lon
gitud fija. Por esta razn las corrientes de transporte (TS), que se han pensado para
entornos "ruidosos", donde la posibilidad de degeneracin de los datos es mayor,
trabajan con paquetes de datos de longitud fija. En MPEG-2 estos paquetes tienen
una longitud total de 188 bytes, de los cuales 184 corresponden a la carga de datos
y 4 a la cabecera. Como losTS pueden transportar varios programas multiplexados,
una suposicin obvia, pero incorrecta, sera que los TS se forman a partir de colec
ciones de PS. No es as; losTS se forman a partir de los ms elementales PES.
250

En la terminologa MPEG "un programa" consiste en una o varias corrientes


elementales (en ocasiones denominadas "servicios"), que comparten una misma
referencia temporal. Por tanto, aqu programa se refiere a los distintos servicios
(audio, vdeo, datos, teletexto, ete.), que estn relacionados con un mismo conte
nido y que deben ser presentados al espectador simultneamente. Para esto un
nico y comn PCR (Pro8ram Clock Rifercnce) proporciona informacin de referen
cia temporal a todas las corrientes elementales del programa, de manera que el
decodificador usar el mismo reloj master para la decodificacin de las todas las
seales de audio, vdeo y datos que componen un programa.
Una de las caractersticas interesantes de la corriente de transporte es su capa
cidad para transportar datos correspondientes a diferentes programas. Esto resul
ta de gran utilidad en los nuevos servicios de distribucin de la seal de televisin,
tales como el "vdeo a la carta", "vdeo casi bajo demanda", etc., donde es necesa
rio enviar al espectador varios programas en un nico tren de datos comprimidos.
Para esto lo que se hace es intercalar los paquetes de corriente de transporte de
varios programas en el mismo tren binario. En la figura 8.20 el programa-l est
formado por dos corrientes elementales (una de vdeo y una de audio), mientras

AUDIO-1 ~

71'~'\'~
: 'r
\
\ \
"
....

"f

PROGRAMA-l [ffiJ
(DOS CORRIENTES
ELEMENTALES)

~
I I

vIDEO-'
I I \ 1 \ I

rr::::::J lI:J lI:J rr::::::J rr::::::J

I
\ I

J!.~\'~

[lliJ

I 1

\ I

PROGRAMA2
(UNA CORRIENTE
ELEMENTAL)

".'

PCR

VIDEO-2
1 \ I \ 1 \ I \ '

,\

...

...

..\ \..

[ffiJrr::::::Jrr::::::JDrr::::::Jrr::::::J

rr::::::J_P rr::::::J D

DOS PROGRAMAS EN LA MISMA CORRIENTE DE TRANSPORTE

Figura 8.20.

En MPEG-2 es posible transportar varios programas en una misma corriente de transporte.

Todos los componentes de un programa comparten un mismo reloj.

251

Lus
TU"~UlOGI'\ ..\ CTU;\L DI.: ITL['-SI(:,\

que el programa-2 contiene una nica corriente elemental de delco. En cualquier


caso, cada programa tiene su propio reloj de referencia de 27 MHz, comn a todos
los servicios del programa)' que est representado en la figura mediante un cro
nmetro.
La frecuencia binaria de la corriente de transporte completa es constante, y ello
a pesar de que las frecuencias de cada corriente elemental, e incluso de c<ld<l pro
grama, pueden ser variables. Para asegurar la total ocupacin del canal, a nivel de
la corriente de transporte, se utilizan "paquetf's nulos" o "paquetes baslll-a" siempre
que es necesario.
El Transport-5tream puede transportar uno o varios programas. Al mismo tiem
po la norma permite aadir programas a un tren binario ya codificado. De forma
similar se pueden extraer uno o ms programas de un tren codificado en el modo
TS. Cada programa contenido en un TS tiene su propio reloj, mientras que un PS
slo puede contener material relacionado con un nico reloj del sistema.

CABECERA

CARGA

VARIABLE
(TIENE SU

4.2.13. Cabeceras e identificadores

d(' tomprnin

PROPIA

Cada paquete de transporte incluye una cabecera mnima formada por 32 bits
(4 bytes). Los dos datos ms importantes de esta son el "Sinc Byte" o byte de sin
cronizacion, de valor fijo (47H o 8811) y el PID (Facket Identtfication o nmero de
identificacion de paquete). El PID sirve para identificar cada una de las posibles
corrientes elementales o cada uno de los programas. Puesto gue el PID se forma
con 13 bits, se dispone de 2 '1 8.192 nmeros de identificacin diferentes, de Jos
cuales MPFG se reserva el "O" para la PAT (Proaram AssocJOton Table), el "1" para la
CAT (ConditionaI Access Table) y el 8.191 para los paguetes nulos o de relleno_
El receptor dispone del llamado "PSI" (Proaram Spectfic Ir:formation) , que le per
mite determinar qu identificadores tiene que buscar y decodificar para cada pro
grama. Esto se logra mediante la consulta de cuatro tablas bsicas:
,
PAT: La "Pro8ram Association Toble"o "tabla de asociacin del programa" tiene siem
pre un identificador (PID) de valor cero. Es lo primero que tiene que decodificar
el receptor, ya que contiene informacion gue relaciona un programa especfico
(identificado por un nmero) con el PlD de la PMT.
PMT: Cada programa dispone de un "Program Map TabIe" o "tabla de contenidos
del programa", que lista informacian de todos los elementos (vdeo, audio, tele
texto, etc.) que pertenecen al programa.
NIT: El contenido del "Network lriformation rabIe" o "tabla de informacin de la
cadena" esta definido en MPEG como "privado" en el sentido de que no lo define
la norma, sino que se deja que sea el radiodifusor o el proveedor del servicio quien
decida su contenido. La intencin del NIT es p-oporcionar informacin sobre los
parmetros fsicos de la cadena, tales como frecuencia FDM, nmero de transpon
dedores, etc.
CAT: La "ConditionaI Access Table" o "tabla de acceso condicional" es un enlace que
permite al decodificador encontrar los trenes binarios que contienen las llaves
electrnicas necesarias para decodificar un programa enmascarado.
La informacian de referencia temporal de programa se transporta mediante el

~i~tcm,)_~

PROPIA

CABECERA) CABECERA)

Figura 8.21.

Organizacin de la cabecera de la corriente de transporte.

PCR, que se encuentra en los campos opcionales del campo de adaptacin y se usa
para la sincronizacin del decodificador. Otros campos importantes son:
Contador de continuidad (Continuity CouBter): Campo de 4- bits gue cuenta cclica
mente de O a 15. Este campo se usa para detectar paquetes repetidos o perdidos.
Indicador de discontinuidad (Discontinuity Indicator): Indica tanto una discontinui
dad en la base de tiempos como una discontinuidad en el contador.
Indicador de acceso aleatorio (Random Access Indicator): Indica que el prximo
paquete PES, con el mismo PID que el actual, contiene una "cabecera de secuen
cia de video" o el primer byte de un cuadro de audio.
Cuenta atrs para corte (Splice Contdown): Campo de 8 bits que especifica el nme
ro de paquetes del mismo PID antes de que se produzca un punto de corte, es
decir, se alcanza un punto de corte cuando este campo vale O. Tal paquete contie
ne el ltimo byte codificado de una imagen o de un cuadro de audio.
Adems de los explicados anteriormente, la cabecera puede incluir los siguien
tes campos:
CABECERA PRINCIPAL:
Indicador de error en el transporre.-lndica si el paquete es errneo: O

= error.

=no-error;

Indicador de inicio de unidad de caraa.-Indica si la parte de carga de este paquete


contiene una cabecera de paquete PES o el comienzo de una tabla que contiene
informacin especfica del programa (PSI).
Prioridad de transporte.-Nivel de prioridad en canaleslredes que soporten prio
rizacin: O baja prioridad; 1 alta prioridad.
Control de Ja JIave de enmascarado_-Indjca el tipo de llave de desenmascarado que

253

252

TI:C.~I;1 0(;1:\ ACllL\! 1)1:

Tll T: \'l'il 0:'-,'

Los sistemas de compresin I

IndIcador de comienzo de unidad de carga


Bandera de dato5 pnvados

IndIcador de dlscontlnuidad
Bandera OPCR

Campos
opcIonales

IndIcador de acceso aleatorio

Bandera de extensin de campo de adaptacin


Bandera de punto de corte

Bandera PCR

EJ

Reservado

1 6 bits

33 bits

Base de
referencia del
reloj de programa

Longilud del campo (1)

-1 byte-

Extensin de

I
..

referencia del
reloj de programa

Datos privados o

extensiones del campo de adaptacin

"1" bytes

~gU

PCR;X

FORMATO DECABECERA DE DATOS PRIVADOS


O EXTENSiN DEL CAMPO DE ADAPTACiN

FORMATO DEL (O)PCR

..
..

se ha de usar para este paquete. Ejemplo: 00 no enmascarado; 10 llave par; 11


llave impar; 01
otros usos.
Control del campo de adaptacin.-Indica si a continuacin aparece un campo de
adaptacin: 00 reservado; 01
sin campo de adaptacin, slo carga; 10 slo
campo de adaptacin, no carga, 11
campo de adaptacin seguido de carga (un
campo de adaptacin son identificadores y parmetros que definen un servicio,
pero que no se consideran bsicos).

CAMPO DEADAPTAClN
Longitud del campo de adaptacin.-Especifica el nmero de bytes que siguen en la
cabecera de adaptacin. Puede servir tambin para que e! decoder se salte el
campo de adaptacin y vaya directamente a la parte de datos de carga.
Indicador de prioridad de la corriente elemental.-Indicacin de prioridad de los
datos que estn siendo transmitidos en este paquete (es independiente de Ipriori
dad de transporte" de la cabecera mnima).

CAMPOS OPCIONALES:
PCR J OPCR.-Se utilizan para la sincronizacin de! receptor. Mientras que el
PCR puede ser alterado durante la transmisin, el OpeR (Optional PCR) no.
Datos privados.-Indica que la carga est formada por datos privados no recono
cibles por un decoder MPEG.
Extensin del campo de adaptacin.-Para futuras extensiones de la cabecera de
adaptacin an no determinadas.

4.2.14. Control del reloj del sistema


En un sistema (tren binario) donde pueden convivir varios programas y donde
cada programa puede estar formado por varios servicios la sincronizacin y pues
ta a tiempo de las seales multiplexadas puede resultar complicada. La figura 8.23
muestra la idea global de! sistema de sincronizacin.
254

1,-_Jif1JD
~

PCR;X

, TIEMPO
DE -N- BITS

Figura 8.22.
Detalle del formato de la componente de longitud fija de la cabecera de adaptacin.

.N BIT!' __ o>

...

CODIFICACiN
-RETARDO VARIABLE-

...

TRANSMISIN
-RETARDO FIJO

...

RETARDO TOTAL CONSTANTE

DESCODIFICACIN
RETARDO VARIABLE

Figura 8.23.
Sincronizacin de los distintos componentes del mltiplex.

A partir de la seal principal (en este caso la seal de video) se extrae la refe
rencia temporal (reloj del sistema) que servir como patrn para todos los servi
cios asociados a ese programa (canales de audio, datos, te!etexto, ctc.). Esta refe
rencia temporal est formada por muestras de un reloj de 27 MHz, que se inser
tarn en los paquetes de transporte al menos 10 veces por segundo.
Ntese que se parte de dos presupuestos: primero, que el retardo total de! sis
tema es constante (desde el envio del cuadro o campo hasta su llegada) y segundo,
que e! retardo de transmisin es tambin constante (cada byte invierte la misma
cantidad de tiempo desde la fuente hasta el destino).
En el demultiplexor se reconstruye el reloj de! programa. Cada PCR que llega
se utiliza para reiniciar (reset) el reloj local en caso de discontinuidad (el indicador
de discontinuidad est a "1") o para corregir (poner en fase) dicho reloj. Esta
correccin es similar a la utilizacin de un PLL (Phase Lock Loop). La idea es pro
porcionar una sincronizacin con la precisin necesaria en cada aplicacin, con las
siguientes limitaciones:
Slo sincronizacin vertical.
Las seales de sincronizacin pueden aparecer slo 10 veces por segundo.
La sincronizacin se logra mediante datos siftware, que puede presentar erro
res de hasta 500 ns.
Se necesita una rpida fijacin de la imagen durante la bsqueda de canales.
La organizacin de los paquetes de datos en MPEG, ya sea formando TS o PS es
realmente muy complicada. Esta se define en la llamada "capa del sistema" y, en el
caso de! MPEG-2, est especificada en la norma ISO/lEC 13818-1. Decenas de
parmetros y variables aparecen en ella. Un estudio exhaustivo de cada uno de los
parmetros ocupara un libro completo.
255

TLC;,\OI ()(jl:\ AC LI.:L 111:

ru

Ln"'j( ),

4.3. El sistema MPEG-4


La labor de normalizacin no se detuvo con el MPEG-2. El MPEG-4 es un
grupo de trabajo, dentro de la familia MPEG, totalmente remodelado, cuyo pro
psito es lograr altos factores de compresin, utilizando solamente informacin
contextua!. El algoritmo de compresin se basar en OCT y IIme/ets y su aplicacin
ser la de teleconferencia )' similares, aunque se contempla un perfil de estudio,
para aplicaciones profesionales dC' cine y tc!C'\"isin, capaz de soportar hasta 100
Mbits/s. MPEG-4 no pretende sustituir a MPEG-l o a MPEG-2, sino basarse en
ellos para mejorar las capacidades de interactividad.
Segn argot de comit de expertos, MPEG-4 "proporciona un marco de distri
bucin multimedia integrada para acceso universal e interactividad basada en con
tenido". Traducido, esto significa que las nuevas herramientas permitiran a los
autores multimedia ya los usuarios acceder, manipular, almacenar y presentar todo
tipo de elementos audiovisuales de la forma que mejor se adapte a sus necesidades
del momento, sin preocuparse de las caractersticas y parafernalias tcnicas. Si la
tecnologa MPEG-4 se impone, puede ser una forma de acabar con la maraa de
sistemas de codificacin y compresin propietarios e incompatibles entre ellos,
que proliferan en Internet y otms sistemas de comunicacin sin hilos. Lo real
mente nuevo de MPEG-4 son sus posibilidades de interactividad.
Elemento central de esta nueva prestacin es la capacidad de codificar de mane
ra separada los distintos elementos visuales y sonoros. No slo es capaz de codifi
car imagenes rectangulares de distinto tamao y canales individuales de audio, sino
que dispone, adems, de herramientas para codificar imagen es y objetos grMicos
de cualquier forma y objetos de sonido independientes.
Un presentador de informativos puede codificarse de forma independiente del
set de decorado que tiene detrs. Los sonidos pueden localizarse de forma inter
activa en el espacio. Una vez que los objetos de imagen, sonido, grfico y texto han
sido codificados, el usuario puede interactuar con cada uno de ellos d manera
independiente. Dentro de la pantalla los objetos pueden sumarse, restarse, mover
se, deformase, escalarse ...
Pueden codificarse tanto objetos como animaciones y tanto 2D como 3D, sobre
los cuales se pueden "mapear" texturas reales o sintticas. Herramientas especiales
facilitaran la animacin facial y corporal. Otras herramientas permitiran la con
versin texto-a-voz, voz-a-texto y diferentes niveles de sonido sintetizado.
Se dispone de un sistema de coordinacin que dispone los objetos en el espacio
entre ellos y en relacin con el fondo y con el usuario. Las capacidades de compo
sicin de "escenarios multimedia" del MPEG-4 estan fuertemente influenciadas
por el trabajo previo realizado para Internet por el Virtual Reality Modeling Lenguaje
(VRML) y existe una relacin formal entre MPEG-4 y el Consorcio Web3d para
asegurar que MPEG-4 y VRML evolucionan de manera consistente.
La codificacin y manipulacin de objetos de formas arbitrarias es una cosa.
Extraerlos de escenas y contextos naturales es muy distinto. Hasta la fecha la mayo
ra de las demostraciones se han basado en composiciones de croma-key y mucho
trabajo manua!.
256

______L,l"

SlSJCIl1.~--SJ_~.Lll.!l4!.r~n!J

Otro punto fuerte del MPEG-4 es la escalabilidad. Los objetos menos impor
tantes pueden transmitirse con menor resolucin o con menos redundancia para
proteccin contra errores. Los objetos visuales y sonoros pueden codificarsf en
una sola capa base que contenga suficiente informacin como para proporcionar
una resolucin pobre, aunque aceptable, a la que se aade una o mas capas de real
ce que, al sumarse a la capa base, proporcionan ms resolucin, un mayor rango ck
frecuencias, mayor relacin de aspecto, sonido envolvente o tridimensionalidad.
La transformada basica del MPEG-4 sigue siendo la OCT, bastante similar al
MPEG-l y al MPEG-2, aunque se han hecho algunas mejoras en la eficacia de codi
ficacin y en la robustez de transmisin. Se incluye, ademas, un algoritmo wal'elet
para la codificacin de texturas e imagenes estaticas. La codificacin MPEG-4
comienza con un ncleo VLBV (VeJ)' LOII' Bitrate Video o video a muy baja frecuencia
binaria), que incluye algoritmos y herramientas, para proporcionar entre 5 Kbits/ s
Y64 Kbits/ s. Para que el sistema funcione a frecuencias binarias tan bajas, se han
mejorado la compensacin de movimiento y la correccin y cancelacin de erro
res, manteniendo la frecuencia de refresco muy baja (entre Oy 15 fps) Y los rangos
de resolucin desde unos pocos pixel es por linea hasta SIF (352 x 288).
El MPEG-4 no se preocupa directamente de la proteccin de errores necesaria
en canales especificas, tales como radiodifusin mvil, pero ha mejorado la distri
bucin del tren binario de forma que la recuperacin de la informacin sea mas
robusta.
Para canales de mayor calidad, generalmente entre 64 Kbits/ s Y 2 Mbits/s, se
dispone del HBS (High Bitrate Video o video dc alta frecuencia binaria), capaz de
soportar resoluciones que pueden llegar hasta Rec-601 (720 x 576).
Aunque MPEG-4 tiene ventajas evidentes en la produccin y distribucin de pro
gramas interactivos, no esta claro qu efecto tendra en la distribucin y radiodifusin
de programas convencionales de televisin. En estas arcas el MPEG-2 esta fuerte
mente establecido gracias a su inclusin en normas tan importantes como ATSC,
OVB y OVD. En las funciones avanzadas tanto el codificador como el decodificador
MPEG-4 resultan bastante mas cams que sus compaeros MPEG-l y MPEG-2. De
todas formas, existe un "Studio Pre:file MPEG-4" que puede tene,- un gran impacto en
producciones de alta calidad para cine y televisin en alta resolucin.

4.3.1. MPEG-4 peifl1 estudio


Es un perfil especial del sistema de codificacin MPEG-4 para aplicaciones de
alta resolucin en cine o en televisin. A primera vista la eficiencia en la compre
sin, la interactividad y la codificacin de elementos sintticos (que son las bases
del MPEG-4) tienen poco que ver con las imagenes de alta resolucin y el trabajo
en estudio. Sin embargo, el comit MPEG-4 atendi muy pronto las demandas ele
las empresas interesadas en llevar la compresin a los productos audiovisuales de
mayor calidad.
Cuando se considera la manipulacin electrnica en tiempo real de imagencs de
alta resolucin, los nmeros se hacen enormes. Una imagen de 4.000 x 4.000
pxeles, con codificacin 4:4:4 YUV /RGB, 10 bits/muestra y 24 ips con un canal
257

TEC!\.'OI OGf:\ :'\CTlHI DI, TU n'I'\/(iN

alfa, genera una frecuencia binaria por encima de 16 Gbits/ s. Incluso la televisi6n
en alta definici6n actual (HDTV), que en la norma americana de la ATSC puede
proporcionar 1.920 x 1.080 pxeles, 60 cuadros progresivos con codificaci6n
4:2:2 y 10 bits/muestra, genera la nada despreciable frecuencia binaria de 2,5
Gbits/s; actualizada a RGB/YUV 4:4:4 y complementada con un canal alfa, nece
sitara 5 Gbits/s. La norma europea de 1.920 X 1.152 pxeles y 50 imgenes por
segundo no entrelazadas generara tasas similares. Es fcil ver por qu resulta Mil
una norma de compresi6n para este tipo de imgenes.
MPEG-4 permite romper la barrera superior de la codificaci6n MPEG-2, que
est en 100 Mbits/s para imgenes de 1. 920 X 1. 152 pxeles en Europa (1. 920 X
1.080 en USA), con codificaci6n 4:2:2 y 8 bits/muest,-a. MPEG-4 se estructura en
tres niveles: LoH' (bajo), Main (principal) y HiBh (alto). El nivel bajo del MPEG-4
es esencialmente equivalente al nivel alto de! MPEG-2.
El nivel principal del MPEG-4 permite acomodar hasta 60 imgenes progresi
vas con muestreo 4:4:4 y 2.048 X 2.048 pxeles. El nivel alto eleva el nmero de
bits/muestra a 12 y la resoluci6n a 4.096 X 4.096, permitiendo resoluciones tem
porales hasta 120 cuadros no entrelazados por segundo. Se espera que la norma
definitiva incluya especificaciones para el canal alfa, aunque los expertos no acaban
de ponerse de acuerdo en el nmero de bits/muestra para este canal.
Al igual que las dems normas MPEG, esta norma define la sintaxis de tren
binario codificado y fija la forma en que el decodificador debe entender los par
metros de codificaci6n, sin entrar en la forma concreta en que debe realizarse la
codificaci6n. Por ejemplo, un decodificador que cumpla con las especificaciones
del nivel alto podra reproducir una imagen de 4.096 X 4.096 pxeles a 24 ips u
otra de 1.920 x 1.152a 100ips.Enelnivelprincipalunaimagende 1.920 x 1.152
podra proporcionar hasta 50 cuadros no entrelazados, mientras que otra de 2.048
X 2.048 se limitara a un mximo de 25 ips.
Como parte de la norma MPEG-4, el perfil de estudio puede utilizar todas las
herramientas de composici6n de escenas e interactividad incluidas en los perfiles
ms bajos, aunque la producci6n de alta calidad ya dispone de un elevado nmero
de herramientas sofisticadas para la composici6n y manipulaci6n de imagen.
Un beneficio colateral del perfil de estudio del MPEG-4 es que los elementos

bsicos de codificaci6n, tales como la colorimetra, el alineamiento de los macro

bloques y otros parmetros podrn mantenerse durante todo el canal de pro

ducci6n. Esto ayudar a mantener la calidad a medida que el material vaya pasan

do, desde los niveles ms altos de producci6n hasta los receptores de ms bajo

precio.

4.4. El MPEG-7
Es el penltimo miembro de la familia MPEG. Esta vez no se trata de un siste
ma de compresi6n, sino ms bien de descripcin y catalogacian de los contenidos
multimedia. MPEG-7 se describe como Mulcimedia Content DeSCTiption Integace
(MCOI) o interfaz de descripci6n de los contenidos multimedia. Con l se preten
de normalizar un mtodo de descripci6n de los elementos multimedia. Su inten
258

Lo!'-

~istcl1la ...

de comllrcsin

ci6n es construir un conjunto normalizado de descriptores, esquemas y un len


guaje estndar que pueda ser utilizado para describir los contenidos multimedia. A
diferencia de los mtodos actuales, que se basan en la utilizaci6n exclusiva de
texto, el nuevo lenguaje permitiJ- al usuario buscar escenas por su color o por las
texturas que contiene o por la acci6n que se desarrolla. Se podr "tocar unas notas"
en el teclado o introducir una muestra de la voz de un cantante y obtener una lista
de piezas musicales similares del cantante preferido.

4.5. El MPEG-21
ste s es e! ltimo miembro (por ahora) de la familia MPEG, cuya finalidad es
afrontar e! problema global de la distribuci6n de contenidos multimedia. El grupo
MPEG- 21 espera comprender c6mo los distintos componentes multimedia se rela
cionan unos con otros e identificar los huecos que puedan quedar en la infraes
tructura que pudieran dar lugar a la aparician de nuevas normas.
Los aspectos que se estn investigando se solapan e interactan unos con
otros. Hay temas relacionados con la red, como la velocidad, la fiabilidad, el
retardo, el coste, etc. Otros aspectos relacionados, por ejemplo, con la calidad
incluyen cosas como la autenticidad (es esto lo que pretende ser?), la escala de
tiempo (puedo disponer de ello cuando quiera?), as como aspectos tcnicos y
atributos artsticos.
Los modos de utilizaci6n, los modelos de pago, las tcnicas de bsqueda, las
opciones de almacenamiento, todas ellas son objeto de estudio, as como los dere
chos del usuario y la privacidad. Qu derechos tiene el usuario para utilizar, copiar
y pasar la informaci6n? Ha entendido el usuario correctamente cules son sus
derechos sobre la informaci6n audiovisual? C6mo protegern los usuarios sus
datos personales?Y c6mo podrn negociar la privacidad con el suministrador de
contenidos?

4.6. Los miembros de la familia perdidos


Puesto que se han definido (o se estn definiendo) normas MPEG 1, 2, 4, 7 Y
21, cabe preguntarse que ha sucedido con el 3, 5, 6 Y el resto de los nmeros.
MPEG-3 iba a ser la norma de compresin para alta definicin, pero muy pronto
se vio que MPEG-2 cubra perfectamente este campo, por lo que MPEG-3 muri
antes de nacer. No fue fcil decidir que la siguiente norma se llamara MPEG-4 (a
veces las discusiones sobre los nombres de las normas, por parte de los comits
tcnicos, son como la discusin sobre la forma de la mesa en las reuniones de los
diplomticos). Estando ocupados el 1, 2 Y 4, pareca lgico seguir la secuencia
binaria de las potencias de 2, aunque, finalmente, se despreci6 el 8 a favor del 7,
tal vez porque hasta ste todos se pueden codificar con tres bits. Por qu se ha sal
tado directamente al 21? Ni idea! Tal vez sea porque coincidia con la entrada del
nuevo siglo.
259

TEC:-JOI O(;J.-\ ,\el tI.-'1 DE HU \'I~()\

5. El sistema DV
DV es una familia de magnetoscopios digitales que abarca DY, DVCAM,
DVCPRO-25 y DVCPRO-50. A stos habra que aadir el recin aparecido
DVCPRO-1 00, que trabajar a 100 Mbits/ s y est adaptado a las necesidades de la
HDTV, especialmente a la captacin de noticias (ENG) en HDTV para el sistema
americano de la Gran Alianza, ahora denominado ATSC. DVC-PRO est basado en
el mnimo chip-set que el resto de la familia DV. Los tres primeros formatos (DV,
DVCAM y DVCPRO) generan, despus de la compresin una tasa binaria de 25
Mbits / s. La diferencia entre ellos est ms en el campo de aplicacin que en la
forma en que codifican las seales de video y audio. Como puede deducirse,
DVCPRO-SO produce, despus de la compresin una tasa binaria de 50 Mbits/ s,
por lo que comprime la mitad que los anteriores. Hay otro formato, el llamado
DlGITAL-S de ]VC, que tambin genera 50 Mbitsls y se basa en los mismos prin
cipios de codificacin que el DVCPRO-50. En cualquier caso, todos ellos utilizan
la DCT como ncleo bsico; todos ellos son de tipo intracuadro y todos ellos uti
lizan los mismos chips bsicos de codificacin.
En los magnetoscopios digitales los usuarios, que son los montadores de vdeo,
quieren disponer de una precisin total a la hora de definir los puntos de inserto
durante el montaje. Esta precisin "al cuadro" obliga a despreciar la posibilidad de
compresin temporal, intercuadro o tridimensional, que de las tres formas se cono
ce. Para ser precisos, hay que puntualizar que existe un formato, el BETACAM-SX,
que no respeta este principio. El algoritmo de compresin del BETACAM-SX, que
est basado en una extensin de la norma MPEG denominada MPEG-2 4:2:2 prrifile
at Main Level, utiliza compresin intercuadro con GOP = 2 de tipo 1,8,1,8,8... , se
ha diseado para aplicaciones ENG y mantiene un cierto grado de compatibilidad
con el Betacam analgico. Con GOP = 2 Y secuencias I,B,I,B ... es posible, sin
embargo, la edicin con precisin de cuadro del tren binario comprimido. Las im
genes B se obtienen dinmicamente a partir de las imgenes 1 anteriores o poste
riores al punto de edicin y pueden ser convertidas "al vuelo" en imgenes "1" grao
cias a que el DVTR Betacam-SX incorpora varias memorias de cuadro.
Probablemente la caracterstica ms novedosa e interesante de la codificacin DV
sea el proceso de '1)arajado de bloques intracuadro" que, como se ver, mejora la cali
dad obtenible para una cierta frecuencia binaria y facilita la obtencin de trenes bina
rios de frecuencia estable. Para lograr la meta de 25 Mbits!s, los formatos de la fami
lia DV comienzan por submuestrear la crominancia segn la tabla 8.5
Tabla 8.5 Slo la variante DVCPRO-SO no submuestrea la crominancia antes de proce
der a la compresin.
FORMATO

DV
DVCAM
DVCPRO-25
DVCPRO-SO
260

NORMA DE TELEVISIN

525/60
4:1:1
4:1:1
4:1:1
4:2:2

625/50
4:2:0
4:2:0
4:1:1
4:2:2

L_().')

:;i~l"-In.I~~qilllJ-~&~.!iu.!

Como puede verse, los fOI-matos DV y DVCAM, que estn destinados al mero
cado domstico o al rango bajo del sector profesional, utilizan suhmuestreo 4: 1: J
en Amrica (y paises afines), mientras que en Europa y otras zonas de 625 lneas
emplean submuestreo 4:2 :0. Las razones de esta diferenciacin regional no han
estado nunca muy claras. Tal vez sea porque una codificacin 4: 2:0 se adapta
mejor a la seal PAL (por lo del promediado ycrtical de la crominancia), mientras
que 4: 1: 1 es ms adecuado para NTSC (que limita ms el ancho de banda de las
seales diferencia de color y, por tanto, la resolucin horizontal dc la crominan
ca), ya que, aunque sean formatos digitales en componcntes, en muchos casos el
usuario ver las grabaciones en un receptor analgico compuesto. Tambin podra
ser quc en Amrica se considerara que el DY, aunquc esencialmente domestico,
podria constituir una fuente de imgenes importante para las cadenas de infor
mativos. En Europa siempre se ha sido ms exigente en este sentido. Adems la
codificacin 4:2:0 enlaza fcilmente con MPEG, que es el nueleo de la codifica
cin DVB o "Diaital Video Broadcastina", que es, a su vez, el sistema de televisin
digital va satlite, cable o difusin terrcna para Europa. Por otro lado, el
DVCPRO, ms orientado haca el mundo de los informativos profesionales, utili
za compresin 4: 1: 1, tanto en Europa como en Amrica. Se facilita as la transco
dificacin y el intercambio de programas. Sca como sea, tanto 4: 1: 1 como 4:2:0
reducen la tasa binaria de 168 Mbits/ s a 125 Mbits/ s. sta es la seal de entrada
a los compresores DV.

5.1. Entrelazado de campos en DV


Los sistemas DV utilizan compresin intracampo/intracuadro, lo que quiere
decir que pueden conmutar dinmicamcnte entre uno y otro modo. Como en
otros sistemas, la imagen sc divide en bloques de 8 X 8 pixeles, sobre los que se
realiza la DCT. Cuando la seal de entrada es una imagen de vdeo entrelazada, filas
consecutivas en el bloque de 8 x 8 pertenecen altcrnativamente al primero y
segundo campos entrelazados. En tal caso hay dos opciones: procesar cuadros o
procesar campos.
El procesado de cuadros convierte el bloque de 8 x 8, formado por filas corres
pondientes a ambos campos, al dominio de la DCT. En el caso del procesado en
base a campos, el bloque de 8 x 8 pxeles se divide cn dos bloques de 4 x 8 pxe
les, uno para cada campo. Ambos bloques son a continuacin convertidos a DCT
por separado.
El procesado en base a campos funciona mejor que el basado en cuadros en las
zonas muy detalladas y con movimiento. En este caso el movimiento deshace la
correlacin entre pxeles correspondientes a filas alternadas. Por su parte, el pro
cesado en base a cuadros es ms eficaz cuando no hay movimiento o ste es muy
pequeo. En este segundo caso la redundancia dentro del bloque de 8 x 8 es
mayor, proporcionando e! doble de muestras por zona local que el modo campo.
En las zonas lisas de la imagen o de muy poco detalle e! procesado en base a cua
dros es tambin mejor que el basado en campos. Los sistemas DV combinan las
ventajas de! procesado basado en cuadro (denominado 8-8) y el procesado basado
261

Los sistl'nJ.J.\ ele cOlllllret>ioll


TECNO! oct'\. ACTU.\I

nI: TEI n'I~U)N

MACROBLOQUE 4: 1:1

DCT 88
__ o

0,0 1,0 2,0 3.0 4.0 5.0 6.0 7.0


0.1 1,1 2,1 3.1 4.1 5.1 6,1 1.1

.-.-.":~':n'~:;'H

0,2 1,2 2.2 3.2 4.2 5.2 6.2 7.2


I

POSICIn hOllzonlat --..


0.0 ,,O 2,0 3.0 4.0 5,0 6.0 7,0
0,1 1,1 2,1 3.1 4,1 5.1 6,1 7,1

Campo

0,2 1.2 2.2 3,2 4.2 5.2 6,2 7.2.

Campo

..t

.E

Campo

0,6 1,6 2.6 3.6 '.6 5.6 6,6 7,6


0,7 1.7 2,7 3.7 .., 5.7 6,7 7,7
OCT 24-8

2,4 3,4 4,4 5.4 6,4 7,4 +-Campo

0,0 1,0 2.0 3.0 4.,0 5,0 6,0 7.0

!! 0,5 1,52.53,54,55,56.5 7,5 +-Campo

0.6 1.6 2.6 3.6 4,6 5,6 6,6 7.6 +-Campo


0.7 1,1 2.7 3,1 4,7 5.7 6.7 7,7 ... Campo

0,2 1,2 2.2 3.2 4,2 5,2 6.2 7,2

0,4 1.4. 2.< 3'< 4.4 5,4 6,4 7,4

IImltl;SiI

'-<"-~ElII
~jl\j~
1

0.4 1,4 2'< 3.< 4,4 5.4 6.4 7,4


0.5 1.5 2.5 3.5 4,5 5,5 6.5 7.5

0,3 1,3 2,3 3,3 4.3 5,3 6,3 7.3 "'Campo

~ 0.4 1,4

0.3 1,3 2,3 3.3 '.3 5.3 6.3 7.3

/
TITIII
~T6 ~64b:~~_= :~:YI:~T ',)

&i ".

-~

el

0,6 1,6 2.6 3.6 4,6 5,6 6.6 7.6

--

0,1 1,1 2,1 3.1 4.1 5.1 6,1 7.1


1 0,3 1,3 2,3 3,3 4,3 5,3 6,3 7.3
0.5 1.5 2.5 3.5 4,5 5.5 6.5 7.5

&
E

el

0,7 1,7 2.1 3,7 4,7 5,7 6.7 7,1


Video In

DETECCiN DE
MOVIMIENTO

I,-:====~=~
-

./

OCT

H 1
VLc..

Figura 8.24.

Seleccin de los bloques intracampo o intracuadro segn el movimiento.

en campo (denominado 2-4-8), los cuales se seleccionan bloque a bloque en fun


cin del movimiento.

5.2. Bloques, macrobloques y superbloques


Los bloques DCT, ya sean 8-8 o 2-4-8, descritos en los prrafos anteriores
se agrupan para formar macrobloques. stos son similares a los MB del
MPEG-2, slo que adaptados a una estructura de muestreo 4: 1: 1. Puede verse
en la figura 8.25 que un macrobloque est formado por cuatro bloques DCT
de luminancia dispuestos en fila, ms un bloque DCT de CS, ms un bloque
DCT de CR, abarcando una zona de 32 pxeles por ocho lneas. Un solo blo
que CS o CR abarca 32 pxeles de anchura, ya que estas seales estn sub
muestreadas 4: l. Se utilizan seis bloques DCT de 64 bytes (384 en total) para
formar un macrobloque. Este proceso es bsicamente doblado en el caso del

DVCPRO-S.
A continuacin se agrupan cinco macrobloques, seleccionados de distintas par
tes de la imagen, para formar un "segmento de vdeo", el cual tendr un tamao de
384 X 5 ::: 1.920 bytes (flgura 8.25). Hay que notar que hasta este punto no se ha
producido ningn tipo de compresin. Se trata ms bien de una reordenacin pre
via a la compresin. El proceso de formar segmentos agrupando macrobloques de
distintas partes de la imagen se denomina "barajado" (shriffling) y se realiza con la
intencin de "igualar la dificultad" de los segmentos.

~~~xej;~;~l~~ov~~~~ ..

~I

Figura 8.25.
Barajado intracuadro de los macrobloques en el sistema OY.

Puesto que cada uno de los cinco macrobloques procede de una zona distinta de
la pantalla, su contenido ser distinto y variado, de manera que un macrobloque
determinado contendr mucho detalle y poca redundancia espacial, mientras que
otro macrobloque del mismo segmento pertenecer a una zona lisa con mucha
redundancia. La ventaja del barajado, previo a la compresin, es que, como pro
medio, los grupos de macrobloques contienen aproximadamente la misma canti
dad de redundancia.
En DV se utilizan las mismas tablas de recuantiflcacin para todos los bloques
del mismo macrobloque. Por otro lado, distintos macrobloques pueden utilizar dis
tintas tablas de recuantificacion, dependiendo del anlisis espectral en esa zona de
la imagen.

5.3. Anlisis previo a la DCT


Una de las particularidades ms interesantes de la compresion DV es que
permite un anlisis de los bloques DCT de vdeo antes de que se realice la
compresion. La idea es optimizar el proceso DCT para conseguir la mxima
calidad con una tasa de datos de salida estable. El concepto es similar, aunque
se realiza a la inversa que en el casO del MPEG-2. Hay que recordar que el
proceso de re cuantificacin de los componentes frecuenciales DCT en
MPEG-2 est controlado por un mecanismo de realimentacin. Es la tasa de
datos de salida ya comprimidos la que determina la dureza del proceso de
263

262

TLC,UI (H.;!.\ :\(1 U:\L IH- 1I,1I.U\ID"

________________________Lo.c;

rccuantificacin. Puede decirse que mientras que OV "mira hacia delante",


MPEG-2 "mira hacia atrs".
En OV el p'eanlisis se realiza separadamente para cada uno de los segmen
tos de' vdeo de 1.920 bytes formados con cinco macrobloques. Como en otros
sistemas basados en OCT, la recuantificacin se logra aplicando factores de
ponderacin a cada coeficiente OCT. La matriz de 64 coeficientes frecuencia
les se multiplica por una tabla de factores predefinida. En OV se puede selec
cionar entre 64 tablas de' recuantificacin distintas. Este proceso de seleccin se
hace' para adaptar la importancia de los coeficientes de frecuencia al sistema de
percepcin visual humano, a la vez que se logra una tasa binaria por cuadro
estable.
Las 64 tablas de recuantificacin se organizan en cuatro grupos de 16 tablas cada
uno. El grupo 1 contiene las 16 tablas de recuantificacin optimizadas para las ms
bajas frecuencias espaciales. El grupo 4 est optimizado para los detalles de ms
alta frecuencia espacial, mientras que los grupos 2 y 3 lo estn para las frecuencias
medias.
Para comenzar, el proceso de compresin selecciona uno de los cuatro grupos
de 16 tablas cada uno midiendo "la energa de AC", que no es otra cosa que la suma
ponderada de los valores absolutos de los coeficientes AC (todos excepto el de
OC). Este valor es una indicacin de la cantidad de detalle espacial que contiene
esa zona de la imagen.
A continuacin el proceso de compresin selecciona entre las 16 posibles la

ll\

~i:'l{'ma~

dc

("n.!l1p,.c~i~Hl

tabla definitiva de cuantificacin. Esta seleccin se hace probando las 16 posibles


tablas)' contando el nmero de bytes que proporciona cada una de ellas por seg
mento de vdeo. La tabla que proporCione una cuenta ms cercana, pero sin exce
der a 385 bytes, es la que se selecciona definitivamente. Puesto que un segmento
de vdeo estaba formado por 1.920 bytes, el factor de compresin logrado ser:
1.920: 385 = 5: 1. Este proceso de preanlisis garantiza una tasa binaria por cua
dro de televisin estable, lo cual es necesario en el caso de Jos magnetoscopios
digitales.
La figura 8.26 muestra un resumen de la codificacin OV Tanto si Se trata de
seales 4: 1: 1 como si son 4:2:0, un MB se forma con seis bloques OCT, cuatro de
luminancia, ms uno de CB y otro de CR. La diferencia est en que los MBs 4: 1: 1
son alargados y tienen unas dimensiones de 32H x 8V, mientras que los MBs 4:2:0
son cuadrados, con un tamao de 16 x 16. Tambin en ambos casos un superblo
que (SB) se forma con 27 MB, aunque la forma de la zona abarcada cambia ligera
mente en funcin de si se trata de seales 4:1:10 de seales 4:2:0 (figura 8.26).
Una imagen completa est formada, en la norma de 625 lneas y 50 campos, por
60 SB (5 en la direccin horizontal y 12 en la vertical). En las imgenes 525/60
slo hay 10 SB por altura de imagen. Con 5 MB tomados de SB distintos se forma
un segmento de 1.920 bytes, los cuales son sometidos a compresin OCT. Despus
de la codificacin de longitud variable, los 1.920 bytes de un segmento se con
vierten en 385, logrndose una compresin de 5: 1.Todos los macrobloques de una
misma fila de SB se graban en una misma pista en la cinta magntica. Se necesitan,
por tanto, 12 pistas para grabar una imagen completa en la norma 626/50, que se
convierten en lO en 525/60.

"\lperbloqUll'7m8<;:,.ot.l.qves

<

/,

o~

_-=---

~----- --

6 MBsdi! llpiJeles

l'

~se!.:U

1.,.

I~f+tl-H~I )'JM~s4~e~::..~:ll'1"~

1 e.-"l1f1:"J.lUfO"PAl
\\0 fl'SIIII en NTSC)

~.,e:'
~
/

,,.,,.,e] ,.", " , ."~


-)

Figura 8.26.
En DV la compresion esta flanqueada por un proceso dc barajado y otro de desbarajado, de forma
que la cantidad de datos sca constante despus dc la codificacin de longitud variable (VLC).
264

Resumen

~.8p;.Gln

_~~~_:~~/p~~:~~eles ~ ,1

~(S8! ..:,:,

~,"

Los principales sistemas de compresin pal-a imagen son: J PEG para reto
que fotogrfico de imgenes estticas; M-JPEG para compl'esin intracua
dro de imgenes en movimiento; MPEG-l y MPEG-2, que forman una
familia completa de normas de compresin, para todo tipo de aplicaciones,
y grupo OV para compresin intracuadro aplicada a los magnetoscopios
digitales.
JPEG utiliza dos modos de compresin: compresin sin prdidas basada en
codificacin predictiva, seguida de codificacin aritmtica o codificacin
Huffman, y compresin con prdidas (pcrceptual) basada en OCT progresiva
o secuencial.
M-JPEG es bsicamente lo mismo que JPEG, pero adaptado a las imgenes de
televisin (tamao del raster, espacio de color, etc.). Al igual que JPEG, el
Motion-JPEG es un sistema de compresin intracuadro.
Los codificadores con prdidas M-JPEG para aplicaciones profesionales de
edicin no lineal suelen utilizarse factores de compresin entre 3: 1 y 6: 1. Por
su lado, los compresores M-JPEG sin prdidas no superan factores de com
presin de 2: l.
o El MPEG-l comenz en 1988 con la intencin de lograr un procedimiento
265

T.('NOI O(;-\. AC""lIU DE TU EVI"iI"-!

de codificacin capaz de ubicar imgenes en movimiento en soportes de tipo


CO-ROM. Para esto es necesario rebajar la frecuencia de bits a slo 1,5
Mbits/ s. Con una frecuencia de bits tan baja e! sistema MPEG-l no puede
proporcionar imgenes de calidad broadcast. Probablemente su aplicacin ms
normal sea la de mostrar imgenes en movimiento sobre pantalla de ordena
dor.
La compensacin de movimiento funciona como sigue: se enva una imagen
"1", la cual es, adems, almacenada para ser comparada con la prxima ima
gen de entrada y encontrar los vectores de movimiento de los diferentes blo
ques que componen la imagen. La imagen ''['' se desplaza de acuerdo a estos
vectores y se compara con la prxima imagen para producir los datos dife
rencia, Tanto los datos diferencia como el valor de los vectores son transmiti
dos.
Las imgenes "B" tienen una doble utilidad: en primer lugar, la prediccin
bidireccional proporciona una mejor aproximacin al valor real, lo que
reduce el error de prediccin, a la vez que se reducen los efectos de! ruido.
En segundo lugar, cuando un objeto se mueve por la pantalla, e! borde
anterior del objeto va tapando u ocultando partes del escenario, mientras
que el borde posterior va descubriendo o revelando nuevas partes del esce
nario.
El MPEG-2 es, en realidad, una familia de sistemas capaz de proporcionar
imgenes y sonidos para receptores, que pueden ir desde LDTV hasta
HOTV. En principio, el MPEG-2 se ha diseado para proporcionar imge
nes de alta calidad, tanto a nivel de contribucion como a nivel de emisin
digital.
Un punto fuerte de los sistemas MPEG es su l1exibilidad en el nivel de cali
dad de imagen, principalmente determinado por la frecuencia de bits. En
MPEG-2 aparece, adems, el concepto de "escalabilidad". Este principio
supone que un decodificador MPEG-2 relativamente econmico puede
decodificar imgenes vlidas, utilizando solamente una parte de! tren bina
rio.
En MPEG-2 los perfiles pueden entenderse como conjuntos de herramientas
de codificacin y se refieren a la forma en que se comprimen y codifican las
imgenes. Cada perfil es ms sofisticado que el anterior y aade mtodos
suplementarios.
Los niveles se refieren al grado de calidad y la aplicacin, y van desde "alta
definicin" hasta calidad "VHS". Con cuatro niveles y cinco perfiles pueden
obtenerse hasta veinte combinaciones. Sin embargo, no todas parecen ti
les.
El elemento ms pequeo del mltiplex MPEG se denomina "bloque" y tiene
un tamao de 8 lneas por 8 pxe1es. Los bloques se agrupan formando
"macrobloques" (MB), de acuerdo con alguno de los perfiles MPEG-2. Los
macrobloques 4:2:0 estn formados por 4 bloques de luminancia, 1 bloque de
CB y l bloque de CR. Los MB 4:2:2 contienen 4 bloques de luminancia, 2

Los sistemas dt' compresin

bloques de CB y 2 bloques de CR. Los MB 4:4:4 contienen 4 bloqucs dc hnni


nancia, 4 de CB )' 4 dc CR.
Los segmentos (slices) son conjuntos de macrobloques que siguen la secuencia
de lneas horizontales propia de televisin. Los segmentos pucden variar dc
longitud, desde un minimo de un macro bloque hasta un mximo de una lnea
de anchura por 16 de altura.
La eficacia de la codificacin MPEG depende en gran medida del tamao
de los Gap. En general, Gap largos, llenos de imgenes "P" y "B", per
miten reducir al mximo la tasa binaria, manteniendo la calidad de la
seal.
En la deteccin de movimiento prevaleccn dos tcnicas: "la igualacin de blo
ques" y la "correlacin de fase". En la mayoria de los casos los fabricantes uti
lizan el algoritmo de "igualacion de bloques" (block matchinB), ms sencillo que
el de "correlacin de fase".
La codificacin MPEG-2 se pens sobre todo para la distribucin de material
audiovisual, ya sea por radiodifusin o mediante soportes tipo CD-ROM o
DVD. Por esto se cre un nuevo perfil, denominado 4:2:2P@ML (perfil prin
cipal/nivel principal, con estructura de codificacin 4:2:2).
4:2:2P@ML permite utilizar una estructura de muestreo 4:2:2, aumenta el
nmcro de lneas codificadas hasta 608 (512 en la norma 525/60) Ypermite
frecuencias binarias del tren comprimido hasta 50 Mbits/ s
Se dispone dc dos sistemas distintos para multiplexar corrientes binarias
bsicas. Uno de estos mtodos, denominado "Transpore Stream" o "TS", se
basa en el uso de paquetes de longitud fija, y el otro, conocido como
"Program Stream" o "PS", en paquetes de longitud variable. En ambos casos
se comienza por formar los "PES" (corrientes bsicas en paquetcs) de lon
gitud variable. La difcrencia entre los dos mtodos se produce en la etapa
final de multiplexado.
Los paquetes TS tienen una longitud fija de 188 bytes y se han pensado para
entornos ruidosos, tales como radiodifusin, donde la integridad de los datos
pucde quedar afectada durante la transmisin. Los paquetes PS no tienen una
longitud definida, suelen ser bastante largos y se han pensado para entornos
libres de errores, tales DVD.
El MPEG-4 es un grupo de trabajo dentro de la familia MPEG, totalmente
remodclado, cuyo propsito es lograr altos factores de compresin utilizando
solamente informacin contextual. El algoritmo de compresin se hasar en
DCT y wavelets y su aplicacin ser la de teleconferencia y similares, aunquc
se contempla un perfil de estudio para aplicaciones profesionales de cine y
televisin capaz de soportar hasta 100 Mbits/ s.
MPEG-7 es un sistema de descripcin y catalogacin de los contenidos mul
timedia. Su intencin es constTuir un conjunto normalizado de descriptores,
esquemas)' un lenguaje estndar que pueda ser utilizado para describir los
contenidos multimedia.
DV es una familia de magnetoscopios digitales que abarca DV, DVCAM,
267

266

TLC,\lllUJcL\ ;\CTU:\1 nl HJ.l\"l';;f(.\,\

DVCPRO-2S y DVCPRO-SO. A stos habra que aadir el recin aparecido


DVCPRO-100, que trabajar a 100 Mbits/ s y est adaptado a las necesidades
de la HDTV
Probablemente la caracterstica ms novedosa e interesante de la codifica
cin DV sea el proceso de "barajado de bloques intracuadro", que mejora
la calidad obtenible para una cierta frecuencia binaria y facilita la obtencin
de trenes binarios de frecuencia estable.

CAPTULO

El audio analgico
1. Naturaleza del sonido
El sonido se define como las variaciones u oscilaciones en la presin, en e! despla
zamiento o en la velocidad de las particulas en un medio elstico. Para nosotros los
humanos e! sonido es una sensacin producida en e! odo por las mencionadas oscila
ciones. Tres son las caractersticas que definen al sonido: intensidad, tono y timbre.

1.1. Intensidad del sonido


Es la caracterstica de! sonido relacionada con la amplitud o altura de la vibracin

y que nos permite distinguir entre sonidos dbiles, medios o fuertes. La intensidad
de! sonido depende de la cantidad de energa que se utiliza para producir la vibra
cin o variacin de presin de! aire. Cuanta ms energa se utilice, mayor ser la
variacin de presin y ms alta la intensidad de! sonido producido. Nosotros pel-ci
bimos la intensidad como volumen o potencia del sonido.
El odo humano no es capaz de medir la intensidad de un sonido de forma absolu
ta. En lugar de esto, el odo humano trabaja por comparacin, es decir, comparando
la intensidad o volumen de un sonido con otro. Por tanto, nuestra sensacin de volu
men es ms una medida relativa que una escala absoluta, de tal forma que lo que per
cibimos son realmente relaciones de intensidad de un sonido con respecto a otro. Estas
relaciones de intensidad se miden en decibelios (dB).
De forma simple podemos decir que un decibelio no es otra cosa que la com
paracin entre la intensidad de dos sonidos. Se trata de una escala logartmica que
nos permite expresar valores fsicos muy altos mediante una escala de nmeros
relativamente pequea. Por ejemplo, la escala de decibelios est diseada de tal
manera que doblar la intensidad (potencia) se expresa mediante un incremento de
3 dB. En otras palabras, cuando doblamos o dividimos por dos la intensidad de un
268

269

l:I audio analgico


rrc'-!( H 0(;1\

ACTll.l,,\

nr lT\ n.. . t();"\

sonido producimos una "ariacion de 3 dB. Por tanto, un cambio de 3 a 6 dR signi


fica doblar la intensidad de sonido, de la misma forma que sucede con un cambio
de 6 a 9 dB o de 15 a 18 dB. Es necesario familiarizarse con la escala de decibelios,
puesto que es la que se utiliza ms frecuentemente en las producciones de audio
para refcl-jrse al nivel de los sonidos y para describir las caractersticas de los equi
pos. Por ejemplo, los indicadores de sonido (medidores VU) que se emplean para
medir la intensidad de la seiial de audio estn calibrados en decibelios.

Hz, etc.). Dependiendo de la forma, tamao e incluso tipo de madera con que est
construida la caja del violn, ciertas frecuencias armnicas salen ms favorecidas
que otras, de tal forma que lo que realmente olmos es la suma de la frecuencia ori
ginal (400 Hz) y ciertas proporciones de frecuencias armnicas. En el interior de
la caja del piano se produce el mismo efecto de generacin de frecuencias annoni
cas, pero en este caso la caja es mucho ms grande y tiene una forma muy dife
rente. De hecho, puesto que no es posible construir dos instrumentos absoluta
mente idnticos aunque sean de! mismo tipo (por ejemplo, dos violines), cada ins
trumento tendr su propio sonido aunque ambos estn perfectamente afinados.

1.2. Tono de un sonido


El tono de un sonido depende de su frecuencia. Un tono alto de una flauta, un vio
ln o un pcolo, por ejemplo, produce muchas ondas sonoras por segundo, es decir, un
sonido de alta frecuencia. Por contra, un bajo o una tuba producen muchas menos
ondas sonoras por segundo, esto es, sonidos de baja frecuencia. Nosotros medimos la
frecuencia de los sonidos en hercios (Hz), que significa nmero de ciclos por segun
do. En audio, a la frecuencia fundamental o bsica de un sonido se le suele ]Jamar tono.
Las personas podemos or frecuencias comprendidas entre 15 y 15.000 Hz
(algunos afortunados hasta 20.000 Hz), pero esto depende de cada persona y vara
con la edad. A medida que nos hacemos viejos la sensibilidad a las frecuencias
extremas, es decir, a las ms altas y las ms bajas, disminuye. Adems para una per
sona normal de cualquier edad la sensibilidad a Jos sonidos de frecuencia media,
comprendidos entre unos 500 y 4.000 Hz, es muy superior a la correspondiente a
las frecuencias extremas. Estas frecuencias medias son precisamente las ms impor
tantes para entender una conversacin.
Los equipos profesionales de audio son capaces de reproducir frecuencias sono
ras entre 15 Hz y 20.000 Hz, lo cual comprende todo el espectro de audio nece
sario para reproducir con precision y nitidez cualquier tipo de msica.
Los sonidos con frecuencias superiores a los 20.000 Hz se denominan ultrasonidos
y. aunque algunos animales pueden orlos, carecen de inters a nuestl"OS efectos.

1.4. Nivel de presion sonora


La presin sonora se mide en dinas por centmetro cuadrado (d/cm'), en
microbares (mb), en newtons por metro cuadrado (N/m') o en pascales (pa).
Puede establecerse la siguiente relacion entre estas unidades de medida:
1 d/cm' = 1 microbar = 0,1 N/m' = 0,1 pa
Existe un "nivel de presion sonora" (SPL o Sound Pressure Leve!) de referencia,
establecido en 0,0002 d/cm', que corresponde al umbral de audicin de una per
sona media, de edad inferior a los treinta aos y para una frecuencia de
1 KHz. La SPL de un sonido se expresa en decibelios, por encima del nivel umbral
de referencia, de acuerdo con la siguiente frmula:
SPL(dB) = 20 log10 (P/P.,,)
Donde:
SPL(dB) es e! nmero en decibelios de la seal medida.

dlcm2

dB

10.000

15D Avin despegandO

140

1.000

1.3. Timbre del sonido

130

120 Umbral de molestia


110 Martillo neumatlco

100

-120Nlrrf;;; 200 d/cm

100 Metro

Es la caracterstica del sonido relacionada con el nmero, amplitud y orden de


los armnicos de la frecuencia fundamental que un sonido determinado contiene
y que nos permiten diferenciar el matiz de cada instrumento. Supongamos que dis
ponemos de un violln y un piano que producen exactamente la misma nota musi
cal y con la misma intensidad, esto es: producen dos ondas sonoras de igual inten
sidad y frecuencia. La pregunta es: producen la misma sensacin sonora ambas
notas musicales? Evidentemente, no. Ambas notas se diferencian en su timbre.
Tanto el sonido del violn como el del piano son producidos por la vibracion de
una cuerda a una frecuencia determinada, por ejemplo, 400 Hz, pero a partir de
aqu todo lo dems es diferente. La nota del violn resuena en el interior de la caja
de madera de tal forma que se producen, por interferencia, ciertas frecuencias
armnicas, es decir, frecuencias mltiplo de la original (800 Hz, 1.200 Hz, 1.600

10

O.L, ,

0.01~

90

Trafico

.eo

Cantanle profeSIOnal

70

Fbnca

60

Conversacin normal

50

Ofictna

1.000.000 : 1

40
Susurro

30
Sala de estar

0.001

0.0002

20
\-'0
20

~NJm2 =. 200 IJd/Cm2

Umbral de audiCin

Figura 9.1.

Algunos niveles de presin expresados en d/cm' y en decibelios.

271

270

Il::\:OC(llir;;-:-,t"--ru.-\1.

r JI

_____________________________________--""'E'--I.",'U",dIU .1!)'1.lljgM

1 ti.!. \',10:--'

P es la presin del sonido medido en di cm' .


PREF es la presin del umbral de referencia
0,0002 di cm' 0,0002 mb
= 2 x 10-5 N/m' = 20 micropascalcs.
La figura 9.1 mucstra algunos niveles de presin sonora encontrados en la vida
cotidiana, cxpresados en dI cm', as como en decibelios, siempre en comparacin
con el umbral (k audicin.

120
'101onl)!:

110

100 ronos

100

90 fonos

i 90

~~~0
7010"'!!~0
--------:f~no~-~

ro

80

ji

1.5. Niveles de sonoridad


La sonoridad o intensidad aparcnte de un sonido es algo subjetivo. Es el atri
buto por el cual pueden ordenarse, en una escala, las sensaciones audibles en
trminos de "flojas" o "fucrtes". La sonoridad depcnde no slo de la intensidad
del sonido, sino tambin de su frecuencia. El decibelio exprcsa intensidades
sonoras en trminos absolutos. Esto tienc el inconvcniente de que, siendo el
nivel percibido variable con la frecuencia, una cierta cantidad de decibelios
supondr un sonido que parecer ms o mcnos intenso dependiendo de su fre
cuencia. Para evitar este inconveniente aparece el "fon", que es una unidad de
apreciacin subjetiva, es decir, que en las curvas isofnicas el nmero de fonos
se mantendr constante. El fon es, por tanto, una unidad de nivel sonoro que,
juzgado por un obscrvador mcdio, resulta numricamente igual al nivel de
intensidad de un tono puro de 1 KHz, es decir, a 1 KHz el nmero de fonos y
e! de decibelios coinciden; a otras frecuencias distintas harn falta ms o menos
decibelios para producir una cantidad de fonos constante. Por ejemplo, un tono
puro de 125 Hz y 40 dB produce la misma intensidad percibida que otro de 4
KHz y 25 dB, aunque en ambos casos el nivel subjetivo es de 30 fonos.
Por su parte, la medida de la intensidad de! sonido basada en fonos presenta
tambin algunos problemas, ya que se trata de una escala de medida subjetiva, de
forma que en la mayora de los casos se sigue utilizando el decibelio para expresar
niveles de sonoridad o de ruido en instalaciones industriales, etc. Adems los fonos
no pueden sumarse directamente. Por ejemplo, una seal de 200 Hz y 70 fonos
ms otra de 4 KHz)' tambin de 70 fonos no producen, al sumarse, una intensidad
de 140 fonos, sino que la sonoridad total percibida es de unos 80 fonos. Debido a
esto y a otras imprecisiones, Fletcher, Munson, Robinson, Stevens y otros elabo
raron una serie de curvas de apreciacin subjetiva de las intensidades, denominas
escalas del son o "sonios". El son se define como la sonoridad de un tono de 1 KHz
y 40 dB Y tiene la caracterstica de que un aumento del nivel sonoro de 10 fonos
es aproximadamente equivalente a doblar el nivel de sonoridad en sanos, mientras
que un aumento de medio fono corresponde al cambio mnimo perceptible del
nivel sonoro. El son est mejor adaptado que el fon a la apreciacin subjetiva del
odo humano. Puede establecerse la siguiente relacin entre fonos y sonios:
2(L.4UjIW
Ns

Sicndo "Ns" la sonoridad en sonios y "L" el nivel en fonos. Igualmente sc puede


establecer la relacin inversa:
L=40+ 10 lag, Ns
La figura 9.2 muestra las curvas o contornos de igual sonoridad en fonos para
272

70

~~

60

\.

','-,
,,

~ 50
~
"ii

,..

40

, ,

.... ,

30

40 lonos

30 lonos.

,. ,.

20

~
i

10

20

:H.5

63

125

;~~'i~:

10

I
250

I
500

FTI~cuencta

-1-:- _ L_

l;
1.000

2.000

I
4.000

8000 12500

en Hz ________

Figura 9.2.

Contornos de nivel de presin sonora de igual sonoridad.

tonos puros segn la norma ISO 226 de 1987. Estas curvas pueden entenderse
como las curvas inversas a las de respuesta a las distintas frecuencias por parte del
odo humano y para dife"entes niveles de presin sono"a (Sound Pressure Leve! O
SPL). Un tono de 1 Khz que tiene una presin sonora de 40 dB produce un nivel
de sonoridad de 40 fonos. Para que otro de 63 Hz produzca la misma sensacin
sonora, su SPL dcbc incrementarse en 20 dB. Los contornos de igual intensidad
tienen diferentes formas a diferentes SPL. A medida que la intensidad del sonido
aumenta, la respuesta a frecuencia del odo mejora y se vuelve razonablemente
plana, con una variacin de 10 dB a un SPL de 110 dB.
Puede verse, a partir de la figura 9.2, que el umbral de audicin para bajas fre
cuencias esta en torno a los 60 dB. Igualmente puede apreciarse que la maxima
sensibilidad del odo humano se cncuentra hacia los 3 KHz, superados los cuales la
sensibilidad vuelve a decrecer.

1.6. Rango dinmico audible


El rango dinmico del sistema de audicin humano est limitado en su parte alta
por el nivel de dolor y en su parte baja por el umbral de audicin. Aunque vara de
un individuo a otro, el valor tpico es de 120 dB. Sin embargo, una cxposicin per
manente o habitual a niveles de presin sonora por encima de 90 dB, puede causar
prdida de audicin. Niveles SPL de 120 dB o ms pucden producir dolor o prdi"
273

TECNOLOGA ACTUAL llL Tl:LEVISION

El audio anal2'ico

2. Caractersticas elctricas del sonido

"0
110

Una \'ez convertido a seJ'al elctrica, el sonido se caracteriza por variaciones


constantes de amplitud. El rango de amplitudes, niveles o voltajes que puede pre
sentar la seal de audio es tan grande que se acostumbra a expresar en decibelios,
con respecto a un valor de potencia o de voltaje predeterminado.

roo
90
<D

BO

70

2. 1. Medidas de nivel

60

jj
~ 50

En general se utilizan tres o cuatro unidades de medida para definir los niveles
de audio.

;; 40

30
20

2.1.1. E1dBm

lO
O

-10

20

31,S

63

'25

500
250
1.000
2.000
Frecuencia en H,z-------.

4.000

6.000 12_500

Figura 9.3.
La curva exterior muestra la zona de audicin humana en funcin de la frecuencia y del nivel
de presin sonora. Las curvas interiores muestran las zonas ocupadas por la msica y la pala
bra, respectivamente.

da temporal o permanente de audicin, incluso aunque la exposicin no sea muy


prolongada. Con la edad, y sobre todo a partir de los treinta aos, la audicin se
deteriora, en trminos del umbral de audicin y de la sensibilidad a las altas fre
cuencias. El umbral de audicin depende tambin del nivel de ruido ambiente, el
cual produce un efecto enmascarador. Este efecto de enmascaramiento por parte
de! ruido se define como el proceso por e! cual el umbral de audicin de un sonido
deseado es elevado por la presencia de otro sonido no deseado, en este caso el ruido.

1.7. Resolucin espectral del sistema de audicin


El sistema de audicin humano se caracteriza por presentar una capacidad de
resolucin que puede equipararse con una batera de filtros paso-banda que se sola
pan entre s, llamados "bandas crticas". Son estas bandas crticas las responsables
de los fenmenos de enmascaramiento del sonido. Este fenmeno de enmascara
miento se define como la medida en que debe elevarse el umbral de audicin de
un sonido en presencia de otro sonido enmascarador. Dado un sonido dominante
de una cierta frecuencia, otros sonidos de nivel inferior cuyas frecuencias caigan
dentro de la misma banda crtica son enmascarados, hasta el punto de que pueden
resultar inaudibles. Este aspecto psicoacstico es una de las bases de los sistemas de
compresin en audio digital, tal como se ver en el captulo 11.
274

Es la abreviatura utilizada para expresar la "potencia cuadrtica media" (RMS) de


una onda senoidal con respecto a una potencia de referencia de 1 milivatio. Esta poten
cia de 1 milivatio, cuando es disipada por una carga de 600 ohmios, produce un vol
taje RMS de 0,775 V. En cambio, si esta misma potencia es disipada por cargas de otros
valores, el voltaje resultante ser distinto. La potencia de referencia de 1 mW se defi
ne como O dBm. Cualquier otro nivel de potencia de audio se expresar en dBm con
respecto al nivel de O dBm, segn la frmula:
N(dB)
10 10glO (P/P. EF )
Donde N(dB) es el nmero de decibelios.
P es el nivel de potencia medido.
p. EI es el nivel de potencia de referencia de 1 m W.
Tambin puede utilizarse la frmula anterior para medir voltajes o corrientes,
slo que en este caso cambia ligeramente:
N(dB)
20 10glO (V IV"",); N(dB)
20 10g0 (111,\1,)
En las dos ltimas frmulas el factor "10" que multiplica al logaritmo decimal del
quebrado, en el caso de las potencias, ha sido cambiado por "20", como consecuencia
de la relacin cuadritica que hay entre la potencia y el voltaje, as como entre la poten
cia y la intensidad (W 1" R; W V2 IR). En cualquier caso, se asume que los volta
jes y las corrientes estn medidos sobre impedancias idnticas, es decir, sobre 600 Q.

2.1.2. EL dBu
Una forma alternativa de medir los niveles de la seal de audio es el dBu. En este
caso se asume que la impedancia de la fuente es "casi-cero" y que la impedancia de la
carga es "casi-infinito". En estas condiciones idealizadas de carga abierta la fuente no
disipa ninguna potencia medible en la carga, de manera que el voltaje de la fuente de
carga abierta no queda afectado en absoluto por dicha carga. El nivel de seal de refe
rencia sigue siendo O, 775V RMS. A efectos prcticos, el concepto dBu requiere impe
dancias de la fuente del orden de 50 ohmios o menos y que la impedancia de la carga
iguale o exceda a 10 K Q. En ocasiones se emplea tambin la abreviatura dBfl.
275

T[CNOLOGI:' :\CTU:\L 1)[: TEl.['"I,I;:-,,:

El auJiu

2. 1. 3. EL dB V
Literalmente se refiere a cambios de nivel con referencia a 1V RMS. Es una utiliza
cin poco afortunada, ya que los decibelios no pueden referirse a simples voltajes. Para
superar este escollo se asume que los voltajes se desarrollan sobre cargas totalmente
abiertas. El dBV suele ser utilizado por los fabricantes de mio-fonos.

2.1.4. EL dBW
Hay una cuarta unidad: e! dBW o decibelio-vatio. Se utiliza para medir la poten
cia a la salida de los amplificadores. Se dice, por ejemplo, que un amplificador de
100 vatios tiene una potencia de 20 dBW El valor de potencia medido en dBW es
numricamente igual a diez veces el logaritmo decimal de la potencia de salida
expresada en vatios.

2.2. Lneas equilibradas y no equilibradas


Las lneas de audio "no equilibradas", tambin conocidas como "no balanceadas"
se encuentran en la mayora de los equipos domsticos e incluso en algunos profe
sionales. Se caracterizan por utilizar un solo hilo conductor interno, recubierto por
una malla de blindaje. El conductor interno o "alma" constituye el "camino de ida",
mientras que la malla forma e! camino de retorno. La malla o pantalla reduce consi
derablemente los efec1:os de interferencia externa, aunque no las elimina totalmen
te. Cuando la longitud de! cable es considerable (por ejemplo, mas de cinco metros),
la acumulacin de interferencias puede distorsionar la seal de audio hasta hacerla
inservible. Las lneas no balanceadas terminan en conectores de tipo "Jack", "RCA",
"DIN" y similares. La figura 9.4 muestra la conexin no balanceada entre una fuente
de seal y un equipo de destino.

Salida de seal

Entrada

art~Q

Las lineas equilibradas se basan, en cambio, en la utilizacin de dos cables con


ductores centrales (figura 9.5) en Jugar de uno solo. Como en e! caso anterior,
estos cables estn recubiertos por una malla de apantallamiento. As se mejora el
rechazo a las interferencias externas. En cada extremo del cable se coloca un trans
formador que acta como equilibrador. El primario del transformador est conec
tado a la salida de la fuente. Las variaciones de tensin del primario aparecen indu
cidas en e! secundario. Los dos conductores constituyen los caminos de ida y retor
no de la seal de audio. La malla no forma parte del circuito, en e! sentido de que
la seal no circula por ella y slo acta como pantalla de aislamiento. Si una seal
interferente atraviesa la pantalla, se inducir en los dos conductores por igual. Esta
corriente interferente llegara a los dos terminales del primario del segundo trans
formador, donde ser cancelada, ya que dos seales idnticas que circulen en sen
tidos opuestos se cancelan al encontrarse. Este tipo de circuito se conoce como
"modo comn", ya que la interferencia es igualo comn para los dos conductores.
La cancelacin de las interferencias en e! transformador se denomina "rechazo en
modo comn" (CMR). Suelen lograrse factores de rechazo en torno a los 80 dB.

Salida de seal
Enlrada e Q U i l i b r a d { >
Transformador

Transformador

'"':.~ ~III~
M.r4

rv\;
Seal de audio

J\I'-TIerra

Cubierta de
plstico

Dos conductores
aislados

Conector macho

visto desde el

lado de las patillas

Figura 9.5.

Conexionado de dos equipos utilizando transformador y Hnea equilibrada.

Cable conductor

Malla de apantallamiento
Tierra

AiSla~~le)

Cubierta de
plstico

Conductor
Malla

Figura 9.4.
Conexin entre dos equipos "no equilibrada".
276

central

Por su parte, la seal de audio en un terminal determinado, a la salida del secun


dario de! primer transformador, se encuentra en contrafase con respecto al otro
terminal. Dos seales en contrafase circulando en sentido contrario equivalen a
dos seales en fase circulando en el mismo sentido, de forma que se suman al
encontrarse. Este tipo de seales se denomina "seal diferencial", mientras que la
entrada equilibrada se denomina "entrada diferencial", porque acepta "seales dife
renciales" mientras rechaza las "seales comunes". Las lneas equilibradas o balan
ceadas se utilizan en aplicaciones profesionales, ya que son mucho ms resistentes
277

Tr-CNOIDCiA ACTU.-\I DF

nJ

I-ShIO.\:

El audio analpico

a las interferencias. Esto es especialmente importante en el caso de encaminar


sei'ales de muy bajo nivel, ya que, como siempre, lo importante no es el nivel de
las interferencias o del ruido en s mismo, sino de la relacin seal-a-ruido.
El conector balanceado ms utilizado en equipos profesionales es el XLR-3
(tambin conocido como "tipo CANON"). XLR significa eXternal, Live, Return, o
externo, vivo, retorno, e indica que la patilla 1 es la pantalla, la patilla 2 es el "vivo"
o "caliente" y la patilla 3 es el "retorno" o "fro" .
En la mayora de los equipos el conector macho es el que entrega la seal de
audio, mientras que el conector hembra es el que la recibe. Sin embargo, en algu
nos casos muy concretos se utiliza el principio contrario, por lo que este extremo
deber comprobarse en cada ocasin.

2.3. Seales de alto y hajo nivel


Son muchos los equipos de audio que pueden encontrarse en el estudio de
grabacin o en las prodUCCiones en exteriores. Sin embargo, en lo que al nivel
de seal que entregan se refiere, stos pueden dividirse en dos grandes gru
pos o categoras: los quc entregan niveles de salida bajos y los que dan un nivel
de salida alto. A la primera categora corresponden, de forma casi exclusiva,
los micrfonos (y otros transductores similares). Todos los dems equipos
~rop~rcionan un nivel de salida alto, que suele etiquetarse como "nivel de
lmea .

A menudo la sensibilidad de los micrfonos se expresa en decibelios. Esta forma


de medir la sensibilidad se refiere a cuntas veces la tensian de salida del micrfo
no es inferior a un voltio cuando la presin mecnica es de un pascal)' siempre en
circuito abierto:
SensibiJidad (S)

= 201 og

Tensin de salida dB
1 voltio

La tensin de salida de los micrfonos es siempre muy inferior a un voltio, de


manera que la fraccian ser necesariamente inferior a la unidad, y ya se sabe que
el logaritmo de una cifra menor que 1 es siempre negativo. As tendremos que:
-20 dE == 100 mV Ipa; -30 dE == 32 mV Ipa;
-40dBf 10 mV Ipa; ---{iD dE == 1 mV Ipa...
La impedancia de los micrfonos de calidad profesional est normalizada a
1 SO ohmios, aunque pueden encontrarse, en la prctica, otros valores. Un
micrfono tpico de bobina mvil, con una impedancia fuente de 1SO ohmios,
genera un voltaje en circuito abierto de 100 mV (-SO dB) al aplicarle una pre
sin sonora de 74 dB. La impedancia de la entrada del preamplificador se adap
ta a la de salida del micrfono, esto es, tiene un valor de 1.500 Q o superior,
para evitar que la seal del micrfono se atene y se degrade la relacin seal
a-ruido.
La figura 9.6 muestra la configuracin tpica de un circuito de entrada de
micrfono. Puede apreciarse que la seal entregada por el micrfono est balance
ada con respecto a tierra y que se utiliza un cable de dos conductores activos, ms
una malla de blindaje conectada a tierra.

2.3.1. Micrijonos: sensibilidad e impedancia


Micrfono

La sensibilidad de los micrfonos suele expresarse en microvoItios, o dBY,


mcdidos sobre una carga abierta y para un nivel de presin sonora de 74 dB, Y es
una medida de la eficacia con que un micrfono convierte la presin sono;a (ener
ga mecnica) en seal de audio (energa elctrica).
Otra forma de expresar la sensibilidad de los micrfonos es indicando la tensin
que entregan en circuito abierto en funcian de la unidad de presin incidente:
Sensibilidad (S) ==

Tension de salida

Vs

Presin incidente de njerencio

La tensin de salida se mide sobre circuito abierto. La presian incidente de refe


rencia puede ser un pascal (pa) o un microbar (mb), por lo que la sensibilidad que
dar expresada en milivoltios por pascal o en milivoltios por microbar, siendo 1
10 microbares. El pascal es la unidad de presin en el Sistema
pascal
lnternacional (SI), se abrevia "pa" y es igual a 1 newton por metro cuadrado. La
presin de referencia equivalente a un sonido de 20 dB es de 20 micropascales
(mpa).

Los micrfonos de condensador, que son los ms sensibles, proporcionan, tpi


camente, 20 m V Ipa, mientras que los micrfonos de bobina mvil dan, aproxi
madamente, 2 mV Ipa.
278

Preamplificador
1.500 ohmios~

.-

Malla de blindaje

r---.J

Figura 9.6.

Circuito de entrada de preamplificador de micr6fono.

Puesto que la impedancia de entrada del preamplificador no es infinita, el


micrfono disipar una pequea energa en esta carga. Esta situacin es tpica en
los micrOfonos de bobina mvil o de cinta. La tabla 9.1 muestra los niveles tpicos
entregados por los micrfonos de bobina mvil para tres niveles distintos de SPL.
Las medidas en m y, dBV y dBu se refieren a los niveles de salida en circuito abier
to. La columna de ms a la derecha se refiere al nivel de seal entregado por el
micrfono, conectado a una carga de 1.500 Q y expresado en flV RMS.

~D~L:--';(JlJ)(.;i.-\ :\CTlL-\1 IH rUL\"[\]O:'-.'

U-\l-..\..Ji_lJ.",!lhll("L_gI

Tabla 9.1 Niveles de seal t/picos de los micrfonos.


Con carga de 1,5 KW

En circuito abierto
SPL (dB)

mV

dBV

dBu

mV

120
74
34

20.000
100
1

-34
-80
-120

-31.8
-77.8
-117,8

18.000
91
0,91

Los micrfonos electrostaticos disponen de preamplificadores internos, montados


en el propio micrfono, de manera eue entregan niveles de salida mucho mas altos.
Las mesas de mezcla)' control de audio disponen de atenuadores variables eue act
an sobre la seal de entrada, para afrontar as distintas situaciones. En cualeuier caso,
la impedancia de entrada del preamplificador de micrfono es de 1.SOOW o mas.

2.3.2. Nivel de lnea: sensibilidad e impedancia


Las seales entregadas por los micrfonos y otros transductores similares son
demasiado dbiles como para distribuirlas entre los equipos de produccin con segu
ridad. Por esto tan pronto como es posible son amplificadas a "nivel de lnea".
En 1939 se adopt en los Estado Unidos de Amrica una impedancia caractersti
ca de 600 Q para las lneas de transmisin. As puede verse eue en equipos como
mesas de mezcla, magnetfonos, amplificadores de micrfono y otros equipos con
600 Q". Este valor no
salida de linea se mcnciona frecuentemente: "Impedancia
tiene ninguna propiedad especial o milagrosa. Se eligi por ser una imperlancia relati

(a)
Fuente

/Iv
.JL!J

Carga

300ll

+4d Bm

2,4'6 V

=1.23 V

1
!\j\-----

300ll

Fuente

25n

(b)

ooo~Ll>

Carga

yamente alta, por lo que reqtere poca corriente, pero a la "ez lo suficientemente haja
como para no permitir muchas interferencias. Aunque esta impedancia se escogi
pensando en los circuitos de telecomunicaciones, fue posteriormente adoptada por la
industria de la radio)' la televisin.
En una primera poca la conexin entre los distintos equipos de produccin clP
audio, as como la conexin a los equipos de transmisin, se hizo siguiendo el prin
cipio de "igualaCin de potencias". La figura 9.7 (a) muestra una configuracin tpi
ca. Este modo de conexin se basa en los siguientes principios:
1. La fuente de audio, ya sea un magnetfono, una mesa de mezclas, la salida
de un amplificador de micrfono, etc., presenta una impedancia de salida de
600 W balanceada.
2, Igualmente la impedancia de entrada del equipo receptor es de 600 W y
balanceada.
El nivel de la seal de audio se expresa en dBm, adoptndose un nivel de ope
racin normalizado (Standard Operating Leve] o SOL) de +4dB, correspondiente a
+ 1,23V RMS sobre una carga de 600 Q, aun
que tambicn pueden utilizarse niveles ms
Voltios
altos, como, por ejemplo, 6 dBm u 8 dBm. El
dBm
sobre 600 D
mW
SOL representa el nivel maximo, o nivel de
24,5
1.000 - - . - - 30
pico de una seal sostenida, tal como es medi
- 29
21,8
800
da con un "vmetro" (medidor de unidades
28
19,5
600
VU). La figura 9.8 muestra la relacin entre el
27
17,3
500 - t
nivel dBm, el voltaje desarrollado sobre una
15,5
400 ==1---- 26
2 5 - 1 - - 13.8
carga de 600 Q y los niveles de potencia en
300
24
12,3
m W de las seales de audio.
200 ---f--- 23
10,9
Hay otro concepto o sistema de conexin
22
9,75
150
ms moderno, basado en la igualacin de vol
21
8,69
tajes. En este caso el nivel de la seal se expre
100 ~ 20
7,75
sa en dBu y el SOL puede ser de 4 dBu, 6 dBu
80 ~ 19-f--- 6,90
u 8 dBu. De esta forma se reducen considera
18
6,15
60
5.48
blemente las necesidades de potencia de la
50 ----=t-- 17
40 ==1--- 1 6 - - 4,89
fuente de audio, ya que slo se precisa disipar
- 1 5 - - 4,36
30
una mnima cantidad de potencia sobre la
14
3,88
carga. Una ventaja adicional es la mejor res
20 ---f--- 13
3.46
puesta, tanto a las distintas frecuencias como a
12
3,08
15
los transitorios, ya que la carga capacitiva del
11
2.75
cable blindado y balanceado tiene menos efec
10
2,45
9 - f - - 2,18
to sobre una impedancia de la fuente pequea
8 - - 1.95
de slo SO Q, que la que presentara sobre una
7 - f - - 1,73
impedancia de la fuente de 600 Q, Este siste
6
1.55
ma puede verse en la figura 9.7 (b),
5
1,38

'I
3

Figura 9.7.

En (a) puede observarse el principio de igualacin de potencias, mientras que en (b) puede

verse el concepto de igualacin de voltajes.

280

2 ---f--
1.5

3
2
1

1.23
1.09

0,975

0,869
0,775

Figura 9.8.

Rclaeion entre mW, dBm y voltios.


281

El audio anal[!ico
TECN()LOc;l" ACTll:\L DL n:LE\'ISI:'-J

medidor ser de -4 lSdB (equiyalente a un 65%). Dicho de otra forma, cuando el


medidor indica nivel "O YU", en la lnea habr +4 dBm (1,23 Y).
Tal como puede verse en la figura 9.9, el indicador vmetro dispone de dos

y monitorizado de nivel

2. Medicin

Los niveles de la seal de audio son cuidadosamente controlados por los opera
dores, pal-a asegurar que picos momentneos o niveles sostenidos no causen sobre
carga y distorsiones en los distintos equipos de! estudio. Se dispone de medidores
normalizados de varios tipos, aunque los ms importantes son el "medidor YU" o
"vmetro" y el "PPM" o "picmetro"_ A stos habra que aadir el "modulmetro".

2. 1. El vmetro
El "vmetro" o "medidor YU" fue desarrollado por los laboratorios de la Bell
Telephone en Estados Unidos en 1939 y se utiliza para controlar y monitorizar
el audio de programa. Las especificaciones del vmetro reflejan la filosofa de
los aos 30. Este medidor est formado bsicamente por un galvanmetro y un
rectificador en puente de onda completa. Dispone de una escala graduada en
dB y en tanto por ciento. La figura 9.9 muestra el tipo de escala ms utilizado
en los medidores tipo vmetro, sobre todo en aplicaciones de grabacin y con
trol.
El nivel cero en el vmetro debera corresponder al nivel de referencia de 1
m W sobre una carga de 600 W. Por tanto, e! medidor debera indicar "O VU" cuan
do el voltaje de la lnea que se est midiendo fuera de 0,775 V.
Por otro lado, se considera que para que el instrumento de medida no suponga
una carga significativa sobre el circuito, su impedancia debe ser unas diez veces
superior a la de ste. Por tanto, si la impedancia del circuito es de 600 Q, la impe
dancia del instrumento debera ser, al menos de 6 KQ. Sin embargo, los medidores
YU tienen una resistencia interna normalizada a 3,9 KQ, por lo que normalmente
disponen de una resistencia extra en serie de 3,6 KW, presentando una resistencia
global de 7,5 KQ. Esta resistencia ocasiona una cada de 4 dBm, de manera que
cuando en la lnea tengamos la tensin de referencia de 0.77 5 mV, la indicacin del

escalas:
o Una escala VU en la que el nivel de referencia "O" se sita aproximadamente
en el 71 % del mximo de escala, con un rango total entre -20 (mnimo) y + 3
o

(mximo).
Una escala de porcentaje, en la que el nivel de 100% corresponde al nivel "O"

de la escala anterior.
El mediclor ,,'metro debe, adems, respetar una serie de caractersticas dinmicas:
o Si se aplica de [arma rpida un voltaje senoidal de frecuencia comprendida
entre 35 Hz y 10KHz y de una amplitud tal que corresponda al nivel de refe
rencia "O", la aguja indicadora mostrar la deflexin adecuada en un tiempo
de 0,3 segundos, con una tolerancia de I0%. Este valor se eligi para igua
lar la respuesta elel sistema de audicin humano.
o En las mismas condiciones que en el punto anterior, la aguja no sobrepasar
la indicacin "O YU" ms de un 1,5%.
o La respuesta en frecuencia del indicador no debe desviarse ms de 0,2 dB
entre 35 Hz y 10 KHz, ni ms de 0,5 dB entre 25 Hz y 16 KHz, siempre en
relacin a la respuesta a 1 KHz.
El tiempo de elevacin de 0,3s. del medidor vmetro introduce un efecto de
enmascaramiento. El instrumento es incapaz de dar indicaciones de nivel de audio
precisas para formas de onda complejas con tiempos de elevacin rpidos. El nivel
instantneo de la palabra o de la msica podra realmente situarse hasta 10 VU por
encima de la lectura proporcionada por el instrumento. Si se utilizan medidores
vmetro para controlar la grabacin, es necesario dejar mucha tolerancia, en los
niveles mximos, para evitar el recorte en transitorios o en rfagas cortas de la
seal de audio. Por esta razn el medidor vmetro se utiliza relativamente poco en
los estudios de grabacin y radiodifusin.

2.2. El picmetro

-1

-~

J.--.---.---- .:0

_'\

.7-\'J

'0/.

...

-3

-2

-1

\~~-L~,
.. ~
~~

-~

80

Aa

100

.'""'~

"f..J

"f';;;"v

a 7-\'J

vu
Figura 9.9.

Escala graduada del medidor tipo vumetro.

El picmetro es un medidor capaz de mostrar "picos" rpidos en la seal, tales


como transitorios y subidas rpidas de nivel. Utiliza un amplificador logartmico y
un sistema de indicacin luminoso, que puede estar formado por una barra de LEO
o por un punto de luz que se mueve gracias a la deflexin de un pequeo espejo
montado sobre un galvanmetro, o por un mecanismo de aguja rpido. El picme
tro presenta una impedancia equivalente a ms de cincuenta veces la de la fuente .
La "balstica" o respuesta dinmica del picmetro es tal que responde de mane
ra casi inmediata a los picos transitorios de la seal. Por otro lado, estos picos sue
len extinguirse casi tan rpido como se forman. La balstica del picmetro se ha
diseado para que proporcione una muy rpida respuesta a la elevacin de la seal,
mientras retiene la medida durante un tiempo suficiente como para que el opera
dor pueda apreciarlo con claridad. En este sentido el picmetro se comporta como
un circuito de muestreo

y retencin.
283'

282

1.:1 J UdE~~!.E!tgi~

TLCNOUJ(IA AClll:\1 I JI: TrU\'I<.;Il>:"

(b)

+6
Ruien

(e)

000000 100
00 ~O 7 5 3 2 1 88

O 'l-O\~
O ..<:J
":>~

.~ 8

PEAK LEVEL

)(~

-6

El,).ri~

.;

-12
dB

-t
. -l

-18

Zumbido
otros

IntefE!rencias

Alinsalidad dQ
Distorsi6~ Frecuencia
Une;1
LAljll~8lidad
de Fase

Distorslon

f)ISTORSIN

AlflatoriD
Peri6diW--{

- No-Lineal

Inte TIlodul aci n


Total
ArMnica - { 3er Ar1'nieo

WCJw

-24

30

Mec;nica

--FIUGtuaCitin~FIUller

Figura 9.11.

Distorsiones y empeoramientos que pueden afectar a la seal de audio.

-36

Figura 9.10.

Cuatro tipos de picmetros: (a), de formato vertical con LEO; (b), de formato vertical

mediante haz luminoso; (e), de arco con LEOs; (d), de aguja tipo !lA.

Aunque no hay una norma universal, el tiempo de subida o elevacin puede estar
en torno a los 10 ms, mientras que el tiempo de extincin puede alcanzar los 3 s.
Como puede deducirse, el indicador VU y el picmetro proporcionarn esen
cialmente la misma medida, mientras el contenido del programa se base en sea
les de nivel sostenido. Sin embargo, cuando la seal de audio presenta un nmero
importante de transitorios, como, por ejemplo, cuando suenan los instrumentos
de percusin, el picmetro puede indicar hasta 10 dB mas que el medidor VU. La
figura 9.10 muestra cuatro tipos distintos de picmetros. En concreto, la figura (d)
muestra el tipo conocido como "PPM-I1A", muy utilizado por las cadenas de radio
difusin europeas. En este indicador cada intervalo corresponde a 4 dB. Un tono
de OdBu colocara la aguja en el centro, es decir, en la posicin "4". Un tono de +8
dBu sera indicado como "6". Los picmetros se utilizan preferentemente en
Europa, mientras que en Estados Unidos se prefieren los medidores VU.

3. Ruidos y distorsiones
Las caractersticas de un equipo de audio, ya sea una mesa de mezclas, un mag
netfono o cualquier otro aparato, o incluso de un sistema completo de audio, se
expresa en trminos de una serie de parmetros de calidad medibles. La figura 9.11
muestra un esquema de los tipos de distorsiones mas importantes.
284

Como puede verse, las distorsiones de origen elctrico pueden agruparse en


tres categoras bsicas: ruido, distorsiones lineales y distorsiones no lineales. El
otro grupo de distorsiones lo forman las de origen mecnico y se deben a imper
fecciones en los sistemas de desplazamiento de los magnetfonos y otros repro
ductores.
Las primeras mediciones se realizan (o se deben realizar) cuando los equipos
son instalados pOI' primera vez, para comprobar que cumplen las especificaciones
indicadas por el fabricante y que se adaptan a la instalacin. Igualmente deben rea
lizarse pruebas y mediciones de forma peridica y despus de una intervencin de
mantenimiento. Para estas pruebas se utilizan instrumentos de medida de alta pre
cisin, tales como generadores de audio de frecuencia variable de alta estabilidad y
muy baja distorsin, analizadores de frecuencia de audio de muy alta precisin o
medidores de fase.

3.1. Ruido
A toda seal de audio le acompaa, inevitablemente, una cierta cantidad de
ruido. En general, se puede decir que el ruido es consecuencia de imperfecciones
o irregularidades en la materia, tales como una distribucin irregular de las part!
culas de xido en la cinta magntica o en la estructura granular del carbn de una
resistencia.
El ruido se define como cualquier seal indeseable que se aade a la seial de
audio til. El nivel del ruido suele expresarse en dB, con referencia al nivel de la
seal til, es decir, como "relacin seal a ruido" (SNR). En los equipos utilizados
en estudios de grabacin y radiodifusin el nivel de la seal til que sirve como
referencia para medir la SNR es el "MOL" (Maximum Operatina Leve] o nivel mxi
285

TI-c.,'( JI ()(;I:\

r\CTlIAL DE rl:llVISI.\,'

El audio analrico

mo de operacin), el cual est unos 10 dB por encima dd SOL (Standard Operatina


Lel'elo nivel normal de operacin). En el caso de los grabadores de audio analgi
cos, el nivel de referencia es el correspondiente a la saturacin de la cinta. Este
nivel de saturacin suele calcularse como aquel en el que la distorsin del tercer
armnico (clue se ver un poco ms adelante) se sita entre el 1% y el 3% (segun
el equipo). Esto coloca el MOL tpico de un magnetfono en unos 6 dB por enci
ma del SOL.

3.3.1. Ruido aleatorio


Tambien conocido como ruido termico, es generalmente el ms importante y
tiene su origen en la agitacin o movimiento catico de los electrones en los com
ponentes electrnicos. Presenta una densidad espectral de igual potencia en todo
el ancho de banda, por lo que se suele denominar "ruido blanco", ya que una dis
tribucin espectral de este tipo, pero en la banda visible de las ondas electromag
neticas, producira luz blanca. Existen tambien otros ruidos "coloreados" de los
cuales el ms popular es el ruido rosa, utilizado para hacer mediciones, cuya poten
cia decrece a ritmo de 3 dB por octava.
La magnitud del ruido termico es proporcional a la temperatura, de manera que
desaparece cuando se alcanza el cero absoluto (-273 C). Si la impedancia "z" de un
circuito presenta una componente resistiva "R", el valor cuadrtico medio del ruido
termico expresado como voltaje viene representado por la frmula:
2

E = 4kTBR; E = 2.JkTBR
"

fl

Siendo: E
voltaje RMS del ruido.
k = constante de Boltzmann = 1,38 x 10-23 joules/grado.
T
la temperatura absoluta en grados Kelvin.

B = el ancho de banda en Hz.

resistencia en ohmios.

R
La frmula anterior suele simplificarse dando a "T" un valor de 300 K (equi
valente a unos 27 C). En tal caso puede escribirse:
u

En2 = 1' 6 '10- 20 BR


Aplicando la frmula anterior se puede demostrar que una elevacin de la tem
peratura de 20 grados eqUivale a un incremento en el nivel de ruido de
3 dB, mientras que multiplicar por diez la resistencia (por ejemplo, pasar de
1 KQ a 10 KQ) supone un incremento de 10 dB en el nivel de ruido.
La SNR a la salida de un sistema depende del ruido generado por la compo
nente resistiva del generador de seal, como, por ejemplo, el micrfono y de las
primeras etapas amplificadoras.
Suponiendo que el ancho de banda "B" de un micrfono sea de 20 KHz y que
tenga una componente resistiva de 150 Q, "En" ser = 0,219 mV La tabla 9.2
muestra las SNR tpicas de los micrfonos, para diferentes niveles de presin sono
ra (SPL), medidas en condiciones de circuito abierto.

Tabla 9.2 Relacin seal a ruido a la salida de un micrfono en circuito abierto, para
diferentes niveles de presin sonora.

Nivel de presin sonora (dB)

Salida del micrfono (mV)

SNR (dB)

120

20.000,00
100,00
22,40
1,00

99,21
53,19
40,19
13,19

74
61
34

Por su parte, el preamplificador de micrfono (por ejemplo, en la mesa de mez


clas) contribuye con su propio ruido aleatorio, lo que empeora considerablemen
te la SNR del sistema. La situacin real puede entenderse como si se dispusiera de
un generador ideal, que no genera nada de ruido, cuya entrada es alimentada con
un generador de ruido. Este ruido ficticio se denomina "ruido de entrada equiva
lente". La diferencia entre el "ruido de entrada equivalente" y el nivel de "ruido ter
mico terico" de la seal de audio de entrada se denomina "factor de ruido del
amplificador" .
La medida de la relacin seal a ruido de un equipo es una rutina bastante com
plicada, cuyos resultados dependen del grado en que se respeten una serie de nor
mas y procedimientos. A continuacin se muestran los pasos a seguir para medir la
SNR de un mezclador de audio:
Alimentar la entrada de micrfono del canal a medir con una seal de
1 KHz, al nivel de entrada normalizado (por ejemplo, -70 dB).
Desactivar todas las entradas, excepto la que se est midiendo.
Desactivar todos los compresores y las ecualizaciones.
Conectar el analizador de audio a la salida del mezclador.
Ajustar los potencimetros "lmput-Cain" y "Channef-Cain" del circuito de
entrada, as como el "Master-Cain" en el circuito de salida, hasta obtener en el
analizador el nivel de operacin estndar (SOL = +4 dB o + 8 dB).
Sustituir la seal de entrada por una resistencia de 150 Q de bajo ruido.
Medir el ruido a la salida del equipo con el analizador calibrado en dBu y el
ancho de banda fijado a 20 KHz.
La relacin seal a ruido vendr dada por la diferencia en dB entre el SOL Y
el ruido medido.
Por ejemplo, si el SOL (nivel normal de operacin) se ha fijado a 8 dB Y se ha
obtenido una lectura del ruido de -95 dB, la SNR del equipo ser de 103 dB.
Un metodo alternativo y ms sencillo para medir la calidad de un equipo, en lo
que al ruido se refiere, consiste en medir el ruido cargando la entrada con la resis
tencia nominal (150 Q) Y luego en cortocircuito. Si la segunda medida es clara
mente mejor que la primera (5 dB o ms), el preamplificador ser de muy buena
calidad, mientras que si las dos medidas son aproximadamente iguales, la calidad
del preamplificador ser baja, ya que sern los circuitos internos del preamplifica
dor los que habrn contribuido principalmente al ruido y no la resistencia exter
na. Los potencimetros de regulacin de nivel (entrada, ganancia y mster) debe
rn estar en una situacin de operacin tpica (SOL) o unos pocos dB por encima.

286
287

TI.C.'OIJH,;!~JI11 PI

1_,I"'U".\,,""",,"'-':'.:

1.L1~.J.!_;Jl0J2J~

3.3.2. Ruido peridico


Este tipo de ruido suele generarse fuera del equipo, al que se acopla de alguna
forma. A diferencia del ruido aleatorio, el peri6dico puede ser totalmente elmina
do mediante un adecuado diseo del equipo), una instalacin adecuada. El tipo ms
frecuente de ruido peri6dico es el llamado "zumbido", consistente en oscilaciones
de 50 Hz y sus arm6nicos, provenientes de la red elctrica. Suele deberse a induc
ciones o a defectos en la puesta a tiena de los circuitos.
La medida del ruido peri6dico es similar a la del ruido aleatorio, excepto que
se necesita disponer de un osciloscopio o de un analizador de espectros para iden
tificar la frecuencia de! ruido peridico. Este tipo de medidas slo se realiza por
parte de los tcnicos de mantenimiento.
En el apartado de "otros ruidos" habria que citar el "ruido de granalla" que se pro
duce en los semiconductores por la generacin y recombinacin aleatoria de algu
nos pares elech6n-hueco. El ruido de granalla presenta, al igual que el trmico, un
espectro plano dentro de la gama de frecuencias. Este tipo de ruido no suele encon
trarse en las especificaciones de los equipos actuales, ya que es de muy poco valor
en los semiconductores modernos. Debe citarse tambin el "ruido digital", que se
produce cuando la seal anal6gica es cuantificada despus del muestreo, pero ste
es un tema que se ver en el apartado del audio digital en e! captulo siguiente.

3.4. Distorsiones lineales


Se denominan distorsiones lineales aquellas que son independientes de la ampli
tud de la seal de audio. Se asume que la amplitud de la seal de audio no supera
el nivel de recorte del equipo, ya que tal recorte sera en s mismo una forma de
distorsin, consecuencia de la propia amplitud de la seal. Las dos principales dis
torsiones lineales son la "alialidad en la respuesta a frecuencia" y la "alinealidad en
la fase". La primera se define como las variaciones, medidas pico-a-pico, de la
amplitud de la seal, sobre el ancho de banda considerado, es decir, la compara
ci6n de la amplitud de todas las frecuencias del ancho de banda de inters, toman
do como referencia, en el caso de! audio, la frecuencia de t KHz. El ancho de
banda considerado suele estar entre 20 Hz y 20 KHz.
La alinealidad de fase se define como las variaciones o desplazamientos de la fase
de la seal, en funci6n de la frecuencia, dentro del ancho de banda de inters. Esta
medida es bastante infrecuente y tiene ms interes para los fabricantes de equipos
que para los usuarios.

frecuencia "f", se obtiene a la salida una seal en que, adems, de la frecuencia ''1"'',
estn tambin presentes frecuencias mltiplo de "f", es decir, 2f, 3f, 4f. .. Se deno
mina "factor de distorsin armnica" a la relacin entre el \"Oltaje RMS de todos
Jos armnicos (separados de la seal principal y sumados) y e! voltaje RMS total
de la seal distorsionada. Esta medida es muy importante en los equipos de audio
)' suele especificarse como el tanto por ciento que supone la seal arm6nica con
respecto al total de seal para una potencia de salida dada.
La distorsi6n del tercer arm6nico se ha venido utilizando para medir la calidad de
los magnetfonos. Para ello se utiliza una seal de prueba de 333 Hz y se extrae a la
salida, mediante un filtro, la componente de 999 Hz. En el caso de los grabadores de
audio, la amplitud de las distorsiones de orden mayor es irrelevante, como conse
cuencia del prenfasis que sufre la seal antes de la grabaci6n.
La distorsi6n por intermodulacin se produce cuando un sistema que es alimen
tado con dos seales de frecuencias distintas (f1 y f2) genera a su salida, adems de
dichas seales fI y f2, otras iguales a la suma y la diferencia de fI y f2 o a la suma y
diferencia de mltiplos de estas seales. Una de las normas o procedimientos de
medida especifica la utilizacin de 60 Hz para fI y 7 KHz para f2, siendo la ampli
tud de la primera cuatro veces superior a la de la segunda.

3.6. Lloro y fluctuacin


El "wow" o lloro es una variaci6n relativamente lenta de la frecuencia del sonido,
causado por variaciones en la velocidad de grabaci6n y 1o reproduccin de los mag
net6fonos, giradiscos u otros dispositivos mecnicos. La menor cantidad de lloro, es
decir, la mnima variacin de frecuencia que es percibida como tal por el oyente, est
en torno a t 125 de semitono en el rango de las frecuencias medias. En las frecuencias
extremas el intervalo es mucho mayor, lo que significa que la variacin de frecuencia
debe ser relativamente alta para ser percibida.
Las variaciones cuya frecuencia es de uno, dos o menos ciclos por segundo se
denominan lloro o "wow", mientras que las variaciones ms rpidas se denominan
'JIutter" (fluctuacin). El termino lloro se introdujo en los primeros das de! cine
sonoro, cuando al enhebrar la pelcula en el proyector y moverla manualmente se
produca un sonido que recuerda al lloro humano. Tambin se denomina "lloro" al
resultado audible de poner en el aire un disco antes de que el giradiscos haya alcan
zado la velocidad correcta de reproduccin.
La fluctuaci6n es mucho ms rpida que el lloro; es suficientemente rpida
como para imponer un cambio en la calidad del sonido y, al igual que sucede con
el lloro, se nota ms en las notas sostenidas que en las de corta duraci6n.

3.5. Distorsiones no lineales

Resumen
Las distorsiones no lineales se refieren a las desviaciones en la relacin lineal
que debe existir entre la entrada y la salida de un equipo y se dividen, bsica
mente, en: distorsi6n armnica y distorsi6n por intermodulaci6n. La distorsin
arm6nica se produce cuando, al inyectar en un sistema una onda senoidal pura de
288

Tres son las caractersticas que definen al sonido: intensidad, tono y timbre.
La intensidad es la caracterstica del sonido relacionada con la amplitud o altu
ra de la vibraci6n y que nos permite distinguir entre sonidos dbiles, medios
289

Trc",",ol OC1:\ .J"CTUU DE TU rq....(l:'\:

El

o fuertes. Nosotros percibimos la intensidad como volumen o potencia del


sonido.
El tono de un sonido depende de su frecuencia. Un tono alto de una flauta, por
ejemplo, produce muchas ondas sonoras por segundo, es decir, un sonido de alta
frecuencia. Por contra, un bajo o una tuba producen muchas menos ondas sono
ras por segundo, esto es: sonidos de baja frecuencia. Nosotros medimos la fre
cuencia de los sonidos en hercios (Hz). Las personas podemos or frecuencias
comprendidas entre 15 y 15.000 Hz (algunos afortunados hasta 20.000 Hz).
El timbre es la caracterstica del sonido relacionada con el nmero, amplitud y
orden de los armnicos de la frecuencia fundamental que un sonido determinado
contiene y que nos permiten diferenciar el matiz de cada instrumento.
Existe un "nivel de presin sonora" (SPL o Sound Pressure Level) de referencia,
establecido en 0,0002 di cm', que corresponde al umbral de audicin de una
persona media, de edad inferior a los treinta aos y para una frecuencia de 1
KHz. La SPL de un sonido se expresa en decibelios, por encima del nivel
umbral de referencia, de acuerdo con la siguiente frmula:
SPL(dB)
20 10glO (P IP RH)
La sonoridad o intensidad aparente de un sonido es algo subjetivo. Es el atri
buto por e! cual pueden ordenarse en una escala las sensaciones audibles en
trminos de "flojas" o "fuertes". La sonoridad depende no slo de la intensi
dad de! sonido, sino tambin de su frecuencia. El fon es una unidad de nivel
sonoro que, juzgado por un observador medio, resulta numricamente igual
al nivel de intensidad de un tono puro de 1 KHz.
El son se define como la sonoridad de un tono de 1 KHz y 40 dB Y tiene la
caracterstica de que un aumento de! nivel sonoro de 10 fonos es, aproxima
damente, equivalente a doblar e! nivel de sonoridad en sanos, mientras que
un aumento de medio fono corresponde al cambio mnimo perceptible del
nivel sonoro.
El rango dinmico del sistema de audicin humano est limitado en su parte alta
por e! nivel de dolor y en su parte baja por e! umbral de audicin. Aunque vara
de un individuo a otro, el valor tpico es de 120 dB. El sistema de audicin huma
no se caracteriza por presentar una capacidad de resolucin que puede equipa
rarse con una batera de filtros paso-banda que se solapan entre s, llamados
"bandas crticas". Son estas bandas crticas las responsables de los fenmenos de
enmascaramiento del sonido. Este fenmeno de enmascaramiento se define
como la medida en que debe elevarse el umbral de audicin de un sonido en pre
sencia de otro sonido enmascarador.
"dBm" es la abreviatura utilizada para expresar la "potencia cuadrtica media"
(RMS) de una onda senoidal con respecto a una potencia de referencia de 1
milivatio. Esta potencia de 1 mili vatio, cuando es disipada por una carga de
600 ohmios produce un voltaje RMS de 0,775 V La potencia de referencia de
1 m W se define como O dBm. El "dBu" es una forma alternativa de medir los
niveles de la seal de audio. En este caso se asume que la impedancia de la
fuente es "casi-cero" y que la impedancia de la carga es "casi-infinito". Existen
otras medidas, como el "dBV" y el, "dBW".

290

,\udlo ,lIlalPICo

Las lineas de audio "no equilibradas" se caracterizan por utilizar un solo hilo
conductor interno, recubierto por una malla de blindaje. El conductor inter
no o "alma" constituye el "camino de ida", mientras que la malla forma el
camino de retorno.
Las lneas equilibradas se basan, en cambio, en la utilizacin de dos cables con
ductores centrales, en lugar de uno solo. As se mejora el rechazo a las inter
ferencias externas. En cada extremo del cable se coloca un transformador,
que acta como equilibrado!". Las lineas equilibradas o balanceadas se utilizan
en aplicaciones profesionales, ya que son mucho ms resistentes a las interfe
rencias.
En lo que al nivel de seal que entregan se refiere, los equipos de audio pue
den dividirse en dos grandes grupos o categoras: los que entregan niveles de
salida bajos y los que dan un nivel de salida alto. A la primera categora corres
ponden, de forma casi exclusiva, los micrfonos (y otros transductores simi
lares). Todos los dems equipos proporcionan un nivel de salida alto, que suele
etiquetarse como "nivel de lnea".
La sensibilidad de los micrfonos suele expresarse en microvoltios o dBV,
medidos sobre una carga abierta y para un nivel de presin sonora de 74 dB,
Y es una medida de la eficacia con que un micrfono convierte la presin
sonora (energa mecnica) en seal de audio (energa elctrica). Los micrfo
nos de condensador, que son los ms sensibles, proporcionan, tpicamente, 20
m VIpa, mientras que los micrfonos de bobina mvil dan, aproximadamen
te, 2 mV/pa.
La impedancia de 600 Q se eligi para las seales de lnea porque es relativa
mente alta, por lo que requiere poca corriente, pero, a la vez, lo suficientemen
te haja como para no permitir muchas interferencias. Aunque esta impedancia se
escogi pensando en los circuitos de telecomunicaciones, fue posteriormente
adoptada por la industria de la radio y la televisin.
Se dispone de medidores normalizados de varios tipos, aunque los ms impor
tantes son el "medidor VU" o "vmetro" y el "PPM" o "picmetro". A stos
habra que aadir el "modulmetro".
El vumetro dispone de una escala graduada en dB y en tanto por ciento. Es el
ms utilizado, sobre todo en aplicaciones de grabacin y control. El picme
tro es un medidor capaz de mostrar "picos" rpidos en la seal, tales como
transitorios y subidas rpidas de nivel. El picmetro presenta una impedancia
equivalente a ms de cincuenta veces la de la fuente. El indicador VU y e!
picmetro proporcionarn esencialmente la misma medida mientras el con
tenido de! programa se base en seales de nivel sostenido.
Las distorsiones de origen elctrico pueden agruparse en tres categoras bsi
cas: ruido, distorsiones lineales y distorsiones no lineales. El otro grupo de
distorsiones lo forman las de origen mecnico y se deben a imperfecciones en
los sistemas de desplazamiento de los magnetOfonos y otros reproductores.
El ruido se defille como cualquier seal indeseable que se aade a la seal de
audio til. El nivel del ruido suele expresarse en dB, con referencia al nivel de la
seal util, es decir, como "relacin seal a ruido" (SNR). En los equipos utiliza
291

"'tEC"iOJ Os..I.\ ACTlIAl "JI. "1

[L1.\'I.... ,{),'\!

dos en estudios de grabacion )' racliodifusion el ru"el de la seal til que sine
como referencia para medir la SNR es el "MOL:' (Maximum Operatin8 Lel'el o nivel
mximo de operacin), el cual est unos 10 dB por encima del SOL (Standard
Operating Lere! o nivel normal de operacion).
El ruido peridico suele generarse fuera del equipo, al que se acopla de algu
na forma. A diferencia del ruido aleatorio, el pe-idico puede ser totalmente
eliminado mediante un adecuado diseo del equipo y una instalacin adecua
da. El tipo ms frecuente de ruido peridico es el llamado "zumbido", consis
tente en oscilaciones de 50 Hz y sus armnicos, pwvenientes de la red elc
trica.
Se denominan distorsiones lineales aquellas que son independientes de la
amplitud de la seal de audio. Las dos principales distorsiones lineales son la
"alialidad en la respuesta a frecuencia" y la "alincalidad en la fase". La primera
se define como las variaciones, medidas pico-a-pico, de la amplitud de la
seal, sobre el ancho de banda considerado. La segunda se refiere a las varia
ciones o desplazamientos de la fase de la seal, en funcin de la frecuencia,
denh'o del ancho de banda de inters.
Las distorsiones no lineales se refieren a las desviaciones en la relacin lineal
que deben existir entre la entrada y la salida de un equipo, y se dividen, bsi
camente, en: distorsin armnica y distorsin por intermodulacin. La dis
torsion armnica se produce cuando al inyectar en un sistema una onda
senoidal pura de frecuencia "f" se obtiene a la salida una seal en que, ademas
de la frecuencia "f", estn tambin presentes frecuencias mltiplo de "f", es
decir, 2f, 3f, 4f. .. La distorsin por intermodulacin se produce cuando un
sistema que es alimentado con dos seales de frecuencias distintas (fl y f2)
genera a su salida otras frecuencias iguales a la surna y la diferencia de fl y f2
o a la suma y diferencia de mltiplos de estas seales.

292

CAPTULO

10

El audio digital
1. Conceptos generales
Todos los conceptos, principios y teoras sobre vdeo digital, tratados en captu
los anteriores, son perfectamente aplicables al audio digital. En el fondo se trata de
lo mismo: coger una informacin analgica, que fluye de manera continua en el
tiempo, y trocearla para convertirla a continuacin en una hilada de dgitos binarios.
Hay, sin embargo, diferencias importantes entre las seales de audio y vdeo ya
desde su estado analgico, las cuales obligan a utilizar distintos parametros y dis
tintas estrategias a la hora de proceder a la digitalizacin. En prime-lugar, el ancho
de banda de la seal de audio es muy inferior al de la seal de vdeo. Una seal de
audio de calidad alta no excede los 20 KHz de ancho de banda, mientras que una
seal de vdeo analgica de calidad media, como la seal compuesta PAL, presen
ta un ancho de banda en torno a los 5 o 5,5 MHz. La relacin, en lo que al ancho
de banda se refiere, es, por tanto, de 1 a 250. Consecuencia: habr que tomar 250
veces ms muestras de vdeo que de audio.
Hay otra diferencia entre ambos tipos de seal (menos evidente, pero no menos
importante) y es el hecho de que la seal de audio es unidimensional, mientras que
la de vdeo es tridimensional. En efecto, en el caso de la seal de vdeo la infor
macin cambia o fluye en tres dimensiones separadas: la horizontal, la vertical y la
temporal. Puesto que la seal elctrica que se ha de digitalizar slo puede variar en
una direccin, es necesario descomponer, ya en el estado analgico, dos de las tres
dimensiones de la seal de vdeo; la dimensin vertical se descompone en lneas,
que se colocan una a continuacin de otra, mientras que la dimensin temporal se
descompone en cuadros que se suceden en el tiempo. En el caso de la seal de
audio, esta descomposicin previa (que puede entenderse como un proceso de
muestreo) no es necesaria, ya que el audio slo fluye o varia en una direccin: el
tiempo.
293

TCNOLqCIA -\C1 UAI nI: THLVhlN

Por otro lado, esta caracterstica unidimensional de la sel1al de audio la hace en


cierto sentido ms delicada. Se trata de una cuestin de tipo perceptivo: puesto
que la seal de vdeo muestra cambios de informacin en tres dimensiones, el
espectador estar entretenido analizando un gran flujo de informacin, de manera
que cualquier error o perturbacin de muy corta duracin no ser percibido (efec
to de enmascaramiento). Concretando, si un bit o un byte fallan en la seal de
vdeo, pasarn inadvertidos para el espectador, si Jo hacen en la seal de audio, el
efecto ser un "dic" claramente audible por el oyente.
Oc lo anterior se deduce que la seal de audio no precisa de una frecuencia de
muestreo tan alta como la seal de vdeo, pero, por otro lado, la cuantificacin de las
muestras, es decir, la precisin con que se mide y expresa e! valor instantneo, ha de
ser mucho ms elevada. En concreto, si para representar la seal de vdeo se utilizan
(en la norma bsica) en torno a 250 niveles, en el caso de la seal de audio cada mues
tra necesita de unos 65.000 niveles, es decir, 250 veces ms que la seal de vdeo.
Vemos que se produce la siguiente situacin (bastante curiosa): la seal de vdeo
precisa 250 veces ms muestras por intervalo de tiempo que la seal de audio, pero
esta ltima necesita 250 veces ms niveles de cuantificacin por muestra que la pri
mera. En esta paradoja hay algo que trabaja a favor de la seal de audio: mientras
que la frecuencia binaria (cantidad de bits generados por segundo) es directamente
proporcional a la frecuencia de muestreo, e! nmero de niveles o peldaos de cuan
tificacin no se relaciona de forma tan simple con el nmero de bits empleados. En
concreto, con cada bit que aadimos doblamos el nmero de niveles. Por ejemplo,
si con 8 bits/muestra se obtienen 256 niveles (caso de la seal de vdeo), con 16
bits/ muestra se logran los ms de 65.000 niveles necesarios para la seal de audio.
Por tanto, si tenemos 250 veces menos muestras y el doble de bits por muestra, la
frecuencia binaria final de la seal de audio ser unas 125 veces menor que la seal
de vdeo. Un ejemplo: en la norma 4:2:2 de vdeo se producen unos 170 Mbits/s;
un CO de audio estreo genera una frecuencia binaria de 1,4 Mbits/ s. La relacin
es 121: l. La comparacin es un tanto heterodoxa porque se trata de una sal de
vdeo por componentes y /R - Y/B - Y de tipo SOTV comparada con una seal de
audio estreo de alta calidad, pero da una idea de los rdenes de magnitud.
Otra cuestin a considerar es la forma de onda de la seal analgica. La seal
de audio analgica es simtrica, en e! sentido de que sus valores de voltaje se cen
tran en e! valor cero, con excursiones hacia positivo y hacia negativo. Las formas
de onda por encima del valor nulo son prcticamente copias especulares de las for
mas de onda negativas. En el caso de la seal de vdeo la forma de onda analgica
no es simtrica ni est centrada en el valor nulo. Por el contrario, se extiende desde
cero hasta un cierto valor mximo. Lo anterior condiciona, como se ver, la forma
en que se codifican las muestras de audio.
Como se ha visto en e! capitulo anterior, el sonido no es ms que variaciones de
la presin de! aire que rodea al tmpano y que son capaces de producir sensaciones
auditivas. El audio digital pretende, por tanto, convertir tales variaciones de pre
sin en digitos binarios. Igual que sucede con e! video, la ventaja de! audio digital
est en su naturaleza discreta o discontinua. Las seales analgicas presentan infi
nitas variaciones continuas, que son difciles de grabar y reproducir con precisin;
294

El audio dieital

las digitales slo permiten un cierto nmero de estados discretos. Para ver la dife
rencia entre ambos casos, pongamos un ejemplo: queremos medir (por supuesto
con la mxima precisin) la cantidad de agua que fluye por un ro. Podramos dis
poner de un montaje similar a una presa de central hidroelctrica. El agua, al salir
de la presa por un orificio, movera un mecanismo contaclor calibrado en litros, en
metros cbicos o en cualquier otra unidad de volumen. Por muy bien que se dise
e y se fabrique tal mecanismo, es inevitable que se produzcan errores de medi
cin. Hay problemas de rozamiento, inestabilidades mecnicas, agua que rebosa,
turbulencias, etc., que trabajan siempre contra la precisin del proceso.
El caso expuesto en el prrafo anterior puede entenderse como un proceso ana
lgico, ya que se trabaja con magnitudes fisicas continuas. Por otro lado, suponga
mos que queremos contar las ovejas que entran en un redil. ste sera un proceso
digital, puesto que la magnitud (la cantidad de ovejas) est discretizada. No puede
haber fracciones de oveja: o hay 86 o hay 87. Es cierto que se pueden cometer
errores y contar una misma oveja dos veces o dejar de contar alguna, pero tales
errores no son propios de! sistema. Por tanto, los sistemas digitales son ms preci
sos. Tambin son ms predecibles; es seguro que si se repite el proceso tendremos
la misma cuenta para las ovejas. Por otro lado, es casi seguro que si se realizan dos
medidas separadas del agua del rio habr alguna diferencia entre ambas.
Un canal de audio analgico podda estar formado por un micrfono, un pre
amplificador, una mesa de mezclas, un magnetfono, una mster en casete o LP, la
copia de distribucin, el reproductor domstico, el amplificador y los altavoces.
Todos ellos forman la cadena analgica, la cual funciona de manera que cada vez
que se pasa de un dispositivo al siguiente se mantiene la relacin entre los cambios
de amplitud y e! tiempo. Podemos decir, por tanto, que cada etapa es "anloga" a la
anterior. Pero anloga no significa idntica, sino parecida. En efecto, cada disposi
tivo que atraviesa la seal de audio aade su propia distorsin o deformacin.
Adems aade tambin ruido. A la salida la distorsin total de la seal ser igual a
la suma de las distorsiones aadidas en cada etapa. Lo mismo sucede con el ruido.
Por otro lado, la cadena o secuencia que sigue la seal digital es: micrfono, con
versor A/O, etapas que copian o procesan numeras, conversor O/ A, amplificador
y altavoces. En efecto, tan pronto como la seal de audio abandona e! micrfono, es
inmediatamente convertida en un tren de bits. Todos los procesos de mezcla, ampli
ficacin, efectos, etc. son, en e! dominio digital, meras operaciones matelmiticas. El
error (salvo que falle e! sistema) es, sencillamente, imposible. Puesto que la seal de
audio se mantiene como una informacin numrica, los efectos ele distorsin y
ruido no pueden producirse o, mejor dicho, si que se producen, pero no tienen nin
gn efecto sobre los dgitos binarios. El necesario cambio a analgico se produce
slo en la etapa final, cuando el oyente reproduce el sonido original.

2. Conversin A/ D
La relativamente baja tasa binaria que se produce al digitalizar una seal de
audio hizo que el audio digital se desarrollara bastante pronto, tanto en e! mbito
domstico como en el profesional. Un hecho clave fue sin duda la introduccin,
295

____U_<LU.sJ~~~J

TLC:J(llOG1:\ :\CTU:\L DL TEll\"SIO\:

por parte de Sony y Philips (1979), del "compact disc"; una verdadera revolucin
que ha dado paso al verstil CO-ROM. Desde entonces la mayor parte del equipa
miento analgico ele los estudios ha ido sustituyndose por equipos digitales, pro
ceso en el cual marca un hito la aparicin de una norma de comunicacin digital,
o interfaz digital para audio, conocida como AES/EBU (1985). Las ventajas ms
importantes que presenta la seal digital con respecto a la analgica son: multige
neracin sin lmites, fiabilidad y, ms recientemente, integracin en entornos de
ordenador y redes.
Incluso hoy en da los equipos digitales siguen teniendo conectores de entrada
y de salida analgicos, ya sea de tipo RCA en los domsticos o de tipo XLR
(Canon) en el caso de los profesionales.
Hoy por hoy los llamados transductores, es decir, el micrfono y el altavoz, son
dispositivos analgicos que generan y se alimentan de seales que fluyen de mane
ra continua, las cuales son una analoga de hecho fsico que las ha producido. Es
necesario, por tanto, convertir la seal elctrica analgica, que es continua en el
tiempo, en otra digital, cuya principal caracterstica es ser discontinua en el tiem
po y estar expresada mediante nmeros. Esto se logra en la etapa de conversin
A/O, la cual es el factor ms importante y el que ms determina la calidad de la
seal digital, tanto en el contenido de frecuencias como en el rango dinmico y la
distorsin armnica. Igual que sucede con cualquier seal analgica, la digitaliza
cin o conversi6n A/D se logra mediante dos etapas separadas: el muestreo y la
cuantificacin.

2. 1. El muestreo
Digitalizar es convertir la seal anal6gica en nmeros. Por tanto, hay que deci
dir cmo se obtienen estos nmeros. En la primera etapa (el muestreo) la seal
analgica es medida o muestreada a intervalos regulares, para, a contil1l-:aci6n,
durante la segunda etapa (la cuantificacin), expresar cada una de estas medidas
con un nmero limitado de dgitos binarios. Aqu nos centraremos en el muestreo
y lo primero que hay que determinar es cuntas muestras debemos tomar de la
seal analgica por unidad de tiempo, es decir, la frecuencia de muestreo.
Un concepto importante, aunque nada intuitivo, es que, si se elige cuidadosa
mente la frecuencia con que se toman las muestras, el muestreo es un proceso sin
prdidas. La figura 10.1 ilustra el principio del muestreo.
El proceso de muestreo puede entenderse como la multiplicaci6n de la seal
analgica de entrada por una seal muestreante formada por impulsos instantne
os, que vale cero en todo momento, excepto en los instantes puntuales de mues
treo en que vale uno. Por tanto, se trata de una variacin o modulacin de la ampli
tud de la seal de audio por parte de los impulsos muestreantes. Esto se conoce
como "PAM" (Pulse Amplitudc Modulatian) o modulacin de amplitud de impulsos.
Aunque sea una simplificacin, se asume que en este proceso la duracin de los
impulsos muestreantes es nula o casi nula. Llegados a este punto, lo que tenemos
son una serie de valores puntuales de la seal original y nada en absoluto entre dos
valores cualquiera. Intuitivamente puede apreciarse que a partir de los impulsos
296

'tl

'"

(a)

15.

<

Seal
de audio

-~

Tiempo

(b)

'"

Seal muestreante

_1
Tiempo

. -*

Figura 10.1.

La seal de audio analgica se multiplica por un tl'en de impulsos equiespacados para generar

la seal muestreana (PAM).

PAM de la figura 10.1 (c) se podr, durante la conversin digital a analgico,


reconstruir la seal original de (a), pero sera posible reconstruir la scilal original
a partir de los impulsos de la figura 10.2 (a). Y a pa-tiJ- de la figura 10.2 (b)?
Qu pasa con los valores de la seal original comprendidos entre dos instantes
de muestreo? Se han perdido para siempre? Sorprendentemente, la respuesta es
no! Siempre que se tomen las precauciones necesarias, no pasa nada! Para enten
der esto puede ser til analizar la diferencia entre un reloj analgico y otro digital.
El analgico muestra el paso del tiempo gracias a unas manecillas que se mueven
de forma continua por la esfera. Podemos entender que, a medida que "barren" la
superficie de la esfera, adoptan infinitas posiciones distintas. Un reloj digital indi
ca tambin la hora, pero lo hace mediante valores discretos, que cambian instant
neamente, sin que haya nada por medio. Ahora bien, si asumimos que la mxima
precisin que es capaz de "leer" el usuario humano en el reloj es un segundo, podr
amos decir que el reloj digital no introduce prdidas de informacin, con respec
to al analgico; si suponemos que es posible apreciar hasta dcimas de segundo en
el movimiento del segundero del reloj analgico, habr que pedir al digital que
cambie de estado y muestre la lectura diez veces ms rpido. En definitiva, necesi
taremos que la frecuencia con que se suceden las muestras en el reloj digital, se
adapte a la resolucin que queremos obtener.
Para responder a la pregunta sobre la figura 10.2 habra que analizar qu fre
cuencias componen la seal analgica de entrada: si sabemos cual es la frecuencia
297

TI~CN~)l t)GiA ,,\(:-1 UAI. DE lTLE\'I"ION

El audio dirit,\

(a)

.;.

"O

Ji

..

(b)

tll I

~l

l'

LLL,_I.

Tiempo

Tiempo

Figura 10.2.
Cuntas muestras hacen falta para representar una forma de onda sin ambigedad?

ms alta en la seal de entrada, podremos determinar una frecuencia de muestreo


que no introduzca prdidas de informacin. El anlisis de las frecuencias de las
seales elctricas se hace mediante representaciones grficas llamadas "espectrales"
en las que el eje horizontal muestra un determinado rango de frecuencias mientras
el vertical representa las amplitudes o la energa de dichas frecuencias. La figura
10.3 es un ejemplo de representacin frecuencial.

2.1.1. Muestreo ideal y muestreo real


En la figura 10. 3 (a) se representa el espectro de la seal de audio "en banda
base", es decir, en su estado analgico normal. Ntese que se ha intentado repre
sentar una seal con un ancho de banda ligeramente inferior a 20 KHz. El trape
cio que forma el espectro de la seal de audio analgica se ha rellenado de gris para
reflejar el hecho de que estn o pueden estar comprendidas todas las frecuencias,
desde cero hasta un cierto valor mximo. Adems la caida en la zona de altas fre

r~

:\

Modulador

(a)

Especlro
d:,I~~:~oal

-~

1m....

\HH - j-j t-j-1++-1 t-H

O 1D 20KHz

Frecuencia

. , j
t.

11
.2

H~

lb),,,

delaeea'
Es clro

d. mutreo

~~+HI-'
O

el. amplitud

20

,++H+HH' H '1-1 H
40

60
lO
Frecuencia

1(10

J
3" ..

Hi-~

d;I~e.C:~~1

(e)

;n-'(I-\
:-" l.rr\L
211 3~\
1-\

1
o

tJJILUl' ~lj~

j60'

20\.tO

t lmb..) fs+fmax

80 J'1DD')'2DKH:l'
'
3f.-Imb.. 3f+fmx.
2f.1m'. 2t..fmb.

Frecuencia

...

120 KHz

Figura 10.3.
Espectros de las seales de audio, de la seal impulsiva de muestreo y de la seal muestreada.
298

cuencias no es abrupta, sino que muestra una cierta pendiente, tal como sucede
con las seales reales. La figura 10.3 (b) representa el espectro de la seal mues
treante, es decir, de los impulsos de muestreo que miden la seal analgica de
entrada. En este ejemplo se ha elegido una frecuencia de muestreo de 40 KHz (fs
o jl-equenc)' eif samplina). Se trata de una seal que posee una frecuencia nica (40
KHz) y no un rango de frecuencias. Por esto aparece como una raya sin espesor en
el espectro. Por otro lado, no es una seal senoidal, sino un pulso instantaneo que
se sucede 40.000 veces por segundo. El anlisis de Fourier permite conocer qu
contribuciones senoidalcs y cosenoidales son necesarias pal-a obtener cualquier
forma de onda. En el caso de una seal impulsiva de duracin nula, el espectro con
tiene, adems de la frecuencia fundamental (en nuestro ejemplo, 40 KHz), mlti
plos de dicha frecuencia que se extienden hasta el infinito. Por tanto, la primera
linea del espectro corresponde a la frecuencia de muestreo; el resto son armni
cos, todos ellos de igual amplitud, que se extienden, al menos en teora, hasta el
infinito.
Siendo
la frecuencia mas alta de la seal de audio analgico y siendo fs la fre
cuencia de muestreo (figura 10.3-c), se producen, en torno a fs bandas laterales, con
valores = f.-C, y f.+C.. La primera se llama "banda lateral inferior", mientras que la
segunda se denomina ''banda lateral superior". Esto es consecuencia de la multiplica
cin o modulacin de la amplitud de los impulsos por parte de la seal analagica ele
entrada. Adems el espectro de la seal de audio analagica aparece como banda late
ral superior de la "frecuencia cero", ya que la seal impulsiva de muestreo posee una
componente continua, tambin llamada componente de OC.
A partir de la f'gura 10.3 vemos que el espectro de la seal analgica de entra
da ha producido, durante el proceso de muestro, mltiples copias de s mismo. La
primera desde DC hasta
luego de f -Ch a f. +(," despus desde 2(-f,,,,, hasta
2f, +C.... Estas copias se denominan "alias" y, aunque son inevitables y existen
mientras la seal se mantenga en el dominio digital, sern eliminadas, por indese
ables, en la conversin digital-a-analgico. La figura 10.3 (c) demuestra tambin
que si la frecuencia de muestreo fuera inferior a dos veces C" entonces se produ
cira un cierto solapamiento cntre la banda superior de una determinada f-ecucn
cia y la inferior de la siguiente, es decir, las alias se pisan unas a otras! Esto se cono
ce como "aliasina".

e,

e"

2.1.2. Criterio de NJquist


Aunque esta teoria fue inicialmente descrita por Shannon, en los documentos
sobre audio y video digital casi siempre se conoce como teorema ele Nyquist o cri
terio de Nyquist. En la antigua Unian Sovitica esta teOl-a es atribuida a
Kotelnikov, cuyo trabajo fue casi simultneo al de Shannon. En breve esta teoria
viene a decir que, suponiendo que se disponga de filtros ideales, la frecuencia de
muestreo debe ser al menos dos veces mayor que el ancho de banda de la seal a
muestrear. Puesto que en las seales de audio y video la frecuencia ms baja a tra
tar es cero o casi cero, el trmino "ancho de banda" puede cambiarse por "fre
cuencia ms alta".
299

Tr.:CNOUJGI:\ .'\CTU,\l IH

.'

n. UqS!n,""

_.__ .

Precisamente para respetar el criterio de N),CJuist, el primer paso que sufre la


seal analgica durante su conversin a digital es un "filtrado-pasa-bajo", que ase
gura que en la seal de entrada no estar presente ninguna frecuencia mayor que
la mitad de la frecuencia de muestreo o, dicho de otra forma, que elimina todas las
frecuencias por encima de la mitad de la frecuencia de muestreo (lmite de
N)'quist). Igualmente a la salida, durante el proceso de conversin cligital-a-anal
gico, el ltimo paso consiste en un filtrado paso bajo mediante un filtro muy simi
Jar al empleado en el proceso de conversin a digital. Este ltimo filtro elimina las
altas frecuencias creadas internamente por la digitalizacin y suaviza el efecto de
escalones que presenta la seal analgica, reconstruida a partir de los impulsos
PAM.
Ahora si la seal de entrada no incluye frecuencias por encima del lmite de
Nyquist, las hancl as laterales no se solaparn y no se producir a!iasina. En la prc
tica la frecuencia de muestreo es siempre un poco superior al criterio de Nyquist.
En primer lugar, si nos ajustramos a dicho criterio, la frecuencia ms alta presen
te en la seal de entrada generara exactamente dos muestras por ciclo, las cuales
podran coincidir con los dos pasos por cero de la seal (figura 10.4). Esto gene
raria incertidumbre, ya que, a la hora de reconstruir la seal Q1'iginal, igual podr
amos obtener fm" o Oc.
Puede verse, a partir de la figura 10.4 (a) que, si se emplea una frecuencia de
muestreo exactamente igual al doble de la frecuencia de entrada, es posible que
los instantes de muestreo se situen en los cruces por cero, lo cual podra inter
pretarse como una seal de frecuencia cero, es decir, una forma de onda plana.

J
: :l

."

ii

IJ

Tiempo

li

Impulsos PAM~:
)

~-~,
<11(2 fmax)

Figura 10.4.
Muestreo a exactamente dos veces la frecuencia de entrada (a) y muestreo con una frecuen
cia ligeramente superior.
300

ti.~_t)Ji{)_~0:1j~1J

Por otro lado, si la frecuencia de muestreo es ligeramente superior al eloble ele la


frecuencia de la seal de entrada, las muestras delimitan perfectamente la forma
de onda original; no hay ambigedad y, por tanto, no hay aliasing. Otra razn,
CJuiz incluso ms importante para emplear una frecuencia de muestreo algo
superior al criterio de N)'quist, es que los filtros que limitan las frecuencias de la
seal de entrada no son totalmente ahruptos, es decir, no dejan pasar todas las
frecuencias con total energa, hasta un punto en gue cortan de forma total cual
quier frecuencia superior. Por el contrario, la forma en que se eliminan las altas
frecuencias es gradual, con una cierta pendiente, que se mide en dB por octava,
de forma que se asemejan un tanto a lo mostrado en la figura 10.3.
Es necesario recalcar que el uso de tul filtro, que limita las fi'ecuencias de la seilal de
entrada, no va en detrimento de la calidad de la se'lal de audio. Si asumimos que el odo
htunano no puede or frecuencias ms alla de los 18 o 20 KHz, la digitalizacin de cual
quier frecuencia ms alta no aportara nada a la experiencia perceptiva y slo servira
para ocupar espacio en el CD o en cualqUier otro medio de grabacin. Recientemente
se han puesto de moda teoras sobre percepcin auditiva segUn las cuales si bien las fre
cuencias por encima de los 18 o 20 KHz no son audibles por s mismas, pueden mejo
rar la calidad del sonido cuando estn presentes, a la vez que otras frecuencias que s
entran dentro del rango audible, pero ste es otro tema.

2.1.3. Frecuencias de muestreo en la prctica


Si tomamos como limite audible los 20 KHz, est claro que la frecuencia de
muestreo elegida para la seal de audio debera estar por encima de los 40 KHz.
En la practica hay dos frecuencias de muestreo normalizadas: 44,1 KHz y
48 Kz. La primera es la mas popular, mientras que la segunda puede considerarse
como la mas profesional. Estas cifras no tienen nada de especial: simplemente res
ponden a cuestiones prcticas.
Sin lugar a dudas, uno de los hitos ms importantes en el desarrollo elel audio
digital fue la aparicin a principio de los 80 de CD o compact disco Este formato
fue propuesto por Sony y Phiplis en 1978 y adoptado en 1979, pero las investiga
ciones sobre un soporte digital de audio por parte de estas empresas se remontan
a 1973. Un clculo inicial sobre la frecuencia binaria de un canal estreo de cali
dad indicaba la necesidad de grabar por encima de 1,2 Mbits/ s. Utilizando un cdi
go de canal (la forma exacta en que se graban los hits) sencillo, donde dos bits
representan un hercio, esto nos llevara a 600 KHz de ancho de banda. Por otro
lado, los magnetfonos de la poca eran capaces de grabar slo 20 KHz en el mejor
de los casos.
Hay una frmula bsica en fsica que dice que V=:A X f, es decir, que la velo
cidad con que se propaga, graba, etc. una onda es igual a la longitud de dicha
onda multiplicada por su frecuencia. Esto es aplicable a los magnetOfonos: la
velocidad a que debe desplazarse la cinta en el magnetfono es proporcional a
la longitud de la onda que queramos grabar en la cinta (representada por patro
nes magneticos que cambian de intensidad y direccin) y a la frecuencia que
tenemos que grabar. Ahora la longitud de la onda grabada en cinta no puede ser
301

tan pequea como queramos, ya que para poder ser recuperada por la cabeza
lectora dicha longitud de onda ha de sel' claramente mayor que el entrehierro o
"Bap" de la cabeza y hay un lmite en lo que a tecnologa de cintas y cabezas se
refiere. Por tanto, si aumentamos la frecuencia de la seal a grabar (pasar de 20
KHz a 600 KHz es multiplicar por 30), tendramos que aumentar proporcio
nalmente la velocidad de paso de la cinta sobre la cabeza.
Todo lo anterior significa que si queremos grabar en un magnetfono una seal
de audio digital tendramos que multiplicar por 30 la velocidad de la cinta. Esto
generara enormes problemas de aceleracin, control de los servas, etc. Ademas
un carrete de cinta slo duraria un par de minutos) En lugar de esto, los ingenie
ros de Sony y Philips de mediados de los 70 buscaron algn aparato ya existente
que fuera capaz de grabar anchos de banda como el que genera una seal de audio
digital estreo. Encontraron un equipo al efecto en el grabador de vdeo "U-matic",
un formato de magnetoscopio, creado por Sony en 1971, que empleaba cinta de
tres cuartos de pulgada en casete.
Los magnetoscopios dedicados a la grabacin de vdeo son capaces de grabar
grandes anchos de banda, que se miden en MHz, gracias a que emplean el princi
pio de rotacin de cabezas; las cabezas de grabacin se montan en cilindros que
giran a gran velocidad, escribiendo pistas oblicuas en la cinta. En el caso del "U
matic", la velocidad de paso de la cinta es de 9,5 cmls (bastante moderada), mien
tras que la velocidad con que se escriben las pistas es de mas de 10 mis. La rota
cin de cabezas hace que la velocidad efectiva cabezal cinta sea mas de 100 veces
superior a la velocidad de paso de la cinta. As el "U-matic" lograba grabar una
hora de programa en una casete del tamao de un libro mediano.
El "U-matc", de todas formas, no es un grabador de datos digitales, sino un gra
bador de vdeo analgico. El truco, en este caso, consiste en formar con las mues
tras de audio una especie de seal de seudovdeo, es decir, algo que al magnetos-

Nivel de
blanco

1 O 1 1 O 1 O OO 1 O 1 O 1 1 O O 1 O 1 1 O 1 O 1 1 O 1 OO O 1 O 1
~ ~

i
>i

copio le parezca vdeo, aunque en realidad se trate de bits que representan la seal
de audio. Quiz algunos recuerden que los primeros onlenaJores domsticos
(Spectrum, Commodore-64, etc.) utilizaban casetes de audio para grabar los pro
gramas, es decir, generaban sei'lales de seudoaudio con los datos binarios.
Resulta \'entajoso, a la hora de formar la seal de seudovdeo y a la hora de su
recuperacin, que cada lnea de televisin contenga un nmero entero de mues
tras. Igualmente es interesante que las muestras de los canales izquierdo y derecho
se intercalen en las lneas de television, puesto que esto facilita la sincronizacin de
los dos canales durante la reproduccin. Con estas premisas el sistema para "mas
terizar" los CD opt por grabar tres muestras del canal izquierdo, ms otras tres
del canal derecho, en cada lnea de televisin. Conteniendo cada lnea de television
un nmero entero de muestras, queda claro que la frecuencia con que se suceden
las muestras (frecuencia de muestreo) debe ser mltiplo de la frecuencia de lne
as. De las 625 lneas que forman la seal de televisin en la norma europea, slo
se utilizan 588 para grabar audio digital, ya que no se pueden tocar la sincroniza
cion vertical ni sus vecinas mas inmediatas. Ahora, 588 lneas multiplicado por tres
muestras por lnea y por 25 imgenes por segundo: 588 x 3 x 25 44.100 mues
tras por segundo. En la norma americana se utiliza: 490 x 3 x 30
44.100.
Paradojas de la vida: el origen de la frecuencia de muestreo de audio digital, en el
formato ms popular, est en la grabacin de la seal de vdeo analgica.
Por otro lado, el CD es, desde su origen, un formato dirigido al gran pblico y
existan en su momento razones para pensar que podran hacerse copias (por ejem
plo, a un grabador DAT) de digital a digital. Por tanto, se pens que los formatos
profesionales deberan tener una frecuencia de muestreo distinta a la de! CD. En
este caso se opt por 48.000 Hz como frecuencia de muestreo, ya que presenta dos
ventajas. En primer lugar, es mltiplo de la frecuencia de campo de televisin
(48.000/50 960), lo que permite utilizar 10sVTR como msters y facilita la sin
cronizacin con la seal de vdeo. En segundo lugar, mantiene una relacin senci
lla con la 32 KHz, que fue la frecuencia de muestreo propuesta en su momento
para la radiodifusin digital. Adems 48 KHz deja un margen ms que generoso por
encima de los 40 KHz que exige e! criterio de Nyquist. Aunque parece que una fre
cuencia de muestreo de 48 KHz debera ofrecer mas calidad que otra de 44,1 KHz,
no siempre es as, ya que a menudo se utilizan los mismos filtros de entrada y sali
da en los dos casos.

.... 1

o.

2.1.4. Aliasin8 en audio

Nivel de
negro

Sincronismo
horizontal

:>

f"l~i

o:

--l.

Figura 10.5.
Formacin de una seal de vdeo a partir de los bits procedentes de las muestras de audio.
302

Ya se ha visto, a propsito del criterio de Nyquist, cules son las causas del alia
siDg y cmo evitarlo, pero a menudo surge la duda de qu es exactamente el alia
sing en audio y cmo se manifiesta? En otras palabras, cmo reconocer una seal
de audio que contiene aliasinB? De manera sencilla, el aliasina, que se produce
siempre por submuestreo, supone sumar a la seal correcta otras seales indesea
das y es, por tanto, una forma de distorsin. En concreto, si "S" es la frecuencia de
muestreo, "F" es una seal de frecuencia superior a S/2 Y"N" es cualquier nmero
entero, se crearn componentes de aliasinB con frecuencia Fa
NS F, es decir,

303

TLC,'\JOl()(;I:\ ,\CllL\1 111. II.U.q..,O:,

_ _ _ _ _---'l".,] .\lIdio

la suma)' la resta de la frecuencia de entrada con cualquier mltiplo de la fre


cuencia de muestreo.
Como muestra la figura 10.6, se produce un solapamiento entre bandas latera
les, que puede entenderse como un repliegue ele frecuencias fuera de banda, hacia
la banda base de la seal de audio. Estas sei'iales replegadas producen un verdade
ro batido con las seii.ales de audio, en especial con las altas frecuencias. Por ejem
plo, supongamos que trabajamos con una frecuencia de muestreo de 40 KHz)' que
se introduce en el circuito de muestreo una seal de 26 KHz. El primer componente
de aliasin8 tendr una frecuencia de 40 Khz - 26 KHz = 14 KHz. En otras palabras, una
seii.aJ de entra<Ja de 26 KHz ha generado una seal de salida de 14 KHz; una seal
no audible produce, por submuestreo, una seal fantasma de alta frecuencia per
fectamente audible. Ningn equipo de audio digital ser capaz de saber si se trata
de una seal original de 14 KHz o si, por el contrario, es un producto de aliasin8'

Zona de

aliasing

..

fs

r-

2fs

3fs

"O

::J

;t:

c..

~ 1+4
,

h
i

\1

20/
40
60
80
14 KHz . 26 KHz Frecuencia

100

:=

2.2. La cuantificacin

120 KHz

NS F.

En realidad no se genera un nico producto de aliasin8' Tal como indica la fr


mula del prrafo anterior, obtendramos sei'iales fantasma con frecuencias ele 40
KHz + 26 KHz = 66 KHz; 80 KHz - 26 KHz = 54 KHz; 80 KHz + 26 KHz = 106
KHz ... , adems de la ya citada de 14 KHz, aunque slo esta ltima debe preocu
parnos, ya que es la nica que podra estar presente despus de la conversin digi
tal-a-analgiCo.
Resumiendo, nos encontramos con la siguiente situacin: dada una frecuencia
de muestreo determinada (por ejemplo, 40 KHz), todas las seales de entrada
hasta 20 KHz sern codificadas con su frecuencia correcta; si aumentamos la fre
cuencia de la seal de entrada desde 20 KHz hasta 40 KHz, obtendremos en la sali
304

da se'iales que descienden desde 20 KHz hasta O Hz; frecuencias de entrada desde
40 KHz hasta 60 KHz generaran salidas de O a 20 KHz, etc. La sei'ial de salida es
como un acorden, que ya de O a 20 KHz, luego de 20 KHz a O, de nuevo de O a
20 KHz ...
En los ejemplos anteriores siempre hemos supuesto seila1cs de entrada simples,
es decir, senoides puras. Los tonos complejos, como los generados por los instru
mentos musicales, estn formados por la suma de mltiples armnicos. En este
caso las frecuencias de a]iasina se gene-an para cada uno de los armnicos. Por
ejemplo, el segundo armnico de una forma de onda compleja, cuya fundamental
sea de 10 KHz, tendr una frecuencia de 20 KHz, la cual estara en el lmite si uti
lizramos una frecuencia de muestreo de 40 KHz, mientras que el tercer armni
co sera devuelto como una seal de 10KHz, reforzando la fundamental y cam
biando el timbre del instrumento.
En la mayora de las ocasiones la fundamental y sus armnicos no sern sub
mltiplos exactos de la frecuencia de muestreo. Por ejemplo, una seal de
6 KHz tendr un cuarto armnico de 24 KHz, que generar un producto de alia
sin8 de 16KHz, un quinto armnico generar aliasi1J8 a 10KHz, un sexto a 4 KHz,
cte. Puesto que la amplitud decrece a medida que aumenta la frecuencia de los
armnicos, el efecto, si se produce, slo tiene un cierto peso en el caso de los pd
meros armnicos.
Por tanto, el aliasin8 genera esencialmente distorsin, en especial distorsin
armnica. La solucin, una vez ms, es un buen filtrado previo al muestreo, res
petando el criterio de Nyquist y, a ser posible, dejando un cierto margen de segu
ridad que permita acomodar holgadamente los filtros.

Figura 10.6.
Los productos de aliasin8 se producen a frecuencias Fa

difLtiil

Despus del muestreo, el siguiente paso en la conversin de analgico a digital


es la cuantificacin. sta consiste en representar cada muestra de audio mediante
un nmero, normalmente en formato binario. As como el muestreo discretiza o
limita la seal de audio en la direccin temporal (slo existe en determinados ins
tantes), la cuantificacin discretiza la seal de audio en lo referente a las amplitu
des (slo estn permitidos determinados valores de amplitud). Se puede decir que,
mientras el muestreo preserva la informacin temporal, la cuantificacin preserva
las amplitudes, o que, mientras el muestreo se relaciona con el ancho de banda, la
cuantificacin hace lo propio con el rango dinmico.
Los valores de amplitud que estn permitidos son aquellos que pueden repre
sentarse con un nmero predeterminado de bits. Por ejemplo, si slo pudiramos
usar cuatro bits para representar cada muestra, dispondramos de 16 posibles valo
res (24= 16). Con cinco bits dispondramos de 32 posibles niveles de cuantifica
cin; con seis bits, de 64, etc. La cuantificacin, por tanto, mide y codifica cada ins
tante de tiempo. En la cuantificacin, tal como sucede con cualquier tipo de medi
da, la precisin queda limitada a la resolucin del sistema. Si medimos longitudes
con una cinta mtrica que est tarada en milmetros, sa ser nuestra precisin: un
milmetro. Si queremos ms precisin, tendremos que usar un "pie de rey", capaz
30S

Tt:( 'NOI

oc!.'\.

de precisar dcimas de milmetro, etc. Esta limitacin en la resolucin de las mues


tras supone la generacin de errores de medida que, como se ver un poco ms
adelante, pueden entenderse como la introduccin de ruido.
Para mejor entender los efectos de la cuantificacin y de los errores que durante
esta se introducen, veamos el siguiente ejemplo: supongamos que disponemos de dos
cronmetros, uno analgico y otro digital. Con ambos instrumentos medimos a la
vez la duracin de un suceso determinado. La precisin que obtendremos con e! cro
nometro analogico depende de nuestra agudeza visual y de nuestra capacidad para
deducir la posicin de la manecilla, parada entre dos marcas proximas de la esfera.
La precisin obtenida con el cronmetro digital depende de su capacidad para mos
trar fracciones de segundo, la cual se determin durante el proceso de diseo de!
aparato. Con e! cronmetro analogico podramos haber obtenido una medida de 2
min., 12 seg., 5 dcimas. Con un cronmetro digital barato podramos haber obte
nido 2 min., 12 seg. ; con otro cronmetro un poco mejor, 2 min., 12 seg., 7 dci
mas; con uno muy bueno, 2 min., 12 seg., 72 centsimas. Adems si dos personas
miran la esfera del cronmetro analgico es muy posible que den dos medidas dis
tintas para las dcimas interpoladas; en cambio, no es posible que lean dos valores
digitales distintos!
El error en la medida analgica es aleatorio, ya que depende de variables fsicas
no controlables, tales como la balstica de la saeta de! reloj o la capacidad de un
observador humano para interpolar valores. El error en el dominio digital no es
aleatorio, sino que depende de la precisin con que se haya diseado el sistema. En
e! caso de! cronometro, depende del nmero de dgitos decimales que se muestren
en la pantalla; en el caso del audio digital, depende de! nmero de dgitos binarios
(bits) que se utilicen en la representacin de las muestras.
En cualquier sistema de medicin digital el ltimo dgito es siempre una apro
ximacion, por defecto o por exceso, al valor real o, lo que es lo mismo, un redon
deo. Un medida, de por ejemplo, 26,672 se representara como 26,7 en el caso de
que la precisin estuviera limitada a un decimal, o como 26,67 si permiten dos
decimales. El error mnimo posible es cero y se da cuando, por casualidad, los dgi
tos no representados son cero; e! mximo error es igual a '/ 2 del dgito represen
tado de menor peso.
La cuantificacin consiste, por tanto, en medir un suceso analgico para con
vertirlo en informacin numrica, que, en e! caso de! audio digital, es, por supues
to binaria. Al igual que sucede con el cronmetro, la precisin de la medida depen
de de la cantidad de dgitos utilizados para representarla. As como el muestreo es,
si se toman las precauciones adecuadas, un proceso sin prdidas, en la cuantifica
cin siempre se producen errores, es decir, s se introducen prdidas. Por otro
lado, tales prdidas o errores se pueden minimizar hasta que resulten irrelevantes.

2.2.1. La relacin seal a ruido de cuantificacin


En television nunca ha sido muy importante el valor del ruido en terminas
absolutos. En lugar de esto, prefiere utilizarse otro parmetro: la relacin seal a
ruido o, abreviadamente, SNR. Este parmetro nos indica cuntas veces la seal es
306

El audiu di.ital

ACTUAL Ilr TI:I E\,ISlc)N

mayor que el ruido, lo cual es mucho ms significativo, ya que e! ruido, al ser una
perturbacin o interferencia, puede ser enmascarado por la sel1al si sta es sufi
cientemente alta.
En el sistema de numeracin decimal (el que normalmente utilizamos los
humanos) el nmero de "alores (V) que se pueden representar depende del nme
ro de dgitos (n) empleados, segn la expresin V = 10"; as, por ejemplo, con tres
dgitos decimales podemos expresar 10 3 1.000 valores distintos; con cuatro dgi
tos decimales, 10' == 10.000, etc. Igualmente con el sistema de numeracin bina
ria podemos representar hasta 2" valores, siendo "n" el nmero de dgitos binarios
o "bits" utilizados para representar las muestras.

Tabla 10.1 Relacin entre el nmero de bits empleados y el nmero de posibles valo
res de cuantificacin.
Potencias
de dos

Valores minimo y mximo

Combinaciones

1
2
3
4
5
6

2'
2'
2'
2'
2'
2'

0-1
00-11
000-111
0000-1111
00000-11111
000000-111111

2
4
8
16
32
64

...

...

...

10
...
16

2'0

0000000000-1111111111

1.024

20

2'"

24

2"

N. o de bits

...

...

...

2"

0000000000000000
1111111111111111
...
00000000000000000000
11111111111111111111

65.536

...

000000000000000000000000
-111111111111111111111111

'"

1.048.576

...
16.777.216

Como puede verse en la tabla 10.1, con cada bit extra aadido en la represen
tacin de las muestras se dobla la cantidad de combinaciones o valores de cuantifl
cacion posibles. Est claro que cuantos ms bits se utilicen en la representacin de
las muestras, mayor ser la precisin. Con 6 bits slo podremos dividir la amplitud
de la seal analogica en 64 niveles distintos; con 10 bits dispondremos de 1.024
niveles; con 16 bits, ms de 65.000 niveles, etc.
En la figura 10.7 la seal analogica ha sido muestreada a una cierta frecuencia
(lit) Y cuantificada con slo dos bits. Esto proporciona un nmero dc niveles de
cuantificacin N == 4. El nmero de intervalos de amplitud entre los niveles mxi
mo y mnimo es igual a N - 1 4 - 1 == 3. Un intervalo de cuantificacin "q" puede
definirse como S/(N - 1), siendo S el nivel de amplitud de la seal analgica.
En cada instante de muestreo el conversor A/D tiene que tomar la clecisin de
otorgar un valor digital a cada valor de amplitud de la seal analgica. Para eH.o
establece un umbral de decisin, situado justo entre dos valores digitales permltl

307

TEC~()LOGI,' ..\ t"'fU.\L 1)1. lTL';;\'I~IN

_ _ _ _--'l~:l~,lUJit) d..;g_!J~
Seal muestreada
y cuantificada

Umbrales de Seal original


decisin
~

~:".)-

11 - - - __

/10 -.- ..,... l ..


"

;=;:::

--------J-.----4- -

---------------

,q

Q.

01 :

.,

00

_.~ J
~!J

-f - -.1-.

. __ L_ . , _

Tiempo ----------..

Error de cuantificacin

r----r-Y

I , .

Figura 10.7.
Relacin entre la senal analgica, los niveles digitales, los intervalos y el error de cuantificacin.

dos. Si en ese instante de muestreo la sei.al analgica tiene un nivel superior al del
umbral, el conversor optar por el nivel digital inmediatamente superior; en caso
contrario, se decidir por el inmediatamente inferior. De esta forma el conversor
AID comete un error, cuyo valor mximo es de 1/2 q o, en terminas absolu
tos, "q". Esto es lo que representa la parte inferior de la figura 10.7. A medida que
aadimos bits en la representacin de las muestras, el nmero de niveles aumenta
y el error se reduce exponencialmente. Con 6 bits por muestra el error ser de
1/63 S; con 16 bits, 1165.535 S, Ycon 20 bits el error ser menor que una millo
nsima parte de la seal analgica de entrada. Por tanto, a partir de n cierto
nmero de bits el error, en comparacin con la seal (que es lo que interesa) puede
considerarse como irrelevante.
Podemos entender el error de cuantificacin como un ruido o seal indeseable
que se aade a Ja seal til. En radio y televisin nos interesa poder expresar la
relaci6n entre la seal original y el ruido de cuantificacin introducido en decibe
lios. Puesto que estamos trabajando con voltajes, la frmula que tendramos que
aplicar es:

S
SNR (dB) = 20 log
N
Por otro lado, hemos visto que con cada bit que aadimos el ruido se reduce a
la mitad o, lo que es lo mismo, la relacin S/N se dobla. Si sustituimos S/N por 2,
podremos expresar la frmula anterior en funcin del nmero de bits "n" emplea
dos: SNR ::: 6n; puesto que 20 veces es logaritmo decimal de 2, es aproximada
mente 6. En otras palabras, la relaci6n seal a ruido de cuantificacin es igual a 6
veces el numero de bits empleados en la representacin de las muestras.

La seal de entrada es analogica, pero el ruido producido es de origen digital.


Esto cambia un poco las cosas con respecto al caso de trabajar con seii.ales y ruidos
de carcter analgiCO. En concreto, no se trabaja directamente con los "alol-es de
voltaje de la seal)' del ruido, sino que se divide el valor RMS de la seal por el
,'alar de energla del ruido, dependiendo este ltimo no slo de "q", sino tambin
de la probabilidad de ocurrencia de todos los valores de error, desde O hasta '! 2
"q". ASI, finalmente, se obtiene la formula:
SNR ::: 6,02n + 1,76 dB
El rango dinamico de una seal de audio se entiende como el rango dE' niveles
de volumen o sonoridad que se cubren correctamente en un sistema de comuni
cacin, normalmente expresados en decibelios, y viene determinado por la rela
cin entre el umbral de ruido y el mximo nivel reproducible sin distorsin. En
audio tradicionalmente se ha considerado como "muy buena" una seal cuyo rango
dinamico este por encima de los 90 dB, Utilizando 16 bits por muestra obtendre
mos: 16 x 6,02 + 1,78 dB ::: 98,1 dB. Ntese que si hubieramos utilizado la fr
muja simplificada de SNR = 6n, el resultado sedan 96 dB en lugar de 98,1, lo que
significa que en la practica la fOrmula simplificada es perfectamente vlida,
La mayora de las aplicaciones de audio digital trabajan con 16 bits por mues
tra. El interfaz de audio digital AES/EBU permite utilizar 20 e incluso 24 bits por
muestra, lo que dada una relacin seal a ruido de cuantificacin de 122,18 Y
146,26 dB, respectivamente, aunque las ms de las veces los interfaces AES/EBU
slo transportan 16 bits por muestra.
Volviendo al ruido de cuantificacin, puede ser aclaratorio el siguiente ejemplo:
supongamos que tenemos que digitalizar una seal de audio de, por ejemplo, 2
Vpp. Para simplificar, utilizaremos 8 bits por muestra, de manera que a los cero
voltios le corresponda el valor binario 00000000 (O decimal) y a los 2 voltios el
11111111 (255 decimal). Con estos valores habr 256 c6digos para representar
256 valores, que abarcan 255 intervalos de cuantificacin. Cada intervalo cubrid
2 V 1255 ::: 0,00784 Va 7,84 mY. Si en un instante de muestreo determinado la
seal de entrada vale exactamente 1,6 V, su valor de cuantificacin ser 255 x
1,6/2 ::: 204, es decir, a la tensin de entrada de 1,6 V le corresponde el valor
exacto de salida 204, que se expresa en binario como 11001100. En este caso la
cuantificacin habra sido perfecta y no se habda producido ningn error. A
1,60784 V le corresponde el valor 205 (1100110 1 en binario), que tambin es un
cdigo exacto. Por otro lado, a un valor de voltaje de entrada de 1,60392 V le
corresponde el valor decimal 204,5, que no puede expresarse con ocho bits, por
lo que debe truncarse a 204 o a 205, cometiendose, en cualquier caso, un error de
medio intervalo de cuantificacin,
El ruido de cuantificacin puede entenderse como una seal de error, con valo
res entre + 1/2 q Y-1/2 q, que se suma a la seal de entrada. Este error o ruido
de cuantificacin es distinto de! ruido de la seal analgica, ya que, mientras que
este ltimo es aleatorio, e! debido a la cuantificacin depende del valor de la seal
de entrada, ya que no es otra cosa que la diferencia entre los valores de la seal de
entrada en los instantes de muestreo y los valores de cuantificaci6n permitidos. Por
tanto, ms que ruido deberla clasificarse como una forma de distorsin. Un anl

308

309

TEl'NOI ()(i1A -\CTU-\I IlrTH l\'IS/O:'\.

El audio divital

sis matemtico del error de cuantificacin demuestra que la distorsin no depen


de del rango de amplitudes que se est codificando en un momento dado, sino de
la amplitud de los peldaos de cuantificacin, es decir, de "q". Por tanto, cuanto
mayor sea el nmero de intervalos de cuantificacin, menor ser la distorsin.
Ahora bien, lo realmente importante no es el numero total de peldailos de cuanti
ficacin que un sistema determinado permita, sino los que realmente se usen para
codificar la seal. Dicho de otra forma, la distorsin introducida por el ruido de
cuantificacin es ms notable, como era de esperar, en los pasajes de bajo nivel que
en los "fortsimos". La conclusin es que, aunque el error de cuantificacin es en
esencia una especie de ruido que introduce el conversor A/D y que como tal debe
entenderse en la mayora de las ocasiones, tal ruido es distinto del analgico-alea
torio y puede tambin entenderse como una forma de distorsin, tanto ms moles
ta cuanto ms bajo sea el nivel de la seal a codificar.

2.2.2. CuantificaCin diferencial y no lineal


Existen otras formas de codificar las muestras de audio, adems de la explicada
en los prrafos precedentes. Aunque no se aplican en produccin o posproduccin
de audio digital, existe una familia de sistemas, llamados de "codificacin diferen
cial", que tienen su aplicacin en ciertos sistemas de transmisin o cuando se quie
re grabar audio con baja tasa binaria.
Dentro de la familia de sistemas de codificacin diferencial, uno de los ms
populares es la modulacin delta. Es sta una forma especial de modulacin dife
rencial de impulsos, en la cual el valor actual de la muestra de la seal de entrada
es comparado con el valor de la muestra precedente. Si el valor de la muestra ante
rior era menor (la seal sube), se codiflca con un estado binario (por ejemplo, un
1). Si el valor era mayor (la seal baja), se utiliza el otro estado binario (en este
ejemplo sera un O). De esta forma slo se emplea un bit por cada perodo de
muestreo. Para evitar errores de pendiente (la seal de entrada cambia' ms rpi
damente de lo que es capaz de indicar el bit codificado), la frecuencia de muestreo
de un sistema delta debe ser muy superior a la de un sistema PCM (Pulse Code
Modulacion).
Existen tambin sistemas de cuantificacin no lineal, en los que, una vez que la
seal ha sido muestreada, se procede a cuantificar las muestras, pero de manera que
el tamao de los pe!daos o niveles de cuantificacin es desigual: ms pequeo para
los valores bajos de la seal de entrada y mayor para los niveles altos. La intencin tam
bin en este caso es ahorrar bits. Utilizando cuantiflcacin lineal, es decir, como se ha
explicado en los prrafos anteriores, el error medio cometido es independiente de!
nivel de la seal de entrada y vale siempre 1/(2" ~ 1) partes de la seal, siendo "n" e!
nmero de bits empleados para cuantificar las palabras de audio. Ahora bien, la per
cepcin de! error es mucho ms evidente en los pasajes de bajo nivel que en los de
nivel alto, ya que en e! primer caso la pl"Opia seal til enmascara e! ruido. Si utiliza
rnos menos bits (por ejemplo, 10 o 12 en lugar de 16), el ruido durante los pasajes
bajos ser intolerable, a no ser que empleemos un sistema de cuantificacin que divi
da la seal de entrada en peldaos, cuya altura sea proporcional al nivel de la propia

seal de entrada: pequeos para los niveles de cuantificacin menores y grandes para
los niveles de cuantificacin ms altos. Esto es lo que hacen los sistemas de cuantifica
cin no-lineal, de manera que, si bien generan seales de error o ruido variable, man
tienen constante la relacin seal a ruido que, desde e! punto de vista perceptivo, es
lo que interesa.
De todas formas estos sistemas de codificacin alternativos, cuya intencin es la de
ahorrar bits, estn cayendo en desuso, ya que la modernas tcnicas de compresin,
basadas en sofisticados algoritmos matemticos y en complejos mecamsmos de
enmascaramiento, permiten reducciones de datos muy superiores.

2.3. Cdigos ponderados y no ponderados


La seal de audio suele se bipolar, es decir, est formada por hemiciclos positi
vos y negativos, centrados en cero voltios. Por esto la mejor manera de codificar la
seal, pensando en posteriores procesados, es otorgar a cero voltios el valor digi
tal cero, valores negativos a los niveles de entrada negativos y valores positivos a
los niveles de entrada positivos. Por otro lado, los nmeros negativos son un pro
blema, ya que el signo debe ser codificado junto con los otros bits que representan
la cantidad. Se podra, por ejemplo, emplear un" 1" en la parte de mas a la izquier
da para indicar que se trata de una cantidad negativa y un "O" para indicar positivo.
Aunque las maquinas digitales no empleen el sistema decimal, puede ser con
veniente para los humanos disponer de un cdigo binario que est directamente
relacionado con el sistema decimal, de forma que a cada dgito decimallc corres
ponda una combinacin binaria de ceros y unos. Con tres bits podemos codiflcar
hasta ocho valores diferentes, lo que resulta insuflciente para los diez digitos deci
males que queremos codificar. Con cuatro bits las combinaciones se elevan a 16;
no queda ms remedio que coger la opcin por exceso y emplear cuatro bits. Hay
muchas formas de codificar cuatro bits para representar los diez dgitos decimales.
Ya que se dispone de muchas opciones, lo mejor ser emplear las que proporcio
nen ms ventajas. Por ejemplo, un buen cdigo debera facilitar las operaciones
aritmticas, la correccin de errores, reducir el espacio de almacenaje necesario y
la complejidad de la circuitera lgica.
En los cdigos ponderados (que a menudo ofrecen ventajas sobre los no pon
derados) cada posicin de bit representa un valor decimal. La cantidad representa
da se obtiene sumando los valores ponderados de cada bit. En el cdigo BCD
(BinaIY Coded Decimal) se emplean cuatro bits para representar cada valor decimal.
El bit de ms a la izquierda tiene peso 8; el siguiente a la derecha, 4; el siguiente,
2, Y el de ms a la derecha, 1. La tabla 10.2 muestra este cdigo (tambin llamado
8-4-2-1), junto con otros cdigos como el "exceso-3", el "2-entre-S" y e! "cdigo
Gray". De todos ellos, slo e! "BCD" es un cdigo ponderado.
En algunas aplicaciones se prefieren los cdigos no ponderados, en los cuales la
posicin del bit no indica directamente un valor a sumar a la cantidad final. El cdi
go "exceso-3" se obtiene sumando 3 (0011) al cdigo "8-4-2-1". De esta forma no
se emplean los valores binarios comprendidos entre "O" y "9", sino los que van del
"3" al "12", con lo cual el cdigo queda "centrado" con respecto a los 16 valores

310
311

_________.

I[c~pL()(JI.'\ .'\CTlJ~1 DI ITLl:\I~IO:\

posibles. Adems se asegura de esta forma que todas las combinaciones utilizadas
tendrn, al menos, un "1 ".
El codigo 2-enlre- 5 emplea 5 bits pal-a cada palabra, con lo que resulta menos
eficiente en trminos de necesidades de almacenamiento. Su yen taja es que pre
senta una regla de codificacin muy clara: cada palabra esta formada por dos unos
y tres ceros. Esto permite la deteccion de errores, ya que cualquier error indivi
dual supondra que la palabra contendra un soja uno o tres unos.
El codigo Gray se caracteriza por e! hecho de que slo cambia un bit de una
palabra dada a la siguiente, de manera que un "contador" que iniciara la cuenta en
cero slo tendra que alterar el valor de un bit en cada incremento. Una desventa
ja de los cdigos no ponderados es que, en general, el valor decimal que les corres
ponde no puede ser calculado aritmticamente a partir del codigo hinario. En lugar
de esto se suele emplear el mtodo de "consultar tablas".

lLillJ~lliulli;.li~l.i

10 11. El problema es que en la clula de memoria, donde queremos almacenar el


resultado, slo caben tres bits, de manera que no podemos almacenar e! bit de ms
a la izquierda, que es producto del acarreo, con lo que tendramos que almacenar
"O 11 ". Se dice entonces que se ha producido un "dcsbordamiento". El problema de!
desbordamiento es propio de todos los sistemas que trabajan con un nmero fini
to de dgitos.
Podramos representar la suma de dos nmeros, por ejemplo 7 y 5, colocando
dos segmentos de longitud adecuada uno detrs de otro, formando una lnea recta.
Si trabajamos con un nmero finito de dgitos, podra ser ms aclecuado conectar
los dos segmentos formando un crculo.

1111

0111

1000
0111

0000
1111

Tabla 10.2 Varios ejemplos de cdigos binarios ponderados y no ponderados.


D/GITO
DCIMAL

CDIGO
8-4-2-1

CDIGO
EXCESO-3

CDIGO
2-ENTRE-S

CDIGO
GRAY

0000
0001
0010
0011
0100
0101
0110
0111
1000
1001

0011
0100
0101
0110
0111
1000
1001
1010
1011
1100

00011
00101
00110
01001
01010
01100
10001
10010
10100
11000

0000
0001
0011
0010
0110
1110
1010
1011
1001
1000

1
2
3
4
5
6
7
8
9

0000
Desplazamiento
binario

2.3.1. Complemento a dos


Ya se ha comentado anteriormente la dificultad de representar nmeros nega
tivos. El mtodo de codificacion "complemento a dos" proporciona una represen
tacin eficaz para este tipo de nmeros. Como se ha visto en captulos anteriores,
es fcil evitar los valores negativos en la seal de vdeo digital. Para ello basta con
otorgar el valor digital positivo y ms pequeo al nivel mnimo de la seal analo
gica. Esto es posible porque la seal de vdeo analogica es "unipolar".
Por el contrario, la seal de audio es bipolar y generalmente "simtrica", de
manera que presenta por igual valores positivos y negativos. La eodifieacion "com
plemento a dos" tiene su aplicacin sobre todo en la representacion de! audio digi
tal, aplicacion en la que presenta numerosas ventajas. Por ejemplo, cuando los
nmeros binarios se procesan y almacenan en su forma complementada, tanto la
suma como la resta pueden lograrse utilizando la misma circuitera.
La aritmtica binaria puede presentar problemas cuando se desea, por ejemplo,
almacenar el resultado de una operacion. Supongamos que estamos trabajando con
tres bits y deseamos sumar los nmeros 100 Y 111. Vemos que el resultado es
312

1000
Complemento
a dos

Figura 10.8.

Seal senoidal con codificacin por desplazamiento binario (a la iZCJuierda) y con comple

mento a dos (derecha).

Si sumamos 7 10 (1 J 1,) Y 5 10 (10 1') con este sistema, el resultado ser 4 10 (100,),
que corresponde a la zona de solapamiento de los dos sumandos, en la reprcsenta
cion circular. Estc tipo de operaciones se denomina "aritmtica modular" y, aunque
parezca muy teorico, lo usamos cada da cuando decimos, por ejemplo, que son la
"seis de la tarde". En realidad, son las "seis modulo 12", o las "18 modulo 24", etc.
El resultado obtenido antes puede calcularse aritmticamente, restando de la
"suma normal" 2", siendo "n" el nmero de bits empleado; en nuestro ejemplo, tra
bajando con tres bits, restaramos 8.
Dos nmeros que proporcionen e! mismo resto al ser divididos por el modulo
se dice que son iguales. Por ejemplo, 10 = J8 modo 8, ya que ambos producen un
resto = 2.
El complemento de un nmero se forma restando cada dgito de la "hase
313

El audio dipital

TECNO! OGIA ACI llAI DE TlI.r\'ISIO~

menos-l" y ai1adiendo 1 al dgito menos significativo. Por ejemplo, e! "comple


mento a la" de! nmero 43 es 57 y se obtendra restando de 9 (la base 1O menos
1) el 3 de las unidades, con lo que obtendramos un "6" para las unidades. A conti
nuacin restaramos e! 4 de 9 y obtendramos un 5 para las decenas. As tendra
mos como resultado provisional e! nmero 56; sumndole 1 a las unidades obten
dramos 57.
Dos nmeros complementarios suman siempre una potencia exacta de la base.
En nuestro caso, al trabajar con dos dgitos decimales: la' == lOO.
Trabajando en binario el mtodo es ms sencillo. Todos los nmeros positivos
comienzan por cero y todos los negativos por l.
a) Conversin de binario a complemento a dos.

a, el error de cuantificacin se hace ms importante y comienza a correlacionarse


con la seal, es decir, el error deja de ser aleatorio y pasa a ser una funcin de la seal,
lo que significa que el ruido de cuantincacin se convierte en distorsin.
Para entender el efecto de! dicher, puede ser interesante revisar la siguiente
situacin: supongamos una sea senoidal con una amplitud pico-a-pico entre '/, Y
un nivel de cuantificacin (figura 10.9-a). Pueden pasar dos cosas (dependiendo
del nivel medio de la seal): o que nunca cruce el umbral entre dos niveles (y, por
tanto, se codificara como una seal de OC) o que s cruce dicho umbral (lo que
generara una seal rectangular). En el primer caso perdemos la informacin; en
el segundo, la distorsionamos (figura IO.9-b).

Nmeros positivos

Aadir ceros al inicio para indicar el bit de signo.


Ejemplo: lOO, == 4 10 == alOa,,"

Umbral de
Decisin,

Nmeros negativas

Aadir ceros al inicio hasta igualar la longitud definitiva. Invertir todos


los bits. Sumar uno.
Ejemplo: la, == 2'0 aadiendo los ceros iniciales 0010, invirtiendo 1101
y sumando 1: 1110 le ==-2
b) Conversin de complemento a dos a binario.
Si el "MSB" (BIT ms significativo) == 1 (nmeros negataivos).
Invertir todos los bits y sumar uno.
Ejemplo: 1001 invirtiendo todos los bits: olla y sumando 1: 0111.
Ntese, en el ejemplo anterior, que hemos pasado de 1001 (-7) a 0111 (7), con
lo que hemos perdido el signo. Los nmeros que en el sistema de complemento a
dos comienzan con cero tienen la misma representacin en el "metodo directo",
tambin llamado "codificacin con desplazamiento".
Trabajando con el metodo de "complemento a dos", las seales de audio digi
tal quedan representadas, con respecto a un punto medio, igual que las'analgi
caso De esta forma es posible, por ejemplo, "mezclar" dos seales digitales,
sumando simplemente sus valores. Si se desea atenuar una seal a la mitad (- 6
dB) bastar con dividir el valor de las muestras complementadas por dos, etc.

2.4. El dither
Siempre que se cuantifica se producen errores por redondeo. Aunque la ampli
tud de estos errores es muy pequea, es necesario considerar sus efectos si quere
mos obtener la mxima calidad en la reproduccin de la msica.
El dither es una seal de bajo nivel, generalmente formada por ruido blanco con
una amplitud inferior a un nivel de cuantificacin (tpicamente entre '/ l Y '/, pico-a
pico), que se suma a la seal analgica antes de ser muestreada. El dieher asegura que
incluso la seal ms pequea cruzar, al menos, un nivel de cuantificacin, de mane
ra que los perodos adyacentes correspondern a niveles de muestreo distintos.
Cuando la seal de audio presenta altos niveles, el error de cuantificacin es pequeo
y puede entenderse realmente como ruido. A medida que la seal se hace ms peque314

IblllJ

(e)

IdlUJUfllm lJ

Figura 10.9.

Efecto de adicin de dicha a una seal senoidal de muy bajo nivel.

Antes de la conversin A/D sumemos un poco de ruido aleatorio a la seal


senoidal (figura 1O.9-c). Los picos del ruido, distribuidos al azar, harn que la seal
cuantifkada cruce aleatoriamente los umbrales de cuantificacin. Seguid siendo
una onda rectangular, pero se habr producido una especie de modulacin de
anchura de pulsos extra (figura 1O.9-d) que, al ser promediada por el odo, volve
r a reconstruir algo similar a la seal senoidal original.

3. Interfaces digitales para audio


De poco servira disponer de seales digitales si cada vez que una mquina
reproductora tiene que enviar la seal de audio a otra, la primera tuviera que
reconvertir dicha seal a analgica, mientras que la grabadora tuviera que vol
315

Trc:-.;'oLo<.;I:\

:\CTUAL

nr. lTLl.:\'I"[O:'\

ver a convertir la s6ial a digital para grabarla como ceros y unos. Lo que hace
falta es una norma de comunicacin digital o "protocolo" que determine el
orden en que se envan los bits, los niveles de tensin que los representan, las
impedancias, conectores, etc. Esto se conoce como interfaz y, en el caso del
audio digital, se dispone de dos interfaces o normas: el SPDlF y el AES/EBU.
Tambin veremos algo sobre el interfaz MADI, diseado para encaminar mlti
ples canales de audio digital sobre un nico cable coaxial. Aqu veremos prime
ro el AES/EBU, ya que no slo es ms antiguo, sino que es el nico verdadera
mente profesional.

3.1. El interfaz AES/EBU


El interfaz adoptado por AES/EBU est destinado a la interconexin de seales
digitales de audio en estudio mediante cables de hasta unos centenares de metros
de longitud. La frecuencia bsica de muestreo de la seal digital de audio es de 48
KHz, capaz de proporcionar una banda pasante de ms de 20 KHz, aunque sopor
ta tambin otras frecuencias de muestreo, como 32 KHz y 44,1 KHz. Por supues
to, se dispone de mtodos para sealar qu frecuencia de muestreo se est utili
zando en cada caso. La resolucin de las muestras ser variable, con un mnimo de
16 bits (lo que proporciona una dinmica de 98 dB) Y un mximo de 24 (146 dB).
Este interfaz est principalmente concebido para encaminar seales monofni
cas o estereofnicas en estudio, con las caractersticas de muestreo y cuantificacin
citadas anteriormente. Como se ha dicho, puede utilizarse tambin para uno o dos
canales muestreados a 32 KHz e incluso para canales muestreados a 44,1 KHz.
Junto con los datos de programa se transmiten tambin una referencia de reloj e
informaciones auxiliares.

3.2. Terminologa
Para simplificar la explicacin y facilitar la comprensin es conveniente fijar el
vocabulario o terminologa utilizada:
Frecuencia de muestreo.-Es la frecuencia con que se toman muestras de la seal ana
lgica de audio en el proceso de digitalizacin. Cuando se transmiten dos seales a
travs del mismo interfaz, stas debern tener la misma frecuencia de muestreo, es
decir, no es posible transmitir e! canal izquierdo con una frecuencia de 48.000 pala
bras por segundo y e! derecho con 44. 100 palabras por segundo
Palabra de muestra de audio.-Representa la amplitud de una muestra de audio
digital, es decir, se trata de! cdigo de 16, 20 o 24 bits que representa la amplitud
de una muestra puntual del canal izquierdo o de! derecho. La representacin es
lineal (todos los peldaos de la misma amplitud), en forma binaria y con comple
mento a dos. Los nmeros positivos (comienzan con O) corresponden a tensiones
lgicas positivas a la entrada del conversor analgico digital. Los nmeros negati
vos (comienzan con 1) corresponden a tensiones negativas.
El nmero de bits atribuidos a cada palabra es de 24 o de 20. Si la fuente pro
porciona menos bits de los que requiere e! interfaz (lo cual es muy frecuente, ya
316

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _~EI audiu digilil

que la mayora de las fuentes slo trabajan con 16 bits por muestra), los bits menos
significativos (LSB) no utilizados se pondrn a O lgico.
Bondera de mlidcz.-Cada muestra de audio incorpora W1 bit de validacin (bandera de
validez), el cual indica si la muestn es fiable o no. No se trata de W1 sistema de correc
cin de errores, sino de una simple indicacin que senir para que el receptor tome la
decisin pertinente, como, por ejemplo, interpolar el valor de la muestra actual, o
enmudecer si el nmero de muestras errneas seguidas es demasiado alto. Tambin se
utiliza para indicar el modo de funcionamiento en un solo canal (monofnico).
Estado del conal.~Es una estructura fija de infOl-macin, basada en paquetes de
192 bits obtenidos a partir de un nico bit por cada muestra de audio. Esta infor
macin se relaciona con cada canal audio y puede ser decodificada por cualqUier
interfaz de usuario. Como ejemplos de informacion de la sei'al de estado de! canal
se pueden citar: longitud dc las palabras de las mucstras de audio, indicacin de
preacentuacin, la frecuencia de muestreo, los cdigos de tiempo y cdigos alfa
numricos de origen y destino.
Datos de usuario.-La estructura dcl interfaz digital prev un canal de datos de
usuario para la transmisin de cualquicr otra informacin que pueda interesar al
usuario. No se imponen limitaciones a la organizacin de los bits de usuario, aun
que ofrece ventajas adoptar una estTuctura normalizada.
Bits de paridad.-Cada muestra de audio incorpora un bit dc paridad, e! cual per
mite la deteccin de un nmero impar de errores, debido al funcionamiento inco
rrecto del interfaz.
Prembulos.-Los prembulos son esquemas especficos (grupos dc bits con valor
fijo) para la sincronizacin. Se trata de patrones dc bits que no se pueden encon
trar en los valores PCM de las muestras y que se sitan al inicio de cada palabra.
Existen tres tipos de prembulo: de trama, de subtrama y de bloque_
Subtrama.-Es una estructura fija, utilizada para llevar la informacin descrita en
palabra de muestra de audio y prembulos. Cada canal de audio se relaciona con
una subtrama. As existe una subtrama para e! canal izquierdo y otra para el dere
cho o una para e! principal y otra para el secundario, etc. Una subtrama est com
puesta por el prembulo, hasta 24 bits de la muestra de audio y cuatro bits auxi
liares. En todo perodo de la frecuencia de muestreo dc la fuente se transmiten
secuencialmente dos subtramas, una para cada canal de audio.
Trama.-La trama es una secuencia de dos subu-amas, una para cada canal. Una
U"ama corresponde a un perodo de muestreo y lleva informacin dc los dos canales
que conforman la seal de audio digital AES/EBU. Por tanto, est formada por dos
palabras de muestra de audio, dos prembulos y dos conjuntos de bits auxiliares.
Bloque.-Con 192 tramas consecutivas (que corresponden a 192 perodos dc
muestreo) se forma un bloque. El comienzo de un bloque se identifica mediante
un prembulo especial. La estructura de bloques es muy til para codificar la infor
macin de estado y la de usuario.
Codificacin del canal.-La codificacin del canal describe el mtodo mediante e!
cual se representan las cifras binarias para su transmisin a travs del interfaz, es
decir, la forma elctrica exacta de la seal de audio, tal como se transmite por el
interfaz. El procedimiento es el denominado "marca bifase".
317

TrC"\JOI OCIA ACTUAl D1: Tri rq';;lo,,-:

3.3. Estructura del interfaz


Este interfaz est pensado para encaminar dos seales de audio digital multiple
xadas en el tiempo. Las dos seilales pueden estar relacionadas entre ellas (por ejem
plo, en el caso de un canal estereofonico) o ser totalmente independientes. El
interfaz AES/ EBU se basa en la utilizacin de tramas y subtramas. Una subtrama
no es otra cosa que una muestra de audio, ya sea del canal izquierdo o del derecho,
del canal primario o del secundario, etc., a la que se han aadido unos pocos bits
al inicio para sincronizacin y unos pocos bits al final como informacin auxiliar.

3.3.1. Estructura de la subtrama


Cada subtrama se divide en 32 intervalos de tiempo iguales (perodos de bit),
numerados del O al 31 .
Los intervalos de tiempo O al 3 corresponden a uno de los tres prembulos
permitidos, denominados X, Y o Z, segun identifiquen una trama, una subtrama o
un bloque.
Los intervalos de tiempo 4 al 27 llevan la palabra de la muestra de audio en
representacion lineal (todos los peldailos de igual altura) con complemento a dos
(los valores positivos comienzan por O y los negativos por 1). El intervalo de tiem
po 27 corresponde al bit ms significativo de la muestra de audio (MSB).
Cuando se cuantifica con 24 bits, el LSB (bit menos significativo) corresponde
al intervalo de tiempo 4.
Cuando se cuantifica con 20 bits, el LSB corresponde al intervalo 8 y los inter
valos 4 a 7 pueden ponerse a cero o destinarse a otras aplicaciones (canal de audio
de calidad "comentarios", por ejemplo). En estas circunstancias los bits en los
intervalos de tiempo 4 a 7 se denominan "bits auxiliares de la muestra". Los datos
del estado del canal informan, entre otras cosas, de la longitud de las pa)abras de
las muestras de audio.
Si la fuente suministra menos bits de los que permite e! interfaz (20 o 24), los bits
menos significativos no utilizados debern ponerse a cero lgico. Mediante este pro
cedimiento pueden interconectarse equipos que utilizan distinto nUmero de bits:
El intervalo de tiempo 28 lleva la bandera de validez asociada a la palabra de
la muestra de audio. Esta bandera se pone a cero si la muestra de audio es fia
ble y a uno en caso contrario.
El intervalo de tiempo 29 es un bit de! canal de datos de usuario asociado al
canal de audio transmitido en la misma subtrama. ste es e! bit con e! que se
obtienen los paquetes de 192 bits que transportan la informacin de! canal,
de la que se ha hablado en un prrafo anterior.
El intervalo de tiempo 30 lleva un bit de la palabra de estado de! canal aso
ciado a la misma subtrama. Con este bit se obtiene, despus de 192 tramas,
toda la informacin que se relaciona en e! apartado 3.3.
El intervalo de tiempo 31 es un bit de paridad, con un valor tal que los intervalos
4 al 31 inclusive tengan un nUmero par de ceros y un nUmero par de unos (pari
dad par). Esto permite al receptor analizar la integridad de la seal de audio reci318

El Jlldio Jip-ital

o-

-3 4
al

(J)

..J

27 28 29 30 31

Datos
auxiliares

Prembulo

XYZ

7 8
I
I
I
I

'ID

Palabra de la muestra de audio


en PCM y complemento a dos
para longitudes entre 16 y 20 bits

ID

(J)

I(J)

..J

Sumados permiten usar palabras de 24 bits

- - - ---.~

Bandera de Validez

Bit de Usuario--..l
Estado del Canal

Bit de Paridad

.J

Figura 10.10.

Estructura de la subtrama en el interfaz AES/EBU.

bida muestra a muestra. Si alguna muestra se ha alterado durante la transmisin por


e! interfaz, lo ms probable (aunque no seguro) es que la paridad falle. La falta de
seguridad se debe a que si se alteran dos o cualquier otro nUmero par de bits en
una muestra, el anlisis de paridad dar un resultado correcto.

3.3.2. Estructura de la trama


Una trama se compone de dos subtramas (figura 10.10) y se forma, por tanto,
con 64 bits. La velocidad de transmisin de las tramas se corresponde exactamen
te con la frecuencia de muestreo de la fuente (48,44,1 o 32 KHz).
Cuando se trabaja con dos canales las muestras tomadas de ambos canales se
transmite por multiplexacin en e! tiempo en subtramas consecutivas, es decir,
primero una muestra de! canal A, luego una de! canal B, una del canal A, etc. Las
subtramas correspondientes al canal 1 (canal izquierdo o "A" en funcionamiento
estereofnico y canal primario en funcionamiento monofnico) se identifican nor
malmente mediante e! prembulo X. Sin embargo, cada 192 tramas se cambia al
prembulo Z, con lo que se define la estructura de bloque utilizada para organizar
la informacin de! estado del canal.
Las subtrarnas de! canal 2 (canal derecho o "B" en funcionamiento estereofnico y
canal secundario en funcionamiento monofnico) utilizan siempre el prembulo Y.
Resumiendo, e! canal 2 siempre se inicia con e! prembulo "Y", mientras que e! canal 1
se inicia siempre con e! prembulo "X", excepto una de cada 192 veces en que lo hace con
e! prembulo "Z". Este prembulo "Z" es e! que indica que se inicia un nuevo bloque.
En el modo de funcionamiento de un canal se utiliza solamente el canal l. El bit
de validacin (bandera de validez) de las subtramas correspondientes al canal 2
deber ponerse a 1 (muestra no vlida).

3.3.3. Codificacin del canal


Los intervalos de tiempo 4 a 31 se codifican en "marca bifase", tambin conoci
do como "bifase-M" o "cdigo Manchester". Con esto se pretende minimizar la
componente continua (cuando varios bits consecutivos tengan e! mismo valor).
319

TU:i\Ol.OGI,.\ :\C rU:\l ])1 rlLl:TI;-,10~

...

... Medio periodo de bit

llill1J muJUJ rmJUlJ

o o

Codificacin en PCM

Canal
1

Canal
2

Canal
1

Canal
2

Canal
1

Canal
2

o
Reloj al doble de la frecuencia binaria

Subtrama O

.... Subtrama 1
T

Trama 191

Trama O
i~- -

..:.

Comienzo del bloque

Figura 10.11

Forma en que se multiplexan las subtramas )' detalle de los prembulos.

Adems se facilita la recuperacin del reloj a partir de los propios datos, con lo que
no hace falta una conexin extra de reloj y se hace insensible e! interfaz a las inver
siones de polaridad de las conexiones.
Cada uno de los bits que se transmiten se representa mediante un smbolo,
que consta de dos estados binarios consecutivos. El primer estado de un smbo
lo es siempre diferente del segundo estado del smbolo anterior. El segundo esta
do es idntico al primero si e! bit que se ha de transmitir es un cero y es dife
rente si se trata dc un uno (figura 10.12). Dicho de otra forma, siempre se pro
duce una transicin al final de perodo de bit, pero, adems, si el bit a codificar
es un "1", se produce tambin una transicin a mitad de perodo de bit.
Ntese en la figura 10.12 que con la codificacin "marca bifase" lo que deter
mina, si se est transmitiendo un cero o un uno lgico, no es el nivel elctrico de
la seal, sino la presencia o ausencia de transiciones a mitad de perodo de bit. Una
seal como la de la figura 10.12, pero totalmente invertida, sera tambin vlida,
ya que las transiciones se produciran en los lugares adecuados. Por esto se dice que
la codificacin "marca bifase" es insensible a los cambios de polaridad del cable.
Puede notarse, a partir de la figura 10.12, que la codificacin "marca bifase" es una
especie de modulacin en frecuencia digital: a los unos lgicos se les otorga una fre
cuencia doble que a los ceros lgicos. En ocasiones a la codificacin "marca bifase" se
la conoce tambin como "cdigo FM". Si se compara esta codificacin o modulacin
con los datos PCM originales, puede verse que la frecuencia mxima se ha doblado.
Esto conduce a la siguiente reflexin: ganamos robustez a costa de emplear un mayor
ancho de banda. En aplicaciones de audio digital esto es perfectamente aceptable, ya
qu se trabaja con frecuencias binarias moderadas. Un pequeo clculo nos permite
saber en que rango de frecuencias nos movemos:
32 bits por muestra X 48.000 muestras por segundo X 2 canales = 3.072.000 bits/s.
En PCM la frecuencia ms alta se obtendra cuando se presentara la secuencia
binaria 1010 1O10 10 ... Un ciclo bsico estara representado por una pareja" 10".
La frecuencia elctrica ms alta sera, por tanto, 3.072.000/2 = 1.536.00
ciclos/segundo o, redondeando, 1,5 MHz.

Codificacin en "Marca Blfase"

IUl
1

320

Trama 1

Figura 10.12.

Codificacin de la secuencia binaria" 1O111 O100 1" 3n Marca Bifase.

Empleando codificacin "marca bifase" la secuencia que genera cambios ms rpi


dos en la seal elctrica es 11111 , ya que produce dos flancos por cada perodo de bit.
Tal seal genera un ciclo completo por cada perodo de bit, es decir, 3.072.000
ciclos/segundo o, aproximadamente, 3 MHz. Cuando se normaliz este interfaz se
comprob que frecuencias en torno a los 3 MHz podan encaminarse sin problemas
por los cables apantallados utilizados para audio analgico.

3.3.4. Los prembulos


Los prembulos son pautas o esquemas fijos de bits que facilitan la sincronizacin
e identificacin de tramas, subtramas y bloques. Para lograr la sincronizacin dentro
de un perodo de muestreo y hacer que el proceso sea fiable, estos prembulos no
cumplen las reglas de! cdigo de marca bifase antes citado, con lo que se evita que los
datos puedan decodificarse como prembulos y viceversa. As cada vez que el recep
tor se encuentra con una pauta de bits que no cumple las normas de codificacin de
los datos PCM, "intuye" que se trata de una seal de sincronizacin, es decir, de inicio
de subtrama, trama o bloque. Las transiciones subsiguientes terminan de confirmar la
sospecha e informan del tipo de sincronizacin concreta.
Cada prembulo est formado por cuatro intervalos de tiempo (del O al 3) y se
representan por ocho estados consecutivos (dos estados por cada intervalo). El pri
mer estado del prembulo es siempre distinto del segundo estado del intervalo
anterior (del bit de paridad de la muestra anterior). Dependiendo de este estado,
los prembulos son:
O bien:
Prembulo X: 11100010 subtrama 1.
321

Tr-CN()! (){;L\ o\CTlJ:\1 nF TI:II:\'I:'lIO~

Prembulo Y:
111001 00 subtrama 2.
Prembulo Z: 11101000 subtrama 1 y comienzo del bloque.

O bien:

Prembulo X: 00011101 subtrama 1.


o Prembulo Y:
000110 11 subtrama 2.
Prembulo Z: 00010 111 subtrama 1 y comienzo del bloque.
La figura 10. 11 muestra, en la parte superior, los prembulos X y Z de! primer grupo.
El segundo grupo es exactamente igual al primero, pero totalmente invertido.
Al igual que en el caso del cdigo de marca bifase, estos prembulos no llevan
componente continua (o es mnima) y permiten una fcil recuperacin de! reloj.
Como mnimo difieren en dos estados de cualquier secuencia bifase vlida. En la
codificacin "marca bifase" no puede haber un perodo de bit completo (dos semi
perodos) sin transicin. Sin embargo, todas las secuencias de sincronizacin se sal
tan esta norma, ya que se inician con tres bits iguales (cada bit de sincronizacin
equivale a un semiperodo de bit de datos).

El audio dipital

Tabla 10.3 Datos contenidos en los 24 bytes de los datos de estado del canal.

OCTETO

o
1

2
3
4
5
6
7
8

Los datos del estado del canal se obtienen gracias al bit numero 30 de cada
muestra, etiquetado como "C". Las dos subtramas de cada trama transportan e!
mismo valor para e! bit "C": con 192 tramas se obtiene un bloque y, por tanto, 192
bits "c" Miles. Estos datos se estructuran en octetos, con lo cual habr 24 octetos
por bloque (24 X 8
192). La tabla 10.3 muestra los 24 octetos de estado de!
canal correspondientes a un bloque.
Para la transmisin de los datos se utiliza el mismo cable bifilar apantallado que
viene utilizndose en audio analgico profesional. La impedancia de la fuente es de
110 ohmios, la cual debe ser igualada por e! cable, al menos en e! rango de frecuen
cias en que nos movemos. Sobre esta impedancia e! transmisor deber producir una
seal filtrada de, como mnimo, 2 V Y mximo 7 V pico-a-pico. La impedancia del
receptor se fij inicialmente en 250 ohmios, lo que permita conectar varios recepto
res a una sola fuente de seal. Sin embargo, en la revisin de la norma de 1992 (AES
3) se dice que la impedancia del receptor ser igual que la de la fuente y que la de la
lnea de transmisin y que slo se conectar un receptor por interfaz. Si se desea
conectar varios receptores a una misma lnea, se utilizarn distribuidores activos.
El diagrama de ojo en e! extremo de recepcin debe presentar una anchura mnima
de 0,5 T", siendo T" igual a medio perodo de bit. La altura o amplitud mnima de! dia
grama de ojo en e! receptor ser de 200 mV El conector es de tipo XLR (Canon). Con
estas especificaciones se logran distancias de ms de 300 metros.

3.5. El interfaz SPDIF


Se trata de una variante de! interfaz para audio digital AES/EBU, muy utilizada en
aplicaciones domsticas. Esta norma tiene su origen en la IEC958 1989-03 (consumer
pare) de la UER. Al igual que el interfazAES/EBU, el SPDIF codifica seales de audio
322

Utilizacin del bloque. Preacentuacin. Frecuencia de muestreo.


Modo del canal: mono, estreo, dos independiente. Gestin bits de usuario.
Longitud de la palabras de audio: 20 bits, 24 bits ...
Ampliacin del octeto 1 para futuras aplicaciones.
Reservados pero no definidos. Valor por defecto: 00000000.

Datos alfanumricos para indicar el origen del canal.


Permite 4 smbolos ASCII de 7 bits + paridad impar.

9
10
11
12
13

14

3.4. Formato de los datos de estado del canal

FUNCIONES

15

16
17
18

19
20
21

22
23

Datos alfanumricos para indicar el destino del canal.


Permite 4 smbolos ASCII de 7 bits + paridad impar.
Cdigo de 32 bits para indicar la direccin local de las muestras. Tiene la misma
funcin que un ndice de cmputo en un registro y su valor es el de la direccin
de la primera muestra del bloque en curso. El LSB primero.
Cdigo de tiempo de 32 bits correspondiente a la primera muestra del bloque
en curso. Normalmente indica la hora del da fijada durante la codificacin
de la seal fuente. El LSB primero.
Banderas de validez de los datos de estado del canal.
Cdigo redundante cclico para control de errores en los bytes O a 22.

con cuantificacin lineal de 16 bits mnimo y 24 mximo. Las frecuencias de muestreo


pueden ser: 32 KHz, 44,1 KHz o 48 KHz. Se dispone tambin de 4 bits de informa
cin adicional por muestra: bit de validacin, bit de usuario, bit de estado de! canal y
bit de paridad. Las diferencias ms importantes entre e! SOIF y el AES/EBU son de
tipo fsico: cable coaxial de 75 ohmios (AES/EBU: par blindado de 110 ohms), conec
tor RCA o BNC (AES/EBU: XLR 3 pins.), nivel de seal 0,5 a 1V (AES/EBU: 2 a 7
V). Por lo dems, los protocolos de comunicacin son casi idnticos. Hay un bit en e!
cuadro de canal de estado que indica si la seal procede de uno u otro interfaz.

3.5.1. Diferencias J similitudes entre AES / EBU J FPDIF


Los dos interfaces estn pensados para encaminar dos canales de audio, aunque uti
lizan mtodos elctricos diferentes. El interfaz profesional AES/EBU utiliza un siste
ma de transmisin simtrico con voltajes relativamente altos, mientras que e! interfaz
domstico utiliza transmisin asimtrica con niveles de voltaje bajos. La figura 10.13
(a) muestra e! circuito elctrico recomendado en el caso de! interfaz profesional,
mientras que la figura 10. 13 (b) muestra la variante domstica.
Los transformadores no son obligatorios ni en la variante profesional ni en la
domstica, aunque resultan ventajosos, ya que proporcionan el mejor aislamiento
323

TECNOl()(;I:\ :,-(TU \1.

1)[ T,L1~"",.L"'\!cIS",j(","J'",-

enb-c dispositi\'os )' reducen los efectos de las interferencias elecb'omagneticas, En el


caso de la norma profesional se especifica que la patilla 1 del conector XLR se utilice
para la malla, mientns que la patilla 2 es el "positiYo")' la patilla 3 el "negativo", aun
que en este caso, si las patillas 2 y 3 se invirtieran, esto no tendra ningn efecto en la
recuperacin de los datos, ya que el cdigo de canal utilizado hace que estos sean
insensibles a los cambios de polaridad.
En la variante profesional el bit 29 se define como bit de usuario y se deja a la
eleccin de ste su contenido. La norma slo especifica qlle se utilizaran cdigos
(a)

r-Transmlsor

~--t--

Cable

-+---

Receptor

------1

~1?:': ~) I I ~~~H2=
~

(b)

Patillas
)
Conec1or XLR

~II-O)
L-. 1

r----Transmlsor

------t---

Cable

-----t---

"=

k>=

~-+-Receptor

--1

Figura 10,13.

Circuito elctrico recomendado para el interfaz profesional AES/EBU (a) y para el domstico (b).

ASCII Yque seria conveniente una mayor normalizacin para facilitar el intercambio
de informacin. En el caso del interfaz domstico, el bit 29 pasa a llamarse "bit de
subcdigo". El contenido del subcdigo se deja a la eleccin del fabricante (no del
usuario) y se estructura en bloques de 1.176 bits, delante de los cuales aparece una
.
palabra de sincronizacin de 16 ceros seguidos.
El subcdigo puede utilizarse para transportar informacin de proteccin contra
copias no autorizadas, segUn un protocolo denominado SCMS (Serial COPf Mana8crncnt
System). La idea es que una seal digital con derechos de autor (normalmente msica
pregrabada) puede copiarse una sola vez de "digital-a-digital", lo que permite al usua
rio asegurarse una copia de seguridad, pero evita el pirateo sistematizado.
En el interfaz profesional e! bit 2 del octeto O del "cdigo de estado de canal" se
utiliza para especificar, junto con los bits 3 Y 4 del mismo octeto, el tipo de "prea
centuacin". En el caso de! interfaz domestico, este bit se utiliza para decir si estan o
no permitidas las copias o, mas especficamente, si la seal tiene o no derechos de
autor. Ahora bien, este bit no es suficiente para una gestin eficaz de los derechos de
autor, ya que no indica la generacin de la copia de que se trata. Esta informacin adi
cional, estructurada en varios bits, puede localizarse en los datos SCMS transporta
dos por el bit de subcdigo. De todas formas, el tema de la proteccin contra copias
de digital-a-digital nunca ha sido respetado.
Existe tambin una variante del SPDIF que utiliza fibra ptica como medio de
propagacin. El medio de transmisin es una fibra de plastico de 1 mm y las sea
324

___________---'[o!.l-".,,<I;o d'I'\1!J

Tabla 10A Diferencias entre los interfaces para audio digital AESIEBU y SPOIF.

PARAMETRO

AESIEBU

Cable

110 ohmios (2 conductores 75 ohmios (cable coaxial o fibra


apantallados)
ptica)
XLR (Canon) de 3 patillas
RCA o BNC
2 a 7 voltios
0,5 a 1 voltio
Marca bifase
Marca bifase

Conector
Nivel de la seal
Modulacin
Informacin de
subcdigo
Mxima resolucin de
las muestras
Principal aplicacin

Texto en ASCII

SPDIF

24 bits

Informacin de proteccin contra


copias SCMS
20 bits (24 bits opcional)

Profesional

Domstica

les se transmiten utilizando luz visible (un LED rojo con longitud de onda de 660
nm), Este interfaz suele utilizarse en ciertos equipos domesticas, tales como
reproductores de CD,

3.6. El Interfaz MADI


MADI significa Multichannel Audio Di8itallnteiface (interfaz digital de audio multi
canal) y est pensado para proporcionar una norma de conexin entre equipos de
audio digital multicanal. Es capaz de transportar hasta 56 canales de audio AES/EBU
en formato serie, a travs de un cable coaxial, a 125 Mbitsl s, utilizando un cdigo de
canal NRZI. Los conectores son de tipo BNC y se garantizan distancias de mas de 50
metros. La longitud de las muestras de audio puede llegar hasta 24 bits. Se utiliza un
cdigo de canal de conversin directa, en el que con cada cuatro bits de datos se obtie
ne una palabra de cinco bits de canal. De esta forma es posible despreciar las 16 peo
res combinaciones (en terminas de bajas frecuencias y componente continua) de las
32 que son posibles con cinco bits.
El formato de los datos MADI se diferencia del formato AES/EBU solamente en los
primeros cuatro perodos de bit. En AES/EBU estos son ocupados por los preambulos.
En MADI, el primer perodo, o bit "O", es una bandera que indica el "canal O", que es el
primero que se transmite en un perodo de muestreo dado (hay que recordar que en
cada perodo de muestreo se transmiten hasta 56 muestras de 56 canales, una detras de
otra). El bit 1 indica si los datos son vlidos (desde el punto de vista del transmisor). Los
bits 2 Y 3 codifican los tres posible preambulos transmitidos al inicio de las subtramas
AES/EBU. El resto de los datos que conforman la subtrama MADI es idntica a la
AES/EBU, lo que facilita el intercambio de datos entre ambos sistemas.

Resumen
Todos los conceptos, principios y teoras sobre vdeo digital, tratados en captu
los anteriores, son perfectamente aplicables al audio digital. Por otro lado, una
seal de audio de calidad alta no excede los 20 KHz de ancho de banda, mien
325

El <ludio dipilal

TIT!'Jlll.()(;P. ACTUAL Df TEI r:\'rslo~

tras que W1a seal de vdeo analgica de calidad media, como la sei"ial compues
ta PAL, presenta un ancho de banda en torno a los 5 o 5,5 MHz.
El audio digital no precisa de una frecuencia de muestreo tan alta como la
seal de vdeo, pero, por otro lado, la cuantificacin de las muestras, es decir,
la precisin con que se mide y expresa el valor instantneo, ha de ser mucho
ms elevada. Otra cuestin a considerar es la forma de onda de la seal ana
lgica. La seal de audio analgica es simtrica, en el sentido de que sus valo
res de voltaje se centran en el valor cero, con excursiones hacia positivo y
hacia negativo. Las formas de onda por encima del valor nulo son prctica
mente copias especulares de las formas de onda negativas.
Un canal de audio analgico podra estar formado por un micrfono, un preampli
ficador, una mesa de mezclas, un magnetfono, una mster en casete o Lp, la copia
de distribucin, el reproductor domstico, el amplificador y los altavoces. Cada dis
positivo que atraviesa la seal de audio aade su propia distorsin o deformacin.
Adems aade tambin ruido. A la salida la distorsin total de la seal ser igual a la
suma de las distorsiones aadidas en cada etapa. Lo mismo sucede con el ruido.
La cadena o secuencia clue sigue la seal digital es: micrfono, conversor AID,
etapas que copian o procesan nmeros, conversor DI A, amplificador y altavo
ces. Todos los procesos de mezcla, amplificacin, efectos, etc. son, en el dominio
digital, meras operaciones matemticas. El necesario cambio a analgico se pro
duce slo en la etapa final, cuando el oyente reproduce el sonido original.
La digitalizacin o conversin AID se logra mediante dos etapas separadas: el
muestreo y la cuantificacin. Durante el muestreo la seal analgica es medi
da o muestreada a intervalos regulares para, a continuacin, durante la segun
da etapa (la cuantificacin), expresar cada una de estas medidas con un nme
ro limitado de dgitos binarios.
Siendo C. la frecuencia ms alta de la seal de audio analgico y siendo fs la fre
cuencia de muestreo, se producen, en torno a fs bandas laterales, con valores
(-f.." y (+(,.. La primera se llama "banda lateral inferior", mientras que la
segunda se denomina '1nnda lateral superior". Estas copias se denominan "alias"
y, aunque son inevitables y existen mientras la seal se mantenga en el dominio
digital, sern eliminadas, por indeseables, en la conversin digital-a-analgico.
En la prctica hay dos frecuencias de muestreo normalizadas: 44,1 KHz y 48 Kz.
La primera es la ms popular, mientras que la segunda puede considerarse como la
ms profesional. La primera se relaciona con la seal de vdeo segn la siguiente
frmula: 588 lneas multiplicado por tres muestras por lnea y por 25 imgenes por
segundo: 588 X 3 X 25 = 44.100 muestras por segundo. En la norma americana
se utiliza: 490 x 3 X 30 = 44.100. Para aplicaciones profesionales se opt por
48.000 Hz como frecuencia de muestreo, ya que presenta dos ventajas. En primer
lugar, es mltiplo de la frecuencia de campo de televisin (48.000/50 = 960), lo
que permite utilizar los VTR como msters y facilita la sincronizacin con la seal
de vdeo. En segundo lugar, mantiene una relacin sencilla con la 32 KHz, que fue
la frecuencia de muestreo propuesta en su momento para la radiodifusin digital.
El aliasing genera esencialmente distorsin, en especial distorsin armnica.
La solucin, una vez ms, es un buen filtrado previo al muestreo, respetando

326

el criterio de Nyquist y, a ser posible, dejando un cierto margen de seguridad


que permita acomodar holgadamente los filtros.
La cuantificacin consiste en representar cada muestra de audio mediante un
nmero, normalmente en formato binario. As corno e! muestreo discretiza o
limita la seal de audio en la direccin temporal, la cuantificacin discretiza
la seal de audio en lo referente a las amplitudes. Se puede decir clue mien
tras el muestreo preserva la informacin temporal, la cuantificacin preserva
las amplitudes, o que mientras el muestreo se relaciona con el ancho de
banda, la cuantificacin hace lo propio con el rango dinmico.
En cualquier sistema de medicin digital el ultimo dgito es siempre una apro
ximacin, por defecto o por exceso, al valor real o, lo que es lo mismo, un
redondeo. El error mnimo posible es cero y se da cuando por casualidad los
dgitos no representados son cero; el mximo error es igual a '1, del dgito
representado de menor peso.
En cada instante de muestreo el conversor AID tiene que tomar la decisin
de otorgar un valor digital a cada valor de amplitud de la seal analgica. Para
ello establece un umbral de decisin situado justo entre dos valores digitales
permitidos. Si en ese instante de muestreo la seal analgica tiene un nivel
superior al de! umbral, el conversor optar por el nivel digital inmediata
mente superior; en caso contrario, se decidir por el inmediatamente inferior.
La relacin seal a ruido de cuantificacin es igual a seis veces el numero de
bits empleados en la representacin de las muestras. Finalmente se obtiene la
frmula: SNR 6,02 n + 1,76 dB.
En audio tradicionalmente se ha considerado como "muy buena" W1a seal cuyo
rango dinmico est por encima de los 90 dE. Utilizando 16 bits por muestra
obtendremos: 16 x 6,02 + 1,78 dB = 98,1 dB. La mayora de las aplicaciones
trabajan con !6 bits por muestra. El interfaz de audio digital AES/EBU permite
utilizar 20 e incluso 24 bits por muestra, lo que dara una relacin seal a ruido
de cuantificacin de 122,18 y 146,26 dB, respectivamente.
Existen otras formas de codificar las muestras de audio, adems de la expli
cada en los prrafos precedentes. Aunque no se aplican en produccin o pos
produccin de audio digital, existe una familia de sistemas, llamados de "codi
ficacin diferencial", que tienen su aplicacin en ciertos sistemas de transmi
sin o cuando se quiere grabar audio con baja tasa binaria.
Aunque las mquinas digitales no empleen el sistema decimal, puede ser con
veniente para los humanos disponer de un cdigo binario que est directa
mente relacionado con el sistema decimal, de forma que a cada dgito deci
mal le corresponda una combinacin binaria de ceros y unos.
La codificacin "complemento a dos" tiene su aplicacin, sobre todo, en la
representacin del audio digital, aplicacin en la que presenta numerosas
ventajas. Por ejemplo, cuando los nmeros binarios se procesan y almace
nan en su forma complementada, tanto la suma como la resta pueden
lograrse utilizando la misma circuitera. El complemento de un numero se
forma restando cada dgito de la "base-menos-!" y aadiendo 1 al dgito
menos significativo. Trabajando con el mtodo de "complemento a dos", las

327

sCl'iales de audio digital quedan representadas, con respecto a un punto


medio, igual que las analgicas. De esta forma es posible, por ejemplo,
"mezclar" dos seales digitales sumando simplemente sus yalores.
El dither es una seal de bajo nilel, generalmente formada por ruido blanco
con una amplitud inferior a un nivel de cuantificacin (tpicamente entre '/,
Y'/, pico-a-pico), que se suma a la seal analgica antes de ser muestreada.
El dicher asegura que incluso la seal ms pequeila cruzar, al menos, un nivel
de cuantificacin, de manera que los perodos adyacentes correspondern a
niveles de muestreo distintos.
El interfaz adoptado por AES/EBU est destinado a la interconexin de seales
digitales de audio en estudio mediante cables de hasta unos centenares de metros
de longitud. La frecuencia bsica de muestTeo de la sei'ial digital de audio ser de
48 KHz, capaz de proporcionar una banda pasante de ms de 20 KHz, aunque
soporta tambin otras frecuencias de muestreo, como 32 KHz y 48 KHz.
La codificacin de! canal describe e! mtodo mediante el cual se representan
las cifras binarias para su transmisin a travs de! interfaz, es decir, la forma
elctrica exacta de la seal de audio tal como se transmite por el interfaz. El
procedimiento es el denominado "marca bifase".
En el interfaz AES/EBU los prembulos son pautas o esquemas fijos de bits
que facilitan la sincronizacin e identificacin de tramas, subtramas y bloques.
Para lograr la sincronizacin dentro de un perodo de muestreo y hacer que
el proceso sea fiable, estos prembulos no cumplen las reglas del cdigo de
marca bifase antes citado, con lo que se evita que los datos puedan decodifi
carse como prembulos y viceversa.
Para la transmisin de los datos se utiliza el mismo cable bifilar apantallado
que viene utilizndose en audio analgico profesional. La impedancia de la
fuente eS de 110 ohmios, la cual debe ser igualada por el cable, al menos en
e! rango de frecuencias en que nos movemos.
El diagrama de ojo en el extremo de recepcin debe presentar una anchura mini
ma de 0,5 T n, siendo ''Tn" igual a medio perodo de bit. La altura o amplitud mini
ma del cliagrama de ojo en el receptor ser de 200 m V El conector es de tipo XLR
(Canon). Con esta~ especificaciones se logran distancias de ms de 300 metros.
El SPDIF es un interfaz pa-a audio digital AES/EBU, muy utilizado en aplicacio
nes domsticas. Al igual que el interfaz AES/EBU, el SPOlF codifica seales de
audio con cuantificacin lineal 16 bits mnimo, 24 mximo. Las frecuencias de
muestreo pueden ser: 32 KHz, 44,1 KHz 48 KHz. Las diferencias ms impor
tantes entre el SOlF y el AES/EBU son de tipo fisico: cable coaxial de 75 ohmios
(AES/EBU: par blindado de 110 ohms) , conector RCA o BNC (AES/EBU: XLR
3 pins.), nivel de seal 0,5 a 1V (AES/EBU: 3 a 10 V).
MADI significa Multichannel Audio DisitaI Inteiface (interfaz digital de audio
multicanal) y est pensado para proporcionar una norma de conexin entre
equipos de audio digital multicanal. Es capaz de transportar hasta 56 canales
de audio AES/EBU en formato serie a travs de un cable coaxial, a 125
Mbits/s, utilizando un cdigo de canal NRZI. Los conectores son de tipo
BNC y se garantizan distancias de ms de 50 metros.

328

CAPTULO

11

COlupresin en audio
1. Introduccin
Ya se comentaba en el captulo anterior que la digitalizacin de una seal de
audio no es muy distinta a la de una de vdeo. Lo mismo sucede en el caso de la
compresin. En vdeo existen precedentes de "sistemas de compresin analgi.
cos". La utilizacin de las componentes Y, R - Y, B - Y, por ejemplo, no es otra cosa
que un intento de ahorrar ancho de banda, sin perjudicar a la calidad percibida por
e! espectador, aprovechando las limitaciones del sistema de percepcin visual
humano. Por otro lado, la codificacin PAL o NTSC podra entenderse como un
mtodo de compresin entrpica, donde se intenta "empaquetar" la mxima can
tidad de informacin en el mnimo ancho de banda.
En audio los sistemas de reduccin de nido Dolby A, B, C Y SR son una forma
de compresin, ya que procesan la seal de tal manera que el ruido, que inevita
blemente se sumar durante las etapas de grabacin o transmisin, pase desaperci
bido por el oyente. Para ello el codificador modifica la seal de audio de una forma
predeterminada, mientras el decodificador aplica la transformacin inversa. Estos
sistemas de reduccin de ruido se basan en la "compresin" y "expansin" de "sub
bandas de frecuencia", segn "modelos psicoacusticos", trminos todos ellos pro
pios de los sistemas de compresin digital de audio y que aparecern con frecuen
cia a lo largo de este captulo.
NICAM significa Near lnstantaneous CompandiIJ8 ?f Audio Multiplex, es decir,
"compresin-expansin casi instantnea del multiplex de audio". En NICAM la
seal de audio se muestrea a 32 KHz y cada muestra se cuantifica linealmente con
14 bits. A continuacin se reduce el numero de bits por muestra (compresin) de
14 a 10 bits. Los cuatro bits de cada muestra que se eliminan dependen del valor
de amplitud del grupo de un milisegundo (casi instantnea), al que pertenece la
muestra. De esta forma el error de cuantificacin no es fijo, sino variable; se come
329

Com[lrL'~i('Jn ell audio

TECNOI ()(;I-\ :\lTlIAl DE TU (\'ISION

ten errores grandes en los pasajes de alto nivel y errores pequeos cuando la seal
tiene un valor bajo. Dicho de otra forma, el error de cuantificacin es funcin del
valor de amplitud de la seal, de forma que la propia seal enmascara al ruido.
Esto ya es compresin digital y tiene ms de veinte aos! El enmascaramiento o
masking es una de las claves de la compresin de audio.

1.1. Utilidad de la compresin en audio


La compresin produce dos beneficios: por un lado, aumenta la capacidad de
almacenamiento de un soporte dado; por otro, reduce la velocidad de transmisin
necesaria. Pero tiene tambien algunos inconvenientes: aumenta la complejidad de
los equipos y puede perjudicar a la calidad de la seal de audio, al menos cuando
se emplean factores de compresin elevados. Adems puede aumentar la latencia
(tiempo necesario para que una seal resulte util en un determinado proceso).
En general, se puede decir que en el entorno de produccin y posproduccin pro
fesional, donde se necesita disponer de la seal de forma rpida y con la mxima cali
dad, la compresin se utilizar cada vez menos. En realidad, en la actualidad a penas
se usa. Los canales de audio digital de los magnetoscopios profesionales no emplean
compresin, a diferencia del vdeo, que s se comprime. La razn es que la tasa bina
ria generada por un canal de audio digital es tan pequea en comparacin con la tasa
binaria generada por el canal de vdeo que comprimir la primera no supondra un aho
rro de cinta o de procesado significativos. Igual sucede con los equipos dedicados espe
cficamente al audio digital; un disco duro moderno puede almacenar, sin compresin,
decenas e incluso centenares de horas de audio digital estereo. Adems la compresin
dificulta las labores de montaje, ya que los sistemas de compresin no trabajan proce
sando muestras individuales, sino bloques de muestras, denominados "cuadros" o
mes", cada uno de los cuales representa varios milisegundos de audio. Los "cuadros" son
la unidad mnima de acceso al tren comprimido, de forma que si se quiere edit~r con
precisin una muestra, no queda ms remedio que descomprimir la seal de audio,
seguramente para volver a comprimir despues.
En cambio, en el entorno domstico las cosas son distintas. Casi todos los equipos
actuales utilizan algu.n tipo de compresin. En un mini-disc, por ejemplo, no slo se
logra aumentar la capacidad para almacenar minutos de msica, sino que, adems, se
reduce la velocidad a la que ha de girar el disco, ya que el nmero de datos grabados
por unidad de tiempo es menor. Es cierto que se complica el tratamiento posterior de
la informacin, pero resulta ms fcil y ms barato incluir un chip descompresor que
complicar los elementos mecnicos.
Desde hace unos aos se ha puesto de moda el "sonido multicanal". Se trata de sis
temas de codificacin de audio basados en la utilizacin de seis canales envolventes:
izquierda, centro, derecha, izquierda-surround, derecha-surround, ms el canal de real
ce de baja frecuencia. Sin compresin seran necesarios ms de 4 Mbits/ s para codifi
car una seal multicanal como la anteriormente descrita. En el entorno domstico y
de usuario la compresin siempre ofrecer ms ventajas que inconvenientes.
Otro mbito en el que la compresin de audio resulta muy til es el de la trans
misin. El DAB, por ejemplo, es un sistema de emisin digital de canales de audio,

ya

330

es decir, radio digital, utilizado principalmente en Europa. Se trata de un proyecto


desarrollado por un numero importante de empresas y radiodifusores europeos
con la intencin de obtener un sistema de emisin digital de sonido multisenicio,
que pueda ser captado por receptores fijos, mviles y porttiles, equipados con una
antena de pequeo tamao. La clave del sistema es lograr una forma de codifica
cin capaz de ubicar audio estreo digital, ms datos (asociados y no asociados al
audio), en un ancho de banda suficientemente pequeo. Para ello se utiliza el sis
tema de compresin digital de audio MPEG (capa 2 ISO). Sistemas de compresin
de este tipo pueden multiplicar por diez o ms el nmero de canales que se pue
den transmitir por un cierto ancho de banda.

1.2. Redundancia
El tren binario generado por una seal de audio de calidad est entre 0,75 y
1,15 Mbits/s; trabajando en estreo estas cifras se doblan: 1,5 Mbits/s para una
frecuencia de muestreo de 44,1 KHz y16 bits/muestra y 2,3 Mbits/s para
48 KHz y 24 bits/muestra. Con estas tasas binarias se pueden preservar anchos de
banda de 20 KHz y rangos dinmicos entre 100 Y 140 dB.
La idea es reducir al mximo la cantidad de datos necesarios para representar la
seal de audio sin que la calidad percibida se resienta. Al igual que sucede en vdeo,
la estrategia se basa en la eliminacin de la redundancia, y tambin aqu esta puede
ser de dos tipos:
1. La "redundancia matemtica" o "redundancia enn-pica", que es aquella que
se puede eliminar sin prdida real de informacin, de manera que el oeco
dificador pueda obtener una seal idntica a la original.
2. La redundancia perceptual, siendo esta ltima aquella informacin que, s es
eliminada en el codificador, no podr ser reconstruida de forma perfecta en
el decodificador, pero tampoco supondr una merma de calidad apreciable
por parte del usuario.
La eliminacin de la redundancia entrpica es pura ciencia; la eliminacin de la
redundancia perceptual, un arte. La redundancia perceptual puede dividirse, a su
vez, en dos categoras diferenciadas:
1. La informacin a la que el observador es sencillamente insensible. En vdeo,
por ejemplo, los coeficientes de alta frecuencia de los bloques DCT se cuan
tifican con pocos bits, porque se sabe de la poca precisin, que muestra el
sistema de percepcin visual humano a estas frecuencias. Esta estrategia fun
ciona bien siempre.
2. La informacin cuya eliminacin puede o no ser notada por el usuario
dependiendo del contexto (efecto de enmascaramiento). Por ejemplo, cier
tos errores de recuantificacin de los bloques DCT de vdeo son muy visi
bles cuando se producen en zonas lisas o de poca actividad de la imagen y,
en cambio, pasan totalmente desapercibidos en zonas de gran actividad, tales
como tramas, texturas, etc. Este efecto de enmascaramiento de una infor
macin por parte de otra es especialmente importante en e! caso de! audio
y forma la base y e! arte de todos los sistemas de compresin sofisticados.
331

)"tl';-"UUH..iI:\ \l r lI:\I,--,-,Il,--'l-T"'E1U'' '.EI.'' 'J(,,',' ---

._ _COIl\pn.~l(j.!L.1:.l].jlu(h(

2. Anatoma del odo

2.1.3. El odo interno

Todos los compresores perceptuales se basan en el mismo principio: de poco


sinc codificar y almacenar datos que no podran ser apreciados por los usuarios
finales, es decir, por los rganos sensoriales humanos. Por tanto, la mejor manera
de comprender cmo se produce tal enmascaramiento es estudiar, aunque sea de
forma somera, el funcionamiento del sistema de percepcin auditi\'a.

El odo interno es una estructura sea)' esta formado por dos partes: el laberinto
anterior o coclear, que es responsable de la audicin, y el laberinto poste'ior, respon
sable del sentido del equilibrio. Aqu nos interesa slo la audicin, especialmente
desde el PWlto de vista de los fenmenos de enmascaramiento aplicables a la com
presin. En esto juega lill papel clave el odo interno. Las vibraciones llegadas a tra\'es
de la ventan o\'al se transmiten hacia el interior del caracol, que es un tubo espiral
cnico, con una seccin de unos 4- mm' en su base. Se produce entonces una vibracin
de la membrana basilar, la cual esta en contacto con Wl0S pelillos que actan sobre los
autnticos sensores: las clulas acsticas. Las salidas de estas clulas envan los mensa
jes electroqumicos al cerebro. Ahora bien, la memhrana basilar vara en anchura, en
espesor y tambin en rigidez a lo largo de su recorrido; en su hase es estrecha y rgi
da, mientras que se va haciendo ancha)' flexible a medida que avanza hacia el final.
Esto hace que sea capaz de discriminar frecuencias, de manera que distintas arcas de
la membrana vibran a diferentes frecuencias. Adems no se trata de una membrana
pasiva que se limita a vibrar en simpata, sino que dispone de un mecanismo de retro
alimentacin que amplifica los estmulos mas dbiles,

2.1. Divisin funcional del odo


El aido es el rgano sensitivo que nos permite transformar la energa mecanica
de una onda de presin primero en energia elctrica nerviosa y luego en sensacin
sonora. Es frecuente dividir la organizacin anatmica del odo en tres partes o
secciones: el odo externo, el medio)' el interno.

2. 1. 1 El odo externo
El oido externo est formado por el pabelln auricular y el llamado "conducto
auditivo externo". La misin del pabelln es la de captar el sonido y ayudar a la
localizacin espacial de la fuente, ya que es ms sensible a los sonidos que proce
den de la parte frontal, mientras que e! conducto se encarga de transmitir las ondas
de presin hacia estructuras ms internas, ms concretamente hacia la membrana
de! tlmpano. Este conducto acta como un resonador de un cuarto de onda, con
una frecuencia central en torno a 3.000 Hz. Esta estructura probablemente ayude
a la percepcin de ciertos sonidos orales que presentan el mximo de energa en
estas frecuencias medias.

Odo externo

~---}..

Oldo

medio

Oldo interno

---r-~

Canales

C;;lemIClrCUlare.
!&~ a\,\__.,_

AV ;~~
-

2.1.2 El odo medio


El odo medio consiste en una pequea cavidad atravesada por una cadena de
huesecillos. Elemento clave es el tlmpano: una membrana que separa el odo exter
no de! medio. Adherido al tmpano se inserta el martillo, el cual conecta con el
yunque y ste, a su vez, con e! estribo. Estos pequeos huesos actan bsicamente
como palancas, transformando la impedancia (desde el aire exterior hasta ellqui
do contenido en la cclea), a la vez que protegen las estructuras internas de soni
dos excesivamente intensos. El llamado "reflejo acstico" activa unos msculos en
el oido medio capaces de cambiar e! tipo de movimiento de los huesecillos cuando
el tmpano es alcanzado por sonidos de alto nivel (por encima de los 85 o 90 dB)
Yde baja frecuencia, produciendo una atenuacin de unos 20 dB. El ltimo huese
cilla, es decir, el estribo, comunica mediante la llamada "ventana oval" con el odo
interno. Cuando una onda sonora llega al tmpano, ste acta como la membrana
de un micrfono, resonando en funcin de la frecuencia y la amplitud de la onda.
Su movimiento es comunicado a la cadena de huesecillos )' llevado al oido interno.
332

auricular \IGlilJ;
Q1J7'!L
'~ ~onducto
Pabelln

\.
I

.'

~'

\-T

((
ci'l) 'l" \,
\, -~j)

Nervio coclear

-:~~cclea o
caracol

auditivo externo

Figura 11.1.

Anatomla basica del odo.

2.2. Fenmenos de enmascaramiento


Lo mas interesante son los efectos que el mecanismo descrito en e! prrafo ante
rior produce. Algunos autores (Fletcher y Sharft, entre otros) han sugerido que la
membrana basilar se divide en 24 regiones, mientras otros sugieren un nmero

Comnfcsion en audio
TLC0JO/ oGlo\ ACTU:\l nf Tri n'ISIO:'\'

mayor. Estas regiones, llamadas "bandas crticas", podran tener una anchura de unos
100 Hz por debajo de los 500 Hz, mientras que por encima su anchura ira aumen
tando a medida que crece la frecuencia. De cualquier forma, parece seguro que
dicha membrana esta. dividida en un nmero finito y no muy g-ande de regiones,
cada una de las cuales es estimulada y vibra en simpata a un rango limitado de fre
cuencias, pero, lo que es mas importante, dentro de este rango slo una frecuencia
es capaz de hacer vibrar "su regin" en un momento dado. Ahora, una vez que una
f-ecuencia muy concreta ha hecho vibrar su regin y sta aplica realimentacin posi
tiva, el sistema se comporta como un circuito sintonizado de alta selectividad. De
esta forma cada regin vibra a una frecuencia, determinada por el estmulo de
mayor amplitud, dentro del rango de esa regin, mientras que ignora cualquier otro
estmulo de intensidad menor. Esto significa que dentro de cada banda slo la fre
cuencia de mayor intensidad ser convertida en impulsos nerviosos y encaminada
hacia el cerebro. Este mecanismo de simplificacin proporciona, por s solo, la
herramienta de compresin mas potente en e! tratamiento de! audio digital. Para
qu codificar aquellos tonos que en realidad no omos?
El concepto de bandas crticas de frecuencia se deriva de la idea de que el odo
analiza el rango de frecuencias audible, utilizando un conjunto limitado de subban
das. Las frecuencias dentro de una banda crtica son similares en trminos de per
cepcin auditiva y se procesan de forma separada con respecto a otras bandas cr
ticas. La localizacin de estas bandas en el espectro y su anchura se deducen
mediante experimentos con personas y tambin a partir de la distribucin de las
clulas sensoriales en el odo interno. La tabla 11.1 muestra una posible distribu
cin del espectro audible en 25 bandas de frecuencia.

es necesario codificar ninguna frecuencia que sea suficientemente inferior a la fre


cuencia de mayor intensidad dentro de su rango. Por otro lado, dentro de un rango
o banda dado, el ruido es irrelevante, siempre que se mantenga unos cuantos deci
belios por debajo del nivel de la seal principal. En otras palabras, slo hay que
codificar una parte de la seal, y esto puede hacerse con un nmero relativamen
te pequeo de bits, ya que el error o ruido de cuantificacin quedar tambin
enmascarado.
Es bien sabido que el sistema auditivo no presenta la misma sensibilidad a todo
e! rango de frecuencias. Los sonidos en torno a los 3 KHz son los que se perciben
con mayor facilidad, es decir, hace falta menos energia o presin sonora para pro
ducir la misma sensacin auditiva. La curva de trazo slido de la figura 11.2 mues
tra la sensibilidad a las distintas frecuencias. Esta curva es valida siempre que no haya
ningn sonido perturbador. Esta figura muestra tambin la presencia de un tono
puro, de 1 KHz, el cual es, por supuesto, audible, ya que est muy por encima de!
umbral de audicion para esa frecuencia. Ahora bien, este sonido de 1 KHz altera el
umbral de audicin, e!evandolo, sobre todo, en las frecuencias mas cercanas. Otro
sonido de, por ejemplo, 1,2 KHz, que sera perfectamente audible si estuviera solo,
resulta enmascarado y no puede orse por la presencia del tono de 1 KHz.
Cuando se estudia el enmascaramiento acstico es necesario considerar dos
tipos de sonidos perturbadores. Por un lado estn los sonidos de tipo ruido, que
tienen un espectro ancho y no presentan ninguna coherencia de fase, capaces de
producir efectos de enmascaramiento muy altos. En este caso la diferencia de nivel
entre el elemento perturbador y el enmascarado puede ser de slo 2 a
6 dB. En la compresin de audio, este no es e! tipo de perturbacin que mas inte
rese estudiar, ya que se supone que se trabaja con seales esencialmente libres de

Tabla 11.1 Una posible distribucin de los valores de frecuencia mnima, mxima y
anchura de las bandas criticas.
Frecuencia en Hz
Banda Mn.

1
2
3

100
200
300
400
510
630
770

4
5
6
7

Mx.
100
200
300
400
510
630
770
920

Ancho Banda

100
100
100
100
110
120
140
150

8
9
10
11
12
13

14
15

Mn.
920
1.080
1.270
1.480
1.720
2.000
2.320
2.700

Mx.
1.080
1.270
1.480
1.720
2.000
2.320
2.700
3.150

Ancho

160
190
210
240
280
320
380
450

80

Frecuencia en, Hz

Frecuencia en Hz
Banda

16

17
18
19
20
21

22
23

24

Mn.
3.150
3.700
4.400
5.300
6.400
7.700
9.500
12.000
15.500

Mx.
3.700
4.400
5.300
6.400
7.700
9.500
12.000
15.500
22.050

70

Ancho

550
700
900
1.100
1.300
1.800
2.500
3.550
6.550

2.2.] . Enmascaramiento frecuencial

frecuencial" o tambin "enmascaramiento simultaneo", ya que tanto el estmulo


perturbador como el perturbado estn presentes a la vez y proporciona, en reali
dad, dos vas de compresin. Por un lado esta el efecto ya descrito, por el cual no

,------I--H-r~--l '
I
i

: --l~- I~--i---~ --~

30

-~

- -~ ~

K Hz a 45 dB

i ~~ --- ---Ld--I-"-----------' .
.", 27'

20

____~ __ L~~e~ia~:-~'~al

10-O

..

'
1
----I-T--T--~-

0--

---1-1-----:---'---

l~'-

.- -~"

20

31.5

-'0
El mecanismo descrito en el prrafo anterior se denomina "enmascaramiento

--I'

----1

1._-

Umbral de aucl:tci6n
sIn estimulo perturbador

L_J_J
63

----

LJ __ L
125

250

500

1.000

2.000

Frecuencia en Hz---------Jo-

Figura 1 1. 2.

El umbral de audicin vara con la frecuencia.

4.000

8.000 '2.500

TI C'<OI (\(;1:\ \el l:\! J)f. 1n J.. \I.... J"-')~\'--

ruido o, al menos, con buena relacin seal-a-ruido. POI- otro lado, los sonidos
coherentes, tipo tono, necesitan niveles mucho ms altos (entre 18 y 26 e1B) para
cnmascarar tanto a otros sonidos coherentes como a ruidos. El niyel de enmasca
ramiento depende tambi&n del nivel absoluto del tono enmascarador. La figura
11.3 muestra el grado de enmascaramiento producido por un tono perturbador de
1 KHz, cuando este tiene distintos niveles d' presin absuluta. Puede apreciarse en
esta figura que la pendiente de las cunas por encima de la frecuencia del tono per
turbador vara ampliamente con la intensidad de dicho tono. En otras palabras, el
nmero de octavas enmasca-adas crece con la intensidad del tono perturbador por
encima de la frecuencia de dicho tono, mientras prcticamente se mantiene en la
zona de frecuencias inferiores a la perturbadora. Los experimentos sobre enmas
caramiento suelen realizarse utilizando bandas estrechas de ruido blanco como
seales enmascaradoras, mientras se mide clnivel apenas audible de un tono puro
para distintas frecuencias y dm-aciones.

__.

,_

~.illHpx:~sjun_tll audi.52

excentrica, de 58 millones de kilometros de dimetro como pl"Ol11edio. A simple


vista es casi imposible ver Mercurio, )' ello a pesar de la fuerte iluminacin que
recihe. Se muen tan cerca del Sol que el fulgor del astro impide, o enmascara, la
visin del planeta. El caso de Venus es distinto: tiene un dimetro similar al de la
Tierra (12.000 km) y se mueve en una rbita ms alejada (lOS millones de kil
metros). Esto hace que slo sea visible durante un breve periodo de tiempo, justo
al amanecer, antes de que salga el Sol, o en el ocaso, despus de que se haya escon
dido. Entonces Venus aparece en el firmamento, siempre cerca del horizonte,
como una especie de superestrella, decenas de veces ms brillante que cualquier
otra. Hay que esperar a que el estmulo enmascarador desaparezca para poder per
cibir ciertas informaciones. De hecho el fulgor de las estrellas es el principal obs
tculo para encontrar planetas fuera de! sistema solar. Otro ejemplo: en ocasiones
es posible or el sutil chirrido de los dedos al deslizarse por e! mstil de la guitarra
entre los trastes, mientras el artista toca una pieza clsica o una balada. Esto mismo
resulta imposible en un concierto de "rack".

1001----~_-_------

Tono enmascarador de 1 KHz

2.2.2. Enmascaramiento temporal

80-'-

il
~

60

'0

.~ 40

5.
~

"Qi

.~

20

20 dB

SOO Hz

~-------+-- ~1----------r-

1000 Hz

2000 Hz

3000 Hz

4000 Hz

Frecuencia (Escala logartmica)

Figura 1 J .3.
Curvas dc enmascaramiento producidas por un tono perturbadO!- de ] KHz.

Al igual que sucede con otros procesos perceptivos, el enmascaramiento auditi


vo no es lineal. Al contrario, el enmascaramiento es muy superior en el extremo de
las altas frecuencias. Si tiene la suficiente amplitud, un estmulo de alta frecuencia
puede enmascarar varias octavas; con amplitudes ms bajas el efecto de emnascara
do abarcar menos de una octava. En estas bajas frecuencias el efecto de enmasca
rado es mucho menor incluso con niveles altos. Por tanto, dentro de una subbancla
determinada, el peor caso se produce cuando el estmulo de mayor amplitud, es
decir, el estmulo enmascarador, se sita en la parte alta de la subbanda.
Los fenmenos de enmascaramiento son bastante frecuentes. Mercuno y Venus
son los dos planetas interiores del sistema solar, es decir, estn ms cerca del Sol
que laTierra. Mercurio es el ms cercano al Sol, tiene un dimetro de 4.880 km Y
gira alrededor de nuestra estrella en una rbita casi circular, aunque bastante
336

La realimentacin positiva de la membrana basilar, de la que se ha hablado en


un apartado anterior, adems de reforzar los sonidos ms dbiles, tiene otro efec
to. La vibracin responde lentamente a los cambios en la amplitud del estmulo,
lo que genera un efecto de enmascaramiento extra. Este efecto se denomina
"enmascaramiento tempOl"al" y significa que no somos capaces de or sonidos que
se produzcan un poco antes o un poco despus que oh-o sonido ms intenso. En
el primer caso se habla de "preenmascaramiento", mientras que el segundo se
denomina "posenmascaramiento". Las duraciones no son simtricas: e! preenmas
caramiento es muy corto, mientras que e! posenmascaramiento es ms largo. Para
tonos puros y de intensidad media, cl posenmascaramiento podra estar entre 50
y 200 ms, mient-as que e! preenmascaramicnto presenta tiempos unas diez veces
ms pequeos. La figura 11.4 muestra tal asimetria.

80

Enmascaramiento
simultneo

70

60

al 50

1J

40

~ JO

;;;

> ZO

Z 10

-40

-20

~Tiempo

Preenmascaramiento

20

40

60

80

100 120

140 160

~ Post--enmascaramiento /

Figura 11.4.

Fenmenos de pre y postemnascaramiento en la seal de audio.

337

ComnrC:Sln en a.udlo

TI:C:"I01 ()(;IA ACTUAl p( TFL[\'ISI:--J

Hay otros fenmenos de enmascaramiento de los que algunos sistemas de com


presin sacan partido. En e! caso de niveles sonoros elevados y frecuencias medias se
produce tambin un efecto de elUnascaramiento notable en torno al segundo arm
nico de! tono enmascarador. OtTO efecto tambin interesante es e! conocido como
"irrelevancia estereofnica", que se refiere a que hay informacin que es captada por
un sistema de sonido estereofnico y que resulta irrelevante para la localizacin espa
cial, es decir, que no contribuye para nada a la percepcin estereofnica. No se trata
exactamente de informacin enmascarada, sino de informacin intil.

3. Divisin en subbandas
Para sacar partido de! efecto de enmascaramiento frecuencial que muestra el
sistema de percepcin auditiva necesitamos dividir e! espectro de la seal de audio
en bandas o regiones de anchura igualo inferior a las bandas de la membrana basi
lar. La divisin en pequeas bandas de frecuencia puede hacerse por dos procedi
mientos distintos: ya sea mediante filtros o mediante sistemas basados en transfor
madas, similares estos ltimos a los empleados en vdeo.

3.1. Divisin mediante filtros


La teora nos dice que dividir el espectro en subbandas aumentar el nmero de
muestras necesarias, ya que, segn Nyquist, la frecuencia de muestreo tiene que
ser igualo superior al doble de la frecuencia ms alta presente en la seal de entra
da. Ahora bien, la frecuencia ms alta va creciendo de subbanda en subbanda, con

.'"d"~1 I

r~J"f".'
O

f/2

1/2

2f

1~

J T~"d""T'
O

1~

(a)

2f

_~

2f

Figura 11.5.
Divisin de una banda de frecuencias en dos subbandas.
338

lo que en la misma proporcin crecer la frecuencia de muestreo de las subbandas


sucesivas. Al final la suma de todos los muestreos ser muy superior a las muestras
que se habran obtenido contemplando la seal como una sola handa. Por otro
lado, el sentido comn nos dice que no manejamos ms informacin por el hecho
de trabajar con subbandas, por lo que debe haber una solucin para no incremen
tar el nmero de bits finales. Veamos cul puede ser la solucin.
Para simplificar, supongamos que di\dimos una banda de anchura "f" en dos mita
des iguales de anchura "f/2", denominadas, respectivamente, "inferior" y "superior",
de forma que la banda inferior va desde O hasta f/2 y la superior de fl2 hasta f (figu
ra 11.5). Si trabajramos con una sola banda, la frecuencia de muestreo tendra que
ser de 2f para no producir aliasina. El truco est en pensar que, cuando se muesn'ea,
la seal vlida y sus alias son idnticas (las alias no son otra cosa que repeticiones a fre
cuencias mayores de la informacin til). Normalmente nos quedamos con la parte
inferior, pero si, por alguna razn, esta parte no estuviera presente, las muestTas
representaran sin ambigedad la frecuencia superior.
En la figura 11.6 podemos ver que dos seales de frecuencias distintas pueden
producir los mismos valores de muestreo (indicados por los pequeos crculos).
Esto generara ambigedad a la hora de reconstruir la forma de onda. Cul es la
buena: la (a) o la (b)?Tal ambigedad desaparece si sabemos que antes del mues
treo la seal ha sido filtrada, de forma que slo una de las dos senoides sea posible.
Volviendo a la figura 11.5, comenzamos por dividir la banda de audio en dos
subbandas de anchura mitad. El siguiente paso consiste en muestrear la banda infe
rior a "2f", lo cual supone un sobremuestreo, ya que para respetar el criterio de
Nyquist sera suficiente con muestrear a "f". A continuacin eliminamos una de
cada dos muestras, lo que equivale a reducir la frecuencia de muestreo desde "2f"
hasta "f", Esto no es ningn problema, ya que el ancho de banda de esta subbanda
es de slo f/2. Con la subbanda superior procedemos de forma idntica: muestre
amos a "2f" y eliminamos una de cada dos muestras, con la precaucin de tomar
nota de que este paquete de muestras pertenece a la banda superior. Durante la
reconstruccin digital-a-analgico estas muestras generarn tanto la banda inferior
como sus alias; un filtro paso-banda nos permitir escoger e! alias adecuado, es
decir, la subbanda superior.

Figura 11. 6.
El mismo conjunto de muestras puede representar dos seales cuyas frecuen
cias tengan la relacin matemtica adecuada.
339

rc(,,\'p\ OtilA ;\C 1U". I ,I",JL,--''.!n-,-I!cl\,-,J~""(),,,~c

En resumen, hemos hecho dos muestreos a la frecuencia "2[" para, a continua


cin, submuestrear a "f", en lugar de un solo muestreo a "2[", con lo que no hemos
aumentado para nada el tren binario. Esta misma operacin de di"idir una banda
en dos subbandas puede hacerse tantas "eces como se Cjuiera, es decir, cada sub
banda puede ser a su vez dividida en dos. Despus de unos pocos pasos habremos
generado todas las subbandas Cjue necesitamos, y todo ello sin aumentar para nada
el nmero de bits.

3.2. Codificacin de las subbandas


La divisin dc la seal de audio en subbandas de frecuencia no slo adapta [as
caractersticas de la seal a la forma en que trabaja el sistema de percepcin auditi,
va, sino que prepara la informacin de audio para ser tratada de manera ms efi
ciente. Por ejemplo, una dc las herramientas ms importantes en compresin de los
datos de audio es la compresin-expansin del rango de amplitudes (compandina), la
cual consiste en limitar el rango de amplitudes de la se'ial. Si dividimos el espectro
de la seal de audio en subbandas, ser mucho ms probable que dentTo de cada sub
banda encontremos ya un rango de amplitudcs limitado, incluso es posible que cier
tas subbandas no tengan ninguna amplitud en absoluto. Adems si una subbanda
determinada presenta una amplitud igualo inferior a la subbanda crtica correspon
diente, el enmascaramiento nos dice que no ser necesario codificarla.
La mayora de los codificadores utilizan 32 subbandas, cada una de las cuales
tiene una anchura aproximada de 1/3 de octava. Hay que recordar que la seal de
audio presenta un espectro que se extiende desde 20 Hz a 20 KHz. Si partiendo de
20 Hz vamos doblando la frecuencia (ganando una octava), despus de diez pasos
habremos llegado a los 20 KHz. Por tanto, la seal de audio presenta un rango de
frecuencias de 10 octavas. Puesto que queremos dividir cada octava en tres partes,
necesitaremos unas 30 subbandas. En la prctica es mejor utilizar 32, ya que este
nmero es potencia de dos; 30 subbandas est por encima de las 24 o 25 subban
das perceptivas descritas por Fletcher y Sharf. Idealmente la anchura de las sub
bandas y sus limites de frecuencia deberan aproximarse a los mostrados en la tabla
11.1, aunque, para simplificar, el diseo del hardware, tanto en el codificador como
en el decodificador, la mayora de los sistemas de compresin trabajan con sub
bandas de codificacin de anchura fija, que o bien coinciden con la anchura de las
bandas criticas en las frecuencias medias o bien son mucho ms estrechas, de forma
que la agrupacin de un cierto nmero de subbandas de codificacin iguala a las
bandas crticas.
Utilizando subbandas de 113 de octava y estmulos suficientemente altos, el
umbral de enmascaramiento podra situarse entre 18 y 26 o mximo 30 dB por
debajo del nivel del estmulo. Volviendo a la figura 11.2, puede verse que un tono
puro de 1 KHz, con un nivel sonoro de 45 dB, eleva el umbral de audicin de esa
frecuencia a 27 dB. Esto significa que cualquier ruido por debajo de ese nivel no ser
audible. En otras palabras, un tono de 1 KHz puede ser cuantificado con un error o
ruido de cuantificacin igualo inferior a 27 dB. Si el umbral de ruido est en 27 dB
y el de la seal en 45 dB, la excursin de la "zona limpia" ser de 45 dB - 27 dB =
340

---'oC()U.ll-~.L~.,ill.<;1L~

18 dB. Ahora, basndonos en la regla simplificada de eue con cada bit que a'iadimos
en la cuantificacin ganamos 6 dB en la SNR, slo necesitamos 3 bits para cuantifi
car el tono de 1 KHz. Si eleqmos el ni"el del tono a 65 dB, el umbral de enmasca
ramiento subir hasta 55 dB Yla diferencia ser d<' slo 10 dB, que se pueden codi
ficar con 2 bits. En la misma figura 11.2 puede wrse que la regin de enmascara
miento frecuencial situada por encima del estmulo es mucho maYal' que la situada
por debajo; esto intenta ilustrar el hecho de que son las altas frecuencias las ms
enmascaradas, igual que en vdeo!
Hemos visto cmo dividir el espectro de la seal de audio en subbandas. Veamos
ahora cmo codificarlas. Esto se logra en tres pasos consecutivos: para comenzar,
se trocea la seal en el tiempo, generando los llamados "cuadros" o "frames". A con
tinuacin cada cuadro, que cubre unos pocos milisegundos, es dividido en subban
das de frecuencia mediante un "m apeado" o transformacin de los valores tempo
rales a una representacin frecuencial. Despues se busca el dato ms alto dentro de
un cuadro y se otorga a todo el cuadro un factor de escala tal que el dato de mayor
nivel se desplace al valor ms alto posible. Para finalizar, y basndonos en el valor
real, se determina un umbral de enmascaramiento, de manera que los datos son
redondeados o truncados al nmero de bits correspondiente a dicho umbral. Estos
datos truncados son enviados, junto con el factor de escala de todo el cuadro, al
decodificador. La presencia de una sei.al de alto nivel en una banda podra suponer
que varias bandas de orden superior fueran codificadas con menos bits de los que
normalmente les tocara o incluso no ser codificadas en absoluto.
El paisaje descrito en los prrafos anteriores es un tanto idlico. En la prctica
pueden producirse problemas, tales como cambios rpidos en la amplitud de la
sei.al dentro de un mismo cuadro o la variabilidad entre las capacidades auditivas
de las personas. Esto significa que hay que dejar un cierto margen de seguridad y
codificar los cuadros de audio con algunos bits ms de los estrictamente necesa
rios. Otra complicacin es que generalmente interesa que el codificador entregue
a su salida una frecuencia de bits constante, con independencia de la complejidad
de la seal de entrada. Por tanto, e! sistema de compresin necesita controlar la
adjudicacin de los bits a las diferentes subbandas en funcin de:
Las necesidades de cada subbanda.
El ancho de banda disponible.
El modelo psicoacstieo humano.

3.3. Divisin por transformacin


Otra forma ms sofisticada de dividir e! espectro de audio en bandas de fre
cuencia adaptadas a las bandas crticas de sistema de audicin consiste en pasar toda
la informacin de! dominio del tiempo al de la frecuencia mediante tcnicas simi
lares a las usadas en vdeo. Si se analiza el espectro de una seal tpica de audio,
puede verse que est compuesto por muchas frecuencias discretas. Si dividimos tal
espectro en unas pocas bandas anchas, la mayora de las subbandas contendrn uno
o varios componentes, los cuales tendrn que ser codificados. Por e! contrario, si
dividimos el espectro en muchas bandas estrechas aumentamos la posibilidad de

que muchas subbandas se siten justo en los huecos ncos del espectro, con lo que
no contendrn informacin que codificar. La divisin de la seal de enn'ada en un
nmero elevado de pequeas subbandas de codificacin facilita la adaptacin de
stas a las bandas crticas del sistema de percepcin auditiva.
Sabemos que e! nmero de bits necesarios para codificar una subbanda deter
minada depende, entre otras cosas, del grado de enmascaramiento que se produz
ca en esa subbanda. Sabemos tambin (lue tenemos que considerar el peor caso, en
el cual el estmulo enmascaradO!- se sita en el extremo superior de la subbanda.
Esto ltimo es consecuencia de que la pendiente de la curva de enmascaramiento
es muy abrupta por debajo de! estmulo y mucho ms suave por encima. Esta falta
de simetra de la curva enmascaradora (figura 11.2) hace que subbandas estrechas
enmascaren niveles de ruido muy superiores y puedan codificarse con menos bits.
Cuando se utilizan bancos de filtros como los descritos en e! apartado 3.1 para
dividir e! espectro de la seal de audio, suelen utilizarse 32 subbandas, porque, en
principio, son suficientes para adaptarse a las bandas crticas del sistema de per
cepcin humano y, por otro lado, si quisiramos aumentar el nmero de subban
das, el banco de filtros se hara enorme. Con las tcnicas basadas en e! dominio
transformado es posible utilizar un nmero mucho mayor de subbandas, el cual
suele llegar hasta 1.024. Un sistema de divisin de frecuencias basado en transfor
macin que genere 256 subbandas presenta aproximadamente la misma compleji
dad tcnica que otro de 32 subbandas basado en filtros convencionales.

3.3.1. El ifecto de pre-eco


Los sistemas de divisin de subbandas basados en transformadas suelen utilizar
una variante de la DCT (vase captulo 7) denominada MDCT o Modified Discrete
Cosine Traniform. en la cual las muestras de audio que representan variaciones tem
porales son transformadas en una representacin frecuencial dividida en "rl," sub
bandas (entre 256 y 1.024), de forma que existe un cierto solapamiento entre sub
bandas adyacentes. Esta tcnica de filtrado por transformacin presenta un proble
ma muy especfico: los filtros que tienen una alta resolucin en frecuencia (los que
dividen el espectro en muchas subbandas) presentan mala resolucin temporal, lo
cual afecta a la codificacin de aquellos cuadros de muestras que contengan transi
torios, de manera que el ruido de cuantificacin generado por el transitorio puede
repartirse por todo el cuadro de muestras. Puesto que la duracin de los cuadros
es de slo unos pocos milisegundos, lo ms probable es que el propio transitorio
enmascare a dicho ruido, aunque, por otro lado, la asimetra de la curva de enmas
caramiento temporal (figura 11.4) puede hacer que el ruido se oiga al inicio de!
cuadro, ya que e! enmascaramiento temporal es asimtrico y la parte inicial de!
ruido no es enmascarada. Este efecto se denomina "pre-eco". Para contrarrestar
este efecto algunos codificadores son capaces de analizar los cuadros y detectar
transitorios. En caso de que encuentren algn transitorio en e! cuadro, conmutan
a un modo de trabajo distinto, en el que se utilizan menos subbandas por cuadro,
es decir, reducen la resolucin frecuencial para mejorar la temporal.
Existen tambin tcnicas de divisin hbridas que utilizan tanto filtros como
342

transformadas. Normalmente estn compuestas por un banco de flltros de sub


banda seguido de una transformacin MDCT. Esta combinacin, que proporciona
muy alta resolucin en frecuencia, es la utilizada por la capa III del sistema MPEG.
El primer proceso, que utiliza un tipo especial de filtros, denominado PQMF
(Po1yphase Qyadrature Mirror Film o filtro espejo en cuadratura polifase), divide el
espectro en un nmero limitado de bandas de frecuencia, por ejemplo, 32. A con
tinuacin se toman unas cuantas muestras de cada subbanda y se someten a la
MDCT para generar un conjunto de coeficientes frecuenciales dentro de cada sub
banda. Por ejemplo, si la MDCT genera 16 microbandas para cada una de las 32
bandas generadas por los filtros, en total tendemos 32 x 16 512 subbandas. Si la
seal de audio se ha muestreado a 48 KHz, el ancho de banda total mximo ser
de 24 KHz y la anchura de cada subbanda, al menos en un caso ideal, ser de
24.000 Hz/ 512 = 46,875 Hz.

3.4. Toma de decisiones


Las decisiones tomadas por el codificador en cuanto a la adjudicacin de los bits
a las distintas subbandas (factor de escala y bits de precisin) deben ser conocidas
por e! decodificador. Para esto hay varias estrategias. Una sera que e! codificador
hiciera todos los clculos y tomara todas las decisiones. Este mtodo, llamado "asi
mtrico", tiene la ventaja de reducir la complejidad y e! precio del decodificador,
a la vez que permite actualizar las estrategias y algoritmos utilizados en el codifi
cador sin tener que modificar el decodificador. Por otro lado, tiene la desventaja
de tener que utilizar parte del ancho de banda disponible para los bits que infor
man al decodificador sobre las decisiones tomadas en el extremo codificador.
Otra posibilidad es que codificador y decodificador realicen los mismos clcu
los y lleguen a las mismas conclusiones sin necesidad de enviar bits extras (mto
do simtrico). Cabe incluso una solucin ''hbrida'', en la que los clculos difciles
son realizados en el codificador y comunicados al decodificador mediante unos
pocos bits extras, mientras que los clculos de complejidad moderada se realizan
en los dos extremos. En este caso sigue siendo posible cambiar algunos de los par
metros de! codificador sin afectar al otro extremo.

4. Los sistemas de compresin


Las distintas aplicaciones de! audio digital hacen que haya muchas normas de
compresin diferentes. De todas formas, el mundo de la compresin de audio se
divide en dos grandes sistemas: por un lado est la familia de normas MPEG y por
otro el sistema AC-3 de Dolby. Otros sistemas muy difundidos son el ATRAC de
Sony y los sistemas APT, utilizados estos ltimos para transmisin y para audio en
CD. Las normas MPEG, adems de estar reconocidas por la ISO (lnrernational
Standard OTBanization u Organizacin Internacional de Normalizacin), gozan del
apoyo de las organizaciones de radiodifusin europeas y son las elegidas, por ejem
plo, para el DAB (DiBital Audio BroadcasinB o radiodifusin digital de audio).
343

TI:C0-'()l ~ )<..;1.\ ACTlI.-\l DE '1 1'1.1.\"1"10.'

Adcmas las llamadas "capas" ISO!MPEG sc basan sobre todo en trabajos dc invcs
tiaacin )' dcsarrollo llevados a cabo en Europa. Por otro lado, el sistema AC- 3 dc
D~lb)' ha sido adoptado por la ATSC (Admnccd Jlel'ision Sptem Comit o Consorcio
para la II1\'estigacin de la Televisin Avanzada), una asociacin americana para la
investigacin)' el desarrollo de la EDTV )' HDTV
Como pucdc verse, tampoco cs posible, por desgracia, una norma nica mun
dial en el campo de la compresin digital de audio. Todo parece indicar que las nor
mas MPEG cubrirn la mayora de las aplicacioncs multimedia del futuro. Tanto el
grupo MPEG como el grupo Dolby extendieron a mitad de los ail0s 90 sus capa
cidades para proporcionar audio multicanal en lo que se conoce como "sonido
surTOund")' otros sistemas que precisan ms de dos canales. Por su parte, el ATRAC,
que es un sistema desarrollado por Sony para su minidisc, ofrece tambin capaci
dades multicanal que pueden llegar hasta ocho canales independientes. El APT
X100 se utiliza como sistema de audio multicanal para acompaar a las pelculas en
CD-ROM. Tanto Dolby como APT estan implantados sobre todo en Estados
Unidos. Con mucho, los sistemas MPEG son los ms utilizados y, adems, fueron
los primeros en aparecer, por lo que comenzaremos con ellos.

4.1. Las normas MPEG de audio


Al igual que sucede en vdeo, MPEG-audio no normaliza la forma en que debe
trabajar el codificador; nicamente define el tipo de informacin que ste debe
producir y cmo debe ordenarla para que el decodificador pueda entenderla, des
comprimirla y regenerar los sonidos originales. Para ello el coelificador genera un
tren binario organizado en paquetes de elatos, los cuales pueden intercalarse con
otros paquetes de audio o de vdeo.
En MPEG la seal de audio de entrada es descompuesta en porciones temporales,
llamados "cuadros", todos ellos de igual tamao. As, un cuadro est compue~to por
384 muesb-as en la llamada capa 1 )' por 1_152 muesb-as en las capas 11 y III. Los cua
dros de audio son a continuacin descompuestos en subbandas de frecuencia de igual
anchura, mediante filtros digitales o mediante transformadas tipo DCT. Esto otorga a
cada subbanda un pequei'io nmero de muesb-as. Se establece as la siguiente relacin:
nmero ele Muestras! subbanda X nmero ele subbandas! cuadro x nmro de cua
dI-OS! segundo nmero de muestras!segundo.
Las muestras de cada subbanda constituyen una representacin en el dominio
de la frecuencia de la seal temporal original y son recuantificadas de forma simi
lar a como se hace con los coeficientes frecuenciales de los bloques DCT de vdeo.
Primero se busca un factor de escala comn para todo el bloque de coeficientes de
la subbanda que se est procesando (lo que equivaldra al coeficiente de OC de los
bloques de video). A continuacin se recuantifiean los coeficientes a los que se ha
restado el factor de escala, pero con un nmero de bits que depende de las capaci
dades de enmascaramiento de sistema auditivo humano en esa subbanda de fre
cuencia.
MPEG ofrece toda una familia de sistemas de compresin de audio basada en
do~ normas o subgrupos (MPEG-l y MPEG-2) Yen tres "capas" o niveles de com

344

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ ~JIl';-;n en audjQ

plcjidad. De las dos normas, la primera fue el MPEG-l, que apareci en 199 J . Esta
norma se recoge en ISO !lEC 11.172-3, mientras que la compresin de ddeo se
define en 11.172-2. Se trata de un sistema para comprimir), codificar un canal de
vdeo ms su audio asociado en un tren binario de, como mximo, 1,5 Mbits!s,
para su utilizacin en soportes tipo CD, que es consecuencia del creciente uso ele
ordenado-es que se daba ya en aquella poca, tanto para el tratamiento de imge
nes como para el almacenamiento de elementos multimedia en distintos soportes.
MPEG-l est concebido para "meter" en un Sopol-te, inicialmente pensado para
"audio estreo de calidad", una seal de vdeo comprimida, ms un canal de audio
estreo tambin comprimido. El sistema MPEG-l , en lo referentc a la codificacin
del vdeo, se explica en el captulo 8, por lo que aqu nos centraremos en los aspec
tos del audio digital.

4.1.1. El MPEG-1
El audio digital contemplado para este sistema tiene su precedente en otro ante
rior, denominado MUSICAM (Moskin8 p0rtern odopted Universal Sub-bond Inte8rated
Codin8 And Multiplexin8 o codificacin y multiplexado integrado universal ele sub
bandas adaptadas con enmascarado), MUSICAM es un sistema de codificacin y
compresin flexible para audio de alta calidad, diseado dentro del proyecto
EUREKA-147 por CCETT (unin entre France Tclecom y su subsidiaria TDF), el
IRT (lnstitut fuI' Runijunk Technik) y Philips Consumer Elcctronics. Desde la finali
zacin de la norma MPEG-l el algoritmo de compresin MUSICAM no ha vuelto
a ser utilizado, a pesar de lo cual el nombre MUSICAM se sigue todava emplean
do en ocasiones para referirse a la capa II de MPEG- 1, lo cual es un error, ya que
MUSICAM es un nombre de marca registrado por diferentes empresas.
MPEG no es una norma de compresin sin prdidas, en la que slo se elimine
la redundancia matemtica, de manera que el decodificador sea capaz ele recons
truir una seal digital idntica a la original. Por el contrario, las normas MPEG se
basan en la compresin perceptual, es decir, con prdidas reales de informacin,
pero de tal manera que "es distinto, pero suena igual". Oc forma sencilla, podra
mos decir que un codificador de audio MPEG extrae de la seal de sonido, una
representacin de las frecuencias que la componen, elimina aquellas componentes
de frecuencia que son enmascaradas por otras ms intensas, codifica con el mni
mo nmero de bits posible las componentes de frecuencia restantes y empaqueta
los bits resultantes segn la "sintaxis" definida por la norma.
En MPEG-l se definen tres capas (laJers) denominadas 1, II Y III. Hasta hace
poco la capa II era la ms utilizada, aunque, dada la popularidad del formato MP3,
ya no se puede decir lo mismo. En MPEG las capas de audio son similares a los per
files del vdeo. Cada capa es ms sofisticada que las anteriores y aade nuevas
herramientas, lo que significa que, en general, una capa determinada proporciona
r ms calidad de audio para una frecuencia binaria determinada o bien gastar
menos bits para una calidad dada. Al igual que sucede con el vdeo, se respeta la
compatibilidad hacia abajo entre capas, lo que significa que cualquier decodificador
ser capaz de decodificar correctamente su capa y las anteriores_ La complejidad
34-5

COIllDrin en audio

Tlc:-,:nLOG!.O\ ACTUAL pr TEI n'I\I()N

del codificador y del decodificador, as como el retardo que se produce durante la


codificacin y la decodificacin y, por supuesto, la eficacia en la compresin,
aumenta cuando se pasa de la capa 1 a la II o de la II a la III. Si comparamos la capa
II con la 1, la primera es capaz de eliminar ms redundancia y de aprovechar mejor
las limitaciones psicoacsticas humanas. La capa 1II est orientada hacia aplicacio
nes de bajas frecuencias binarias y es ms eficaz que la capa II en la eliminacin de
la redundancia perceptual. Adems la capa III aplica compresin entrpica VLC
Huffman, por lo que consigue tasas binarias realmente muy bajas, con elevada cali
dad subjetiva de audio.
El termino "capas" sugiere que la informacin generada por una de ellas se colo
ca encima o completa la de otra capa inferior. Esto no es exactamente as, aunque
algo parecido. Por ejemplo, el banco de filtros de subbandas de la capa 1 es utiliza
do tambien por las capas II y I1I, pero la capa II hace un uso ms eficiente de ellas
al trabajar con bloques de muestras ms largos, mientras que la capa III aade tec
nicas de tipo transformado, mediante las cuales las 32 subbandas de las capas ante
riores son subdivididas en 18 bandas cada una.
Las tres capas del subgrupo MPEG-l pueden trabajar indistintamente con tres
frecuencias de muestreo: 32 KHz, 44,1 KHz Y48 KHz. Por su parte, el subgrupo
MPEG-2, que se ver en un apartado posterior, ampla estas frecuencias de mues
treo, incluyendo, adems de las ya citadas, las frecuencias mitad, es decir: 16 KHz,
22,05 KHz Y24 KHz, ya que se ha podido comprobar que cuando se quieren fre
cuencias binarias muy bajas es mejor partir de anchos de banda menores que com
primir ms. Volviendo al subgrupo MPEG-l , ste soporta los siguientes modos de
operacin:
Modo monofnico (un solo canal de audio).
Modo dual monofnico (dos canales de audio independientes).
Modo estereafnico (un par estreo con cada canal codificado por separado,
aunque se pueden repartir los bits entre los dos canales. En un momento
determinado un canal puede estar utilizando el 60% de la capacidad y 'el otro
el 40%, aunque la suma de los dos se mantiene constante).
Modo estereofnico comn (un par estreo que aprovecha la redundancia
entre canales, as como la irrelevancia de la diferencia de fase entre canales o
ambas. Este modo se utiliza cuando se necesita codificar canales estreo con
frecuencias binarias bajas).
Para los dos subgrupos (MPEG-l y MPEG-2) Y para todas las capas se definen
dos modelos psicoacsticos. El modelo-l es el ms sencillo, sobre todo desde el
punto de vista del diseo del codificador, y se basa en el anlisis preciso de la ener
ga de cada frecuencia contenida en cada subbanda del espectro audible mediante
una transformada rpida de Fourier (FFT). Para ello la FFT analiza grupos de 384
muestras. Lo ms frecuente es que las capas 1y II utilicen el modelo-l, mientras que
la capa III utiliza el modelo-2, con el cual se analizan conjuntos de 1.152 muestras.
La compresin de la informacin de audio se logra mediante dos herramientas:
la llamada redundancia matemtica y la redundancia perceptual o irrelevancia. Para
eliminar esta ltima el codificador contiene un modelo psico-acstico (figura
11.7), el cual analiza las seales de entrada de los bloques consecutivos y determi346

Seal dlt lintradil


divIdid_ en cuadros

Factores dll escal!


y bits de precisin

(a nivel de t:U.ldr05

r~\J~

(; I

;
)(

..

Paquete5
MPEG

ICII:JClCJ

-------+

:;
::;;

Tiempo---

Figura 11. 7.

Principio de la compresion de audio en MPEG-l .

na, para cada bloque, sus componentes espectrales. A continuacin "modela" las
capacidades de enmascaramiento del sistema de audicin humano y hace una esti
macin del nivel de ruido "apenas-apreciable" para cada subbanda de frecuencia, lo
que a veces se llama "umbral de enmascaramiento". A la vez la seal de entrada
dividida en bloques se enva al generador de subbandas, que divide las muestras del
cuadro en funcin del rango de frecuencias al que pertenecen. En la siguiente etapa
el codificador genera un factor de escala adecuado al bloque de muestras e intenta
repartir los bits de datos disponibles, de forma que se respete el bit-rate o fre
cuencia binaria y los requisitos de enmascaramiento, teniendo en cuenta el umbral
precalculado. Con la ayuda de la figura 11.8 podemos ver esto ltimo con un poco
ms de detalle.
-,
I
I

100

-i
rf
I

90

~ 80:
~

~ 60

.a

o.

I -- '11

~50

/
I

-8

40~

"i)

'i 30

:
1

20
i

la'

Espectro. de la sea.1de enlrada

~ 70!

~
I

'

TI

Cu",a de enmascaramlenlo

t!
)'

-7

--m'I':'"
I ,1

:::;

1.

'-8

-5
-6

-2

:::1

12K 13K 14K 15K 16K

Figura 11.8.
A partir de! espectro de la seal de entrada se calcula una curva de enmascaramiento y a par

tir de sta se decide e! nmero de bits necesarios para cada subbanda.


347

TI CSi)1 PGI:\ I\CfU ""-,',,,",-.l"""'cL"'L-'-' ' ' ,,''.c.'\'----

El prime- paso consiste en obtener una representacin del espectro de la seal


de entrada. A continuacin se calcula la curn de enmascaramiento, que tiene en
cuenta tanto la seal dc entrada como el sistema de percepcin humano (lnea de
trazos). La diferencia entre la seiial de entrada y el umbral de enmascaramiento,
para cada subbanda, es 10 que hay que codificar. La parte inferior de la figura mues
tra el nmero de bits necesarios para la codificacin de las subbandas, partiendo de
la base de que se ganan 6 dBs por bit utilizado. Puede verse en este ejemplo que
slo se necesitan 6 bits para las subbandas ms exigentes, situadas en el centro de!
espectro, o que la presencia de un tono relativamente fuerte de 10KHz, enmasca
ra todas las seales por encima de 11 KHz, con lo cual todas las bandas por enci
ma de esta frecuencia no se codifican. Tampoco es necesario codificar la subbanda
que se encuentra justo por encima de los 5 KHz, ya que es totalmente enmascara
da por la componente de 4 KHz de la seal de entrada. Esta operacin se hace,
sucesivamente, para cada uno de los cuadros o frames.
La informacin sobre cmo se distribuyen los bits sobre el espectro se aade
como datos extra en la etapa de multiplexado. Adems cada paquete de datos
MPEG-1 permite aadir datos auxiliares de usuario, sin limitaciones en su longi
tud o en su contenido, de manera que tales datos pueclen estar asociados o no con
el audio codificado en esos paquetes_ Estos datos auxiliares de los paquetes MPEG
1 son la clave para la codificacin de paquetes MPEG-2 de forma compatible, como
se ver en un apartado posterior.
El trabajo del decodificador es mucho ms sencillo, porque no requiere disponer
de un modelo psicoacstico ni de un sistema de adjudicacin de bits; slo tiene que
reconstruir la informacin de audio a partir de los componentes espectrales y de la
informacin auxiliar recibida. Por tanto, MPEG-1 (y tambin MPEG-2) son siste
mas asimtricos, donde todas las decisiones se toman en la etapa de codificacin.

Capa 1 de MPEG-I
La capa 1, que, como se ha dicho, es la ms sencilla, contempla frecuencia~ bina
rias de salida desde 32 Kbits! s hasta 448 Kbits! s. En esta capa la seal digital es
dividida en cuadros de 384 muestras, que se distribuyen en 32 subbandas de igual
tamao, quedando 12 muestras por subbanda y cuadro (32 x 12 := 384). Ahora
cada muestra dura 1!48.000:= 20,83 IlS o 1!44.100 = 22,67 IlS, o bien 1132.000
:= 31,25 I1S. Esto hace que los cuadros tengan una duracin de 12 x 32 x 20,83 Il S
= 8 I1S o 12 x 32 x 22,67 IlS = 8,7 IlS o 12 x 32 x 31,25 Ils:= 12 Il S.
Para cada banda se utiliza un factor de escala de 6 bits, que indica cunto hay
que desplazar el grupo de datos en esa subbanda para alcanzar el valor de pico. Una
vez codificado el factor de escala, que puede entenderse como el valor medio del
grupo, el residuo o djferencia se indica mediante un nmero variable de bits (entre
O y 15 para esta capa), determinados por un circuito llamado ''bit-aIlocator''o "asig
nadar de bits". Este circuito tiene en cuenta tanto el umbral de audicin humano
como la representacin frecuencial de la seal de entrada y el nmero de bits dis
ponible. Por ejemplo, si estamos codificando un archivo a 128 Kbits! s, esto deter
minar el nmero mximo de bits que pueden transportar los cuadros. A 192
Kbits! s el asignador de bits dispondr de ms bits para la codificacin de las sub
bandas.
348

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _~C=oJl!llrcsi611 en i1U.iJJl!

Si el nmero de bits de codificacin de una suhbanda determinada resultara ser


cero, entonces no hara falta codificar ningn factor de escala, ya que este ltimo
puede entenderse como un factor por el cual el decodificador multiplicar los valo
res de esa subbanda, )' multiplicar por cero no tiene sentido. En esta capa, al igual
que en las otras dos capas MPEG, todos los clculos), decisiones sobre el reparto
de los bits residuales se toman en el lado del codificador.
La capa 1 puede utilizarse tanto para sonido monofnico, dos canales, est
reo o estreo comn y resulta apropiado para aplicaciones de consumo, aunque
tambin para aplicaciones de estudio, ya que los cuadros de muestras son muy
breves (slo 8 ms en e! modo de 48 KHz). El factor de compresin logrado en
esta capa puede llegar a 48: 1. El formato Dee (Di8ital Compact Cassette), que
permite la grabacin de audio digital estreo sobre cinta magntica de 3,78
mm, orientado al mercado domstico utiliza la capa 1 de MPEG- 1.
La figura 11.9 muestra la disposicin de las tramas MPEG-l capa I. La cabece
ra se divide en dos zonas: la sincronizacin, que siempre muestra el mismo patrn
fijo (FFFH), y la informacin de sistema, la cual se distribuye segn la tabla 11.2.
Esta cabecera es comn a las tres capas MPEG-1 , no as el resto del paquete, que
cambia segn la capa.

32 bits

Cabecera

Sincronizacin Informacin del

(12 bits)
sistema (20 bits)

1111 11111111

Figura 11.9.
Formato de los paquetes de audio codificados MPEG-I capa 1.

Despus de la cabecera aparece el eRe (figura 11.8), que es una palabra


para comprobacin de errores de 16 bits, de uso opcional, obtenida a partir
de la informacin de carga del paquete. La siguiente zona o campo del paque
te, denominada "asignacin de los bits", sirve para indicar al decodificador
cmo se han repartido los bits en la zona de carga (muestras de subbanda).
"Factores de escala" indica el rango de amplitudes de cada grupo de 12 mues
tras y tiene una longitud variable, ya que puede haber subhandas que no lle
guen a codificarse, por lo que no habr ningn factor de escala para ese
grupo! subbanda.

Capa II de MPEG-I
La capa 11 soporta, al igual que la capa 1, las frecuencias de muestreo de
32 KHz, 44,1 KHz)' 48 KHz y tambin divide el espectro de audio en 32 sub
bandas de igual anchura, pero en este caso cada una de las subbandas se codifi
ca con 36 muestras, por Jo que el cuadro completo se compone de 1.152 mues
349

TEC~{)I O(jl:\ ACTUAl

DE

CO!nnrcsion en audio

TELI:\'I~I<':'\'

Tabla 11.2 Estructura de la cabecera de las tramas MPEG-1, comn a las tres
capas

NOMBRE DEL
CAMPO
Syncword
ID
Layer
Error Protection

N. o DE

BITS

12
1

2
1

Bitrate index

Sampling
frequency
Padding'

Prvate*'
Mode
Mode Extensin

1
2
2

UTILIDAD
Siempre 1111 1111 1111 (FFF H)
MPEG = 1; MPEG-2= O.
Capa I = 11; capa 11 = 10; capa 111 = 01; reservado == OO.
Valor O si se aade redundancia (zona CRC del paquete de
datos); 1 si no se aade redundancia.
Frecuencia binaria del tren comprimido; 15 valores; el valor
0000 significa flujo libre; el valor 1111 prohibido.
Frecuencia de muestreo de la fuente: 32 KHz = 10; 44,1 KHz
= 00; 48 KHz = 01; reservado = 11 .
Si est a 1 se utilizan bits de relleno, necesarios cuando la
frecuencia de muestreo es de 44,1 KHz.
Bit no especificado, de uso libre.
Estreo = 00; estreo comn: 01; dual: 10; mono: 11.
Slo se usa en Intensity Stereo, que es una variante del
estreo comn para indicar margen de las subbandas.

siones ni ruido. Resumiendo, las diferencias ms importantes entre la capa 1 )'


la 11 son que esta ltima:
l. Reduce la tasa mxima del tren binario codificado de 48 Kbits! s a
384 Kbits!s como maximo.
2. La seal de entrada se divide en cuadros de 1.152 muesn-as, en lugar de las
384 de la capa I.
3. Puede aplicarse el mismo factor de escala a todo el grupo de 32 muestras o
cambiarse cada 12 muestras (equivalente a 8 ms en e! modo de 48 KHz).
Puede verse en la figura 11.10 que la estructura de! cuadro codificado con la
capa II difiere bsicamente en dos aspectos con respecto a la capa 1. En primer
lugar, aparece un campo nuevo, denominado SCFSl, que significa "SCole Factor
Seleetion lriformation" o "informacin de la seleccion del factor de escala". Este
campo informa sobre si todo e! cuadro de 36 x 32 muestras tiene e! mismo factor
de escala o si se cambia cada 12 muestras, o cualquier combinacion dentro del
grupo de 3 X 12 muestras.
La otra diferencia est en que se triplica el nmero de muestras de subbanda
que transporta la zona de carga.

Capa 111 de MPEG-I


La capa JIl es verdaderamente sofisticada y toma lo mejor del sistema ASPEC
Copyright
1
Con derechos de autor = 1; libre = O.
para proporcionar la mxima calidad para una frecuencia dada o, si se prefiere, la
Original/Copy
1
Original = 1; copia == O.

mnima tasa binaria para una calidad predeterminada. Esto, por otro lado, supone
Emphasis
2
J17 = 11; 50/75 ls = 01; sin nfasis = 00; reservado = 10.

aumentar la latencia, es decir, el retardo de codificacion/ decodificacion. La mejo


, Un bit-stream MPEG capa 11 a 128 Kbits/s muestreado a 44,1 KHz podra terminar con algunos
ra de la calidad de! sonido se nota, sobre todo, en las tasas binarias ms bajas. Esta
cuadros de 417 bytes y otros de 418 bytes. Los cuadros de 417 bytes tendran el bit de pad
capa utiliza el modelo psicoacstico tipo 2 y un anlisis ms preciso de los feno
ding puesto a "1".
menos de enmascaramiento. En realidad los dos modelos psicoacsticos pueden
.. Puede ser utilizado por ciertas aplicaciones para arrancar procesos o rutinas definidas por el
usuario.
utilizarse con las tres capas, pero solo el modelo 2 incluye modificaciones especi
ficas para acomodar los requisitos ms exigentes de la capa JIl. Las capas 1 y 11, que
tienen menos pretensiones en lo referente a tasas de compresion, acomodan bien
el modelo 1, por otro lado ms sencillo. Con la capa III se pretende una calidad
tras. Por tanto, los cuadros tendrn una longitud de 24 ms (e! triple que en la
casi-transparente a 64 Kbits/ s y canal.
capa 1), para una frecuencia de muestreo de 48 KHz (1/48.000 x 1. 152 = 24
La separacion en subbandas en esta capa se logra mediante tcnicas hbridas.
ms). El factor ele escala es tambin de 6 bits, aunque este factor de escala pueele
Primero, mediante un banco de filtros se divide e! espectro de la seal de entrada en
aplicarse a todas las muestras del grupo de 24 ms (48 KHz) o cambiarse cada 8
32 subbandas (igual que en las capas l y Il). A continuacion se utiliza la transformada
ms (48 KHz) si la variabilidad dentro de! bloque fuera muy alta. El reparto de
MDCT para lograr un mximo de 576 subbandas. La capa III especifica dos longitu
los bits posterior a la codificacion del factor de escala en esta capa se hace, igual
des de bloque MDCT distintas: una longitud de bloque de 18 muestras y otra ms
que en la capa 1, en base a clculos realizados exclusivamente por e! codificador,
corta de slo 6. Los bloques largos permiten una mejor resolucion de la frecuencia
lo que se conoce como "FoTwaTd Bit AlJocation" o "reparto de los bits hacia delan
con seales de audio estacionarias, mientras que los bloques cortos proporcionan
te". La forma en que se adjudican los bits es adaptativa y cambia de cuadro en
mejor resolucion temporal en presencia de transitorios. Debe notarse que la longitud
cuadro, aunque se mantiene constante durante los 24 ms. Se puede codificar
del bloque corto es de 1/3 la del bloque largo. Cuando se trabaja en el modo de blo
que corto, tres bloques reemplazan a uno largo, de forma que el nmero de muestras
sonido monofonico, dual, estreo o estreo comn, igual que en la capa I. Sus
MDCT para un cuadro de audio permanece inalterado. En un cuadro de muestras
aplicaciones se encuentran en DAB, DVB, CD-ROM, multimedia, etc. Suele
determinado todos los bloques pueden ser cortos, o todos largos, o una mezcla de
decirse que la capa II proporciona una "calidad transparente", es decir, no intro
cortos y largos. Cuando se trabaja con e! modo de mezcla, las dos subbandas inferio
duce distorsiones o artificios notables con tasas binarias de 128 Kbits/s y canal,
res
se codifican con bloques largos, mientras que las 30 bandas superiores restantes
aunque esto depende mucho del contenido de! sonido original. Igual que suce
utilizan
bloques cortos. Esto proporciona la mejor resalucion en frecuencia para las
de en video, los mejores resultados se obtienen con seales limpias, sin distor
350

351

TI.c.";Of.{H.;I:\ '\l:J'U,\l 1)] HU \'l~ll'r'

32 bits

O 16 bits

Asignacin1;cFSI
Cabecera CRe de los bitsJ=

Muestras de subbandas: 3 grupos Datos


de 12 muestras x 32 subbandas auxiliares

--------------

Sincronizacin Informacin ~

(12 bits)
sistema (20 bi~lJ

1111 1111 1111

Figura 11. 10.

E,tructura c\t' un cuadro de audio MPEG-l capa JI.

bajas frecuencias, donde es ms necesaria, sin sacrificar la resoluci6n temporal de las


altas frecuencias.
sta es la capa utilizada por el popular MP3. En realidad, la extensi6n "mp3" fue
creada con la aparici6n del sriftware de codificaci6n Windows para la capa III del
MPEG-l. La norma MPEG,2, que apareci6 posteriormente, ampla las posibles
frecuencias de muestreo, incluyendo frecuencias mas bajas que el MPEG-l. A par
tir de entonces los archivos codificados MPEG-2 recibieron tambin la extensin
y e! nombre MP3. En ocasiones a estos archivos comprimidos con la capa III se les
llama MPEG-3, lo cual es err6neo, ya que nunca ha existido una norma con este
nombre ni para vdeo ni para audio (vase captulo 8). Una caracterstica especial
de esta capa es que los datos de audio codificados pertenecientes a un cuadro deter
minado pueden distribuirse sobre una serie de cuadros consecutivos si tales cua
dros no llegaran a lIenane con sus propios datos. As!, en esta capa, cuando la cabe
cera informa sobre el bit-rate o frecuencia binaria del tren codificado, lo que est
diciendo es la frecuencia media promediada, ya que los bits se distribuyen sobre
varios campos, es decir, esta capa permite una especie de VBR (Variable Bit Rate o
frecuencia binaria variable), aunque elVBR, tal como es entendido por los codecs
de audio, es algo diferente, ya que en tal caso lo que se especifica es el grado de
empeoramiento o degradacin de la calidad permitido, es decir, en lugar de indi
car la tasa binaria de salida (por ejemplo, 128 Kbits/s estreo), el usuario dispone
de una barra deslizante similar a la que se emplea en JPEG, CJue permite escoger
entre calidad y tamao de! archivo.
En la capa III la informacin de factores de escala y reparto de los bits de pre
cisin va en un solo paquete combinado, denominado "parmetros del paquete",

32 bits

Cabecera

Parmetros del paquete

Sincronizacinl'nformacin del

(12 bits)
sistema (20 bits)

1111 11111111

Figura 11. 11.


Estructura de un cuadro de audio MPEG-l capa 1II.
352

Depsito de bits

donde se incluyen, adems, otras informaciones propias de esta capa. La carga


principal del paquete est ocupada por el llamado "bit merl'Oir" o depsito de bits,
ya que, adems de contener los bits de precisi6n del cuadl'O actual, puede conte
ner tambin bits de precisin de cuadl'Os anteriores.
Bandas de jactares de escala
A diferencia de las capas 1 y 11, donde cada subbanda puede tener un factor de esca,
la diferente, la capa III utiliza las llamadas "bandas de factor de escala". Estas bandas
cubren muchos coeficientes MDCT y presentan anchuras apl'Oximadamente iguales a
las "bandas crticas ele la percepcin auditiva". En esta capa los factores de escala
"modelan" el ruido de cuantificacin, adaptndose a los contornos de frecuencia del
umbral de enmascaramiento, de forma que el reparto de bits para factores de escala y
para bits de precisin de las subbandas forman parte ele un mismo proceso.

Codificacin en trpica
Una vez que se han aplicado todas las helTamientas de compresin perceptual,
los datos resultantes son enviados a un segundo codificador, denominado "codifi
cador entrpico" o "codificador sin prdidas", el cual utiliza los conocidos "cdigos
de Huffman" explicados en el captulo 8. Este tipo de compresores puede equipar
se a los conocidos codificadores ZIP, tan utilizados en informtica para la compl'e
sin de archivos. Se trata, por tanto, de compresores sin prdidas, que slo huscan
una forma ms eficiente de empaquetar la informacin.
Se dice que la funci6n del compresor perceptual es la de "descorrelacionar" los
datos, es decir, rompe' la relacin de redundancia CJue hay entre ellos. Si este codi
ficador fuera 100% eficiente en la eliminacin de la redundancia perceptual y apro
vechara al 100% las ca'actcrsticas de enmascaramiento del sistema de percepcin,
el codificador entrpico tendra poco que hacer. Por ejemplo, un pasaje de msica
que contenga muchos instrumentos que suenan a la vez se beneficiar de los algo
ritmos de enmascaramiento. Sin embargo, una frase musical formada por un solo
tono sostenido no podr aprovechar tan eficazmente el fenmeno de enmascara
miento. Por otra parte, es evidente que el tono sostenido contiene, por definicin,
mucha redundancia y puede ser comprimido mediante tcnicas tradicionales mate
mticas, como las utilizadas por los compresores ZIP. Como promedio, se puede
calcular en un 20% la reduccin total aportada por la codificacin entrpica a los
archivos de audio precomprimidos con tcnicas perceptualcs,
La capa III utiliza codificacin de longitud variable Huffman para compactar los
datos previamente comprimidos mediante tcnicas perceptivas. Para esto el codi
ficador ordena los 576 coeficientes MDCT (32 subbandas x 18 MDCT coeficien
tes/subbanda) en un orden predeterminado, basado en el incremento de frecuen
cia, es decir, se ordenan de menor a mayor frecuencia. Este orden no se respeta en
el modo de bloCJues MDCT cortos. En este modo hay tres conjuntos de valores
para una frecuencia dada, de manera que la ordenacin es primero por frecuencia
y luego por orden del primero al tercero, dentro de cada banda de factor de esca
la. Esta ordenacin presenta la ventaja de que los valores largos suelen darse en el
caso de las bajas frecuencias, mientras que los valores cercanos a cero y las largas
cadenas de ceros suelen corresponder a las altas frecuencias.

TH .~()[ ()(;I'\,

A( TlJ.\1

ni

COIllPrc"jn

TIII"\'I.'iIO"l

El codificador separa los coeficientes reordenados en tres regiones distintas.


Esto permite codificar cada regin con un conjunto distinto de tablas Huffman,
especficamente ajustadas a las estadsticas de cada regin particular.
Comenzando por la frecuencia ms alta, el codificador identifica las cadenas
continuas de ceros como una regin. Esta regin no necesita ser codificada, ya
que su longitud puede deducirse a partir del tamao de las otras dos regiones.
La segunda regin, llamada "cuenta- ", consiste en una cadena continua de valo
res que slo pueden incluir --1, O o 1. La tabla de Huffman para esta regin hace
grupos de cuatro valores de stos, de manera que el nmero de valores inclui
do ha de ser mltiplo de cuatro. La tercera regin cubre todos los valores res
tantes y se denomina "g'andes valores". Las tablas de Huffman para esta regin
codifican los valores por parejas. Esta regin de grandes valores es, a su vez,
subdi"ida en tres subregiones, cada una de las cuales tiene su propia tabla
Huffman. Adems de mejorar la eficacia de la compresin, la subdivisin de los
coeficientes MDCT en regiones ayuda a controlar la propagacin de errores.
Al igual que en otras aplicaciones, las tablas de Huffman asignan cdigos cortos
a las combinaciones binarias ms frecuentes y cdigos largos a las menos frecuen
tes. En MPEG-audio, si el nmero de bits resultante durante la codificacin exce
de el nmero de bits disponibles para codificar un bloque de datos dado, esto
puede ser corregido ajustando la ganancia global, lo que produce un mayor tama
o de los peldaos de cuantificacin de los coeficientes y, por tanto, cdigos de
cuantificacin ms cortos. Esta operacin se conoce como "lnner lteration Loop" o
"lazo iterativo interior" y se repite con diferentes tamaos para los peldaos de
cuantificacin, hasta que el nmero de bits resultante iguala la demanda de las
tablas de codificacin Huffman.
Tabla 11.3. Comparacin de los tamaos, en Mbytes, de archivos de msica sin com
primir y con compresin entrpica.

Adagio
Marcha
Balada
Rack

Original
.wav

Comprimido
.ape

Factor de
compresin
.ape

Comprimido
.zip

Factor de
compresin
.zip

57,576
23,429
68,983
44,347

16,856
10,245
41,869
28,733

3,41:1
2,28:1
1,67:1
1,54:1

50,343
20,213
64,725
42,519

1,12:1
1,16:1
1,06:1
1,04:1

A modo de ilustracin, la tabla 11.3 muestra los tamaos en megabytes de cua


tro archivos de msica ms o menos representativos. Los dos primeros son de
msica clsica: un adagio muy lento y una marcha rpida. Los dos ltimos son una
balada con bastantes pausas y amplio rango dinmico y una pieza de rack mayor
mente instrumental. Los archivos .ape han sido generados con un programa espe
cialmente diseado para comprimir msica sin prdidas (Monkey Audio), de
manera que, una vez descomprimidos, vuelven a producir archivos, wav idnticos,
byte a byte, a los originales. Puede verse que se generan factores de compresin
moderados, en torno a 2: 1 como media, y que el grado de compresin vara
354

('J)

audio

mucho de llna pieza a otra. Tambin puede verse que los compresores tipo ZIP no
resultan muy eficaces en la compresin de msica, ya que son algoritmos de tipo
general, que no reordenan los datos antes de aplicar la codificacin dc longitud
variable (VLC).

Depsito de bits
Una de las caractersticas ms importantes dc la capa III es su capacidad para
afrontar la demanda de bits, variable en el tiempo. Al igual que la capa 11, la capa
III procesa cuadros de datos de audio correspondientes a 1.152 muestras, pero, a
diferencia de la primera, en la capa IIIlos datos codificados de un cuadro no tienen
que ubicarse necesariamente en un campo de longitud fija dentro del bic-stream. Si
el codificador se encuentra en una situacin tal que el promedio de bits que le llega
es superior a los que puede acomodar en un momento determinado, puede "donar"
temporalmente bits a un depsito. Ms tarde, cuando el codificador necesite ms
bits de los que le estn llegando para llenar el cuadro actual, podr tomar los bits
temporalmente almacenados en el depsito. El codificador slo puede coger del
depsito bits pertenecientes a cuadros anteriores, es decir, un cuadro determina
do no puede contener bits de otro que es posterior en el tiempo. El biC-stream de
la capa III incluye un "puntero" de 9 bits, que se localiza en el campo "parmetros
del paquete" (figura 11 .11). Este puntero indica la direccin o apunta hacia la loca
lizacin del primer byte de los datos de audio correspondientes a ese paquete.
Tabla 11.4. Calidad en funcin de la tasa binaria para la capa IJ/-MPEG-1.
Calidad'
Mejor que onda corta
Mejor que radio en AM
Similar a radio en FM
Casi compact disc
Como compact disc

Ancho
bandade

Modo

Frecuencia binaria

Factor de
compresin

4,5 KHz
7,5 KHz
11 KHz
15 KHz
>15 KHz

Mono
Mono
Estreo
Estreo
Estreo

16 Kbits/s
32 Kbits/s
56 ... 64 Kbits/s
96 Kbits/s
112... 128 Kbits/s

48:1
24:1
26 ... 24:1
16:1
14... 12:1

Segn el Fraunhofer liS.

En la tabla 11.4 puede verse la calidad de sonido que cabe esperar en funcin
de la frecuencia binaria de! tren comprimido cuando se utiliza la capa 1II. La fre
cuencia binaria de 8 Kbits/ s es una extensin de la capa III no recogida en las nor
mas ISO que proporciona una mejora de las caractersticas subjetivas, en lo que se
conoce como "MPEG-2.5", y se basa en frecuencias de muestreo de 11,025 KHz
o 12 KHz.
Las diferencias ms notables con respecto a la capa 11 son:
1. Las 32 subbandas de igual anchura son subdivididas en 18 bandas cada una,
utilizando tcnicas de tipo transformado, como la MDCT, con lo que se
obtiene un total de 576 subbandas. En presencia de transitorios, y para evi
tar e! efecto pre-eco, este nmero puede rebajarse a 192 subbandas (vase
apartado 3.3.1).
2. Los valores proporcionados por el codificador perceptual son a continuacin
355

_________

pasados por un compresor entroplCo que, mediante' un codigo VLC


Huffman, "empaqueta" las cadenas de unos y ceros de la forma ms eficaz
posible.
3. Genera bajas tasas binarias que encuentran sus aplicaciones en RDSI, enlaces
de satlite y audio de alta calidad Ya Internet o en reproductores MP3.
4. Los bits de datos de un cuadro pueden repartirse sobre \"arios cuadros futu
ros. Esto dispersa la informacion en el tiempo, por ]0 que el decodificador
necesita de un almacn temporal, cuyo tama10 es la mayor limitacion al
grado de dispersion.
Tabla 11.5. Comparacin de los principales parmetros de las tres capas MPEG-1.
PARMETRO

CAPA 11

CAPA I

32 KHz, 44,1 KHz, 48 KHz

Nmero de subbandas
Muestras/cuadro
Calidad casi transparente

192 Kbits/s/canal

Duracin cuadros:
48 KHz / 44,1 KHz / 32 KHz

8 ms/8,7 ms/12 ms

Frecuencias binarias
mnima y mxima
Anchura de las subbandas

192 o 576

32
384

1.152
128 Kbits/s/canall

64 KBits/canal

24 ms/26, 12/36 ms

32 Kbits/s
448 Kbits/s

32 Kbits/s
384 Kbits/s

16 Kbits/s
-320 Kbits/s

750 Hz

36

125 Hz o 41 ,67 Hz

4.1.2. Aspectos acnerales de MPEG-I


Repasando todo lo expuesto anteriormente, la seal de audio muestreada a 32
KHz, 44,1 KHz o 48 KHz es dividida en bloques de 384 muestras en la capa 'loen
1.152 muestras en las capas II y IlI. Estos bloqucs son codificados mediante la adi
cin de una cabecera, informacin del sistema, CRC, cte. y forman un "cuadro de
audio". Un stream o corriente de audio MPEG-I se forma, por tanto, con una serie
de cuadros consecutivos.
La cabecera de un cuadro contienc informacin general, tal como el tipo de
capa que se est utilizando, la frecuencia de muestreo, el nmero de canales, la
proteccin contra errores, el prenfasis o los derechos de autor. Aunque la mayor
parte de esta informacin se repite de un cuadro a otro, la norma MPEG decidi
dar a cada cuadro una cabecera completa para facilitar la sincronizacin y la edicin
o montaje del tren binario sin necesidad de descomprimir.
La ITU-R (International TeJecommunications Union o Unin Internacional de
Telecomunicaciones, rama Radiodifusin) ha llevado a cabo una serie de pruebas
encaminadas a establecer las capacidades de los distintos codecs de audio. Para ello
probaron varias configuraciones de canales codificador/decodificador con pasadas
reiterativas, a diferentes frecuencias binarias y con material de programa variado. En
todas ellas MPEG-l result ser el mejor, por lo que la ITU recomienda el uso de la
356

audio

capa II de MI'EG- 1 para contribucin (una forma o I,el de calidad de la sel1al en


la que el destinatario de la transmision no es el usuario final, sino otro radiodifusor
o profesional, y donde, adems, puede ser necesario algn proceso de edicin pos
terior), as como para transmision, es decir, entre el radiodifusor y la estacin de
transmisin final)' tambin para emision digital, es decir, la transmisin final al
usuario. Por otro lado, este organismo recomienda la capa III para enlaces de
comentarista, es decir, enlaces para seales de habla, que son transmitidas a la esta
cin, desde una localizacin remota, mediante una lnea RDSI. Ms detalles sobre
estas recomendaciones pueden encontrarse en ITU-R BS. 115. Por su lado, la ETSI
(European Telecommllnicatians Standards Institllte o Instituto para las Normas de
Telecomunicacin Europeas) incluy en 1995 el audio MPEG-l y MPEG-2 en su
norma ETS 300401 "Radio Broadcastina System, Diaital Audio Brodcastina" (DAB).

CAPA'"

Mono, dual, estreo, estreo comn

Modos de codificacin
Frecuencias de muestreo

Comprl'~in en

4.1.3. Las nuevas normas MPEG-2


La primera versin de la norma MPEG-2 fuc publicada cn 1994 como ISO-lEC
13.813, con la intcncin de cubrir las necesidades de radiodifusion de televisin y
grabacin en soportes multimedia, con diferentes niveles de calidad, frecuencias
binarias y complejidad de codificacin. Hay que recordar que la norma MPEG-l
estaba pensada para ubicar vdeo y audio comprimido en CD-audio, a la freeuen
cia binaria que este soporte permite, es decir, a 1,5 Mbits/ s. MPEG-2, en cambio,
permite frecuencias binarias (audio + vdeo) desde 2 Mbits/s hasta 100 Mbits/s.
En lo referente al audio, la norma MPEG-2 se dise con la intencin de que fuera
compatible, hacia abajo, con el audio codificado MPEG-l . Adems, siguiendo las
recomendaciones de la UER y el SMPTE, se decidi aumentar el numero de cana
les desde dos hasta cinco, de manera que el sistema incluyera, adems de los cana
les estreo normales, uno central, uno trasero-izquierdo y otro trasero-derecho.
Estos dos ltimos suelen denominarse J~ft-surround y riaht-surround. Tambin se
incluy un canal de realce de bajas frecuencias, llamado LFE, que esencialmente es
un subwoqfer con un ancho de banda menor que los otros canales (tpicamente < 120
Hz). El LFE no tiene ningn efecto sohre la direceionalidad percibida, es decir, el
altavoz LFE se puede colocar en cualquier lugar sin que esto afecte a la percepcin
espacial. El conjunto completo de los cinco canales ms el de realce de baja fre
cuencia se conoce como "sistema 5.1".
La mancra en que se codifican los 5.1 permite que los decodificadores antiguos
puedan extraer el par estreo bsico, ignorando los otros 3,1 canales, mientras que
los decodificadores nuevos pueden recuperar todos los canales. Adems los deco
dificadores modernos pueden reproducir los trenes binarios codificados MPEG-1 ,
con lo cual se respeta tanto la compatibilidad hacia delante como hacia atrs. La
compatibilidad hacia atrs se mejora si el decodificador MPEG-l recibe un par de
canales obtenidos a partir de la mezcla adecuada de los cinco canales. Los datos de
estos dos canales mezcla constituyen el ncleo del tren codificado MPEG-2 y son
la porcin que el decodificador MPEG-1 puedc entender.
Para mejorar las prestaciones de los codificadores, cuando stos trabajan con
muy bajas tasas binarias, es preferible partir de seales digitales con bit-rate reduci
357

do )' aplicar una compresin moderada, que aplicar fuertes compresiones a seales
ms ricas. Concretando, es mejor filtrar), submuestrear )' luego comprimir mode
radamente que aplicar fuertes compresiones a seales con total ancho de banda. Por
esta razn la norma MPEG-2 contempla, adems de las frecuencias de muestreo
normalizadas en MPEG-I (32 KHz, 44,1 KHz)' 48 KHz), las frecuencias mitad, es
decir, 16 KHz, 22,05 KHz)' 24 KHz. La aplicacin de estas frecuencias es aconse
jable cuando se pretenden tasas binarias del tren comprimido por debajo de 64
Kbits!s. Con una frecuencia de muestreo de 24 KHz, por ejemplo, la capa 1Il, que
utiliza 576 subbandas, presenta una resolucin de frecuencia (anchura de las sub
bandas) de aproximadamente 21 Hz. Esto permite una mejor adaptacin de las ban
das de factor de escala a las badas crticas del sistema de percepcin humano, lo que
se traduce en mayor calidad de audio para tasas binarias bajas, aunque el ancho de
banda terico sea de slo 12 KHz en este caso. La aplicacin de esta extensin de la
norma es muy fcil para los decodificadores MPEG-I, ya que slo supone la inclu
sin de algunas tablas mas.
Cuando ya se haba definido y publicado la primera versin de la norma MPEG
2, algunas organizaciones arguyeron que existan nuevas tcnicas de codificacin
capaces de proporcionar mejores caractersticas de calidad que el MPEG, por lo
que se realizaron nuevas pruebas. De hecho ya se estaba trabajando en normas que
superaban al MPEG, tales como el sistema AC-3 de Dolby o algunas normas de la
AT&T. Por eso la norma MPEG-2 incluy, en su versin de 1997, un sistema de
codificacin denominado AAC (Advanced Audio Codina) que no es compatible hacia
atrs, es decir, que los trenes binarios codificados MPEG-2 AAC no pueden ser
decodificados por sistemas MPEG-I. Se dice entonces que el AAC es un sistema
Non Backward Compatible o NBC (no confundir con la cadena de televisin ameri
cana).
Aparte de permitir nuevas frecuencias de muestreo ms bajas, la codificacin com
patible de 5.1 canales y la inclusin de la variante AAC no-compatible, la norma
MPEG-2 de audio es idntica al MPEG-I y trabaja con las mismas tres capas que ste.
Existe tambin una extensin no normalizada por los organismos lEC e ISO, cuya
patente es propiedad del Fraunhofer Institute for Integrated Circuits, que permite la
utilizacin de frecuencias de muestreo equivalentes a un cuarto de las nominales del
MPEG-I, es decir, 8 KHz, 11,025 KHz Y 12 KHz.
La ampliacin a multicanal se logra insertando los datos bsicos, que han de ser
vir tanto al decodificador MPEG-l como al MPEG-2, en la zona de carga normal
de los paquetes codificados, es decir, la que aparece etiquetada como "muestras de
subbandas" en las figuras 11.9 y 11.10, correspondientes a las capas 1 y I1, o como
"depsito de bits" en la figura 11.11 para la capa IlI. Los bits extra, que permitirn
al decodificador MPEG-2 obtener los cinco canales surround ms el de realce de
bajas frecuencias, se transmiten en la cola del paquete, dentro del campo etiqueta
do "datos auxiliares". Estos datos pasarn desapercibidos para el decodificador
MPEG-I. Por tanto, se produce un "anidado" de paquetes, ya que en el campo "datos
auxiliares" podemos encontrar paquetes completos, con su cabecera, su CRC, cam
pos de factor de escala y reparto de bits, as como zona de carga para las muestras
de subbanda de los 3.1 canales.
3S8

MPEG-AAC
ste es el ltimo miembro (por ahora) de la familia MPEG-2 )' ha sido disea
do para proporcionar alta calidad de audio a frecuencias binarias de
64 Kbits! s y canal para aplicaciones multicanal. El tren binario codificado puede
acomodar hasta 48 canales de audio principal, 16 canales de realce de baja fre
cuencia, 16 canales para multilenguaje y 16 zonas para transporte de datos auxilia
res. Con esto se pueden codificar hasta 16 programas independientes, cada uno con
su propia configuracin, es decir, formado por cualquier nmero de canales de
audio y paquetes de datos. El sistema AAC utiliza los mismos principios bsicos de
codificacin que el MPEG-I , aunque aade nuevas herramientas para mejorar las
caractersticas finales.
Algunas de las mejoras introducidas por el sistema AAC son: un banco de filtros
con una mayor resolucin en frecuencia, una codificacin entrpica ms eficaz y un
mejor aprovechamiento de la redundancia e irrelevancia estereofnica. Se introdu
cen dos nuevas herramientas: un predictor hacia atrs opcional y un modelador de
ruido en el dominio temporal, que mejma la calidad cuando se codifican seales
de habla a muy bajas tasas binarias. Como resultado, el AAC es, aproximadamen
te, un 30% ms eficaz que la capa 1Il.
PeIjiJes en AAC
La variante AAC recupera el concepto de "perfiles" de! MPEG-2 vdeo, que en
e! fondo no es muy distinto del concepto de capas en MPEG-2 audio. En AAC hay
tres perfiles, denominados: Main Prrifile, Low Complexity Predile y Scalable Simple Rate
Prrifile. En general se puede decir que los tres perfiles AAC, cuando trabajan a 128
Kbits! s, proporcionan mejores caractersticas que la capa II a 192 Kbits/ s o que la
capa III a 128 Kbits!s. Se puede considerar que la meta inicial, que consista en una
calidad casi transparente para frecuencias binarias de 64 Kbits! s y canal, est ple
namente conseguida. Tanto el perfil principal como el de baja complejidad pro
porcionan, a 96 Kbits/s, una calidad que es comparable a la capa II a 192 Kbits! s,
lo que supone una mejora de 2: 1 en la eficacia de compresin. Por otro lado, el
perfil principal a 96 Kbits! s da mejores resultados que la capa III a 128Kbits! s.
Paquetes AAC
En MPEG-I (y, por tanto, en MPEG-2) cada capa normaliza la forma en que se
empaquetan los datos mediante los llamados "cuadros" o "frames", los cuales se
suceden a una frecuencia constante. La forma en que se estructuran estos paque
tes no cambia mucho de una capa a otra. En todos los casos se comienza por una
cabecera, luego vienen unos campos de factor de escala, asignacin de bits, etc.,
para nnalizar con la zona de carga y los datos auxiliares. AAC, por el contrario, deja
abierta la eleccion de la sintaxis de transporte a la aplicacin que se est utilizan
do, normalizando slo el formato de los datos de audio codificados, es decir, bsi
camente la llamada "zona de carga". Por otro lado, ya han sido normalizados dos
sintaxis de transporte que pueden servir de ejemplo ms o menos tpico:
l. ADIF: Audio Dota lnterchanae Format.-EI tren binario de audio codincado
contiene una cabecera nica con toda la informacin necesaria para contro
lar el decondicador, tal como la frecuencia binaria, la frecuencia de mues
359

Tl.'~(ll

()(,I.-'

,'L

U:,! !JI IllJ.\ "jll:'-,

treo o el modo de estreo que se est utilizando. La principal aplicacin de


ADlf es el intercamhio de archivos de audio digital comprimido por redes
informticas, serYidores, etc.
2. ADTS: Audio Data Transpor Strcam.-El tTen hinario de audio est formado por
una secuencia de cuadros, cada uno de los cuales se inicia con una cabecera
similar a la de] MPEG- 1. Los datos de audio codificado de un cuadro deter
minarlo se localizan siempre entre dos patrones de sincronizacin, de forma
que se facilita la extraccin de segmentos), la edicin sin descompresin. De
todas formas, el nmero de hits contenidos en un cuadro puede ser variable.

4.2. El sistema AC-3 de Dolby


ste es el principal contrincante de la familia MPEG. El origen del AC-3 se
encuentra en el deseo de proporcionar un sonido multicanal de alta calidad para la
televisin en alta definicin en Norteamrica, aunque luego se ha utilizado tam
bin en otras aplicaciones, tales como sonido envolvente pa-a cine, laserdisc, tele
visin por satlite, o para descarga controlada de msica por Internet.

4.2. l. Precedentes histricos


El proceso de normalizacin de HDTV en los Estados Unidos comenz hacia
1987 cuando el FCC (Fcderal Comml1nications Comisin o Comisin Federal de
Comunicaciones) cre el ACATS (Advis0'Y Committee on Adl'anced TcJevision Serl'ice o
Comit Consultivo para la Televisin Avanzada). La primera propuesta de este
organismo para la HDTV en Norteamerica se basaba en vrleo analgico y audio
digital. Este ltimo consista en un par estreo obtenido por matrizacin de un sis
tema multicanal, codificado con el sistema AC- 1 de Dolby. El AC- 1 era un mtodo
de codificacion de bajo coste, con modulacin delta. En el receptor los dos' cana
les podan ser opcionalmente decodificados a los cuatro canales originales median
te una matriz inversa. Se trataba, por tanto, de un sistema matricial 4-2-4, donde
la compresin se lograba gracias a la modulacin delta y a la reduccin del nme
ro de canales de transmisin. En 1989 los avances que se haban producido en la
codincacin de audio y en el hardware para procesado digital de la seal (DSP) per
mitieron la creacin de! AC-2, que mejoraba la calidad, a la vez que disminua la
frecuencia binaria del tren comprimido. La filosofa de matrizado multicanal 4-2
4 no se alter. En 1990 se sugirio al comit para la HDTV que podran evitarse las
limitaciones impuestas por el sistema de matrizado de canales y que sera mejor
transmitir varios canales discretos. As naci el AC- 3: un sistema de codificacin de
audio multicanaJ que trabaja, aproximadamente, a la misma frecuencia binaria que
la requerida por un sistema de dos canales.
Se ha podido comprobar que la utilizacin de un sistema de audio multicanal de
alta calidad mejora enormemente la experiencia de ver televisin, en el sentido de
que, cuando una imagen es acompaada de audio de calidad, incluso la propia ima
gen obtiene puntuaciones ms altas por parte de los espectadores. Aunque el AC
360

C0!.!ll-l..u;~I.l..-t;lL~:u.!i.1J(~

3 se concibi inicialmente para HDTV, a medida que se iba dcsalTollando, se fue


ron encontrando aplicaciones en el mundo del sonido el1\'oh-ente para cinc. La pri
mera pelcula en utilizar codificacin AC-3, con 5.1 canales a 320 Kbits/s, fue Star
Trek 1'1, en diciembre de 1991, aunque el estreno formal del Dolby-DSR (que es
como se le conoce en e! mundo del cine) fue en junio de 1992 con la entrega de
Batman returns.

4.2.2. Codificacin AC-3


Al igual que los sistemas MPEG, el AC-3 se basa en la divisin de la seal de
entrada en cuadros y luego en subhandas de frecuencia, cada una de las cuales es
codificada mediante un factor de escala)' unos cuantos bits de precisin. En MPEG
es e! codificador el que decide cmo se reparten los hits por las distintas subban
das, basndose en e! contenido de la seal, es decir, de forma adaptativa. Estas deci
siones se comunican al decodificador mediante una serie de bits auxiliares inserta
dos en las cabeceras ele los paquetes. Esto se conoce como Forll'ard Adaptil'c Bit
Al/ocation (FABA). Lo contrario sera el Backll'ard Adaptil'e Bit Al/ocation (BABA) o
reparto de los bits hacia atrs (vcase apartado 3.3). Con este sistema los coeficien
tes de las subbandas se estructuran mediante una combinacin de exponente y
mantisa (equivalente a factor de escala)' bits de precisin de! MPEG). El expo
nente representa el valor medio de su subbanda, mientras que la mantisa aporta el
detalle sobre el nivel de cada coeficiente. La coleccion ele exponentes de las dis
tintas subbandas, en un momento determinado, forma una representacin gene-al,
a BTOSSO modo, de las componentes frecuenciales de la seal, denominada "envol
vente espectral". Esta envolvente se codifica y se enva al decodificador, pero a la
vez se utiliza para decielir qu coeficientes son importantes para la codificacin de!
sonido y, por tanto, para determinar el reparto ele los bits entre los coeficientes de
cada una de la subbandas. Esto se hace de forma similar al MPEG, controlando e!
numero de bits utilizados para representar cada valor, lo cual supone alterar la
resolucin con que dichos valores son expresados.
Variar la resolucin con que se expresa e! valor de las muestras (en funcin del
reparto de bits) equivale a modular el ruido de cuantificacin, pero esto se hace de
manera que dicha modulacin sea controlada por la envolvente espectral, de forma
que quede enmascarada. Una vez que la envolvente de la seal ha sido codificada y
los valores de mantisa cuantificados, las dos informaciones se multiplexan y se
colocan en los paquetes de datos. Cuando el decodincado" recibe estos paquetes,
decodifica la envolvente espectral y a partir de ella calcula la forma en que se han
repartido los bits en la codificacin de las mantisas. Puesto que tanto el codifica
dor como e! decodificador utilizan la misma envolvente espectral y el mismo algo
ritmo, obtienen los mismos resultados, es decir, las mismas decisiones de reparto
de bits para las mantisas de las subbandas. Esto permite al decodificador recons
truir los valores de las mantisas, sin necesidad de que se le enve por separado
informacin sobre cmo se hizo el reparto de bits. As la mayor parte de los paque
tes codificados puede utilizarse para datos representativos de la seal de audio y no
para datos de control.
361

El AC-3 de Dolb)' es un sistema hbrido que utiliza tanto reparto adaptativo


hacia delante como reparto adaptativo hacia atrs. Bsicamente es un sistema
BABA, como el descrito en el prrafo anterior, ya que existe una rutina bsica de
reparto de los bits adaptativa hacia atrs, que funciona de manera identica e inde
pendiente en el codificador y en el decodificador. Esta rutina es sencilla, se basa en
un modelo psicoacstico predeterminado y, en general, resulta bastante precisa. La
rutina es controlada por la envolvente espectral, que forma parte de los datos
enviados desde el codificador al decodificador. Ahora bien, esta rutina puede ser
modificada en ambos extremos. Mediante una informacin auxiliar, el codificador
comunica al decodificador los cambios introducidos (por tanto, informacin
FABA). Resumiendo, la rutina bsica funciona de manera independiente en el codi
ficador y en el decodificador, basndose en la envolvente espectral, tal como se
hace en los sistemas BABA puros, pero pudiendo ser alterada mediante informa
cin FABA que mejora su precisin.
La rutina bsica es bastante sencilla y se basa en un modelo psicoacstico fijo
que parte de ciertas premisas sobre cmo se producen los procesos de enmascara
miento auditivo. A partir de estas premisas, la prediccin hacia delante hace un par
de modificaciones: por un lado, modifica los parmetros del modelo psicoacstico
y, por otro, las diferencias en el reparto de los bits que se producen al aplicar el
modelo actual. As ciertos parmetros del modelo psico-acstico son explcita
mente enviados al decodificador dentro de los paquetes codificados AC-3, de
manera que este pueda alterar algunos detalles del modelo psicoacstico predefi
nido.
Con el sistema hbrido el codificador puede ensayar un reparto de bits basado
en cualquier modelo psicoacstico de cualquier complejidad y comparar los resul
tados con el reparto que se obtendra utilizando la rutina bsica contenida en el
decodificador. Si el codificador encuentra que se puede obtener una mejor iguala
cin al reparto de bits ideal alterando algunos de los parametros de la rutina bsi
ca, lo har y as lo comunicar al decodificador. Por otro lado, si encuentra que no
es posible una mejor aproximacin al reparto de los bits mediante la alteracin del
modelo psicoacstico, entonces enviar explcitamente informacin sobre cmo se
ha hecho el reparto de los bits al decodificador, es decir, enviar datos FABA simi
lares, aunque en menor cantidad, a los que se envan en MPEG. Puesto que la ruti
na bsica est bastante optimizada, slo sern necesarios unos cuantos datos FABA.

4.2.3. FABA vs BABA


En MPEG, donde se utiliza el sistema de adaptacion hacia delante (FABA), la
capa n, por ejemplo, genera casi 4 Kbits/ s por canal para informar al decodificador
sobre el reparto de los bits de las subbandas, cuando se trabaja con una frecuencia
de muestreo de la fuente de 48 KHz, lo que equivale a una resolucion frecuencial
de 750 Hz y temporal de 24 ms. En presencia de transitorios puede ser convenien
te aumentar la resolucin temporal (para evitar el efecto pre-eco) de 24 ms a slo
8 ms. Esto multiplica por tres los datos de control de adjudicacin de bits que hay
que enviar, aunque, por otro lado, estas situaciones se producen raramente.
362

a:

O
O

Oatos PCM

X ~Ud'O

Transformada
tiempo
frecuencia

W
....J

o..

codificado
--.

5::J

Modelo
psicoacstico

adaptado

:2

Figura 11.12.

Diagrama de bloques del codificador AC- 3 de Dolby.

El metodo adaptativo hacia atrs (BABA), por su lado, tiene la ventaja de que no
se desperdicia capacidad del canal en enviar datos sobre cmo se han repartido los bits
entre las subbandas, de manera que toda la capacidad de los paquetes es utilizada por
las muestras de audio. Pero este metodo tiene tambin desventajas. La informacin
que se enva al decodificador tiene una resolucin limitada y, por tanto, contiene erro
res. Adems, puesto que el decodificador no puede ser muy caro, los clculos han de
ser relativamente sencillos y el algoritmo de reparto de los bits se convierte en fijo
tan pronto como se pone el primer decodificador en el mercado.
La solucin hbrida utilizada por AC-3 intenta aprovechar que la cantidad de
datos que hay que enviar al decodificador para cambiar la rutina bsica que controla
el reparto de los bits es muy inferior a los que seran necesarios con un sistema
adaptatiVO hacia delante puro y, por otro lado, el modelo psicoacstico puede ser
actualizado dinmicamente.

4.2.4. Detalles del AC-3


Este sistema fue diseado para aplicaciones multicanal y es capaz de codificar
cinco canales con total ancho de banda (izquierdo, derecho, central, izquierdo
surround y derecho SUTIOund) , ms un canal de realce de bajas frecuencias de ancho
de banda reducido. Se ha podido comprobar (jue la demanda de bits en los siste
mas multicanal crece, aproximadamente, proporcional a la raz cuadrada del nme
ro de canales, es decir, si con un sistema determinado de codificacin un solo canal
requiere, por ejemplo, 128 Kbits/ s, entonces 128 Kbits/ s x \/5,1
290 Kbits/ s.
Esto se debe a dos causas principales: la utilizacion de un "depsito general de bits"
y la "adaptacin de alta frecuencia".
El depsito general permite al circuito repartidor de bits ubicar los bits de los
canales de audio donde se pueda en cada momento. Si uno o ms canales estn inac
tivos en un momento determinado, se permitir que a los canales restantes se les
adjudiquen ms bits de los que normalmente les tocaran si todos los canales pre
sentaran una alta demanda de bits, es decir, los bits se reparten de manera dinmi
ca entre los canales que los necesiten, de forma que no queden huecos o zonas sin
utilizar en los paquetes codificados.

363

TI.C'( II (H;t.\ :\l

ru il

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _.

La adaptacin de alta frecuencia se utiliza para lograr una compresin extra de las
frecuencias ms altas del espectro. En las altas frecuencias el odo no puede detectar
ciclos indi,jduales de la forma ek onda de audio, sino que ms bien responde solo a la
ell\'oh-cnte de la sei1al en esta zona de frecuencias. La tecnica de la adaptacian reduce
las componentes de alta frecuencia de los canales correlacionados (que pertenecen a
un mismo programa )' tienen contenido similar), generando lID nico canal-mezcla
para estas frecuencias, a la vez que genera un poco de informacian colateral que des
cribe la envolvente especb'al especfica de cada canal. De todas formas, esta tecniea
puede dar lugar a potenciales artificios, por lo que solo se emplea cuando se requie
ren tasas binarias muy bajas.
En AC-3 la seilal de entrada cs filtrada para eliminar las componentes desde OC
hasta 3 Hz, dividida en hloques de 512 muestras, lo que equivale a 10,66 ms para la
frecuencia de muestreo de 48 KHz y separada a continuacian en 256 subbandas de
frecuencia, mediante filtrado MOCT, utilizando una b'ansformada de 512 puntos, de
manera que se produce un solapamiento del 50%. Esto proporciona una resolucin
en frecuencia de 93,75 Hz para la frecuencia de muestTeo de 48 KHz (24.000
Hz/ 256). En presencia de b'ansitorios se conmuta a una resolucin frecuencial menor,
al reducir el nmero de subbandas a la mitad. Esto mejora la resolucin temporal, ya
que la duracin de Jos bloques se reduce tambien a la mitad. Por ejemplo, los bloques
largos, que en el modo de 48 KHz duran 10,66 ms, pasan a durar 5,33 ms en el modo
de bloques cortos (vase tabla 11.6). As! se minimizan los efectos de los transitorios
sobre el bloque de muestras codificado.

CQUl}J-.l~~.!ILQ~uiliQ

forman un cuadro de sincronizacian AC-3. Por ob'o lado, se utiliza un algoritmo espe
cial para extraer las similitudes enb-c canales y codificar una sola "ez la informacian
que se repite entTe ellos Oespues el decodificador "oh'Cr a reubicar la informacian
en los canales adecuados.
La informacin AC- 3 se estructura en cuadros que representan un interYalo de
tiempo constante, equi"alcnte a 1.536 muestras PCM, repartidas entre todos los
canales codificados. Cada cuadro tiene un tamailo en bytes fijo, que depende slo
de la frecuencia de muestreo y del bit-rate que se pretenda lograr. Adems cada
cuadro es una entidad independiente que no comparte datos con otros cuadros
anteriores o posteriores. La figura 11.13 muestra la estructura de los cuadros bsi
cos AC- 3. Los cuadros se inician con una palabl-a de sincronizacian fija y un paque
te CRC para coneccian de errores. A continuacin aparecen SI (Syne h1rmation)
y BSI (Bit Stream iriformation) , que describen la configuracian del tren binario,
incluyendo la frecuencia de muestreo, la frecuencia binaria de salida, el nmero de
canales codificados, etc.
En cada cuadro hay seis bloques de audio, cada uno de los cuales representa 256
muestras PCM de entrada. Cada bloque contiene, entre otros, las banderas de con
mutacian de bloques, los exponentes, los parmetros de reparto de bits y las man
tisas. La parte inferior de la figura 11.13 muestra los campos que constituyen cada
bloque. Al final del cuadro se dispone de un campo para datos auxiliares, reserva
do para control o informacin de estado del sistema de transmisin y de otro
paquete CRe.

Tabla 11.6 Datos ms relevantes del sistema AC-3 de Dolby.

PARAMETRO
Frecuencia de muestreo
Mnimo-mxmo bit-rate
Ancho de banda
Longitud de los bloques
(largo - corto)
Duracin de los bloques
Nmero de subbandas
Anchura de las subbandas
Bit rate casi transparente
(un par estreo)
Bit rate casi transparente
(5.1 canales)

FRECUENCIA DE MUESTREO DE LA FUENTE

32 KHz
15 KHz

44,1 KHz
32 Kbits/s-640 Kbits/s
20,5 KHz

SINC.

CRC
(1)

22,5 Kl-fz

S.I.

B.S.I.
--~-~---

48 KHz

Bloque de Bloque de Bloque de Bloque de Bloque de Bloque de Datos


audio-2
audio-3
audio-4
audio-5 auxiliares
audioQ
audio-1
------

CRC
(2)

-~-._-

-~-

Banderas I Control dell Decisiones IParmetros 1 Estrategia


de conmut.
rango
de
de
sobre
de bloque dinmico adaptacin adaptacin exponentes

Valores
de los
exponentes

-- -~-

--
Valores de
las mantisas

512-256 muestras
16-8 ms

11,6-5,8 ms
256/128

10,66-5,33 ms

62,5-125 Hz

86,133-172,26 Hz

93,75-187,5 Hz

Figura JI. 13.

Estructura del cuadro de sincronizacin AC-3 (arriba) y detalle de cada uno de los bloques

(abajo).

192 Kbits/s
384 Kbits/s

Cada coeficiente de las subbandas es separado en exponente y mantisa. Las manti


sas son a continuacin cuantificadas con un nmero variable d(' bits, en funcin del
modelo de enmasca-amiento psicoacstico. Este reparto adaptativo de los bits entre
los coeficientes de las subbandas introduce una relacin seal-a-ruido aceptable para
cada coeficiente OCT. Los exponentes son una representacin de la envolvente espec
tral que, junto con las mantisas cuantificadas correspondientes a seis bloques de audio,
364

PI TU 1:\ I.\]p:,\

4.3. El sistemaATRAC de Sony


Este sistema de compresin de datos de audio naci para resolver el problema de
poder grabar en un rninidisc, aproximadamente la misma msica que cabe en un CD de
audio. El minidisc almacena msica en un disco ptico o magnetoptico de
64 mm de dimetro y tiene una capacidad equivalente a 1/5 la del CD, por lo que, si se
quiere almacenar los 74 minutos del CO, habr que aplicar una compresin en torno a
5: 1. Esto se logra mediante un algoritmo ATRAC (Adaptive Tran~Jrm Acoustie Codina o
codificacin del sonido por transformacin adaptativa). En este sistema la seal de
365

TI~Cl\J()[ ()(;A t\CTlI-\[

nr: TU,U'ISION

Comprc...n efl Judo

entrada se divide en tres subbandas, que son a continuacin transformadas al dominio de


la frecuencia utilizando bloques de longitud variable. Los coeficientes de frecuencias
obtenidos en la transformacin son agrupados en bandas no uniformes para adaptarse al
sistema de audicin hW11ano.

4.3.1. Principios bsicos del ATRAe


Al igual que los otros sistemas, el ATRAC funciona descomponiendo la seal de
entrada en unidades, cada una de las cuales corresponde a un intervalo de tiempo
y de frecuencia, pero, a diferencia de los otros sistemas, ATRAC utiliza las carac
tersticas psicoacsticas humanas no slo para la distribucin de los bits entre estas
pequeas unidades tempo-frecuenciales, sino tambin para la propia divisin en
unidades de tiempo y frecuencia. Mediante una combinacin de divisin en sub
bandas y tcnicas de transformacin, la seal de entrada es analizada en divisiones
de frecuencia no uniformes que enfatizan la importancia de las regiones de baja fre
cuencia, es decir, la anchura de las subbandas cambia en funcin de la frecuencia.
Adems la longitud de los bloques transformados se adapta a la seal de entrada.
Como puede verse en la figura 11.14, e! codificador ATRAC est formado por
tI'es hloques principales: el bloque de anlisis de tiempo y frecuencia, el bloque de
toma de decisiones sobre la adjudicacin de los bits y el bloque de cuantificacin
de los componentes espectrales, adems de! multiplexadar final que aade a los
coeficientes cuantificados informacin sobre cmo se ha hecho el reparto de los
bits entre las unidades tempo-frecuenciales. El bloque de anlisis descompone la
seal en coeficientes espectrales formando "unidades variables". Este bloque es e!
que ms diferencia al sistema ATRAC de los otros sistemas de compresin. El blo
que ele "estrategia de reparto de los bits" adjudica los bits disponibles entre las dis
tintas unidades variables, otorgando menos bits a las unidades menos sensibles. El
bloque de cuantificacin cuantifica cada componente espectral con una palabra de
longitud variable.

Estrategia
de Reparto

Parmetros de.
Reparto de los bils

n::

de los bits

O
O

~~alos
Codificados

UJ
Oalos

PCM

CoeflC.ltlnh!lli

Cuantificacin de

Esptlclrales

los componentes

Cuanllflcados

espectrales

-J

a...

!S
~
1

Figura 11.14.

Diagrama de bloques del codificador ATRAe.

366

---...

4.3.2. Unidades tempoJrecuenciales


El bloque de anlisis temporal genera las unidades \'ariables, equivalentes a los
cuadros/ subbandas de los otros sistemas, en tres pasos. Para ello combina tcnicas
de filtrado y de transformacin. En primer lugar, la seal se divide en tres subban
das: de Oa 5,5 MHz, de 5,5 a 11 MHz y de 11 a 22 MHz. A continuacin cada sub
banda es pasada al dominio de la frecuencia, produciendo un conjunto de coefi
cientes espectrales. Finalmente, estos coeficientes se agrupan para formar unida
des tempo-frecuenciales variables.
La primera descomposicin en tres subbandas se logra mediante filtros como los
descritos en el apartado 3.1, es decir, mediante sobremuestreo y diezmado. Este tipo
de filtros se conoce como QMF o Q!!adracure Mirror Filter. El primer tlIo'o QMF divi
de el espectro en dos bandas de frecuencia de igual anchura (11 KHz cada una). A con
tinuacin un segundo filtro QMF divide la banda inferior otra vez en dos mitades de
5,5 KHz cada una. El bloque de retardo sirve para iguaJar los tiempos de propagacin
de la banda superior con respecto a las otras dos.
Las muestras de cada una de las tres subbandas son a continuacin transforma
das al dominio de las frecuencias mediante una transformada en coseno discreto
modificado (MDCT) dividida en tres bloques de altas (MDCT-H), medias (MDCT
M) y bajas frecuencias (MDCT-L). Esta transformada, utilizada tambin por la capa
III de MPEG y por el sistema AC-3 de Dolby, permite un 50% de solapamiento
entre las muestras que forman la "ventana de transformacin", de manera que
todas las muestras son computadas dos veces: una como mitad inferior de una ven
tana y otra como mitad superior de la ventana anterior. Este solapamiento mejora
la resolucin en frecuencia, es decir, la precisin con que se obtienen los coefi,
cientes, mientras se mantiene el muestreo crtico. Esto ltimo quiere decir que no
se ha de sobremuestrear la seal para ohtener ventanas de transformacin ms
anchas.
En lugar de trabajar con bloques transformados de longitud fija, el sistema
ATRAC elige la longitud temporal de los bloques de manera adaptativa, basndo
se en las caracterlsticas de la seal en cada una de las bandas. Lo anterior se logra
utilizando dos modos de trabajo: uno largo de 11,6 ms y otro corto que dura 1,45
ms en las bandas de frecuencia ms altas y 2,9 ms en las otras bandas.
Normalmente el modo largo se usa para proporcionar una buena resolucin en fre
cuencia. En presencia de transitorios y para evitar que el ruido producido por stos
se esparza sobre todo el bloque de seal, con el consiguiente "efecto pre-eco", el
ATRAC conmuta al modo corto. En este caso, puesto que el segmento de ruido
antes de! transitorio es muy corto (ya que todo el bloque es muy corto), el ruido
ser enmascarado por el pequeo efecto de enmascaramiento temporal hacia atrs.
Los coeficientes entregados por los bloques MDCT son cuantificados a conti
nuacin en e! bloque "cuantificacin de los componentes espectrales" utilizando
dos parmetros: la "longitud de palabra" y e! "factor de escala". El factor de escala
define e! rango general de cuantificacin, mientras que longitud de palabra define
la precisin dentro de la escala. Todos los datos de una unidad tempo-frecuencial
comparten un factor de escala y una longitud de palabra. El factor de escala se elige
367

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _-'c"--(~)J~n'j!prc.si011 en Judit.

entre una lista fija y reneja la magnitud general de los coeficientes espectrales de
las unidades tempo-frecuenciales. La longitud de la palabra la determina el bloque
estrategia de reparto de los bits". Resumiendo, para cada cuadro de sonido, com
puesto por 512 muestras de anlisis, el sistema genera la siguiente informacion:
Modo de tamai'o del bloque MDCT (largo o corto).
Datos sobre la longitud de palabra para cada bloque tempo-frecuencial.
Cadigo de factor de escala para cada bloque tempo-frecuencial.
Coeficientes espectrales cuantificados.
El bloque de estrategia de reparto de los bits clivide el espacio disponible entre
las unidacles tempo-frecuenciales. Las unidades a las que se haya otorgado muchos
bits presenta-n muy poco ruido de cuantificacion; aquellas con pocos o ningn bit
incorporaran cantidades importantes de ruido. La mejor calidad de soniclo se
obtiene cuando el repartidor de bits logra que las unidades crticas tengan sufi
cientes bits y que el ruido de las unidades no criticas no sea porceptualmente sig
nificativo.
ATRAC no utiliza un algoritmo fijo en la estrategia de reparto de los bits, sino
que utiliza el principio adaptativo hacia delante (FABA), donde toclas las decisiones
se toman en el codificador y se comunican al decodificador. Esto permite que los
grabadores minidisc porttiles (que son la principal aplicacion de este sistema) uti
licen, durante la codificacian, algoritmos relativamente sencillos, ya que estos
equipos necesitan ser pequeos y econmicos, mientras que otros equipos estacio
narios de mayor precio o la msica pregrabada puede utilizar algoritmos mucho
ms sofisticados, que sern igualmente entendidos por el reproductor porttil gra
cias a la informacion de control FABA.

utilizado por Son)' en la distribucion de msica digital a travcs del senicio de sat
lite SkyPerfectTV en Japon, que es basicamente un ATRAC-2.
La figura 11.15 resalta las diferencias ms importantes de la variante ATRAC-2
con respecto al sistema bsico ATRAe. Para empezar, se utiliza un banco de filtros
PQF (Poliphase Qyadrature Filter) que proporciona resultados similares al QMF
(Qyadrature Mirror Filter) empleado en el ATRAC, pero requiere menor potencia de
cmputo. Este filtro analiza la seal de entrada mediante un banco de 96 puntos,
dividindola en cuatro bandas de frecuencia de igual anchura (en ATRAC se utiliza
ban solo tres bandas, teniendo la banda alta tanta anchura como las otras dos jun
tas). Las componentes de cada banda son a continuacion sometidas a un modifica
dor de ganancia, que acta preamplificando la seal justo antes de que se produzca
un transitorio. Esta preamplificacion es compensada en el decodificador aplicando
la correspondiente atenuacin. Puesto que los transitorios pueden prodUCir ellla
mado efecto "pre-eco", el cual puede entenderse como una especie de ruido, el con
junto amplificacin-atenuacin acta de forma similar a los sistemas reduccion de
ruido analogicos. Hay que recordar que este problema era afrontado por el ATRAC
original variando adaptativamente el tamao de la ventana de transformacin.

(f)

368

::~

-oW
-1

oo:::

~
:

Codificacin
componentes
tonales

wO

01

El sistema ATRAC nacio en 1993 para comprimir 5: 1 el audio digital de alta


calidad CD (44,1 KHz, 16 bits). Gracias a una serie de mejoras, la vriante
ATRAC-2 permite factOl-es de compresion ms elevados, que llegan a 10: J
(73 Kbits/s y canal) e incluso 20: 1 (36 Kbits/s y canal). Para lograr estos factores
de compresion, ATRAC-2 mejora al ATRAC original en los siguientes aspectos:
Dobla el tamao de la ventana utilizada por la transformada MDCT (1.024
muestras solapadas 50%), lo que equivale a 23,2 ms, en lugar de los
11,6 ms de las 512 muestras del ATRAC original.
Identifica y codifica por separado los tonos correlacionados de las otras com
ponentes espectrales.
Divide la seal de entrada en cuatro bandas bsicas, en lugar de las tres utili
zadas por el ATRAC original.
Amplificacion compensada de las seal de audio inmediatamente anterior a
un transitorio para evitar el efecto pre-eco.
Aplica compresin entropica Huffman sobre los datos previamente compri
midos con tcnicas perceptuales.
Esta variante del sistema ATRAC no ha sido incorporada por Sony en ningn
producto comercial, aunque, al parecer, existe un formato, llamado ATRAC Data,

(f)--l

)
:J

.
4.3.3. Variantes del sistema ATRAe

(f)

a
o..

z(f)

uz

uUJ

0:::0
1-0..
x

Codificacin
componentes
espectrales

Figura 11. 15.

Anlisis tiempo-frecuencia en el ATRAe-2.

En cada banda bsica se separan las componentes tonales, que son aquellos gru
pos de coeficientes espectrales consecutivos, o distribuidos de forma uniforme
sobre el espectro y que pueden ser descritos mediante parmetros tales como su
localizacion y su anchura (las notas de un piano o de una trompeta pueden produ
cir este tipo de distribuciones espectrales). Se considera que el odo es muy sensi
ble a los errores que puedan cometerse en la cuantificacin estos componentes
tonales, por lo que son cuantificados con la mxima precision. Los componentes
espectrales, que son aquellos que se reparten de forma ms o menos desordenada
369

Compresin en audio

TECf\,'C 11 (ll.1 '\ -\CTllAt DI' TU rSh1t'):--J

por el espectro, no necesitan tanta precisin, por lo que el codificador les otorga
comparati\'amente pocos bits. Tanto los componentes tonales como los espectrales
son a continuacin sometidos a compresin entrpica mediante tablas de Huffman.
Como suele decirse, "no hay dos sin tres" y, por supuesto, existe un ATRAC-3. De
hecho, ste es el miembro ms popular de la familia)' el que se utiliza en los repro
ductores actuales, incluidos los de estado slido, que graban la msica directa
mente en chips, ya sean internos o en tarjetas de memoria. Estos reproductores sin
disco se conocen como "MP3", lo cual es incorrecto para los que utilizan como
algoritmo de compresin alguna variante del sistema ATRAe.
ATRAC-3 vuelve a utilizar filtros QMF como mdulo bsico para la divisin en
bandas de frecuencia, en lugar de filtros PQF de la variante ATRAC-2. De esta
forma se facilita la compatibilidad con el sistema ATRAC original. Por lo dems,
ATRAC-3 es idntico a ATRAC-2 y el sufijo "3" quiz sea ms un recurso comer
cial para aprovechar el tirn del archipopular MP3 que un cambio de formato.
Recientemente han aparecido las versiones 3.5, 4. O Y 4.5, que no son variantes
nuevas, ya que siguen utilizando la misma estructura de procesado que el ATRAC
3. Lo que hacen es introducir mejoras en la precisin de los clculos mediante nue
vos chip-sets.
Existe tambin un ATRAC-3 plus que no se utiliza en el minidisc, pero s en
reproductores CD-walkman. Esta variante utiliza ventanas de transformacin ms
anchas (4.096 muestras o 92 ms) y, adems, divide la seal en 16 bandas antes de
aplicar la MDCT.

4.4. El sistema APT-X


El APT-X apareci a principios de los 90. Su principal inters est en que utili
za unil filoso na de funcionamiento totalmente distinta a los otros sistemas expues
tos aqu. El principio de funcionamiento del APT-X se conoce como ADP~M, es
decir, codificilcin PCM diferencial con adaptacin. Por tanto, en este sistema no
se procesan o transmiten coeficientes frecuenciales, sino datos PCM, pero codifi
cados con menos bits que las muestras originales. La reduccin del nmero de bits
por muestra se logra codificando valores diferencia en lugar de valores absolutos.
La meta de este sistema es lograr un factor de compresin fijo de 4: 1, con un nivel
de calidad transparente.
El funcionamiento detallado de este sistema puede seguirse con ayuda de la figura
11.16. La seal de entrada ha de estar formada por palabras de 16 bits; en otro caso se
procede a una recuantificacin previa. El primer mdulo divide la seal de entrada en
cuatro bandas de frecuencia de igual anchura: HF o altas frecuencias, MHF o frecuencias
medias-altas, MLF o frecuencias medias bajas y LF o bajas frecuencias. Cada una de estas
bandas de frecuencia se codificar con una resolucin o, si se prefiere, con errores de
cuantificacin diferentes. As ~e aprovechan las diferencias de precisin que muestra el
sistema de audicin hunlano. Esta es la nica concesin que APT-X hace al fenmeno de
enmascaramiento psicoacstico.
A la salida de! banco de filtros las muestras de audio siguen estando codificadas
con 16 bits. La reduccin de la tasa binaria se logra codificando el "error de pre370

a;: :~~25
___o

Subbanda HF

J (2 bUs/muest,a) I
------1 Quantificador

Vl

:>
o.

4 palaDras
de 16 bJls
a Fs

...,.

16l>ils

aF"O.25

'9

Q)

'O

16 bUs

Subbanda MlF

Fs x O,25_D~

(4

iL

16btts

r1.

Predictor

n::

~ Quantificador I

<O

LL

Subtlanda MHF
(3 blts/rnueSlra)

bllslm~estraJ

---~ Quantiflcador 1-'


n

~~banda ;:-;-

-1

Predictor

__

u_

Predictor

o
><
w
<i

...J

a..

1 palabra

de 7+4-+3+2 =
16 bits a Fs

:::>

(7 blts/muestra

~FS'O:'.59

L__.

Figura 11.16.

Diagrama simplificado del codificador ADPCM de APT-X.

diccin". El sistema funciona como sigue: a la salida del cuantificador, y basndose


en el historial de las muestras anteriores, el bloque denominado "predictor" elabo
ra un valor de prediccin, es decir, calcula el valor ms probable de la muestra
siguiente. A continuacion compara este valor de prediccin con el valor real de la
muestra actual y la diferencia, que es el error de prediccin, es la que cuantifica
con un nmero reducido de bits.
El decodificador tendr un predictor idntico al de! codificador y, anali~ando las
muestras previas, podr llegar a las mismas conclusiones que el codificador. Esta es la
filosofa de adaptacin hacia atrs o FABA expuesta en apartados anteriores. Si al valor
de prediccin obtenido en e! decodificador se le suma e! error de prediccin enviado,
lo que se obtendr ser el valor original. La clave del sistema est en que el error de
prediccin sea claramente inferior al valor absoluto de las muestras. El error de pre
dicc:in, por otro lado, ser tan pequeo como bueno sea el predictor y, en general,
siempre es mucho menor que los valores absolutos.
En APT-X lo que se hace es que la precisin con que se codifica el error de pre
diccin depende de la banda de frecuencia a que pertenezca la muestra en cues
tin. En las frecuencias bajas (entre O y 5,5 KHz) se dispone de siete bits para codi
ficar el error de prediccin, lo cual permite afinar mucho. En la banda ms alta
(entre 16,5 y 22 KHz) el error de precisin se codifica grosso modo con slo dos bits
por muestra, lo que significa que las muestras de esta banda de frecuencias incor
poran un ruido de cuantificacin elevado, pero, por otro lado, el sistema auditivo
humano es muy tolerante en frecuencias tan altas.
Las ventajas ms notables del APT- X son su sencillez en comparacin con los otros
sistemas de compresin, su baja latencia, que est en torno a 3 ms para una frecuen
cia de muestreo de la fuente de 48 KHz, y su ausencia de artificios audibles. A conti
nuacin se resumen las principales caractensticas de este sistema:
Compresin 4: 1 desde tiempo real hasta 16x.
371

T1.U\OI.()(,I;\ :\nu.\l. Ill. lll[\ ISIO,,'"""

Frecuencias de muestreo desde 16 a 48 KHz.


Frecuencias binarias de salida desde 56 a 384 Kbits! s.
o Muy baja complejidad del hardware (un solo chip).
o Tiempo de codificacin extremadamente corto.
o Frecuencia de muestreo hasta 48 KHz con ancho de banda hasta 22 KHz.
o Alta tolerancia a los errores aleatorios.
o Muy robusto en la codificacin en cascada.
o Prediccin hacia atrs sin gasto de bits de control del decodificador.
o Respuesta de fase totalmente lineal.
o Capacidad para insertar datos auxiliares (hasta 12 Kbis!s).
o Modos: mono, estereo o dual.
Existe una versin APTX mejorada, denominada "Enhanced APT-X", desarrolla
da a finales de los 90, que permite elegir la longitud de las palabras de entrada
entre 16, 20 o 24 bits, y tambin una variante llamada APT-Q de tipo perceptual
que utiliza bancos de filtros MDCT, por lo que se parece mucho a los sistemas
MPEG, AC-3 o ATRAe.
o

Resumen
La compresin en audio digital produce dos beneficios: por un lado, aumenta la
capacidad de almacenamiento de un soporte dado; por atTO, recluce la velocidad
de transmisin necesaria. Pero tiene tambin algunos inconvenientes: aumenta la
complejidad de los equipos y puede perjudicar a la calidad de la seal.
o La estrategia de la compresin de audio se basa en la eliminacin de la redun
dancia; sta puede ser de dos tipos: la "redunclancia matemtica" o "redun
dancia entrpica", que es aquella que se puede eliminar sin prdida real de
informacin, y la redundancia perceptual, siendo esta ultima aquella infor
macin que si es eliminada en el codificador no podr ser reconstruida de
forma perfecta en el decodificador, pero tampoco supondr una merma de
calidad apreciable por parte del usuario.
o En el odo interno la membrana basilar se divide en 24 regiones. Estas regio
nes, llamadas "bandas crticas", podran tener una anchura de unos 100 Hz por
debajo de los sao Hz, mientras que por encima, su anchura ira aumentando
a medida que crece la frecuencia.
o Una vez que una frecuencia muy concreta ha hecho vibrar su regin, el siste
ma se comporta como un circuito sintonizado de alta selectividad. De esta
forma cada regin vibra a una frecuencia determinada por el estimulo de
mayor amplitud, mientras que ignora cualquier otro estmulo de intensidad
menor. Este mecanismo de simplificacin, denominado enmascaramiento
auditivo, proporciona, por s solo, la herramienta de compresin ms poten
te en el tratamiento del audio digital. Para qu codificar aquellos tonos que
en realidad no omos?
o Al igual que sucede con otros procesos perceptivos, el enmascaramiento audi
tivo no es lineal. Al contrario, el enmascaramiento es muy superior en el
extremo de las altas frecuencias.
o

372

COllllJl C~IIl en audio

Existe otro efecto denominado "enmascaramiento temporal", y significa que


no somos capaces de oir sonidos que se produzcan un poco antes o un poco
despus que otro sonido ms intenso. El precnmascaramiento es muy corto,
mientras que el postenmascaramiento es ms largo.
o Para sacar partido del efecto de enmascaramiento frecuencial, que muestra el
sistema de percepcin auditiva, necesitamos dividir el espectro de la seal de
audio en bandas o regiones, de anchura igualo inferior a las bandas de la
membrana basilar. La divisin de la seal de audio en subbandas de frecuen
cia no slo adapta las caractersticas de la seal a la forma en que trabaja el sis
tema de percepcin auditiva, sino que prepara la informacin de audio para
ser tratada de manera mas eficiente. Esta divisin del espectro de la seal de
audio puede hacerse mediante bancos de filtros o por medio de transforma
das similares a la DCT empleada en vdeo.
o Cuando se utilizan bancos de filtros, suelen usa"se 32 subbandas. Con las tec
nicas basadas en el dominio transformado cs posible utilizar un nmero
mucho mayor de subbandas, el cual suele llegar hasta 1.024.
o Los filtros que tienen una alta resolucin en frecuencia (los que dividen el
espectro en muchas subbandas) presentan mala resolucin temporal, lo cual
afecta a la codificacin de aquellos cuadros de muestras que contengan transi
torios, de manera que el ruido de cuantificacin generado por el tnnsitorio
puede repartirse por todo el cuadro de muestras. Esto sc denomina "efecto
pre-eco", ya que se nota, sobre todo, al inicio del cuadro de muestras como
consecuencia de la asimetra del enmascaramiento temporal.
o Para contrarrestar el efecto pre-eco algunos codificadores son capaces de ana
lizar los cuadros y detectar transitorios. En caso de que encuentren algn
transitorio en el cuadro, conmutan a un modo de trabajo distinto, en el que
se utilizan menos subbandas por cuadro, es decir, reducen la resolucin fre
cuencial para mejorar la temporal.
o Las decisiones tomadas por el codificador deben ser conocidas por el decodi
ficador. Para esto hay varias estrategias. Una sera que el codificador hiciera
todos los calculas y tomara todas las decisiones. Otra posibilidad es que codi
ficador y decodificador realicen los mismos clculos y lleguen a las mismas
conclusiones sin necesidad de enviar bits extras. Cabe incluso una solucin
"hbrida", en la que los clculos diflciles son realizados en el codificador y
comunicados al decodificador mediante unos pocos bits extras, mientras quc
los clculos de complejidad moderada se realizan en los dos extremos. Cada
modalidad tiene sus ventajas y sus desventajas.
o El mundo de la compresin de audio se divide en dos grandes sistemas: por
un lado, esta la familia de normas MPEG y, por otro, el sistema AC-3 de
Dolby. Otros sistemas muy difundidos son el ATRAC de Sony y los sistemas
APT, utilizados estos ultimas para transmisin y para audio en CD.
o En MPEG la seal de audio de entrada es descompuesta en porciones tempo
rales llamados "cuadros", todos ellos de igual tamao. As un cuadro esta com
puesto por 384 muestras en la llamada "capa I" y por 1.152 muestras en las
capas Ir y III. Los cuadros de audio son a continuacin descompuestos en sub
o

373

COlllPl"e.'>IOl1 C'11

bandas de frecuencia de igual anchura mediante filtros digitales o mediante


transformadas tipo DCT. MPEG ofrece toda una familia de sistemas de com
presin de audio, basada en dos normas o subgru]Jos (MPEG-l y MPEG-2) Y
en tres "capas" o niveles de complejidad.
En MPEG-l se definen tres capas (laym) , denominadas 1, JI Y IJI. Hasta hace poco
la capa II era la ms utilizada, aunque, dada la popularidad del formato MP3, ya
no se puede decir lo mismo. Las capas de audio son similares a los perfiles de!
vdeo. Las tres capas del subgrupo MPEG-l pueden trabajar indistintamente con
tres frecuencias de muestreo: 32 KHz, 44,1 KHz y 48 KHz.
La capa 1, que es la ms sencilla, contempla frecuencias binarias de salida desde
32 Kbits/ s hasta 448 Kbits/s. En esta capa la seal digital es dividida en cua
dros de 384 muestras, que se distribuyen en 32 subbandas de igual tamao,
quedando 12 muestras por subbanda y cuadro (32 x 12
384). La capa 1
puede utilizarse tanto para sonido monofnico, dos canales, estreo o estreo
comn y resulta apropiado para aplicaciones de consumo, aunque tambin
para aplicaciones de estudio.
En la capa II cada una de las subbandas se codifica con 36 muestras, por lo que el
cuadro completo se compone de 1.152 muestras. Por tanto, los cuadros tendrn
una longitud de 24 ms (e! tTiple que en la capa 1), para una frecuencia de mues
treo de 48 KHz (1/48.000 x 1.152
24 ms). La mejora de la calidad del soni
do se nota, sobre todo, en las tasas binarias ms bajas.
La capa III es verdaderamente soflsticada y toma lo mejor del sistema ASPEC
para proporcionar la mxima calidad para una frecuencia dada o, si se prefie
re, la mnima tasa binaria para una calidad predeterminada. Con la capa m se
pretende una calidad casi transparente a 64 Kbits/ s y canal.
MPEG AAC es el ltimo miembro (por ahora) de la familia MPEG-2 y ha sido
diseado para proporcionar alta calidad de audio a frecuencias binarias de 64
Kbits/s y canal para aplicaciones multicanal. El tren binario codificado puede
acomodar hasta 48 canales de audio principal, 16 canales de realce de baja fre
cuencia, 16 canales para multilenguaje y 16 zonas para transporte de datos
auxiliares. El AAC es, aproximadamente, un 30% ms eficaz que la capa m.
AC-3 de Dolby es e! principal contrincante de la familia MPEG. En lo referente
a la toma de decisiones, el AC- 3 de Dolby es un sistema hbrido, que utiliza tanto
reparto adaptativo hacia delante como reparto adaptativo hacia atrs. La rutina
de compresin bsica es bastante sencilla y se basa en un modelo psicoacstico
fijo, que parte de ciertas premisas sobre cmo se producen los procesos de
enmascaramiento auditivo. A partir de estas premisas la prediccin hacia delante
hace un par de modificaciones: por un lado, modifica los parmetros del mode
lo psicoacstico y, por otro, las diferencias en e! reparto de los bits que se pro
ducen al aplicar el modelo actual.
El AC-3 fue diseado para aplicaciones multicanal y es capaz de codificar
cinco canales con total ancho de banda (izquierdo, derecho, central, izquier
do surround y derecho surround) , ms un canal de realce de bajas frecuencias,
de ancho de banda reducido. La seal de entrada es filtrada para eliminar las
componentes desde DC hasta 3 Hz, dividida en bloques de 512 muestras, lo

374

Judio

que equivale a 10,66 ms para la frecuencia de muestreo de 48 KH7. Ysepara


da a continuacin en 256 subbandas de frecuencia, mediante filtrado MDCT.
El sistema de compresin ATRAC de Sony naci para resolver el problema de
poder grabar en un minidisc aproximadamente la misma msica que cabe en
un CD de audio. El minidisc almacena msica en un disco ptiCO o magneto
ptico de 64 mm de dimetro)' tiene una capacidad equi"alente a 1/5 la del
CO, por lo que, si se quiere almacenar los 74 minutos del CO, habr que apli
car una compresin en torno a 5: 1.
En lugar de trabajar con bloques transformados de longitud fija, el sistema
ATRAC elige la longitud temporal de los bloques de manera adaptativa,
basndose en las caractersticas de la seal en cada una de las bandas.
ATRAC no utiliza un algoritmo fijo en la estrategia de reparto de los bits, sino
que utiliza e! principio adaptativo hacia delante, donde todas las decisiones se
toman en el codificador y se comunican al decodificador. Esto permite que los
grabadores minidisc porttiles (que son la principal aplicacin de este sistema)
utilicen durante la coclificacin algoritmos relativamente sencillos, ya que estos
equipos necesitan ser pequeos y econmicos.
El APT-X apareci a principios de los 90 y su principal inters est en que uti
liza una filosofa de funcionamiento totalmente distinta a los otros sistemas
expuestos aqu. El principio de funcionamiento del APT-X se conoce como
ADPCM, es decir, codificacin PCM diferencial con adaptacin.
Las ventajas ms notables del APT-X son su sencillez, en comparacin con los
otros sistemas de compresin, su baja latencia, que est en torno a 3 ms para
una frecuencia de muestreo de la fuente de 48 KHz, y su ausencia de artifi
cios audibles.

375

Vous aimerez peut-être aussi