Vous êtes sur la page 1sur 32

La Tlvision Numrique

Chapitre I
Echantillonnage de la source
1-Introduction
-La Socit de lInformation, considre par la Commission Europenne comme un aspect crucial dans la
survie ou le dclin du modle de dveloppement du 21me sicle en Europe, se prsente, dsormais, comme une
brique incontournable et indniablement lie aux concepts de dveloppement, comptitivit et emploi.
La tlvision numrique est une technologie dintroduction rcente si lon considre ses implantations
oprationnelles, en France comme dans le monde. Les Etats-Unis semblent relativement en avance, ayant
plusieurs millions de tlspectateurs desservis par des chanes en tlvision numrique, diffuses par cble
dabord, satellite ensuite et hertzien enfin.
Depuis le dbut des annes 1990, la numrisation de la diffusion audiovisuelle sest dveloppe en Europe, tout
dabord par lintermdiaire du satellite, puis par celui du cble.
La question se pose aujourdhui dintroduire la diffusion numrique sur le rseau hertzien terrestre.
Lintroduction de lhertzien numrique terrestre reprsente un enjeu majeur en raison des possibilits de
compression offertes par le format numrique. Dune part, apparat la perspective dintroduction de nouveaux
programmes susceptibles dtre reus par les foyers franais partir de leur installation actuelle dantenne,
quelle soit individuelle ou collective, voire depuis lantenne omnidirectionnelle dun poste portable.
Dautre part, larrt de la diffusion analogique terme, aprs la gnralisation de la rception numrique,
permettra la libration de ressources hertziennes.
Mais au-del, le dveloppement du numrique hertzien constitue galement un formidable vecteur pour la
diffusion dans tous les foyers des technologies de linformation. Le dcodeur numrique peut demain constituer
la plateforme technique partir de laquelle le plus grand nombre aura accs aux services de la Socit de
lInformation : accs Internet, messagerie lectronique, commerce lectronique,
La tlvision numrique est transmise sur ondes radio travers l'espace terrestre de la mme faon que
la tlvision analogique, la principale diffrence tant l'utilisation d'metteurs multiplex permettant la
transmission de plusieurs programmes sur le mme canal.
La tlvision numrique terrestre utilise les bandes de frquences auparavant alloues la tlvision
analogique (bande III en VHF, bandes IVet V en UHF).
La quantit de donnes qui peut tre mise (et donc le nombre de programmes) est directement affecte par
la capacit du canal et la mthode de modulation du canal1. La mthode de modulation en DVB-T est
la COFDM avec soit une modulation d'amplitude en quadrature 64 ou 16 tats. En gnral, un canal 64QAM
est capable de transmettre un taux suprieur d'octets, mais est plus sensible aux interfrences. Les constellations
16 et 64 tats peuvent tre combines dans un seul multiplex, fournissant une dgradation contrlable pour
les flux de programmes plus importants. C'est ce qu'on appelle la modulation hirarchique.

Avantages
La prsentation numrique tend tre mieux dans l'ensemble, en particulier avec un bon signal, due
l'limination des interfrences visibles et d'autres effets tels que les images fantmes.
Les altrations sont moins perceptibles dans les prsentations numriques avec un signal plus faible.
Il est plus facile d'obtenir une qualit d'image optimale numrique qu'une qualit d'image optimale
analogique.
Beaucoup plus de chanes peuvent tenir sur le mme spectre dans la transmission numrique.
Des services interactifs peuvent tre fournis (bouton rouge).
Inconvnients
Il peut tre assez difficile de rgler l'antenne, en raison de l'absence de rtroaction qui serait fournie par une
image progressivement dgrade en mode analogique. L'image est gnralement soit d'une qualit optimale
soit totalement non disponible, ne fournissant aucune information sur la direction dans laquelle dplacer
l'antenne. Un indicateur de puissance du signal fourni sur la plupart des syntoniseurscontribue
considrablement rgler ce problme, mais certains tlviseurs n'en disposent pas. Le mme problme peut
aussi rendre trs difficile de slectionner et tester les antennes.
L'achat de nouveaux quipements (convertisseur analogique-numrique, souscription un service
de tlvision par cble ou satellite) peut tre ncessaire.
La consommation d'lectricit augmente si la tlvision et un botier dcodeur sont branchs en mme
temps.
Une antenne plus rcente peut tre ncessaire.
Le mode analogique ncessite une force du signal plus faible afin d'obtenir une image visible. Par extension,
le numrique ne se dgrade pas aussi gracieusement que l'analogique. C'est parce que la transmission du
signal numrique souffre de l'effet de falaise ; signifiant qu'une fois que le signal se dgrade au-del d'un
certain point, le rcepteur ne parvient pas dcoder le signal et ne peut pas prsenter le rsultat attendu.

2- Numrisation du signal vido

Le principe de la numrisation d'une image vido est assez simple. La premire tape consiste
sous diviser chaque image vido selon une rsolution donne(normalement 720 x 486 pixels
pour une image vido normale) et a associer une valeur numrique chacun des lments qui
forment la couleur de ce pixel (YUV ou RGB) en utilisant une table de conversion de
couleurs(normalement 24 bits par pixels pour 16 millions de couleurs possibles en chaque
point).

Ce procd de conversion doit se faire trs rapidement tant donn qu'une image vido
traditionnelle contient plusieurs milliers de pixels et que la vido analogique NTSC dfile
prs de 30 images par seconde (25 images de 720 x 576 pixels par seconde en PAL)!
Heureusement, il existe actuellement sur le march plusieurs puces permettant d'accomplir
cette tche en temps rel.

2-1 Image vido non compress

Si un signal vido de 720x486 pixels de rsolution est numris en utilisant la norme YUV
4:2:2, le fichier rsultant sera de 1025,16 Ko par image ou 30,03 Mo/sec. C'est ce qu'on
appelle le format non compress de ratio 1:1. Ces valeurs sont calcules de la faon suivante:

720 pixels X 486 pixels X 24 bits/pixel= 1,049,760 octets/image.


Conversion octets/image en K octets/image, 1,049,760 octets/image X 1 Ko/1024 octets=
1025,16 Ko.
Conversion K octets par image en K octets par seconde, 1025,16 Ko/image X 30 images/sec.=
30754,69 Ko/sec.
Conversion K octets par seconde en M octets par seconde, 30754,69 Ko/sec. X 1 Mo/1024 Ko
= 30,03 Mo/sec.

Note: Ces calculs sont valides pour le format NTSC. Pour le PAL, les calculs donneront
environ 25,03 Mo/sec. En se basant sur la rsolution 720 x 576 pixels 25 images/sec.

2-2 Limitations techniques

a- La capacit de stockage:

Avec un dbit d'environ 30 Mo/sec, la vido numrique non-compresse exigerait donc plus
de 1.8 Go d'espace disque pour capter 1 seule minute de vido.
b- La rapidit de transmission:
L'autre problme auquel on doit actuellement faire face avec la vido numrique est le
transfert de ces donnes en format numrique. Certaines technologies permettent actuellement
le transfert des donnes vido numriques non-compresses sauf qu'elles ne sont pas toujours
facilement accessibles. Pour les technologies plus accessibles il faut donc penser rduire le
dbit des donnes.

2-3 Les solutions pour rduire le dbit:

Le problme est donc de diminuer au maximum le nombre de bits ou d'octets utiliss pour
reprsenter une image et, par l, de rduire le dbit binaire ncessaire pour la transmettre. La
premire solution est de diminuer le nombre d'images par secondes, sauf qu'en dessous de 15
18 images par secondes notre il commencera capter une saccade plutt dsagrable.

La deuxime possibilit est de rduire le nombre de points de l'image par 2 ou par 4 sauf que
la qualit visuelle de l'image rsultante sera passablement rduite, voire mme inacceptable.
La troisime possibilit est de coder moins d'informations de couleur, sur 2 octets (16 bits) par
pixel en 64 000 couleurs, par exemple, ou encore sur un seul octet par pixel en palette de 256
couleurs. Pour les applications multimdia, cette solution est acceptable et d'ailleurs trs
recommande pour les prsentations multimdia, mais pas pour le montage vido, mme
amateur.

Toutes ces mthodes auront bel et bien pour effet de rduire le dbit des donnes, mais la
dgradation de l'image sera si importante que mme un amateur la rejetterait. La seule vraie
solution au problme de dbit est apporte par la compression, aussi appele Bit Rate
Rduction (Rduction du dbit binaire). Plusieurs mthodes ont t mises au point avec plus
ou moins de succs.

3- La compression des donnes:

Tout d'abord, il est important de savoir que les techniques de compression du flux de donnes
numriques sont principalement bases sur une constatation : une image contient normment
d'informations redondantes, redondance dont on peut distinguer deux types:

3-1 La redondance spatiale:

Lorsque des informations sont similaires ou se rptent dans des zones de l'image proches l'une de
l'autre (dans une image, deux points voisins sont souvent similaires).

3-2 La redondance temporelle:

Lorsque des informations se ressemblent ou se rptent dans le temps, mme si leur position dans
l'image a chang (deux images successives sont souvent relativement similaires).

La compression va donc consister dterminer ces redondances et les liminer. La contrainte lie
la qualit de l'image nous oblige tre capables de reproduire l'image originale intacte ou, tout au
moins, une image trs proche de celle-ci. Cette dfinition nous amne envisager deux types de
techniques pour la compression.

3-3 La compression avec perte d'information:

Il existe diffrentes techniques permettant d'obtenir des facteurs de compression nettement plus levs
qu'avec les techniques rversibles. Mais, avec de telles mthodes, l'image reconstruite aprs
dcompression, bien qu'elle reste proche de l'image originale, n'est plus identique. On parlera alors de
mthodes de compression irrversibles.

Cependant, mme si elles induisent des pertes d'informations dans les images, en choisissant
judicieusement le type d'informations qui seront perdues ou dgrades, il est nanmoins possible de
reconstruire des images d'une qualit telle que l'il humain ne pourra les distinguer des images
originales. En effet, l'il est plus sensible certaines notions qu' d'autres. Ainsi, une dgradation des
couleurs dans une scne remplie d'objets en mouvement rapide passera inaperue alors qu'une faible
perte de qualit dans une image fixe comportant un dgrad de couleurs sera immdiatement perue.
Ces particularits de l'il humain sont exploites depuis le dbut de la vido.

La vido numrique utilise galement au maximum les particularits de l'il humain lorsqu'il s'agit de
compression d'images. Nous obtenons ainsi une compression visuellement sans perte d'informations.
De ces constatations sont nes plusieurs classes de mthodes de compression:

3-3-4 Le Variable Length Coding (VLC):

Il se base sur la constatation que certaines combinaisons de pixels sont plus frquentes que d'autres.
Ds lors, en recensant toutes les combinaisons possibles d'un nombre donn de pixels, il est possible
d'en tudier leur frquence d'apparition dans une image. On attribue alors chaque combinaison un
code dont la longueur (nombre de bits) est d'autant plus faible que la combinaison apparat souvent
dans l'image. La premire application de cette mthode est bien antrieure la vido. Le code morse
rejoint la mme ide.

3-3-5 Le Diffrentiel Pulse Code Modulation (DPCM):

Il se base sur la constatation que, dans la plupart des images, les diffrences entre deux pixels
adjacents sont souvent faibles, les transitions franches (par exemple: un rectangle noir sur un fond
blanc) tant assez rares. Il est donc envisageable, connaissant la valeur d'un pixel, de prdire la valeur
de son voisin.

3-3-6 La Discrte Cosine Transform (DCT):

Elle se base sur la transformation d'une reprsentation spatiale d'un bloc de pixels, c'est--dire position
horizontale, verticale ainsi que l'amplitude, en une reprsentation sous forme mathmatique diffrente.
Cette reprsentation plus compacte de l'image requiert de traiter moins d'informations. En effet, cette
nouvelle reprsentation ne se base plus sur une analyse spatiale (positions horizontale, verticale et
amplitude) mais sur une analyse frquentielle savamment calcule. Cette technique est rendue possible
grce l'utilisation d'une variante des sries de Fourier. Celles-ci permettent de reconstruire une
fonction partir d'une somme de sinusodes multiplies chacune par un certain coefficient dit "de
Fourier". La DCT s'apparente cette mthode. La DCT, en elle-mme, ne comprime donc pas l'image.
Elle la reprsente simplement sous une forme qui se prte beaucoup mieux la compression. Il ne
reste alors plus qu' appliquer un codage intelligent des diffrents coefficients.

3-3-7 La compression sans perte d'informations (Loss less):

Pour plusieurs personnes, rien ne peut rivaliser avec un original. En fait, la compression "Loss less" est
suprieure du vido non-compress parce que la qualit est identique et qu'en plus on sauve de
l'espace disque tant donn que le signal est compress. Le problme est qu'tant donn qu'il y a trs
peu de redondance dans une image vido, le gain n'est seulement que de 50% en moyenne.
Les standards actuels de compression:

Plusieurs standards de compression ont dj t dvelopps. Voici une liste non exhaustive des
mthodes de compression rencontres le plus frquemment ainsi que leurs champs d'application.

Le JPEG(Joint Photographic Experts Group):

Il s'agit d'un standard international pour la compression d'images couleurs fixes stockes sous forme
digitale. la base, ce standard fut conu pour le monde de l'impression et de la photocomposition. Il
accepte n'importe quelle dfinition, tant verticale qu'horizontale et autorise un nombre de bits par pixel
compris entre 1 et 32. La technique de compression utilise est base sur la Discrete Cosine Transform
(DCT). Cependant, conu pour les images fixes, il ne convient pas la compression de squences
vido.

Le Motion JPEG:

Il s'agit d'une extension du JPEG qui permet de traiter des squences d'images. En ralit, il se
contente de considrer une squence vido comme une succession d'images fixes, chacune d'elles
compresse sparment en utilisant le standard JPEG. Puisque chaque image est compresse
indpendamment des autres, le Motion JPEG permet le montage l'image prs. Tant que l'on se
contente de facteurs de compression relativement faibles (de 2:1 4:1) il peut s'appliquer du travail
de production ou de postproduction de qualit et, optimis, il est quasi transparent. Toutefois, lorsque
le facteur de compression devient plus important (au del de 10:1), la dgradation des images devient
telle qu'elle est aisment perceptible par l'oeil humain. En outre, ces dgradations s'additionnent d'une
gnration l'autre, jusqu' devenir rapidement inacceptables.

Le MPEG (Moving Pictures Experts Group):

Comme nous venons de le voir, tant que l'on se contente de compresser des squences vido en
considrant chaque image sparment, le facteur de compression peut difficilement dpasser 4:1 si l'on
souhaite conserver un niveau de qualit compatible avec un usage professionnel. Pour atteindre des
facteurs de compression suprieurs, il faut se baser sur les similitudes existant entre plusieurs images
successives. Cette constatation a donn naissance au standard MPEG. l'origine, le standard MPEG
prvoyait 4 niveaux (d'autres s'y sont ajouts depuis):
MPEG-1: destin aux applications multimdia.
MPEG-2: extension de MPEG-1 permettant d'obtenir une qualit d'image suprieure.
MPEG-3: destin la tlvision haute dfinition. Cependant, MPEG-2 s'est rvl tellement
performant qu'il a rendu inutile le dveloppement de MPEG-3.
MPEG-4: Originalement destin aux communications mobiles, sa forme originale n'a rien voir avec
le monde de la vido broadcast. D'autres dveloppements futurs seront surveiller.

Le but du MPEG-1 tait de produire des images de qualit quivalente au VHS tout en parvenant
descendre un dbit binaire de l'ordre de 1.2 Mbits/seconde (1.5 Mbits/seconde en incluant le son).

Le MPEG-2 fut conu pour traiter des squences d'images entrelaces. Le but tait de produire des
images de la qualit d'un systme vido composite avec un dbit binaire de l'ordre de 4 8
Mbits/seconde ou des images de haute qualit avec un dbit de 10 15 Mbits/seconde. Les domaines
d'application principaux de MPEG-2 sont lis la distribution de programmes vido: diffusion par
satellite, tldistribution, Digital Vido Disc.

Comme on peut le voir, le MPEG offre un vaste ventail de possibilits, semble flexible et permet
d'atteindre une bonne qualit d'image. Ds lors, pourquoi ne pas l'utiliser tout au long d'une chane de
production vido professionnelle? Les raisons sont multiples: MPEG conduit des systmes fortement
asymtriques; le processus de compression est beaucoup plus complexe que le processus de
dcompression. Il faut donc une puissance de calcul de loin suprieure pour la compression que pour
la dcompression. Ceci ne pose pas de problme lorsqu'il s'agit de distribuer des images car, par
dfinition, on compresse un seul endroit, lors de l'mission, puis l'on diffuse les images qui sont
dcompresses sur de multiples rcepteurs. Dans le cas d'une chane de postproduction, il en va tout
autrement; il faut pouvoir compresser et dcompresser chaque maillon de la chane. De plus, le
systme MPEG n'a pas t conu pour faire du montage l'image prs, ce qui est un des pr-requis
majeurs pour faire de la postproduction. Des gnrations successives, entrecoupes de traitements
(effets), peuvent induire une perte de qualit qui s'avrera rapidement inacceptable. MPEG n'a pas t
conu pour permettre des oprations telles que le "chroma key".

Paralllement aux travaux de MPEG, le secteur informatique a dvelopp ses propres solutions pour
amener la vido sur les crans des micro-ordinateurs. Les possibilits d'affichage et de traitement
permettaient, ds la fin des annes quatre-vingt, d'afficher des images (fixes) de haute qualit, et de
crer des animations lmentaires.

Quicktime:

Apparu en 1991, Quicktime a t intgr au Systme 7 des Macintosh. Il s'agit d'un environnement de
dveloppement et d'excution qui permet d'associer des donnes classiques des fichiers reprsentant
des squences sonores ou vido. Quicktime comprend essentiellement des formats de donnes
standardiss, des procds de compression/dcompression, et une interface utilisateur spcifique.
L'extension systme utilise est fonde sur le principe du maintien de l'isochronie des donnes, et
introduit donc le temps comme lment principal du systme d'exploitation. Quicktime est surtout
conu comme un ensemble de spcifications trs ouvert, capable d'intgrer facilement un grand
nombre d'volutions matrielles et logicielles, sans remettre en cause les applications existantes.

Vido pour Windows:

Vido pour Windows est un ensemble logiciel commercialis par Microsoft permettant la captation et
la restitution de vido anime sur PC. L'excution de squences vido est possible sans matriel
spcifique, alors que la captation doit tre faite au moyen d'une carte de numrisation. Une large
compatibilit est permise grce la dfinition de spcifications permettant d'intgrer des matriels aux
fonctionnalits diffrentes. Ainsi, travers un ensemble de pilotes, Vido pour Windows sera capable
de supporter des priphriques aux fonctionnalits diverses tout en assurant, autant que possible, les
fonctions manquantes au niveau logiciel.

Pas plus que Quicktime, Vido pour Windows n'est pas un algorithme de compression. Il s'agit plutt
d'une interface standardise entre le matriel et les procds de codage et de compression, qui offre
des API (interfaces de programmation) relativement indpendantes du matriel. Cependant, comme
Apple, Microsoft a galement dfini des algorithmes de compression adapts diffrentes situations
(Microsoft Vido 1, Microsoft RLE compressor), et intgre ceux proposs par des socits tierces,
comme Indeo d'Intel. Plus qu'une technique de compression, Vido pour Windows fournit en fait une
plate-forme commune sur laquelle pourront s'articuler divers procds de codage.

Le Digital BETACAM:

Propos par Sony, il est driv de techniques JPEG qui ont t soigneusement adaptes aux travaux de
post production de haute qualit. Il utilise des signaux vido 4:2:2 et leur applique un facteur de
compression faible de 2:1. Chaque trame tant compresse sparment, il offre toutes les possibilits
de montage requises pour un usage professionnel. Son principal inconvnient est son faible facteur de
compression. Il est principalement utilis pour les applications de type Broadcast.
La Digital Vido Cassette(DVC):

Il s'agit d'un nouveau format de cassette vido digitale dvelopp par le HD Digital VCR Consortium
form l'origine par Sony, Matsushita, Philips, Thomson, Toshiba, Hitachi, JVC, Sanyo, Sharp et
Mitsubishi. Ces 10 socits ont uni leurs efforts pour proposer, en juillet 1993, la premire
spcification du format DV. Par la suite, de nombreuses autres socits se sont jointes au consortium
qui compte aujourd'hui plus d'une soixantaine de membres. Ce nouveau format utilise certains
lments du standard JPEG pour le codage de la vido.

La compression DV ne joue que sur les redondances spatiales l'intrieur de l'image complte. Elle ne
cherche pas rduire les redondances temporelles comme le fait le MPEG. Elle utilise un facteur de
compression de 5:1. Elle permet donc d'obtenir une excellente qualit d'image en premire gnration,
ce qui est l'idal pour un usage grand public. Une heure de vido numrique en format composante (Y,
R-Y, B-Y) peut tre sauvegard sur une mini-cassette plus petite qu'une cassette audio DAT. La
qualit est considre comme suprieure au BetacamSP. Une autre cassette DV lgrement plus grosse
qu'une cassette 8mm peut contenir jusqu' 270 minutes d'enregistrement numrique!

La technologie Fire Wire:

La norme Fire Wire, aussi connue sous le nom de IEEE-1394, a t introduite comme une interface
universelle pour la transmission des donnes sries haute vitesse entre diffrentes composantes
lectroniques telles que les disques rigides, les lecteurs CD-ROM, les scanners et les cartes de capture
vido. La technologie Fire Wire supporte trois vitesses de transfert; 100, 200 et 400Mbits/sec. 16
priphriques peuvent s'interconnecter avec une distance pouvant aller jusqu' 4 mtres entre chaque
priphrique. Le branchement se fait grce un fil 6 conducteurs regroups en paires. Deux paires
transmettent les donnes et les caractres de contrle tandis que l'autre paire se charge de transporter
l'alimentation (max. 60 W). Il existe aussi des connecteurs quatre conducteurs dpourvus
d'alimentation.

Il est important de faire la distinction entre la technologie Fire Wire et le DV. Les termes sont souvent
interchangeables, mais ont une fonction bien diffrente. En gros on peut dire que la technologie Fire
wire est une affaire de plomberie. C'est un standard de transmission. C'est une nouvelle manire de
transmettre des informations numriques travers un cble et une prise spciaux entre des
priphriques et un ordinateur. Le DV, quant lui, est un nouveau standard d'enregistrement. C'est une
nouvelle manire d'crire un signal vido compress sur la bande magntique.

4- La tlvision numrique:

La tlvision numrique n'est plus dans le domaine du futur, elle est maintenant une ralit dans le
monde. Aux tats-Unis d'abord, o des satellites offrent depuis quelques annes plusieurs dizaines de
chanes de tlvision en numrique; en Europe ensuite, o on assiste une vritable mobilisation
depuis les premires semaines de l'anne 1996. Ce qui a permis la rvolution numrique, ce sont les
progrs raliss dans la compression des donnes et plus particulirement les travaux du groupe de
normalisation MPEG (Moving Pictures Experts Group) dont furent issues entre autres les normes
MPEG-1 et MPEG-2.

Les avantages du numrique en matire de tlvision par satellite:

Grce la technologie du numrique, il est aujourd'hui possible de faire transiter simultanment


plusieurs programmes dans un mme canal satellite, l o on ne pouvait en loger, en analogique, qu'un
seul et unique. Cette possibilit d'acheminer plusieurs chanes de tlvision numriques sur un mme
rptiteur de satellite permet de diffuser non plus quelques dizaines, mais quelques centaines de
programmes sur chaque satellite. Parmi les autres avantages du numrique, on peut galement noter:

- La qualit constante des images et des sons en terme de transmission: Le numrique est moins sujet
aux perturbations extrieures que l'analogique et offre une meilleure rsistance au bruit, au brouillage
ou aux phnomnes d'cho.

- La facilitation de la compatibilit entre tous les pays: Plus de standards disparates (NTSC, PAL ,
SECAM...) et une compatibilit accrue avec les quipements de production qui sont dj numriques
depuis longtemps.

- La rduction des cots: Cette multiplicit des canaux va de pair avec une rduction du cot de la
retransmission des programmes puisque, en toute thorie, on devrait pouvoir diviser le prix actuel de
la location de chacun des transpondeurs des satellites par le nombre de programmes qui pourront y
transiter.

5- Le codage Audio Numrique

L'Audio Engineering Society(AES) et l'European Broadcasting Union(EBU) ont tabli


conjointement une norme audio numrique connue sous le terme d'interface AES/EBU. Cette
norme propose des formats pour l'change d'informations audio-numriques entre appareils
audio professionnels, tout en garantissant la souplesse ncessaire aux applications spciales.
L'International Electrotechnical Commission(IEC) a galement adopt un format bas sur la
norme AES/EBU pour les appareils audio grand public.
En bref, la norme de format AES/EBU dfinit comment deux canaux d'informations audio
sont priodiquement chantillonns et transmis sur une paire de fils torsads. Les canaux
audio Gauche et Droit sont multiplexs et sont auto-cadencs et auto-synchroniss. Le format
de mesure est indpendant de la frquence d'chantillonnage recommande par l'AES et
supporte, sur 24 bits, 32 kHz, 44,1 kHz et 48 kHz.

Cette compression audio, qui est entirement base sur les caractristiques de l'audition
humaine, s'accompagne de pertes et ne peut tre aborde sans une tude pralable de ce sens.
Il est surprenant de constater que l'audition humaine, et particulirement en stro, a un
pouvoir discriminatoire bien suprieur celui de la vision et c'est pourquoi la compression
audio doit tre envisage avec encore plus de prcautions. Comme la compression vido, la
compression audio ncessite plusieurs niveaux de complexit en fonction du facteur de
compression souhait.
Une autre considration importante dans l'enregistrement et la diffusion numriques
d'aujourd'hui est le monitoring du "point de crash" ou point d'atteinte du "niveau d'entre
maximum" admissible par un systme ou un quipement. Le format d'enregistrement
numrique est quelque peu plus tolrant, dans le sens o quelques pointes "hors tolrance"
tombent simplement hors de la gamme de l'appareil numrique et ne sont pas chantillonnes.
Une srie de "pops" ou de "sifflements" qui pourraient srieusement compromettre un
enregistrement analogique peuvent tre automatiquement "attnue". Ce phnomne a
entran quelques personnes vers la fausse notion que les niveaux audio numriques pouvaient
tre apprhends de manire plus simpliste. Les appareils de mesure rudimentaires intgrs
dans la plupart des appareils numriques refltent cette attitude. Il est aussi ncessaire de
produire un volume plus consistant dans les enregistrements numriques que dans les
enregistrements analogiques.
Avoir quelques prises "plus fortes" que d'autres est plus acceptable dans le nouveau
monde numrique que cela n'tait dans l'environnement analogique. Il y a galement la mme
ncessit de protger les CRTES. L'ide qu'un "certain nombre" de crashs soit tolrable est
simplement fausse. Obtenir le volume au dtriment des crtes rsulte en une perte de
dimension et de clart.

5-1 Le mcanisme de l'audition:

L'audition se compose d'un processus physique l'intrieur de l'oreille et d'un processus


nerveux et mental qui se combinent pour donner une impression sonore. L'impression que
nous recevons n'est pas exactement similaire la forme d'onde acoustique prsente dans le
conduit auditif parce qu'une certaine entropie est perdue. Les systmes de compression audio
qui donneront de bons rsultats seront donc ceux qui ne perdront que la partie de l'entropie qui
est perdue dans le mcanisme de l'audition.

Le mcanisme physique de l'audition se rpartit en trois parties: l'oreille externe, l'oreille


moyenne et l'oreille interne. En plus du pavillon, l'oreille externe comprend le conduit auditif
et le tympan. Le tympan transforme les sons incidents en une vibration comme le fait un
diaphragme de microphone. L'oreille interne opre en utilisant ces vibrations transmises
travers un fluide. L'impdance du fluide est bien suprieure celle de l'air et l'oreille moyenne
agit comme un transformateur d'impdance qui effectue le transfert d'nergie.

On voit ci-dessus que les vibrations sont transfres l'oreille interne par l'trier, qui agit sur
la fentre ovale. Les vibrations du fluide de l'oreille interne parviennent au limaon, une
cavit du crne en forme de spirale (prsente droule sur la figure, pour plus de clart).
La membrane basilaire est tire sur toute la longueur du limaon. Le poids et la consistance
de cette membrane varient d'un bout l'autre. Prs de la fentre ovale, la membrane est rigide
et lgre et sa frquence de rsonance est leve. l'autre extrmit, la membrane est lourde
et souple, ce qui fait qu'elle rsonne aux frquences basses.

La gamme de frquences disponibles dtermine la plage de l'audition humaine qui, pour la


plupart des gens, s'tend de 60 Hz 15 Khz. Les diffrentes frquences du son incident
provoquent la vibration de diffrentes parties de la membrane. Toutes les zones de la
membrane sont relies diffrentes terminaisons nerveuses qui permettent une discrimination
trs fine. La membrane basilaire est galement munie de fins muscles commands par les
nerfs et qui agissent ensemble dans une sorte de contre-raction positive qui aurait tendance
augmenter le facteur de rsonance Q. Le comportement rsonnant de la membrane basilaire
constitue une rplique exacte d'un analyseur de transformes.

En raison de la thorie de l'incertitude, plus le domaine de frquences d'un signal est connu,
moins son domaine temporel est connu. En consquence, plus un systme est apte
dterminer la diffrence entre deux frquences, moins il est capable de sparer le temps qui
les spare. L'audition humaine a dvelopp un certain compromis entre la discrimination
incertitude temporelle et la discrimination de frquence; ce compromis impliquant qu'aucune
perfection n'est atteinte. La discrimination imparfaite de frquences rsulte du fait de
l'incapacit de sparer deux frquences proches. Cette incapacit est connue comme un effet
de masquage auditif qui rduit la sensibilit d'un son en prsence d'un autre. La figure 3.2a
montre que le seuil d'audition est fonction de la frquence. La plus grande sensibilit se situe
naturellement dans la gamme de frquences de la parole.

En prsence d'une note pure, le seuil est modifi, tel quindiqu sur la figure 3.2b. Le seuil est
relev non seulement pour des frquences hautes, mais aussi pour quelques frquences basses.
En prsence d'une source sonore au spectre plus complexe, comme de la musique, le seuil est
relev presque toutes les frquences. Une consquence de ce comportement est que le
sifflement d'une cassette audio n'est audible que pendant les passages trs doux de la musique.

La compression utilise ce principe en amplifiant les frquences basses avant l'enregistrement


ou la transmission et en les ramenant ultrieurement leur niveau convenable. La
discrimination imparfaite de temps montre par l'oreille est due sa rponse rsonante. Le
facteur de rsonance Q est tel qu'il faut qu'un son donn soit prsent au moins 1 milliseconde
avant qu'il ne devienne audible. cause de cette rponse lente, le masquage peut se produire
mme si les deux signaux concerns ne sont pas simultans. Les masquages avant et arrire
peuvent se produire quand le son de masquage continu agir des niveaux plus faibles avant
et aprs la dure courante du son de masquage. La figure 3.3 dmontre ce concept. Le
masquage relve le seuil d'audition et les systmes de compression tirent parti de cet effet en
rehaussant le niveau "plancher" de bruit, permettant ainsi au signal audio d'tre exprim avec
moins de bits. Le plancher de bruit ne peut tre relev que pour les frquences auxquelles le
masquage agit. Pour maximaliser le masquage actif, il faut dcouper le spectre audio en
diffrentes bandes de frquence pour permettre l'introduction des diffrentes quantits de
compression et de bruit dans chacune d'elles.

5-2 Codage en sous-bandes:

La figure suivante montre un compresseur bandes spares. Le filtre sparateur de bandes


est un jeu de filtres phase linaire, ayant tous la mme largeur de bande et qui se recouvrent.
La sortie de chaque bande consiste en des chantillons reprsentatifs de la forme d'onde. Dans
chaque bande de frquence, l'entre audio est amplifie au maximum avant la transmission.
Chaque niveau est ensuite ramen sa valeur initiale. Le bruit introduit par la transmission est
ainsi rduit dans chaque bande. Si l'on compare la rduction de bruit au seuil d'audition, on
s'aperoit qu'un bruit plus important peut tre tolr dans certaines bandes du fait de l'action
du masquage. Par consquent, il est possible, dans chaque bande, de rduire la longueur des
mots d'chantillons aprs la compression. Cette technique ralise une compression parce que
le bruit introduit par la perte de rsolution est masqu. La figure ci-dessous prsente un
codeur simple bandes spares, comme ceux utiliss dans la Couche 1 du MPEG. L'entre
audio -numrique alimente un filtre de sparation de bandes qui divise le spectre du signal en
un certain nombre de bandes

En MPEG, ce nombre est de 32. L'axe des temps est divis en blocs d'gale longueur. Dans la
couche 1 de MPEG, il y a donc 384 chantillons du signal d'entre, ce qui se traduira, en
sortie du filtre, par 12 chantillons dans chacune des 32 bandes. A l'intrieur de chaque bande,
le niveau est amplifi par multiplication jusqu' sa valeur maximale. Le gain ncessaire est
constant pour la dure du bloc et un seul facteur d'chelle est transmis avec chaque bloc, pour
chaque bande, de faon pouvoir renverser le processus au dcodage.

La sortie du groupe de filtres est galement analyse afin de dterminer le spectre du signal
d'entre. Cette analyse permet de raliser un modle de masquage permettant de dterminer le
degr de masquage que l'on peut attendre dans chaque bande. Dans chaque bande, plus le
masquage est agissant, moins l'chantillon doit tre prcis. La prcision d'chantillon est alors
rduite par re-quantification en vue de diminuer la longueur des mots. Cette rduction est
aussi constante pour chaque mot dans la bande, mais les diffrentes bandes peuvent utiliser
des longueurs de mots diffrentes. La longueur de mots doit tre transmise comme un code
d'affectation de bits afin de permettre au dcodeur de d-srialiser convenablement le flux de
bits.

5-3 Couche 1 du MPEG:

La figure suivante montre un flux de bits audio MPEG Niveau 1.


Aprs le mot de synchronisation et l'en-tte, il y a 32 codes d'affectation de bits de 4 bits
chacun. Ces codes dcrivent la longueur des mots des chantillons dans chaque sous-bande.
Viennent ensuite les 32 facteurs d'chelle utiliss par la compression dans chaque bande. Ces
facteurs d'chelle sont indispensables pour rtablir le bon niveau au dcodage. Les facteurs
d'chelle sont suivis des donnes audio de chaque bande. Voici un dcodeur du type Couche
1.

Le mot de synchronisation est dtect par le gnrateur de temps qui d-srialise les bits
d'affectation et les donnes de facteur d'chelle. L'affectation de bits permet ensuite la d-
srialisation des chantillons longueurs variables. La re-quantification inverse et la
multiplication par l'inverse du facteur de compression sont appliques de faon ramener le
niveau de chaque bande sa bonne valeur. Les 32 bandes sont ensuite rassembles dans un
filtre de recombinaison pour rtablir la sortie audio.

5-4 Couche 2 du MPEG:

Cette figure montre que, lorsque le filtre de sparation de bandes est utilis pour crer le
modle de masquage, l'analyse de spectre n'est pas trs prcise dans la mesure o il n'y a que
32 sous-bandes et que l'nergie est rpartie dans la totalit de la bande. On ne peut pas trop
augmenter le plancher de bruit car, dans le pire des cas, le masquage n'agirait pas. Une
analyse spectrale plus prcise autoriserait un facteur de compression plus lev. Dans la
couche 2 du MPEG, l'analyse spectrale est effectue l'aide d'un processus spar.

Une FFT 512 points est effectue directement partir du signal d'entre pour le modle de
masquage. Pour amliorer la prcision de la rsolution de frquence, il faut augmenter
l'excursion temporelle de la transforme, ce qui est effectu en portant la taille du bloc 1152
chantillons. Bien que le synoptique de la compression de bloc soit identique celui de la
couche 1 du MPEG, tous les facteurs d'chelle ne sont pas transmis dans la mesure o, dans
les images de programme, ils prsentent un degr de redondance non ngligeable.

Le facteur d'chelle de blocs successifs excde 2dB dans moins de 10 % des cas et on a
avantage tirer parti de cette caractristique en analysant les groupes de 3 facteurs d'chelle
successifs. Sur les programmes fixes, seul un facteur d'chelle sur trois est transmis. mesure
de l'augmentation de la variation dans une bande donne, deux ou trois facteurs d'chelle sont
transmis. Un code de slection est galement transmis pour permettre au dcodeur de
dterminer ce qui a t mis dans chaque bande. Cette technique permet de diviser par deux le
dbit du facteur d'chelle.

Codage de transforme:

Les couches 1 et 2 du MPEG sont bases sur les filtres sparateurs de bandes dans lesquels le
signal est toujours reprsent comme une forme d'onde. La couche 3 utilise de son ct un
codage de transforme comme celui utilis en vido. Comme indiqu plus haut, l'oreille
effectue une espce de transforme sur le son incident et, du fait du facteur de rsonance Q de
la membrane basilaire, la rponse ne peut augmenter ou diminuer rapidement. Par consquent,
si un signal audio est transform dans le domaine frquentiel, il n'est plus ncessaire de
transmettre les coefficients trop souvent. Ce principe constitue la base du codage de
transforme. Pour des facteurs de compression plus levs, les coefficients peuvent tre re-
quantifis, ce qui les rend moins prcis. Ce processus gnre du bruit qui pourra tre plac
des frquences o le masquage est le plus fort. Une caractristique secondaire d'un codeur de
transforme est donc que le spectre d'entre est connu trs prcisment, ce qui permet de crer
un modle de masquage trs fidle.

Couche 3 du MPEG:

Ce niveau complexe de codage n'est en ralit utilis que lorsque les facteurs de compression
les plus levs sont ncessaires. Il comporte quelques points communs avec la couche 2. Une
transforme cosinus discrte 384 coefficients de sortie par bloc est utilise. On peut obtenir
ce rsultat par un traitement direct des chantillons d'entre mais, dans un codeur multi-
niveaux, il est possible d'utiliser une transforme hybride incorporant le filtrage 32 bandes des
couches 1 et 2. Dans ce cas, les 32 sous-bandes du filtre QMF(Quadrature Mirror Filter) sont
ensuite traites par une Transforme Cosinus Discrte Modifie(Modified Discrete Cosine
Transform) 32 bandes pour obtenir les 384 coefficients. Deux tailles de fentres sont
utilises pour viter les pr-oscillations la transmission. La commutation de fentres est
commande par le modle psycho-acoustique. On a trouv que le pr-cho n'apparaissait dans
l'entropie que lorsquelle tait suprieure au niveau moyen. Pour obtenir le facteur de
compression le plus lev, une quantification non-uniforme des coefficients est effectue
selon le codage de Huffman. Cette technique attribue les mots les plus courts aux valeurs de
code les plus frquentes.

Le codage AC-3:

La technique de codage audio AC-3 est utilise avec le systme ATSC la place d'un des
systmes de codage audio MPEG. DVB a aussi d l'adopter sous la pression des industriels.
Le systme AC-3 est bas sur une transforme et obtient le gain de codage en re-quantifiant
les coefficients de frquence. L'entre PCM d'un codeur AC-3 est divise en blocs par des
fentres qui se chevauchent comme indiqu ci dessous.

Ces blocs contiennent chacun 512 chantillons mais, du fait du chevauchement total, il existe
une redondance de 100%. Aprs la transforme, il existe donc 512 coefficients qui peuvent,
du fait de la redondance, tre ramens 256 l'aide d'une technique appele Suppression par
aliasing dans le domaine temporel (TDAC, Time Domain Aliasing Cancelation).

La forme du signal d'entre est analyse et, s'il existe une volution significative dans la
seconde moiti du bloc, le signal sera spare en deux pour viter les pr-chos. Dans ce cas,
le nombre de coefficients reste le mme mais la rsolution de frquence sera divise par deux
et la rsolution temporelle double. Un indicateur (flag) est plac dans le flux de bits pour
signaler que cette opration a t effectue. Les coefficients sont mis sous un format
virgule flottante avec une mantisse et un exposant. La reprsentation est l'quivalent binaire
de la notation scientifique.

Les exposants constituent en fait les facteurs d'chelle. Le jeu d'exposants d'un bloc
produisent l'analyse spectrale d'un signal d'entre avec une prcision finie sur une chelle
logarithmique appele enveloppe spectrale. Cette analyse spectrale est le signal d'entre du
modle de masquage dfinissant, pour chaque frquence, le niveau jusqu'o le bruit peut tre
augment. Le modle de masquage pilote le processus de re-quantification qui diminue la
prcision de chaque coefficient en arrondissant la mantisse. Cette mantisse constitue une
partie significative de la donne transmise. Les exposants sont galement transmis mais pas
intgralement dans la mesure o la redondance qu'ils comportent peut tre ultrieurement
exploite.

A l'intrieur d'un bloc, seul le premier exposant (celui de la frquence la plus base) est
transmis dans sa forme absolue. Les autres sont transmis de faon diffrentielle et le dcodeur
ajoute la diffrence avec l'exposant prcdent. Quand le signal audio prsente un spectre assez
aplati, les exposants peuvent tre identiques pour plusieurs bandes de frquences. Les
exposants peuvent alors tre assembls en groupes de deux quatre avec un indicateur
dcrivant leur mode de groupement. Des jeux de six blocs sont assembls dans une trame de
synchro AC-3. Le premier bloc de la trame comporte la donne complte pour l'exposant
mais, dans le cas de signaux constants, les blocs suivants de la trame peuvent utiliser le mme
exposant. Voici un schma du fonctionnement de l'encodeur AC-3:

Alors que celui-ci dmontre le fonctionnement du Dcodeur AC-3:

Le schma suivant montre comment le signal AC-3 est transmis et reu en DVB:
Chapitre II
La Modulation numrique

I- Introduction

- Modulation QAM (Quadrature , Amplitude Modulation), QPM (Phase), BPSK


(Binary Phase Shift Keying), QPSK, OFDM (Orthogonal Frequency Division
Multiplexing)

Chapitre III
Les normes de compression audio vido

I- Introduction
La Compression Vido MPEG-2
(Codage gnrique de films, vido et informations audio associes):

MPEG(Motion Picture Expert Group), form en 1988 d'un groupe d'experts en vido, a eu la tche de dfinir les
standards de compression des signaux audio-visuels. Le grand principe du MPEG vido tant de "Ne jamais
transmettre un lment d'image dj transmis", son premier projet, MPEG-1, t publi en 1993. MPEG-1
supporte principalement l'encodage vido allant jusqu' environ 1.5 Mbits/s, donnant une qualit similaire au
VHS et de l'audio stro 192 bits/s. Il est utilis pour les systmes CD-i (compact disc interactive) et Vido-CD
pour enregistrer le vido et l'audio sur CD-ROM.

MPEG-2 est une extension du standard MPEG-1. Il est principalement un format "broadcast" des taux de
donnes ("data rate") suprieurs. Il propose des outils algorithmiques pour encoder efficacement le vido
entrelac, supporte une grande chelle de "bits rate" et permet l'encodage "surround sound" multiples canaux.
Le format vido de postproduction numrique utilise 270 Mbit/s de dbit pour coder les images. Sachant qu'un
canal satellite accepte autour de 45 Mbit/s(valeur la plus courante), on voit rapidement qu'il va falloir faire suivre
un srieux rgime nos images. Le standard MPEG-2 est capable d'encoder un signal tlvision standard un
"bit rate" allant de 3-15 Mbits/s(audio multi-canaux + vido + donnes auxiliaires) et un signal tlvision haute
dfinition de 15-30 Mbits/s. Les dcodeurs MPEG-2 sont galement capables de dcoder les signaux MPEG-1.

Principes de la diffusion vido:

Les stations de tlvision europennes diffusent prsentement un "frame rate" de 25Hz. Chaque frame (cadre)
est form de deux champs "entrelacs", donnant un taux de champs("field rate") de 50Hz. Le premier champ de
chaque "frame" contient seulement les lignes impaires du "frame"(la premire du haut sera la #1). Le second
champ contient quant lui les lignes paires(environ 20 ms aprs le premier champ). Le signal tlvision nord-
amricain est lui aussi "entrelac", mais avec un "frame rate" dun peu moins de 30 Hz(29,97 Hz).

Pour les systmes vido autres que la tlvision, on retrouve souvent un signal vido "non-entrelac"(par
exemple pour la majorit des ordinateurs). En vido "non-entrelac", toutes les lignes d'un "frame" sont lues au
mme instant. Le vido "non-entrelac" est galement appel "progressively scanned video" ou "sequentially
scanned video". Le signal RGB(red, green and blue) peut tre exprim en composantes de luminance(Y) et de
chrominance(UV). La largeur de la bande passante de la chrominance peut tre rduite en fonction de la
luminance sans affecter de manire significative la qualit de l'image. En vido standard, le signal vido
component(YUV) sera chantillonn et numris pour former des "pixels" (voir CCIR recommandation 601).
Les termes 4:2:2 et 4:2:0 sont souvent utiliss pour dcrire la structure d'une image numrique. 4:2:2 signifie que
la chrominance est sous-chantillonne horizontalement par un facteur de deux relatif la luminance. 4:2:0
signifie que la chrominance est sous-chantillonne horizontalement et verticalement par un facteur de deux
relatif la luminance.

La rgion active d'une image vido numrique standard est de 720 pixels X 576 lignes, pour un "frame rate" de
25 Hz. En utilisant 8 bits pour chaque pixels Y, U ou V, le "bit rate" non compress pour les signaux 4:2:2 et
4:2:0 sera donc:

4:2:2 - 720x576x25x8 + 360x576x25x(8+8) = 166 Mbits/s


4:2:0 - 720x576x25x8 + 360x288x25x(8+8) = 124 Mbits/s

MPEG-2 est capable de compresser le "bit rate" d'un signal vido standard 4:2:0 jusqu' un taux de 3 Mbits/s.
Plus le "bit rate" est bas, plus la qualit du signal encod devient compromise. Pour un signal de diffusion
numrique terrestre standard, un "bit rate" d'environ 6 Mbits/s est gnralement accept comme un bon
compromis entre la qualit d'image et les impratifs de bande passante du transmetteur(Cblos, Satellites,
etc&Idots;).
II- Principes de rduction du "bit rate":

Le systme de rduction du "bit rate" fonctionne en enlevant l'information redondante du signal avant la
transmission, grce au codeur et en la rinsrant grce au dcodeur. Deux types de redondances ont t cibls
pour y arriver:

La redondance spatiale et temporelle o un lment commun plusieurs images conscutives n'est transmis
qu'avec la premire image. Pour les autres images, on ne transporte que sa position dans l'image. C'est le cas d'un
plan fixe, o l'on voit une voiture qui va de gauche droite. On transmet une fois le dcor et la voiture et, pour
les images suivantes, on indique seulement la position de la voiture.

L'autre redondance exploite est la redondance spatiale. Si, dans la mme image, il y a trois voitures identiques,
elle n'est code qu'une seule fois. En y ajoutant la position de chacune dans l'image, on peut reconstituer la scne.
La valeur de chaque pixel n'est donc pas indpendante, mais relie ses voisins, autant l'intrieur de la mme
image que par rapport aux images voisines. Jusqu' un certain point, la valeur d'un pixel est prdictible en tenant
compte de ses voisins.

La redondance psycho-visuelle:

L'oeil humain une rponse limite aux dtails spatiaux fins et est moins sensible aux dtails prs du bord des
objets ou des changements de plans. En consquence, une rduction contrle, l'intrieur d'une image dcode
par le procd de rduction du "bit rate" ne devrait pas tre visible par un observateur humain. La figure ci-
dessous montre que la perception humaine du bruit nest pas uniforme mais est une fonction de la frquence
spatiale.
Un niveau de bruit suprieur est acceptable pour des frquences spatiales leves. Il sensuit que le bruit vido
est effectivement masqu par un fin dtail dimage alors quil sera plus apparent pour les vastes zones
unicolores. Sachant que les mesures de bruit sont toujours pondres, on comprendra que cette mthode de
mesure se rapporte ce rsultat subjectif.

Codage spatial ou temporel:

Comme nous lavons dit, la compression vido utilise les avantages des deux redondances(spatiale et
temporelle). En MPEG-2, la redondance temporelle est dabord rduite en utilisant les similitudes entre deux
images successives. La plus grande partie possible de limage courante est cre(ou prdite) en utilisant
linformation de limage dj mise. Quand on utilise cette technique, il suffit de transmettre une image de
diffrence qui limine les diffrences entre limage actuelle et limage de prdiction. Limage de diffrence est
ensuite soumise une compression spatiale. Pour des raisons pratiques, il est plus facile dexpliquer la
compression spatiale avant daborder la compression temporelle.

La compression spatiale utilise la similarit entre des pixels adjacents sur une surface unie et tient compte des
frquences spatiales dominantes existant dans les zones en amont. Le JPEG utilise uniquement la compression
spatiale dans la mesure o ce systme est conu pour la transmission des images fixes. Le JPEG peut cependant
tre employ pour la transmission de squences dimages fixes. Dans cette application, appele Motion JPEG, le
facteur de compression nest pas aussi bon que si lon utilisait le codage temporel, mais il sera cependant
possible deffectuer un montage du flux de bits pour effectuer un montage image par image.

Codage spatial:

En codage spatial, la premire tape consiste effectuer une analyse de frquence spatiale laide dune
transforme. Une transforme est un outil mathmatique permettant de traduire une forme donde en diffrents
domaines et, dans notre cas, dans le domaine frquentiel. Le rsultat dune transforme est une suite de
coefficients dcrivant lamplitude de chaque composante frquentielle prsente dans le signal. Une transforme
inverse reproduit le signal initial. Si les coefficients sont grs avec une prcision suffisante, la sortie de la
transforme inverse doit tre identique la forme donde originale. La transforme la plus rpandue est la
transforme de Fourrier. Cette transforme cherche chaque frquence comprise dans le signal dentre. Elle
caractrise chaque frquence en multipliant le signal dentre par un exemple de la frquence cible appele
fonction de base et en intgrant le produit obtenu. La figure ci-dessous montre que, lorsque la forme de signal
dentre ne contient pas de composante la frquence cible, lintgrale sera nulle, mais sil en comporte une,
lintgrale constituera un coefficient caractrisant lamplitude de cette composante.

La transforme de Fourrier prsente linconvnient de ncessiter des coefficients pour les composantes sinus
et cosinus de chaque frquence.

Dans la transforme cosinus, la forme de signal dentre est complte avec son image temporelle avant
multiplication par la fonction de base.

L'illustration ci-dessus montre que cette opration de miroir limine toutes les composantes sinus et
double les composantes cosinus. La fonction de base sinus ne se rvle donc plus utile et un seul coefficient
reste alors ncessaire pour chaque frquence.

"Intra-Frame DCT coding":

La Transforme Cosinus Discrte(DCT, Discrete Cosine Transform) est la version chantillonne de la


transforme cosinus, elle est utilise sous forme bidimensionnelle en MPEG-2. Le bloc de 8x8 pixels est
chang en bloc de 8x8 coefficients. Comme la transformation rside en une multiplication par une fraction,
il se produit un allongement du mot provenant du fait que les coefficients ont une longueur suprieure
celle des valeurs de pixels. Un bloc de pixels 8 bits devient alors un bloc de coefficients 11 bits. Une DCT
ne constitue pas alors une compression, mais elle obtient, en fait, le rsultat inverse. Cependant, la DCT
convertit la source de pixels en une forme facilitant la compression.
III- La figure suivante montre le rsultat dune transforme inverse des coefficients individuels dune
DCT pour un bloc 8x8. Dans les images relles, diverses frquences spatiales verticales et
horizontales peuvent se produire simultanment et un coefficient en un certain point en reprsente
toutes les combinaisons possibles.

La figure montre galement les coefficients sous une forme donde horizontale unidimensionnelle. La
combinaison de ces formes donde avec diverses amplitudes et une polarit quelconque doit permettre de
reproduire toutes combinaisons des 8 pixels. La combinaison des 64 coefficients de la DCT-2D permettra de
reconstituer le bloc initial de 8x8 pixels.

En ce qui concerne les images couleurs, il est clair que les signaux de diffrence de couleur devront
galement tre traits. Les signaux Y, Cr et Cb seront donc assembls en rseaux spars de 8x8 pixels et
traits sparment. Dans la plupart des signaux correspondant aux images de programme, la majorit des
coefficients a une valeur nulle ou proche de zro. Il ne sera donc pas ncessaire de les transmettre. Il en
rsulte une compression non ngligeable sans perte vritablement consquente.

Motion-compensated inter-frame prediction:

Cette technique exploite la redondance temporelle en essayant de prdire le "frame" tre cod partir d'un
"frame" de rfrence. La prdiction ne peut tre base sur une image "source" car la prdiction doit pouvoir tre
rpte dans le dcodeur, l o les images "sources" n'existent pas( L'image dcode n'est pas identique l'image
source car le procd de rduction du "bit rate" introduit des petites distorsions dans l'image dcode). En
consquence, l'encodeur contient lui-mme un dcodeur qui reconstruit l'image exactement comme elle sera dans
le dcodeur, ce qui permet de faire des prdictions.

La prdiction la plus simple du bloc encoder est celle qui utilise le bloc le plus prs de l'image de rfrence.
Ceci permet de raliser une bonne prdiction pour les rgions stationnaires de l'image, mais russissent moins
bien dans les rgions o il y a mouvement. Quand un objet se dplace sur lcran TV, il apparat un endroit
diffrent, mais il ne change pas beaucoup daspect. On introduit donc une mthode plus sophistique, appele
motion-compensated inter-frame prediction, qui consiste copier(offset) tout mouvement translationnel qui
existe entre le bloc qui est encod et le "frame" de rfrence et utiliser le bloc ainsi cr comme prdiction. La
diffrence dimage peut tre rduite en mesurant le dplacement au codeur. Ce dplacement est transmis au
dcodeur sous la forme dun vecteur. Le dcodeur utilise ce vecteur pour dcaler une partie de limage
prcdente vers lemplacement appropri dans la nouvelle image. Un vecteur concerne le dplacement dune
zone entire de limage appele macrobloc. La taille dun macrobloc est dtermine par le codage DCT et la
structure de sous-chantillonnage couleur.
Les blocs de prdiction sont crs de plusieurs manires diffrentes. Par exemple, un bloc pourra tre prdit
partir d'une image prcdente(forward predicted), d'une image suivante(backward predicted) ou bi-
directionnellement(bidirectionnally predicted) en faisant une moyenne des prdictions prcdentes et
suivantes. La mthode utilise peut changer d'un bloc l'autre. Le codage bidirectionnel rduit
considrablement la quantit de donnes de diffrence ncessaire lamlioration du degr possible de
prdiction. Pour chaque bloc coder, l'encodeur choisit la meilleure mthode pour maximiser la qualit de
l'image selon les contraintes du "bit rate". La mthode choisie est ensuite transmise au dcodeur pour
reconstituer l'image correctement.

Dans les images caractristiques de programme, les coefficients les plus significatifs de la
DCT se trouvent gnralement dans le coin suprieur gauche de la matrice. Aprs
pondration, les coefficients de faible valeur seront tronqus zro. On obtiendra une
transmission plus efficace si on met dabord tous les coefficients non-nuls et quun code
indique ensuite que tous les autres sont zro. La scrutation constitue une technique qui
augmente la probabilit dobtenir ce rsultat car elle met les coefficients dans lordre
probable damplitude dcroissante.

La figure ci-dessus montre que, dans un systme non entrelac, la probabilit davoir un
coefficient de forte valeur est trs leve dans le coin suprieur gauche et trs faible dans le
coin infrieur droit. Une scrutation 45 degrs constitue, dans ce cas, la meilleure solution.
Dans la figure de droite, on peut voir la scrutation adapte une source entrelace. Dans une
image entrelace, un bloc de 8x8 pixels dune trame couvre deux fois sa surface sur lcran,
ce qui fait que, pour une dfinition donne de limage, les frquences verticales paratront le
double de leurs homologues horizontaux. Cest pourquoi le balayage idal, pour une source
entrelace, sera effectu en diagonale pente double. La figure de droite montre quune
frquence spatiale verticale est balaye avant la frquence spatiale horizontale identique.
3.2 Discrete cosine transform, Quantisation&Compression du bloc
La DCT permet de transformer un bloc dune composante, en un ensemble de frquences
dcrivant le mme ensemble(cest un changement de reprsentation isomorphe). Une fois de
plus le but final et de profiter des faiblesse de loeil humain qui remarque beaucoup moins
une
perte de donnes rparties que localise. (Un peu de bruit dans limage genera beaucoup
moins
que quelques pixels completement faux)

La dfinition formelle de la DCT deux dimensions est la suivante :


F(u,v) est la transforme, cest la fonction qui donne la valeur pour le couple de
frequence (u,v).

avec u; v; x; y = 0; 1; 2; :::N - 1
ou x et y sont les coordonees spatiale
ou u et v sont les coordonees dans la transforme

En pratique dans les encodages MPEG, la DCT est utilise sur des blocs. Le bloc est
transform
dans le domaine frquentiel par la DCT. Au moment du dcodage on applique ce que
lon apelle lIDCT(Inverse Direct Cosine Transform) qui permet de repasser au domaine
spatial.
La quantisation intervient juste apres avoir transforme un bloc via la DCT. La quantisation
revient a diviser un tableau par un autre tableau. On divise chaque valeur obtenu par DCT
par la valeur correspondante dans un tableau. La methode classique utilisee par le MPEG4, le
H263, divise par une mme valeur tout les coefficients. Ceci permet de "simplifier"
linformation
contenue, et donc de rendre la compression plus facile. En effet, on ramne lensemble des
valeur un ensemble plus petit, ce qui le rendra plus aisement compressible par une
compression
de type entropique classique(comme huffman).
12
On applique alors la quantisation qui revient a diviser chacun des coefficients par la matrice
du JPEG par exemple :

Codage de lentropie:

Dans une image vido anime, toutes les frquences spatiales ne sont pas prsentes
simultanment, la matrice de coefficients de la DCT comportera donc des termes nuls. Malgr
la scrutation, des termes nuls apparatront encore au milieu des coefficients non-nuls. Le
codage RLC(Run Length Coding) permet de grer plus efficacement ces coefficients. Quand
une suite de valeurs identiques, comme des zros, existe, le codage RLC met simplement le
nombre de zros plutt que toute la suite de bits nuls. On peut tudier la probabilit de
rptition de certaines valeurs particulires de coefficients dans la vido relle. En pratique,
certaines valeurs se rencontrent frquemment et dautres moins souvent. Cette information
statistique peut tre utilise pour effectuer ultrieurement une compression longueur
variable(VLC). Les valeurs les plus frquentes sont codes en mots de code courts et les
autres en mots plus longs. Pour faciliter la d-srialisation on peut utiliser un mot de code
comme prfixe pour les autres.

Un codeur spatial:
La figure suivante regroupe lensemble des concepts de codage prcdemment
voqus.

Le signal dentre est suppos tre la norme 4:2:2 srie en 8 ou 10 bits(SDI). Le MPEG
nutilise cependant quune rsolution de 8 bits; aussi, un tage de traitement sera
ncessaire pour arrondir les valeurs si le signal entrant est 10 bits. Les profils MPEG
effectuent un chantillonnage du type 4:2:0; un tage dinterpolation verticale/filtre passe-
bas sera alors ncessaire. Larrondi et le sous-chantillonnage couleur introduisent une
lgre mais irrversible perte dinformations, mais aussi une rduction du dbit. Le format
dentre de la scrutation dcran doit tre tel quil puisse tre converti en blocs de 8x8
pixels. Ltage DCT transforme linformation dimage dans le domaine frquentiel. La
DCT neffectue pas de compression par elle mme. Aprs la DCT, les coefficients sont
tronqus et pondrs, ce qui correspond une premire compression. Les coefficients sont
ensuite scruts en zigzag pour accrotre la probabilit de commencer par les coefficients
les plus significatifs. Aprs le dernier coefficient non-nul, un code de fin de bloc (EOB,
End of Block) est gnr. Les donnes affrentes aux coefficients sont ensuite
compresses laide de codages RLC et VLC. Dans les systmes dbit variable, la
quantification est fixe mais, dans un systme dbit constant, une mmoire tampon est
utilise pour absorber les variations intervenant au cours du codage. la suite de la
transforme inverse, le bloc de 8x8 pixels est recr. Pour obtenir un signal de sortie
dcran balay, les blocs sont stocks dans une RAM qui est lue ligne par ligne. Pour
avoir une sortie 4:2:2 partir de donnes 4:2:0, il faudra utiliser une interpolation verticale
comme indiqu sur la figure suivante:
Dans un systme 4:2:0, les chantillons de chrominance sont intercals verticalement
entre les chantillons de luminance de faon ce quils soient rgulirement espacs
quand un systme entrelac est utilis.

Images I, P et B(I-Frames, P-Frames, B-Frames):

En MPEG-2, trois diffrents types dimages sont ncessaires pour effectuer le codage
diffrentiel et le codage bidirectionnel avec un minimum derreurs de propagation:

Les images I(I-Frames):

Sont intra-codes et ne ncessitent pas dinformations supplmentaires pour tre dcodes.


Elles ncessitent beaucoup de donnes comparativement aux autres types dimages et
cest pourquoi elles ne sont transmises que lorsque cela est ncessaire. Elles consistent
essentiellement en coefficients de transformes et nont pas de vecteur de mouvement.
Elles autorisent la commutation de voies et bloquent la propagation des erreurs.

Les images P (P-Frames):

Sont celles qui sont dduites dune image antrieure qui peut tre de type I ou P. Les
donnes dune image P sont constitues de vecteurs dcrivant o chaque macro bloc doit
tre pris dans limage prcdente et des coefficients non transforms dcrivant la
correction ou les donnes de diffrence ajouter ce macrobloc. Les images P
comportent pratiquement la moiti des donnes dune image I.

Les images B(B-Frames):

Sont prdites bi-directionnellement partir dimages antrieures ou postrieures et de type


I ou P. Les donnes des images de type B consistent en vecteurs dcrivant lendroit o les
donnes doivent tre prises dans les images antrieures ou postrieures. Elles contiennent
galement les coefficients de transformes fournissant la correction. La prdiction
bidirectionnelle est si efficace que les donnes de correction sont minimes et que limage
de type P utilise pratiquement le quart des donnes par rapport une image de type I.

partir de ces frames a t introduit le concept de Groupe dImages(GOP, Group Of


Pictures). Le GOP commence par une image I, suivie de quelques images P espaces et
entre lesquelles se placent les images restantes qui sont de type B. La fin du GOP se situe
la dernire image prcdant immdiatement une nouvelle image I. La longueur dun
GOP est variable, mais la valeur la plus courante se situe entre 12 et 15. En fait, si les
donnes dune image B doivent tre utilises pour construire une image ultrieure, ces
donnes doivent rester disponibles dans le dcodeur. Par consquent, le codage
bidirectionnel implique que les donnes soient extraites de la squence et provisoirement
sauvegardes.

La figure ci-dessus montre galement que les donnes de limage P sont mises avant
celles de limage B. Notez galement que les dernires images B du GOP ne peuvent tre
transmises quaprs la premire image I du GOP suivant, dans la mesure o elles ont
besoin de son contenu pour tre dcodes bi-directionnellement.

Afin de replacer convenablement les images dans leur ordre, une rfrence temporelle est
incluse dans chaque image. Comme des en-ttes sont rgulirement insrs dans le flux de
donnes, un fichier MPEG-2 peut tre affich dans lordre chronologique sur un
ordinateur, par exemple. Lextraction des donnes dimages dune squence, non
seulement ncessite un supplment de mmoire dans le codeur et le dcodeur mais aussi
gnre du retard. Le nombre dimages bidirectionnelles insres entre des images dautres
types doit tre rduit pour diminuer le cot des quipements et limiter le retard si celui-ci
doit rpondre des contingences. Un compromis doit tre fait entre le facteur de
compression et le retard de codage.
Pour une qualit donne, lmission dimages I uniquement double pratiquement le dbit
par rapport une squence IBBP. Quand les facilits de montage sont essentielles, une
squence IB constitue un compromis pratique.

Prtraitement:

Un compresseur essaie dliminer la redondance lintrieur de limage et entre les


images. Tout phnomne diminuant la redondance est indsirable. Le bruit et le grain du
film sont particulirement pnalisants car ils concernent la totalit de limage. Aprs le
processus de DCT, le bruit induit la prsence de plus de coefficients non-nuls, coefficients
que le codeur ne peut pas distinguer des vritables donnes de limage.

Une quantification plus svre sera alors ncessaire pour coder tous les coefficients,
rduisant alors la qualit de limage. Le bruit rduit galement la similitude entre des
images successives, accroissant par ce phnomne les donnes de diffrence ncessaires.
Tout artefact composite de dcodage, visible lentre dun codeur MPEG-2, se retrouve
naturellement reproduit par le dcodeur. Toute pratique gnratrice de mouvement
indsirable doit tre vite. Linstabilit dun support de camra pourra crer, en plus de
tremblements de limage, une augmentation des diffrences dimages et des ncessits de
transmission de vecteurs. Ceci se produit galement sur des signaux provenant dun
tlcinma dont les images tremblent si, par exemple, les perforations du film sont
endommages.

En gnral, il est important que la vido qui est susceptible dtre compresse soit de la
meilleure qualit possible. Si cette qualit ne peut pas tre atteinte, il est souhaitable
dutiliser une rduction de bruit ou tout autre procd de stabilisation. Si un facteur de
compression lev est ncessaire, le niveau dartefacts peut augmenter, particulirement si
la qualit du signal est faible. Dans ce cas, il est souhaitable de rduire lentropie en
effectuant un pr-filtrage avant lentre dans le codeur. Le signal est donc soumis un
filtrage passe-bas(low pass filter) bidimensionnel qui rduit le nombre de coefficients et
diminue le niveau des artefacts. Limage sera moins fine mais une perte de finesse est
prfrable un niveau lev dartefacts.

Dans la plupart des applications en MPEG-2, on utilise lchantillonnage 4:2:0 qui


ncessite un sous-chantillonnage du chroma si le signal dorigine est en 4:2:2. En
MPEG-1, un sous-chantillonnage supplmentaire est appliqu afin de produire un signal
dentre ou SIF ( Source Input Format) comprenant seulement 532 pixels. Cette technique
divise encore lentropie par un facteur supplmentaire. Pour des facteurs de compression
plus levs, on utilise un signal 176 pixels appel QSIF (Quarter Source Input Format).
Le sous-chantillonnage est un processus combinant un filtre spatial passe-bas et un
interpolateur.

En vido 50 Hz, deux trames successives reprsentent la mme image de film et il nexiste
pas de mouvement entre elles. Le mouvement alterne donc entre zro(entre deux trames)
et sa valeur de mouvement(entre deux images). Comme le mouvement est transmis
diffrentiellement, ceci se traduit par une srieuse augmentation des donnes de vecteurs.
En vido 60 Hz, un dfilement intermittent 3:2 est utilis pour obtenir du 60 Hz partir de
film 24 images par seconde: une image est constitue de 2 trames, la suivante de 3, et
ainsi de suite. Par consquent, une trame sur 5 est compltement redondante. Le MPEG
gre mieux les images de tlcinma en supprimant la troisime du systme 3:2. Un code
spcifique au 24 Hz alerte le dcodeur qui recre la squence 3:2 en relisant une mmoire
de trame.

Profils et niveaux:

laide des outils de codage dfinis dans MPEG-2, il existe des milliers de combinaisons
possibles. Dans un but de simplification, le MPEG-2 est divis en Profils, chaque profil
tant lui-mme subdivis en Niveaux. Un profil constitue la base la palette des
caractristiques dun codage dune certaine complexit. Un niveau est en fait un paramtre
dfinissant par exemple la taille de limage ou le dbit du flux de bits. Il existe en principe
24 combinaisons possibles mais toutes nont pas t dfinies.
Un dcodeur MPEG possdant un profil et un niveau donns doit pouvoir dcoder les
signaux manant dun profil et dun niveau infrieurs. Le Profil Simple(Simple Profile) ne
comporte pas de codage bidirectionnel, cest pourquoi seules les images de type I et P
pourront tre gnres par le codeur. Les dlais de codage et de dcodage sont ici rduits
et le matriel correspondant est plus simple. Le profil simple na t seulement dfini
quau niveau Principal(Simple Profile at Main Level, SP@ML). Le Profil Principal(Main
Profile) est conu pour une vaste gamme dutilisations. Le niveau Bas utilise un signal
dentre faible rsolution ne possdant que 352 pixels par ligne. La plupart des
applications de diffusion ncessite le Profil principal au Niveau Principal(Main Profile at
Main Level, MP@ML), appellation du MPEG utilis en tlvision standard.

Le niveau Haut-1440 est un systme haute dfinition qui double la dfinition par rapport
au niveau principal. Le niveau Haut double non seulement la dfinition horizontale, mais
maintient cette rsolution pour le format 16:9 en portant 1920 le nombre dchantillons
horizontaux. Dans les systmes de compression utilisant les transformes spatiales et la re-
quantification, il est possible de produire des signaux adaptables. Un processus
dadaptabilit est celui o le signal dentre rsulte dun signal principal et dun signal
complmentaire. Le signal principal peut tre dcod seul pour donner une image dune
certaine qualit mais, si linformation du signal complmentaire est ajoute, un certain
aspect de la qualit peut tre amlior. Un codeur MPEG conventionnel peut, en re-
quantifiant fortement les coefficients par exemple, coder une image avec un rapport
signal/bruit modr. Si cette image est localement dcode et soustraite pixel par pixel de
limage originale, le rsultat constituera limage de bruit de quantification. Cette image
peut tre compresse et transmise en tant que signal complmentaire.

Un dcodeur simple utilisera seulement le flux principal avec son niveau de bruit mais un
dcodeur plus labor peut dcoder les deux flux de bits et produire une image moins
bruite. Ceci constitue le principe de ladaptabilit SNR. Dautre part, le codage des
frquences spatiales les plus basses dune image HDTV(High Definition Television) peut
produire un flux principal quun rcepteur ordinaire SDTV(Standard Definition television)
peut dcoder. Si limage faible dfinition est dcode localement et soustraite de limage
originale, une image damlioration de la dfinition est obtenue. Cette image peut tre
code comme signal complmentaire. Un dcodeur adquat sera capable de restituer
limage haute dfinition. Ceci constitue le principe de ladaptabilit Spatiale. Le profil
Haut est compatible avec les adaptabilits SNR et Spatiale et accepte lchantillonnage
4:2:2.

Le profil 4:2:2 a t dvelopp dans le sens dune plus grande compatibilit avec le
matriel de production numrique. Ce profil permet lexploitation en 4:2:2 sans exiger la
complexit supplmentaire du profil Haut. Un dcodeur HP@ML peut accepter une
adaptabilit SNR qui ne constitue pas en soi un impratif de production. Le niveau 4:2:2 a
la mme libert de structure de GOP que les autres profils mais, en pratique, il est plus
souvent utilis avec des GOPs courts pour faciliter les oprations de montage. Le 4.2.2
ncessite un flux de bits suprieur au 4.2.0 et l'utilisation de GOP impose quand mme un
dbit suprieur pour une qualit donne.

Chapitre IV
Les diffrents types de tlvision numriques

I- Introduction