Académique Documents
Professionnel Documents
Culture Documents
A partir du milieu des annes 80, la vido sous une forme numrique commenait
simplanter dans les milieux professionnels : la normalisation suivait son cours et les
industriels dveloppaient des matriels pour la production Les images taient de qualit
mais cette mutation se heurtait un obstacle majeur qui bloquait son volution vers des
applications pour le grand public : les dbits ncessaires taient trs importants (au minimum
166 Mb/s pour la vido seule). Aprs la phase de production en numrique, la diffusion en
analogique (par le canal de la tlvision, hertzienne, cble ou par satellite, ou par
lintermdiaire de la cassette VHS pr-enregistre) restait alors de mise.
Atteindre le grand public tait une ncessit. Rduire le volume de ces donnes numriques
devenait une obligation pour pouvoir utiliser les canaux de diffusion (hertzien, rpteur
satellite dont la capacit ne dpasse pas une quarantaine de Mb/s) ou les supports de
stockage (bande magntique, supports informatiques) existant ou venir. Ctait aussi la
solution pour favoriser la multiplication des programmes : au lieu dun unique programme en
analogique, un canal hertzien ou un rpteur satellite allait pouvoir en accueillir jusqu une
dizaine en numrique.
La rvolution a t importante et rapide. En une vingtaine dannes, le numrique est devenu
une ralit dans tous les secteurs de laudiovisuel, y compris grand public. Camscope,
rcepteurs satellites , DVD sont aujourdhui prsents dans ma majorit des foyers.
Les rsultats sont spectaculaires. Avec les dernires volutions des normes, le dbit
numrique ncessaire pour une diffusion de tlvision vers le grand public ne dpasse pas
aujourdhui quelques Mb/s, tout au plus 6 ou 8 Mb/s pour les programmes les plus exigeants.
Ces valeurs sont comparer au chiffre de 166 Mb/s correspondant un signal non compress
(voir chapitre suivant). Cela reprsente une rduction des donnes de plus de 95% ! Les
technologies de compression sont aujourdhui utilises tous les stades de la production et de
la diffusion.
Ce document prsente les principes et les technologies qui sont mises en uvre dans les
normes MPEG et plus prcisment MPEG-1 et MPEG-2. MPEG-4 fait lobjet dun second
texte. Seule la problmatique de la vido y est voque, mais il est vident que laudio est
galement soumis des technologies similaires, avec cependant des contraintes de dbits bien
moindres il est vrai.
MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 1 / 20
Sappuyant sur la perception rduite de lil humain pour les dtails fins lorsquils sont en
couleur, les ingnieurs ont dvelopps des dclinaisons de la norme 4.2.2.. Le 4.2.2. a donn
naissance deux dclinaisons : le 4.1.1 et le 4.2.0. La diffrence entre elles concerne
uniquement l'chantillonnage de la chrominance. Dans le 4.1.1, un pixel sur 4 seulement sur
chaque ligne contient des informations couleur. Dans le 4.2.0, le nombre total de pixels
contenant des informations couleurs est identique au 4.1.1. mais la rpartition est diffrente :
une ligne contient des informations couleurs un pixel sur deux (comme pour le 4.2.2) mais la
1
Une image vido en couleur est compose partir de trois couleurs fondamentales, le rouge, le vert, le bleu (RVB dans la
littrature technique). Pour diffrentes raisons (de compatibilit et doccupation spectrale notamment), ces signaux RVB ne
convenaient pas pour les applications de diffusion et denregistrement (nous sommes au dbut des annes 80, ne loublions
pas !) Afin de satisfaire ces exigences, les signaux de base RVB ont t recomposs sous une autre forme, savoir un
signal de luminance Y (reprsentant limage en noir et blanc et qui est dfini par lgalit Y = 0,30R + 0,59V + 0,11B) et
deux signaux contenant les informations de couleur Dr et Db (tels que Dr = R-Y et Db=B-Y). La bande passante de la
luminance est de 6 MHz environ, celle des signaux Dr et Db a t limite 1,5 MHz (la sensibilit de lil aux dtails en
couleur est moins grande).
Cette reprsentation est dite composante spare . Elle est utilise dans de trs nombreuses applications professionnelles et
est lorigine de la majorit des formats numriques (mme grand public comme le DV).
MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 2 / 20
suivante ne contient que les informations de luminance. Le 4.2.0. est donc un signal 4.2.2.
ayant deux fois moins dinformations couleurs dans le sens vertical.
En conclusion, les trois formats offrent donc la mme dfinition pour la luminance mais
diffrent par la quantit et la rpartition des informations couleurs. Lutilisation du 4.1.1. et
4.2.0. est dj en soi une premire tape dans le cadre de la rduction des donnes, car elle
permet dj une diminution du dbit par rapport au 4.2.2. Le dbit (identique pour les deux
formats) est en effet gal 124 Mb/s contre 166 Mb/s pour le 4.2.2.
Tous ces formats numriques conservent le rythme et la structure classique des images vido,
savoir 25 images par secondes (30 pour les amricains et quelques autres pays) rparties en
deux trames entrelaces, soit au total 625 lignes (pour lEurope) dont 576 utiles (c'est--dire
rellement affiches lcran). Tous les chiffres indiqus correspondent des images de
tlvision standard, c'est--dire des images dont la largeur et la hauteur sont dans un rapport
4/3. Les grands principes qui viennent dtre voqus ont t repris avec lavnement de la
tlvision au format 16/9, puis aujourdhui avec larrive prochaine de la haute dfinition. La
dfinition des images changeant, les dbits sont aussi diffrents et qui plus est beaucoup plus
importants.
Plus de vingt ans aprs sa naissance, la norme 4.2.2. reste toujours la rfrence en matire de
tlvision numrique professionnelle. Les normes 4.1.1. et 4.2.0. sont employes dans de trs
nombreux matriels audiovisuels : magntoscopes et camscopes (y compris grand public),
DVD, tlvision numrique (satellite, TNT).
Formats
(en 625 lignes)
Rsolution
horizontale
de la
luminance
720
4.2.2
720
4.1.1.
720
4.2.0.
Tableau comparatif des 3 formats :
Rsolution
verticale de
la luminance
Rsolution
horizontale
de la
chrominance
576
576
576
360
180
360
Rsolution
verticale de
la
chrominance
(nombre de
lignes Db Dr)
576
576
288
Dbits bruts
vido (partie
utile de
limage)
166 Mb/s
124 Mb/s
124 Mb/s
Lutilisation du 4.2.0. ou du 4.1.1. par rapport au 4.2.2. tait une premire tape mais elle
restait quand mme trs insuffisante (on pourrait mme dire insignifiante) compte tenu du
dfi relever. Dautres technologies sappuyant sur les contenus mme des images ont donc
t dveloppes.
MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 3 / 20
MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 4 / 20
Dans le cadre des compressions sans pertes, on supprime les informations redondantes et on
procde au r-agencement des donnes qui restent. Dans cette catgorie, on inclue galement
les compressions de type informatique . Ce sont des oprations rversibles : une fois
dcod, le signal retrouve ses qualits dorigine mais les taux de compression sont beaucoup
plus faibles.
Dans la majorit des cas, les technologies de compression ne sappuient pas sur un seul et
unique procd mais reposent sur des successions doprations lmentaires (qui pourront tre
losseless et lossy) et qui mises bout bout procurent un taux de compression global important.
Les coupes sont drastiques mais lil sy accommode. Les rsultats sont variables en
fonction de la nature mme des images. Les squences vido comportant de nombreux objets
en mouvement (retransmissions sportives par exemple) ncessitent des dbits plus importants
que celles qui ne comportent que des lments statiques (journaux tlviss).
Des groupes de travail se sont constitus pour tester et dvelopper ces technologies. Le
groupe MPEG (Moving Picture Experts Group) est lun dentre eux. Il est issu des deux
instances de normalisation que sont l'ISO et la IEC (International Standards Organisation et
International Electrotechnical Commission). Ce groupe a en charge l'tablissement de
standards internationaux pour la vido et l'audio numrique. C'est une uvre de longue
haleine puisque les premiers travaux ont commencs la fin des annes 80, il y a plus de 15
ans.
MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 5 / 20
Au final, chaque bloc de 8 sur 8 pixels de limage originelle est reprsent par un tableau de
64 cases (8 colonnes sur 8 lignes) : ces coefficients sont classs en ordre croissant dans la
matrice, les valeurs situes en haut gauche reprsentant les basses frquences de la
transforme (la premire valeur indiquant la valeur moyenne de tous les pixels du bloc), puis
les valeurs reprsentant les dtails fins (et donc les frquences les plus leves) tant placs
lautre extrmit de matrice. Si limage comporte peu de dtails (un ciel bleu par exemple)
beaucoup de ces coefficients seront faibles voire nuls.
A ce stade, il ny a pas encore de compression de donnes : lopration est totalement
rversible et sans perte : on pourrait encore reconstituer limage dorigine !
- La quantification :
Ces coefficients sont ensuite quantifis, mais avec une prcision qui sera pondre en fonction
de la position des coefficients dans les blocs et donc de la finesse des dtails (prcision
dcroissante quand la frquence augmente). La sensibilit de lil humain est variable en
fonction des frquences et de leur positionnement par rapport lhorizontale. Pour la
quantification des grandes plages presque uniformes, on adoptera un codage avec une
prcision maximum (on affectera un plus grand nombre de bits) ce qui vitera lapparition de
mplats ou deffets de pixlisation dans les zones de limage originale qui comportaient de
subtils dgrads pour lesquels lil est particulirement sensible. Pour les dtails fins (les
hautes frquences spatiales), lil est beaucoup plus tolrant et il ny peroit pas les
diffrences dintensit. Les coefficients correspondant ces dtails pourront tre cods avec
peu de bits. De nombreux coefficients non significatifs verront aussi leur valeur ramene
zro. Cela correspond llimination pure et simple des dtails les plus fins de limage. Le
taux de compression total (et donc la taille du fichier) obtenu pour une image dpend
directement de la prcision de la quantification que lon applique. (Table de
quantification). Cest ltape qui rgle le compromis entre le dbit et la qualit de limage. Sur
MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 6 / 20
limage dcompresse, la structure en forme de blocs peut redevenir visible lorsque les taux
de compression sont importants (ce dfaut est dailleurs appel effet de blocs).
La quantification est une phase primordiale. A ce niveau, la rduction des donnes est
importante mais dfinitive : les informations supprimes sont irrmdiablement perdues.
MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 7 / 20
Estimation de mouvement
La recherche dun macrobloc identique ou semblable peut ne pas aboutir (dans la cas dun
changement de plan par exemple) : dans ce cas, le macrobloc sera recod intgralement en
intra.
MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 8 / 20
MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 9 / 20
Le GOP en diffusion
Pourquoi les images I sont elles indispensables intervalle rgulier ? En diffusion, il y a donc
environ deux images I par seconde dans le flux. Ce sont les seules images dans le flux tre
codes intgralement, en fonction de leurs seuls lments constitutifs et indpendamment des
images voisines. Les images I doivent apparatre intervalle rgulier
- pour viter quen cas de problme dans la transmission, une erreur ne se perptue
indfiniment
- en diffusion (tlvision ou DVD), pour permettre aux utilisateurs de se connecter
tout moment et non pas uniquement au dmarrage de la squence (accs alatoire)
- de permettre la lecture avant ou arrire rapide (le dcodeur ne dcodant alors que les
images I et non pas lensemble des images).
Plus la distance entre deux images I et entre deux images P est grande et plus la compression
est forte (il y a dans ce cas un nombre trs important dimages B, celles qui sont les plus
compresses et qui prsentent donc le plus faible volume). Ceci offre lavantage de permettre
un dbit plus faible mais gnre deux inconvnients : une distance importante entre deux
images P implique un plus grand dlai dans les phases de codage et dcodage ; une distance
importante entre deux images I apporte une restriction pour laccs instantan (zapping) en un
MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 10 / 20
point quelconque dune squence (mais est ce vraiment important pour le tlspectateur
lambda ?).
A qualit constante, une squence vido encode avec un GOP de 1 (c'est-dire constitu uniquement dimages I) ncessitera un dbit 2 3 fois plus
lev que la mme squence encode avec un GOP de 12 (le modle utilis
en diffusion ou pour le DVD avec des images I, P B).
MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 11 / 20
dbit obtenu avec un lecteur de CD ROM de base. Aujourd'hui, les lecteurs peuvent tourner beaucoup plus vite
(X40) et donc fournir des dbits beaucoup plus importants.
MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 12 / 20
en est ainsi pour la haute dfinition qui lorsquelle apparatra trs prochainement en France
sappuiera, compte tenu des volutions technologiques, non pas sur MPEG-2 mais sur la
norme MPEG-4.
MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 13 / 20
M6 Boutique
LCI
Emission en
studio
information
Dbits
compris
entre :
Valeur
maximum
Valeur
moyenne
Dfinition des
images
1 et 3 Mb/s
4,3 Mb/s
1,6 Mb/s
480 x 576
1,5 et 4 Mb/s
5,4 Mb/s
2,4 Mb/s
2,5 et 6,5
films
8,3 Mb/s
4,3 Mb/s
TPS Star
Mb/s
sport
3 et 8 Mb/s
8,8 Mb/s
4,8 Mb/s
Eurosport2
Ce tableau illustre quelques uns des choix qui ont adopts en terme de dbit et de dfinition
ce diffuseur pour quatre de ses chanes avec des thmatiques bien cibles.
544 x 576
720 x 576
720 x 576
dimages par
MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 14 / 20
Le DVD, formidable succs aussi lchelon mondial, sappuie galement sur la norme
MPEG-2. Pour la vido, le dbit de doit pas dpasser 9,8 Mb/s. Il peut tre fixe ou variable.
La qualit tant vante de limage DVD tient la possibilit dutiliser une technique de
compression multipasses . Dans une premire phase, lquipement dencodage procde
un examen prcis de la vido, et dans un deuxime temps effectue lencodage au format
MPEG-2 en sappuyant sur les relevs raliss dans la premire phase. Cette technique permet
doptimiser la qualit des images en fonction de leur contenu prcis : dtails, mouvements
rapides et nest pas soumise aux contraintes du temps rel. A dbit gal, elle offre des
rsultats qualitatifs suprieurs ceux issus dun encodage en une seule passe. Le codage en
deux passes permet de rduite le dbit (et donc le volume informatique du fichier) mais il est
inapplicable pour la tlvision en direct.
MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 15 / 20
Conclusion :
MPEG-2 a t un formidable succs dans le monde entier : des millions de dcodeurs ou de
lecteurs de DVD sappuyant sur cette norme sont aujourdhui en service. Une des ides
majeures qui a prvalue lors des dveloppements de MPEG-2 tait de ne pas bloquer
lvolution de la technologie au fil des annes et donc de continuer amliorer la qualit
finale des images, malgr le ncessaire blocage des technologies au niveau des dcodeurs
(notamment les lecteurs DVD) qui une fois installs au domicile des utilisateurs ne sont plus
gure upgradables . MPEG-2 (comme dailleurs MPEG-4, on le verra dans un autre texte)
ne dfinit pas les technologies utilisables pour lencodage, mais seulement la smantique du
dcodage. En clair peu importe la mthode utilise pour encoder les images, seul le rsultat
compte : le flux binaire produit devant tre compatible avec la totalit des rcepteurs. Cela
laisse bien entendu toute latitude aux industriels pour amliorer leurs technologies de
compression et dvelopper de nouveaux encodeurs plus performants. Cette politique a t
payante, puisque entre 1994 et 2002, et qualit dimage gale, le dbit ncessaire a t divis
par un facteur de trois.
Source RIAM
Mais on estime aujourdhui que les volutions de MPEG-2 ont atteint leur limite et quil nest
plus gure possible de russir lamliorer. MPEG-4 va lui succder. Cest une norme
rcente, performante, volutive et prometteuse au niveau de ses potentiels. La premire
application grande chelle devrait se concrtiser en France la fin de cette anne 2005 avec
le tlvision numrique terrestre qui sappuiera sur MPEG-4 pour les chanes payantes (mais
sur aussi sur MPEG-2 pour les chanes gratuites !). Les nouvelles gnrations de DVD en
haute dfinition utiliseront, non seulement le vieillissant MPEG-2, mais galement les
nouveaux codecs H264 (MPEG-4 Part10) et VC1 (Microsoft).
Philippe GASSER
MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 16 / 20
Encadrs
2003
2004
Mars 2005
Fin 2005 ?
MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 17 / 20
MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 18 / 20
apparition de petits points noirs ou blancs qui "miroitent" autour de l'objet comme des
moustiques.
Bruit de quantification : il provoque un effet de neige ou de vitre salle et n'est pas
uniforme sur toute l'image. Ce dfaut est li un problme de conversion A/D sur une
portion de l'image.
Leffet de falaise :
Les consquences sur les images des perturbations pouvant survenir lors dune transmission
sur un rseau ou pour un enregistrement sont diffrentes selon que lopration se droule en
analogique ou en numrique.
En analogique, lorsque les conditions de transfert se dgradent, la qualit des images saltre
au fur et mesure mais elles restent visibles y compris les dfauts. Le rapport signal /
bruit diminue et cela se matrialise lcran par un effet de neige devenant de plus en plus
perceptible. En numrique, les consquences sont toutes autres. Si la transmission est
correcte, limage est restitue avec sa qualit dorigine. Quand des dfauts viennent altrer
lgrement la liaison, des mcanismes de correction derreurs restituent les informations
perturbes et limage est reconstruite avec une qualit proche de loriginal. Quand elle est
fortement perturbe, les images disparaissent brutalement ds que les dispositifs de
corrections derreurs ne peuvent plus intervenir. Ce fonctionnement en tout ou rien (do le
nom deffet de falaise) est indpendant de la qualit intrinsque des images qui peuvent
prsenter par ailleurs des dfauts, crs notamment pendant la compression.
MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 19 / 20
MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 20 / 20