Vous êtes sur la page 1sur 20

MPEG1 et MPEG2

A partir du milieu des annes 80, la vido sous une forme numrique commenait
simplanter dans les milieux professionnels : la normalisation suivait son cours et les
industriels dveloppaient des matriels pour la production Les images taient de qualit
mais cette mutation se heurtait un obstacle majeur qui bloquait son volution vers des
applications pour le grand public : les dbits ncessaires taient trs importants (au minimum
166 Mb/s pour la vido seule). Aprs la phase de production en numrique, la diffusion en
analogique (par le canal de la tlvision, hertzienne, cble ou par satellite, ou par
lintermdiaire de la cassette VHS pr-enregistre) restait alors de mise.
Atteindre le grand public tait une ncessit. Rduire le volume de ces donnes numriques
devenait une obligation pour pouvoir utiliser les canaux de diffusion (hertzien, rpteur
satellite dont la capacit ne dpasse pas une quarantaine de Mb/s) ou les supports de
stockage (bande magntique, supports informatiques) existant ou venir. Ctait aussi la
solution pour favoriser la multiplication des programmes : au lieu dun unique programme en
analogique, un canal hertzien ou un rpteur satellite allait pouvoir en accueillir jusqu une
dizaine en numrique.
La rvolution a t importante et rapide. En une vingtaine dannes, le numrique est devenu
une ralit dans tous les secteurs de laudiovisuel, y compris grand public. Camscope,
rcepteurs satellites , DVD sont aujourdhui prsents dans ma majorit des foyers.
Les rsultats sont spectaculaires. Avec les dernires volutions des normes, le dbit
numrique ncessaire pour une diffusion de tlvision vers le grand public ne dpasse pas
aujourdhui quelques Mb/s, tout au plus 6 ou 8 Mb/s pour les programmes les plus exigeants.
Ces valeurs sont comparer au chiffre de 166 Mb/s correspondant un signal non compress
(voir chapitre suivant). Cela reprsente une rduction des donnes de plus de 95% ! Les
technologies de compression sont aujourdhui utilises tous les stades de la production et de
la diffusion.
Ce document prsente les principes et les technologies qui sont mises en uvre dans les
normes MPEG et plus prcisment MPEG-1 et MPEG-2. MPEG-4 fait lobjet dun second
texte. Seule la problmatique de la vido y est voque, mais il est vident que laudio est
galement soumis des technologies similaires, avec cependant des contraintes de dbits bien
moindres il est vrai.

MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 1 / 20

1- A lorigine, la vido numrique non compresse :


Adopte depuis 1982, la norme CCIR 601 (rfrence officiellement aujourdhui sous les
termes aujourdhui ITU-R BT.601) dfinit lchelon mondial les paramtres de la vido
numrique. La numrisation est ralise partir dun signal en composantes1. Une image
numrique au format 4/3 est compose de 720 pixels sur 576 lignes actives (pour la zone 625
lignes / 50 Hz). Tous les pixels contiennent des informations de luminance. Par contre, un
pixel sur deux ne contient pas d'information couleur. La terminologie 4.2.2. (utilise parfois
abusivement comme synonyme CCIR 601) indique que les frquences dchantillonnage,
celle de la luminance (13,5 MHz) et celles des deux composantes de chrominance (6,75
MHz) sont dans le mme rapport que les chiffres quatre, deux et deux. Avec une
quantification sur 10 bits, le dbit pour une image complte est de 270 Mb/s (216 Mb/s sur 8
bits). Si on ne numrise que la partie visible de l'image, le dbit est de 166 Mb/s (sur 8 bits).

Les trois formats dimage.

Sappuyant sur la perception rduite de lil humain pour les dtails fins lorsquils sont en
couleur, les ingnieurs ont dvelopps des dclinaisons de la norme 4.2.2.. Le 4.2.2. a donn
naissance deux dclinaisons : le 4.1.1 et le 4.2.0. La diffrence entre elles concerne
uniquement l'chantillonnage de la chrominance. Dans le 4.1.1, un pixel sur 4 seulement sur
chaque ligne contient des informations couleur. Dans le 4.2.0, le nombre total de pixels
contenant des informations couleurs est identique au 4.1.1. mais la rpartition est diffrente :
une ligne contient des informations couleurs un pixel sur deux (comme pour le 4.2.2) mais la
1

Une image vido en couleur est compose partir de trois couleurs fondamentales, le rouge, le vert, le bleu (RVB dans la
littrature technique). Pour diffrentes raisons (de compatibilit et doccupation spectrale notamment), ces signaux RVB ne
convenaient pas pour les applications de diffusion et denregistrement (nous sommes au dbut des annes 80, ne loublions
pas !) Afin de satisfaire ces exigences, les signaux de base RVB ont t recomposs sous une autre forme, savoir un
signal de luminance Y (reprsentant limage en noir et blanc et qui est dfini par lgalit Y = 0,30R + 0,59V + 0,11B) et
deux signaux contenant les informations de couleur Dr et Db (tels que Dr = R-Y et Db=B-Y). La bande passante de la
luminance est de 6 MHz environ, celle des signaux Dr et Db a t limite 1,5 MHz (la sensibilit de lil aux dtails en
couleur est moins grande).
Cette reprsentation est dite composante spare . Elle est utilise dans de trs nombreuses applications professionnelles et
est lorigine de la majorit des formats numriques (mme grand public comme le DV).

MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 2 / 20

suivante ne contient que les informations de luminance. Le 4.2.0. est donc un signal 4.2.2.
ayant deux fois moins dinformations couleurs dans le sens vertical.
En conclusion, les trois formats offrent donc la mme dfinition pour la luminance mais
diffrent par la quantit et la rpartition des informations couleurs. Lutilisation du 4.1.1. et
4.2.0. est dj en soi une premire tape dans le cadre de la rduction des donnes, car elle
permet dj une diminution du dbit par rapport au 4.2.2. Le dbit (identique pour les deux
formats) est en effet gal 124 Mb/s contre 166 Mb/s pour le 4.2.2.
Tous ces formats numriques conservent le rythme et la structure classique des images vido,
savoir 25 images par secondes (30 pour les amricains et quelques autres pays) rparties en
deux trames entrelaces, soit au total 625 lignes (pour lEurope) dont 576 utiles (c'est--dire
rellement affiches lcran). Tous les chiffres indiqus correspondent des images de
tlvision standard, c'est--dire des images dont la largeur et la hauteur sont dans un rapport
4/3. Les grands principes qui viennent dtre voqus ont t repris avec lavnement de la
tlvision au format 16/9, puis aujourdhui avec larrive prochaine de la haute dfinition. La
dfinition des images changeant, les dbits sont aussi diffrents et qui plus est beaucoup plus
importants.
Plus de vingt ans aprs sa naissance, la norme 4.2.2. reste toujours la rfrence en matire de
tlvision numrique professionnelle. Les normes 4.1.1. et 4.2.0. sont employes dans de trs
nombreux matriels audiovisuels : magntoscopes et camscopes (y compris grand public),
DVD, tlvision numrique (satellite, TNT).
Formats
(en 625 lignes)

Rsolution
horizontale
de la
luminance

720
4.2.2
720
4.1.1.
720
4.2.0.
Tableau comparatif des 3 formats :

Rsolution
verticale de
la luminance

Rsolution
horizontale
de la
chrominance

576
576
576

360
180
360

Rsolution
verticale de
la
chrominance
(nombre de
lignes Db Dr)
576
576
288

Dbits bruts
vido (partie
utile de
limage)
166 Mb/s
124 Mb/s
124 Mb/s

Lutilisation du 4.2.0. ou du 4.1.1. par rapport au 4.2.2. tait une premire tape mais elle
restait quand mme trs insuffisante (on pourrait mme dire insignifiante) compte tenu du
dfi relever. Dautres technologies sappuyant sur les contenus mme des images ont donc
t dveloppes.

MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 3 / 20

2- Les principes de bases de la compression :


Dans la norme CCIR 601, puis ensuite dans les deux dclinaisons que sont le 4.1.1 et le 4.2.0,
chaque pixel est cod indpendamment des autres. Lide la base de tous les systmes de
compression vido (mais aussi audio) est dexploiter les redondances qui existent
naturellement dans des images vido, voire de les liminer pour rduire la quantit et le dbit
dinformations transmettre.
Ces redondances sont de quatre ordres :
Les redondances spatiales : dans les grandes plages uniformes lintrieur d'une image, il
existe de nombreuses similitudes entre des points voisins.
Les redondances temporelles : dans une squence vido, les diffrences entre deux
images successives sont minimes. On ne va coder que les diffrences entre des images
successives et ne transmettre que les changements.
Les redondances subjectives : il est inutile de coder les dtails fins que lil ne voit pas.
Les redondances statistiques : on utilise des traitements purement informatiques qui
exploitent par exemple les similitudes dans les suites de valeurs numriques.
Ne pas transmettre un lment dj transmis
Ne pas transmettre ce que lon ne voit pas ou
ce que lon nentend pas.
Rduire voire supprimer toutes ces redondances va permettre des rductions qui peuvent tre
importantes, mais certaines de ces oprations ne sont pas sans dommages : elles provoquent
des dgradations dans limage avec apparitions dartefacts plus ou moins visibles. Plus le taux
de compression est lev, plus les volumes des fichiers sont petits (ou en dautres termes, dans
le cadre dune diffusion, plus le dbit est faible) mais plus limage est affecte par des dfauts
visibles et inversement. Tout est question de dosage : les taux de compression qui sont
appliqus sont variables selon le domaine dapplication vis et selon la position du mdia
dans la chane de ralisation. Pour la production (secteur professionnel), les taux de
compression restent trs faibles, limage devant conserver toutes ses qualits intrinsques.
Pour la diffusion (tlvisuelle, DVD) destination du grand public, des taux de
compression plus importants sont recherchs avec pour objectif une simplification des
images jusqu la limite de lapparition des dfauts , notion toute relative il va de soi et qui
est, qui plus est, variable en fonction du contenu mme des images.
Sans compression, un DVD simple face ne
pourrait contenir que 30 secondes de vido : un
spot publicitaire !
Dans le cadre des processus de rduction des donnes, on distinguera les compressions avec
pertes (lossy) et les compressions sans pertes (lossless). Les compressions avec pertes utilisent
des algorithmes qui suppriment des informations qui existent mais qui sont invisibles ou non
discernables pour lil ou inaudibles pour loreille humaine (par exemple, masques par
dautres sons). Ce sont des oprations irrversibles, la perte des informations tant dfinitive,
mais les taux de compressions obtenus sont importants.

MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 4 / 20

Dans le cadre des compressions sans pertes, on supprime les informations redondantes et on
procde au r-agencement des donnes qui restent. Dans cette catgorie, on inclue galement
les compressions de type informatique . Ce sont des oprations rversibles : une fois
dcod, le signal retrouve ses qualits dorigine mais les taux de compression sont beaucoup
plus faibles.
Dans la majorit des cas, les technologies de compression ne sappuient pas sur un seul et
unique procd mais reposent sur des successions doprations lmentaires (qui pourront tre
losseless et lossy) et qui mises bout bout procurent un taux de compression global important.
Les coupes sont drastiques mais lil sy accommode. Les rsultats sont variables en
fonction de la nature mme des images. Les squences vido comportant de nombreux objets
en mouvement (retransmissions sportives par exemple) ncessitent des dbits plus importants
que celles qui ne comportent que des lments statiques (journaux tlviss).
Des groupes de travail se sont constitus pour tester et dvelopper ces technologies. Le
groupe MPEG (Moving Picture Experts Group) est lun dentre eux. Il est issu des deux
instances de normalisation que sont l'ISO et la IEC (International Standards Organisation et
International Electrotechnical Commission). Ce groupe a en charge l'tablissement de
standards internationaux pour la vido et l'audio numrique. C'est une uvre de longue
haleine puisque les premiers travaux ont commencs la fin des annes 80, il y a plus de 15
ans.

MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 5 / 20

3- Lexploitation des redondances spatiales dans limage. Les traitements intra-image :


Une image seule contient beaucoup de redondances, a fortiori si elle prsente des zones
uniformes plus ou moins grandes : il y a alors de fortes corrlations entre des pixels voisins. A
loppos, une image avec beaucoup de dtails contient assez peu de redondances. Si une
image tait uniquement constitue de bruits erratiques, il serait pratiquement impossible de la
rduire.
Le traitement repose sur un dcoupage de limage en blocs de 8 sur 8 pixels puis une
rduction des donnes en trois tapes successives :
- Une opration mathmatique : la transformation en cosinus discrte DCT (pour Discrete
cosinus transform)
Pour permettre un codage plus efficace, cette opration mathmatique va raliser une
rorganisation de linformation, savoir une transposition de limage depuis le domaine
spatial vers le domaine frquentiel transformant ainsi des chantillons damplitude en
coefficients. Ces coefficients sont reprsentatifs de la frquence des signaux vido et
reprsentent donc la quantit de dtails.

La DCT existe, on la mme rencontre !

Au final, chaque bloc de 8 sur 8 pixels de limage originelle est reprsent par un tableau de
64 cases (8 colonnes sur 8 lignes) : ces coefficients sont classs en ordre croissant dans la
matrice, les valeurs situes en haut gauche reprsentant les basses frquences de la
transforme (la premire valeur indiquant la valeur moyenne de tous les pixels du bloc), puis
les valeurs reprsentant les dtails fins (et donc les frquences les plus leves) tant placs
lautre extrmit de matrice. Si limage comporte peu de dtails (un ciel bleu par exemple)
beaucoup de ces coefficients seront faibles voire nuls.
A ce stade, il ny a pas encore de compression de donnes : lopration est totalement
rversible et sans perte : on pourrait encore reconstituer limage dorigine !
- La quantification :
Ces coefficients sont ensuite quantifis, mais avec une prcision qui sera pondre en fonction
de la position des coefficients dans les blocs et donc de la finesse des dtails (prcision
dcroissante quand la frquence augmente). La sensibilit de lil humain est variable en
fonction des frquences et de leur positionnement par rapport lhorizontale. Pour la
quantification des grandes plages presque uniformes, on adoptera un codage avec une
prcision maximum (on affectera un plus grand nombre de bits) ce qui vitera lapparition de
mplats ou deffets de pixlisation dans les zones de limage originale qui comportaient de
subtils dgrads pour lesquels lil est particulirement sensible. Pour les dtails fins (les
hautes frquences spatiales), lil est beaucoup plus tolrant et il ny peroit pas les
diffrences dintensit. Les coefficients correspondant ces dtails pourront tre cods avec
peu de bits. De nombreux coefficients non significatifs verront aussi leur valeur ramene
zro. Cela correspond llimination pure et simple des dtails les plus fins de limage. Le
taux de compression total (et donc la taille du fichier) obtenu pour une image dpend
directement de la prcision de la quantification que lon applique. (Table de
quantification). Cest ltape qui rgle le compromis entre le dbit et la qualit de limage. Sur

MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 6 / 20

limage dcompresse, la structure en forme de blocs peut redevenir visible lorsque les taux
de compression sont importants (ce dfaut est dailleurs appel effet de blocs).
La quantification est une phase primordiale. A ce niveau, la rduction des donnes est
importante mais dfinitive : les informations supprimes sont irrmdiablement perdues.

Avec MPEG, l image vido est dcoupe en blocs de 8 x 8 pixels.

- La lecture des donnes :


Les donnes sont ensuite lues et srialises. Les matrices sont exploites, non pas ligne par
ligne, mais en zigzag ce qui permet de commencer par les coefficients correspondant aux
basses frquences de la matrice et de regrouper tous les lments nuls les uns derrire les
autres et doptimiser leur compression.
Un compactage du flux binaire utilisant les proprits statistiques du signal est ensuite
ralis selon deux procds :
- codage longueur courante (RLC) : au lieu de coder indpendamment chaque zro, on
met un code indiquant le nombre de valeurs nulles.
- codage longueur variable (VLC) de type Huffman : on calcule les frquences
d'apparition de chaque octet et on les recode en fonction de leur frquence
d'occurrence. En sappuyant sur un dictionnaire (ce qui signifie une analyse
pralable de la suite des lments transmettre), on affecte aux suites les plus
courantes des codes binaires courts et aux occurrences rares des mots plus longs
(systme identique dans son principe au code morse qui affecte un simple point pour la
lettre E trs courante- et deux traits deux points pour la lettre Z dun emploi moins
courant).
En terme de compression, lefficacit de ces deux dernires oprations est relativement
modeste.

MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 7 / 20

4- Lexploitation des redondances temporelles. La compression inter-images :


Dans une squence vido, la diffrence entre une image et la suivante est relativement faible,
sauf lors dun changement de plan. Un objet en mouvement lcran va occuper un
emplacement diffrent, mais il va conserver sensiblement le mme aspect. Lide de base est
la suivante : partir dune image intgralement code et transmise, on ne va ensuite
transmettre pour les images suivantes que les informations de mouvement des diffrents
lments, ce qui correspond en fait ne transmettre que les diffrences entre des images
successives. Cette mthode de traitement tant tablie par rfrence une image code
intgralement, il est ncessaire que des images compltes soient diffuses intervalle rgulier.
Ce point sera abord dans le chapitre suivant.
La position dun bloc de pixels variant peu dune image lautre, tout (ou presque) macrobloc
dans limage en cours peut tre dduit par translation partir dun macrobloc identique dans
limage prcdente. Par opposition aux oprations de rductions des redondances spatiales qui
sappuyaient sur un dcoupage de limage en blocs de 8 x8 pixels, la compression inter-image
sappuie sur un dcoupage de limage en macroblocs, entit de 16 x 16 pixels (soit 4 blocs en
ce qui concerne la luminance voir encadr).
A lencodage :
- pour chaque macrobloc de limage en cours, on recherche dans limage prcdente un
macrobloc identique ou le plus ressemblant (bloc matching), ce qui va permettre la
dtermination dun vecteur de mouvement indiquant le dplacement ralis entre les
deux images. Ce vecteur sapplique sur toutes les composantes (luminance et
chrominance) du macrobloc.
- on calcule ensuite les ventuelles diffrences pixel par pixel (si elles existent) entre les
contenus des deux macroblocs, et on code spatialement cette image diffrentielle en
utilisant les mthodes dcrites prcdemment pour le traitement des redondances
spatiales : DCT, quantification, srialisation, RLC et VLC.
- Seuls les rsultats de ces deux oprations, le vecteur de mouvement et le calcul sur la
diffrence de constitution des deux macroblocs sont transmis dans le flux binaire et
utiliss par le dcodeur. A la rception du flux, ce dernier pourra reconstruire une
image complte partir de ces deux lments et du contenu de limage prcdente
quil aura dj dcode et affiche.

Estimation de mouvement

La recherche dun macrobloc identique ou semblable peut ne pas aboutir (dans la cas dun
changement de plan par exemple) : dans ce cas, le macrobloc sera recod intgralement en
intra.
MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 8 / 20

La mthode et les critres de ressemblance, lespace de recherche des macroblocs dans


limage en cours et plus gnralement les technologies utilises pour lencodage ne sont pas
indiqus dans la norme MPEG. Les fabricants dencodeurs sont libres dadopter la mthode
de leur choix. Seul le rsultat final compte, la dtermination du vecteur de dplacement et du
terme derreurs. Ce sont ces deux lments et seulement eux qui seront transmis dans le flux
et utiliss par le dcodeur.
Les macroblocs peuvent tre dfinis, soit partir des images prcdentes, soit partir des
images prcdentes et suivantes (ce qui ncessitera un r-ordonnancement de lordre des
images lmission !). Ce point est abord dans le chapitre suivant.
Ces technologies labores pour MPEG-1 puis pour MPEG-2 seront reprises dans la norme
MPEG-4 mais elles seront affines et gagneront en efficacit.
5- La squence MPEG. Les diffrents types dimages :
Redondances intra-images, redondances inter-images autant de caractristiques des images
animes qui ont entran les modes de traitement et de compression qui viennent dtre
dcrits. Plus concrtement, au sein dune squence MPEG cela a abouti une hirarchisation
des images. Une squence vido la norme MPEG-2 peut tre compose de trois types
dimages :
- les images Intra (I)
- les images Prdites (P)
- les images bidirectionnelles (B)
Toutes ces images ne sont pas traites et compresses de la mme faon. Les images Intra (I)
sont codes intgralement, uniquement daprs leurs propres caractristiques, sans aucune
rfrence aux images voisines. Cest la redondance spatiale qui est exploite. Les images I
sont des images rfrences partir desquelles est ralis le dcodage. Cest pourquoi
chaque changement de plan doit commencer par une image I. Elles permettent un accs
instantan en lecture. En diffusion, on place une image I toutes les 12 images. Ce sont les
images les moins compresses, donc les plus volumineuses.
Les images P sont prdites partir des images I ou P prcdentes en sappuyant exclusivement
sur les technologies lies lestimation et la compensation des mouvements. Leur volume
informatique est approximativement la moiti de celui des images I.
Les images B sont galement des images prdites, mais elles prsentent la particularit de
pouvoir tre interpoles partir dimages I ou P passes et /ou futures. Il faut noter que le
dcodage dune image B nest possible que si les images I et P qui lui servent de rfrence
(notamment les images futures) sont disponibles. Cest pour cette raison que lordre des
images est modifi pour la diffusion et le dcodage. Dans le dcodeur, les images I et P dj
dcodes sont stockes provisoirement dans des mmoires tampons, le temps de dcoder
et de calculer les images P et B suivantes Ce nest quau moment de laffichage que les
images sont replaces dans leur ordre normal . La prdiction bi-directionnelle est si efficace
que le volume des images B nest que le quart de celui des images I. Les images B ne
propagent pas les erreurs puisquelles ne sont jamais utilises comme rfrences.
En rsum, seules les images I sont de vritables images. Les images P et B ne sont en fait que
des reconstitutions partir dlments issus des autres images. Elles ne conviennent pas pour
le montage.

MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 9 / 20

Le poids relatif des images I, P et B.

On appelle GOP (Group of Picture) la squences lmentaire compose dimages I, P et /ou


B. Un GOP commence toujours par une image I, puis par des images P et B et se termine
avec limage prcdant limage I suivante. La longueur du GOP peut tre variable, mais la
valeur la plus courante en diffusion (tlvision ou DVD) est de 12. Dans ce cas, il comprend,
outre limage I de dpart, 3 images P et 8 images B. En production, le GOP peut ntre que de
1 : la squence nest alors compose que dimages I, permettant de ce fait le montage
limage prs. Des GOP de 2 (images I et B seulement) sont galement possibles sur certains
camscopes.

Le GOP en diffusion

Pourquoi les images I sont elles indispensables intervalle rgulier ? En diffusion, il y a donc
environ deux images I par seconde dans le flux. Ce sont les seules images dans le flux tre
codes intgralement, en fonction de leurs seuls lments constitutifs et indpendamment des
images voisines. Les images I doivent apparatre intervalle rgulier
- pour viter quen cas de problme dans la transmission, une erreur ne se perptue
indfiniment
- en diffusion (tlvision ou DVD), pour permettre aux utilisateurs de se connecter
tout moment et non pas uniquement au dmarrage de la squence (accs alatoire)
- de permettre la lecture avant ou arrire rapide (le dcodeur ne dcodant alors que les
images I et non pas lensemble des images).
Plus la distance entre deux images I et entre deux images P est grande et plus la compression
est forte (il y a dans ce cas un nombre trs important dimages B, celles qui sont les plus
compresses et qui prsentent donc le plus faible volume). Ceci offre lavantage de permettre
un dbit plus faible mais gnre deux inconvnients : une distance importante entre deux
images P implique un plus grand dlai dans les phases de codage et dcodage ; une distance
importante entre deux images I apporte une restriction pour laccs instantan (zapping) en un
MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 10 / 20

point quelconque dune squence (mais est ce vraiment important pour le tlspectateur
lambda ?).

A qualit constante, une squence vido encode avec un GOP de 1 (c'est-dire constitu uniquement dimages I) ncessitera un dbit 2 3 fois plus
lev que la mme squence encode avec un GOP de 12 (le modle utilis
en diffusion ou pour le DVD avec des images I, P B).

MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 11 / 20

6- Profils et niveaux avec MPEG-2


MPEG-1, la premire norme qui fut dveloppe, puis MPEG-2 labore par la suite,
sappuient sur les mmes principes de base. Nanmoins les champs dapplications viss ne
sont pas les mmes. A une premire norme mono-usage la qualit trs modeste a suivi une
norme multi-applications, avec des niveaux qualitatifs qui peuvent tre levs.
MPEG-1 avait pour cible les applications et le stockage de vidos sur les disques CD de la
premire gnration, c'est dire avec un dbit ne dpassant pas 1,5 Mb/s 2. L'image est en
4.2.0. avec une dfinition totale pour la luminance de 288 x 352 pixels. Par rapport une
image classique de tlvision (720 x 576), cela signifie en clair que lon ne prend en compte
quune trame sur deux (on saffranchit de lentrelacement) et quun pixel sur deux
horizontalement. En dautres termes, la dfinition est divise par deux dans le sens horizontal
et par deux dans le sens vertical. La qualit de l'image est souvent comparable celle obtenue
la lecture d'une cassette VHS. Ce standard a t approuv en novembre 1992.
A loppos, MPEG-2 nest pas un format simple et rigide. Il offre un ensemble dlments qui
sadaptent un large ventail dapplications : diffusion tl, DVD, post production, haute
dfinition Les dbits sont diffrents pour lacquisition, le montage et la distribution.
MPEG-2 gre lentrelacement.
MPEG-2 ne constitue pas une norme unique mais une sorte de bote outils, une famille de
normes dont on choisit les paramtres finaux en fonction des besoins. Afin de rendre la norme
polyvalente (en terme dapplications vises mais aussi au niveau des fonctionnalits possibles)
on a dfini pour MPEG-2 une srie de profils et de niveaux (profiles et levels en anglais).
Les profils correspondent une approche qualitative : ils regroupent les outils de codage et les
algorithmes les plus appropris pour diverses situations dutilisation : diffusion, production...
Les profils dfinissent ainsi les types dimages qui seront utiliss (Images I, P, B), les
procds de codage employ Les dcodeurs n'auront pas implmenter tous les outils de la
norme mais seulement ceux destins l'usage vis.
Chaque profil comporte ensuite diffrents niveaux. Ils apportent une approche quantitative,
dcrivant diffrents paliers de performance pour un profil donn et correspondant autant de
degrs de complexit dans la mise en oeuvre. Les niveaux imposent des contraintes certains
paramtres cls du flux. Ils vont par exemple spcifier les limites suprieures pour la dfinition
des images, le nombre d'image par seconde, les gammes de dbits utilisables Chaque profil
offre une compatibilit ascendante, c'est--dire quun profil donn est capable de reconnatre et
dexploiter tous les profils de niveau infrieur.
Les couples Profile / Level sont conus pour faciliter linteroprabilit entre des applications
qui peuvent tre utilises pour gnrer un flux compatible.
Six profils et quatre niveaux ont t dfinis. Sur les 24 combinaisons possibles, seules 12 ont
t juges utiles et ralisables. Celle actuellement retenue pour la diffusion numrique et pour
le DVD est Main Profil / Main Level not MP @ ML . Limage est au format 720 x
576 en 4.2.0. avec un dbit maximum de 15 Mb/s. La squence vido est compose des trois
types dimages I, P, et B avec un GOP de 12. Autour de ce couple phare universellement
adopt, dautres formats ont t imagins : formats infrieurs avec le low level qui offre
une dfinition limite 352 x 288 (cest le format du MPEG-1) ou le simple profile qui
nutilise que des images I et P (pas de prdiction bi-directionnelle) ou formats suprieurs avec
lintroduction de la haute dfinition et des formats dimages atteignant 1920 x 1152 en 4.2.0
ou en.4.2.2. Tous les usages imagins autour de MPEG-2 ne verront sans doute pas le jour. Il
2

dbit obtenu avec un lecteur de CD ROM de base. Aujourd'hui, les lecteurs peuvent tourner beaucoup plus vite
(X40) et donc fournir des dbits beaucoup plus importants.
MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 12 / 20

en est ainsi pour la haute dfinition qui lorsquelle apparatra trs prochainement en France
sappuiera, compte tenu des volutions technologiques, non pas sur MPEG-2 mais sur la
norme MPEG-4.

Tableau des profils et des niveaux

Le duo MP @ ML tait inexploitable en post-production pour diffrentes raisons. Tout


dabord, le codage dun signal source en 4.2.0. nest pas satisfaisant puisque les informations
de chrominance sont deux fois moindres quen 4.2.2. Ensuite parce que la structure mme de
la squence vido avec son GOP de 12 interdit toute possibilit de montage avec une prcision
suffisante. Enfin, le dbit maximum de 15 Mb/s savre insuffisant pour ce type dapplication.
Un profil spcifique pour les applications en studio a donc t dvelopp ultrieurement afin
de rpondre aux exigences dun environnement de post-production. Sous lappellation 4.2.2.P
@ML, il sappuie sur une structure dimage en 4.2.2. avec un dbit pouvant atteindre 50 Mb/s
et un GOP qui peut tre limit 1 (uniquement des images I) ou deux (images I et B comme
dans lancien format SX de SONY). La rsolution verticale atteint 608 lignes (au lieu de 576)
permettant le codage de donnes auxiliaires.
Le mot anglais scalable qui apparat dans la tableau des profils et des niveaux dsigne la
possibilit de fournir et de transmettre dans un mme signal un ensemble dlments
correspondant diffrents niveaux de qualit et qui pourront tre exploits diffremment en
fonction des conditions de transmission ou du type de terminal utilis par lusager. Un mme
flux pourra comprendre des donnes principales utilisables par un dcodeur bon march (qui
restituera alors une image de base) et des donnes complmentaires qui seront utilises (avec
les donnes de base) par un dcodeur plus performant pour offrir une meilleure image. Dans
MPEG-2, deux profils prsentant cette particularit : le SNR Scalable Profile et le
Spatially Scalable Profile permettent ainsi ce codage hirarchique en deux couches
favorisant, pour le premier, la rduction du rapport signal bruit, et pour le second
laugmentation de la rsolution spatiale. Ces deux profils nont quasiment pas t mis en
uvre, mais le principe a t repris (et devrait tre tendu) dans la nouvelle norme MPEG-4.

MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 13 / 20

7- Dbit fixe ou dbit variable :


En terme de complexit des images, le contenu dune squence vido ou dun film est
rarement homogne sur toute sa dure. MPEG-2 peut utiliser deux modes de fonctionnement :
dbit constant ou CBR (Constant Bit Rate) ou dbit variable ou VBR (Variable Bit Rate).
Comme les noms lindiquent, dans le premier cas, le dbit restera toujours constant, alors que
dans le second cas il sera variable en fonction des caractristiques des images : des images
complexes ncessitant des dbits levs et vice et versa. A un encodage dbit constant
correspondra une qualit des images qui sera variable, et inversement, un dbit variable
correspondant des images de qualit constante. Le dbit variable permet galement une
meilleure optimisation de lespace ou du volume en fonction de la complexit des images : un
DVD encod dbit variable sera gnralement moins volumineux quencod dbit fixe.
8- MPEG-2 en diffusion : les usages
Les programmes de tlvision diffuss en numrique aujourdhui, quils le soient par satellite,
rseaux cbles urbains, ADSL et mme terrestre (TNT), du moins pour ce qui concerne les
premiers programmes gratuits sappuient tous sur la norme MPEG-2 et plus prcisment
sur le couple niveau / profil : Main Level / Main Profile. Ceci signifie une image en 720 x 576
en 4.2.0. avec un dbit qui ne dpassera pas selon la norme 15 Mb/s. En ralit, ce dbit
maximum nest jamais atteint dans les applications courantes. Il ne serait dailleurs pas utile
de choisir cette valeur maximum, lvolution des technologies de compression permettant
aujourdhui dobtenir des images de qualit pour des dbits largement en de (sans toutefois
atteindre des dbits trop faibles qui engendreraient des dfauts trop visibles sur les images).
On la dj mentionn, pour une qualit dimage donne, le taux de compression qui doit tre
appliqu dpend directement du contenu mme des images, de leur richesse au niveau des
dtails ou des objets en mouvement. La retransmission dune preuve sportive ncessitera un
dbit beaucoup plus lev que la diffusion dune mission politique en plateau. Les quelques
exemples prsents dans le tableau ci-dessous prcisent quelques valeurs relles mesures
pour diffrents types de programmes. Ils ont t relevs au mois de mars 2005 sur le site
http://www.planetecsat.com/debits.php et concernent des programmes qui sont diffuss par
TPS dans le cadre de son bouquet satellite.
On la dj indiqu galement, la dfinition normale dune image numrique est de 720
points (dans le sens horizontal) sur 576 lignes (verticalement donc). Comme ce tableau le
montre galement, certains programmes sont diffuss avec une dfinition horizontale rduite
afin dconomiser la bande passante, le rcepteur se chargeant ensuite la rception de
recomposer limage dans le format normal de 720 x 576. Ceci se traduit aussi par des
dgradations qui peuvent devenir visibles lcran. On pourra retrouver sur ce mme site les
valeurs des autres programmes proposs par ce mme diffuseur ainsi que celles utilises par
CANALSAT et par la TNT
Type de
programme

M6 Boutique
LCI

Emission en
studio
information

Dbits
compris
entre :

Valeur
maximum

Valeur
moyenne

Dfinition des
images

1 et 3 Mb/s

4,3 Mb/s

1,6 Mb/s

480 x 576

1,5 et 4 Mb/s
5,4 Mb/s
2,4 Mb/s
2,5 et 6,5
films
8,3 Mb/s
4,3 Mb/s
TPS Star
Mb/s
sport
3 et 8 Mb/s
8,8 Mb/s
4,8 Mb/s
Eurosport2
Ce tableau illustre quelques uns des choix qui ont adopts en terme de dbit et de dfinition
ce diffuseur pour quatre de ses chanes avec des thmatiques bien cibles.

544 x 576
720 x 576
720 x 576
dimages par

MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 14 / 20

Le DVD, formidable succs aussi lchelon mondial, sappuie galement sur la norme
MPEG-2. Pour la vido, le dbit de doit pas dpasser 9,8 Mb/s. Il peut tre fixe ou variable.
La qualit tant vante de limage DVD tient la possibilit dutiliser une technique de
compression multipasses . Dans une premire phase, lquipement dencodage procde
un examen prcis de la vido, et dans un deuxime temps effectue lencodage au format
MPEG-2 en sappuyant sur les relevs raliss dans la premire phase. Cette technique permet
doptimiser la qualit des images en fonction de leur contenu prcis : dtails, mouvements
rapides et nest pas soumise aux contraintes du temps rel. A dbit gal, elle offre des
rsultats qualitatifs suprieurs ceux issus dun encodage en une seule passe. Le codage en
deux passes permet de rduite le dbit (et donc le volume informatique du fichier) mais il est
inapplicable pour la tlvision en direct.

MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 15 / 20

Conclusion :
MPEG-2 a t un formidable succs dans le monde entier : des millions de dcodeurs ou de
lecteurs de DVD sappuyant sur cette norme sont aujourdhui en service. Une des ides
majeures qui a prvalue lors des dveloppements de MPEG-2 tait de ne pas bloquer
lvolution de la technologie au fil des annes et donc de continuer amliorer la qualit
finale des images, malgr le ncessaire blocage des technologies au niveau des dcodeurs
(notamment les lecteurs DVD) qui une fois installs au domicile des utilisateurs ne sont plus
gure upgradables . MPEG-2 (comme dailleurs MPEG-4, on le verra dans un autre texte)
ne dfinit pas les technologies utilisables pour lencodage, mais seulement la smantique du
dcodage. En clair peu importe la mthode utilise pour encoder les images, seul le rsultat
compte : le flux binaire produit devant tre compatible avec la totalit des rcepteurs. Cela
laisse bien entendu toute latitude aux industriels pour amliorer leurs technologies de
compression et dvelopper de nouveaux encodeurs plus performants. Cette politique a t
payante, puisque entre 1994 et 2002, et qualit dimage gale, le dbit ncessaire a t divis
par un facteur de trois.

Source RIAM

Mais on estime aujourdhui que les volutions de MPEG-2 ont atteint leur limite et quil nest
plus gure possible de russir lamliorer. MPEG-4 va lui succder. Cest une norme
rcente, performante, volutive et prometteuse au niveau de ses potentiels. La premire
application grande chelle devrait se concrtiser en France la fin de cette anne 2005 avec
le tlvision numrique terrestre qui sappuiera sur MPEG-4 pour les chanes payantes (mais
sur aussi sur MPEG-2 pour les chanes gratuites !). Les nouvelles gnrations de DVD en
haute dfinition utiliseront, non seulement le vieillissant MPEG-2, mais galement les
nouveaux codecs H264 (MPEG-4 Part10) et VC1 (Microsoft).

Philippe GASSER

MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 16 / 20

Encadrs

Quelques grandes dates de lhistoire du numrique :


1982
1988
1992
1993
1994
1994
1995
1996
1997
1998
1998
2001

2003
2004
Mars 2005
Fin 2005 ?

Adoption de la norme CCIR 601 qui dfinit les


paramtres de la vido numrique lchelon
mondial (4.2.2.)
Premiers travaux du groupe MPEG (Moving
Picture Experts Group) pour dfinir les standards
de la vido numrique.
Approbation de la norme MPEG-1
Premires spcifications pour le format DV
Approbation de la norme MPEG-2
Premier bouquet de TV numrique par satellite
aux USA
Premiers camscopes au format DV
Lancement en France du premier bouquet de
tlvision par satellite en dfinition standard la
norme MPEG-2.
Premiers lecteurs de DVD Vido en France
Diffusion des premiers programmes en haute
dfinition aux USA utilisant la norme MPEG-2
(dbits environ 18 Mb/s)
Approbation de la premire version de la norme
MPEG-4
Formation dune quipe commune (JVT) entre
lISO et lITU pour dvelopper un nouveau
format de compression pour MPEG-4 dnomm
Advanced Video Coding (AVC)
Ce systme de codage est officiellement intgr
dans les normes MPEG-4 sous deux noms : H264
et MPEG-4 Part10
Tlvision numrique par ADSL
Mise en service de la Tlvision numrique
terrestre (TNT). Elle sappuie sur la norme
MPEG-2 pour les programmes gratuits.
Utilisation de MPEG-4 pour la compression des
programmes payants dans le cadre de la
tlvision numrique terrestre en France.

MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 17 / 20

Structure hirarchique des lments dans MPEG


le GOP : groupe dimages commenant par une image de type I qui permet un
accs alatoire. En diffusion, le GOP est souvent de 12 : il comprend, outre
limage I de dpart, 3 images P et 8 images B. En production, le GOP est de 1 :
une squence nest compose que dimages I, permettant de ce fait le montage
limage prs.
limage : elle est constitue de 720 points sur 576 lignes
les tranches (slices dans la littrature anglaise) : ensemble compos par un nombre
entier de macroblocs aligns de gauche droite sans recouvrement. Ils sont
destins la gestion des erreurs au moment du dcodage des images et notamment
la resynchronisation du dcodeur en cours dimage.
les macroblocs : matrice constitue partir de lassociation de blocs. Un
macrobloc comprend 4 blocs de luminance (soit un pav de 16 sur 16 pixels).
Cest llment de base pour lestimation de mouvement.
le bloc : partie de limage de 8 sur 8 pixels. Cette matrice est llment de base
pour le codage avec la DCT.

Quelques dfauts lis la compression :


Effet de blocs : apparition d'une structure carre sur une partie de l'image, sans corrlation
avec le contenu normal de l'image. Souvent confondus avec les pixels, ce sont les blocs
de 8 x 8 pixels de la compression, les mmes qui apparaissent avec une cassette
numrique lors de l'avance ou du retour acclr. Ce dfaut est d un taux de
compression trop lev.
Effet de blurring (de blurred signifiant flou, troubl) provoquant une rduction des
dtails, avec des contours moins nets et des tranes (smearing). Ce dfaut affecte la
totalit de l'image. Il est gnralement li une rduction de la bande passante et /ou un
dbit trop faible.
Edge busyness (Effet de halo) : distorsion se produisant temporairement sur les contours
des objets (bruit dynamique)
Mosquito noise (effet "moustique") bruit sur les transitions sur des objets en mouvement.
Ce dfaut est caus par des erreur de quantification entre deux pixels voisins. Il y a alors

MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 18 / 20

apparition de petits points noirs ou blancs qui "miroitent" autour de l'objet comme des
moustiques.
Bruit de quantification : il provoque un effet de neige ou de vitre salle et n'est pas
uniforme sur toute l'image. Ce dfaut est li un problme de conversion A/D sur une
portion de l'image.

Leffet de falaise :
Les consquences sur les images des perturbations pouvant survenir lors dune transmission
sur un rseau ou pour un enregistrement sont diffrentes selon que lopration se droule en
analogique ou en numrique.
En analogique, lorsque les conditions de transfert se dgradent, la qualit des images saltre
au fur et mesure mais elles restent visibles y compris les dfauts. Le rapport signal /
bruit diminue et cela se matrialise lcran par un effet de neige devenant de plus en plus
perceptible. En numrique, les consquences sont toutes autres. Si la transmission est
correcte, limage est restitue avec sa qualit dorigine. Quand des dfauts viennent altrer
lgrement la liaison, des mcanismes de correction derreurs restituent les informations
perturbes et limage est reconstruite avec une qualit proche de loriginal. Quand elle est
fortement perturbe, les images disparaissent brutalement ds que les dispositifs de
corrections derreurs ne peuvent plus intervenir. Ce fonctionnement en tout ou rien (do le
nom deffet de falaise) est indpendant de la qualit intrinsque des images qui peuvent
prsenter par ailleurs des dfauts, crs notamment pendant la compression.

Quelles diffrences entre le format DV et le MPEG-2


Le format DV est plutt un format de prise de vue (camscopes et lecteurs enregistreurs
fonctionnant avec une cassette spcifique normalise) alors que le MPEG-2 est une norme de
compression utilisable pour la diffusion (satellite, terrestre, rseaux urbains, DVD) ou pour la
production. Nous limiterons le comparatif la vido standard (format 4/3).
Si ces deux formats possdent de nombreux points communs (ils sappuient sur des
technologies de compression identiques base de DCT avec une quantification sur les
coefficients issus de la transformation), ils offrent galement de nombreuses diffrences.
en termes de dbit en premier lieu : pour le DV, deux dbits uniquement sont
possibles : 25 Mb/s pour les matriels grand public et 50 Mb/s pour les matriels
professionnels. A ces deux chiffres fixes, MPEG-2 oppose une large gamme de
valeurs (de quelques Mb/s jusqu 100 Mb/s) et des dbits qui peuvent tre fixes ou
variables.

MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 19 / 20

en termes de format source pour les images ensuite : le MPEG-2 MP @ ML sappuie


sur le 4.2.0. (le 4.2.2 pouvant tre galement utilis pour la production et la HD) alors
que le format DV est disponible (pour les pays en 50 Hz) en 4.2.0. (DV pour le grand
public et DVCAM pour les professionnels) ou 4.1.1. (DVCPRO galement pour les
professionnels).
en termes de nature des images pour terminer, puisque le format MPEG offre
diffrentes possibilits de squencement (images I seules, images I et B, images I, P et
B) alors que le format DV sappuie exclusivement sur des images I, avec cependant
une petite particularit puisquen fonction de la dtection ou non de mouvements dans
limage, le codage seffectue sparment sur les deux trames (prdiction entre les deux
trames et utilisation de blocs de 4 x 8 ) ou sur lensemble de limage (blocs de 8x8).

MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 20 / 20

Vous aimerez peut-être aussi