Académique Documents
Professionnel Documents
Culture Documents
Le système se veut le plus universel possible, notamment en offrant une compatibilité avec les
systèmes européen (PAL) et américain (NTSC).
Fréquence d’échantillonnage
Orthogonal
sampling
Lorsque chaque composante du signal est échantillonnée à la même fréquence (13.5 MHz), on
parle de format numérique (4 : 4 : 4).
La qualité de l’image codée reste sensiblement la même, car la résolution de notre système
visuel est moins fine pour la chrominance que pour la luminance.
Parmi ces bits, seule une partie correspond à des informations « visibles » sur l’écran : ainsi,
seules 576 lignes sur les 625 (en Europe) correspondent à des pixels visibles. De même, 720
pixels sur les 864 dans le sens horizontal.
Le bitrate effectif (actif, visible) est donc de 720*576*25*8 = 83 Mbits/s pour la luminance et
83 Mbits/s pour la chrominance, soit au total 166 Mbits/s dans le format (4 : 2 : 2).
Ce taux d’information est beaucoup trop élevé pour des applications grand public, ce qui
nécessite l’emploi d’algorithmes de compression normalisés.
Notes
- il existe aussi un format (4 : 2 : 0), dans lequel la chrominance n’est codée qu’un pixel
sur deux dans le sens horizontal et dans le sens vertical de l’image ;
- l’avantage d’un système composant (par rapport à un système composite) est la
possibilité d’éditer les composantes (r,g,b) sans devoir démoduler le signal pour en
extraire la chrominance. Un autre avantage est la compatibilité immédiate des
systèmes américain et européen.
Ce comité d’expert a édité un standard pour la compression des images fixes. Dans sa version
avec pertes (JPEG lossy), l’algorithme JPEG offre des facteurs de compression supérieurs à
10.
Les algorithmes MPEG pour la compression vidéo ont été largement inspirés par le standard
JPEG.
Le standard MPEG-1 (1992) vise à reproduire un programme vidéo (incluant le son stéréo)
sur un support de type CD (videodisc, CD-I), c’est-à-dire à réduire le taux global
d’information (audio stereo + video) à 1.5 Mbits/s maximum !
Cette réduction drastique de l’information ne peut se faire qu’au détriment de la qualité de
l’image.
Compression Vidéo – Novembre 2006 3
Le standard MPEG-2 (1994) vise une qualité meilleure, à des bitrates de 4 à 9 Mbits/s. Les
applications visées sont le DVD (Digital Versatile Disc) et le DVB (Digital Video
Broadcasting).
Algorithme MPEG-1
Les images sont tout d’abord numérisées dans un format SIF (format de moindre résolution
que le 4 : 2 : 2 utilisé dans JPEG). Ce format consiste en fait à ne conserver :
- qu’un pixel sur deux en luminance, dans le sens horizontal ET vertical (résolution
360x288 pixels utiles au lieu de 720x576),
- qu’un pixel sur quatre en chrominance (180x144).
I B B P B B P B B P B B I
Les images I, comme leur nom l’indique, sont codées indépendamment des autres, à la
manière d’une image fixe (proche de JPEG).
Une image P est prédite à partir de l’estimation du mouvement entre l’image I précédente et
cette image, ou entre l’image P précédente et cette image. On a besoin pour cela d’un
algorithme prédisant les mouvements d’une image à l’autre (Motion estimator).
Les images B sont prédites à partir d’une interpolation bidirectionnelle entre images I et P, ou
P et P voisines.
Codage intra
L’ image en format SIF est tout d’abord discrétisée en blocs de 8x8 pixels.
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
0 0
1 1
2 2
3 3
4 4
5 5
6 DCT 6
7 7
Il est évident que, pour la plupart des blocs, tant la luminance que la chrominance seront plus
ou moins constantes, ce qui se traduira par :
- des coefficients de la DCT de valeur importante, pour les ordres faibles (basses
fréquences),
- des coefficients peu significatifs pour les ordres élevés.
Note : la DCT est une opération réversible, si tous les coefficients sont conservés ! Pour plus
d’informations sur cette transformée, voir le cours de traitement numérique d’images du
Professeur Van Droogenbroeck (en référence).
Après la transformée DCT, chaque bloc est représenté par un ensemble de 8x8 coefficients.
Ces coefficients subissent ensuite les opérations de seuillage et de quantification :
- mise à zéro des coefficients sous un certain seuil (coefficients les moins significatifs) ;
- attribution d’un nombre de bits décroissant avec l’ordre des coefficients (ou avec la
fréquence spatiale) ;
- les coefficients DC sont codés de manière différentielle (par rapport au bloc
précédent), dans le but d’épargner encore quelques bits.
Grâce à ces opérations, on espère éliminer l’information non pertinente (c’est-à-dire non
visible) dans l’image.
Vient ensuite l’opération de zig-zag scan : les coefficients codés (sauf DC) sont placés dans
l’ordre des fréquences spatiales croissantes : voir figure suivante.
Le résultat est une suite binaire comprenant de nombreux « zéros » successifs, correspondant
aux coefficients d’ordres élevés peu significatifs, et annulés par les opérations de seuillage et
de quantification.
Viennent enfin deux encodages sans perte, qui réduisent encore le bitrate :
- un codage RLC (run length coding), qui code le nombre de zéros successifs plutôt que
la séquence 00000….00000 ;
- un codage de type Huffman, qui accorde aux symboles les plus fréquents les codes les
plus courts (pour mémoire).
Motion estimator
Macrobloc :
16x16 pixels de
luminance,
et 8x8 pixels de
chrominance
Pour les images B, les vecteurs de déplacements sont interpolés temporellement, et l’image
est prédite soit à partir de l’image I ou P précédente (forward), soit à partir de l’image I ou P
suivante (backward), soit de manière bidirectionnelle à partir des deux I ou P voisines. Parmi
les trois techniques, l’image prédite la plus proche de l’image réelle est retenue, et la
différence est encodée comme pour les images P.
Images P
Codage
Mémoire sans perte
Predict P résidu
-
I ou P précédente
Motion
Estimator MUX
Motion vectors
I ou P précédente et
suivante résidu
Predict B
-
Bitstream
Images B
MPEG
Ainsi qu’observé sur la figure, l’ordre initial des images IBP est modifié de manière à faciliter
les opérations de prédiction (pourquoi ?).
En général, on retrouve 2 images B entre deux images P, et 11 images entre deux images I.
Une boucle de régulation est prévue après le multiplexeur (MUX) : elle agit sur le niveau de
quantification des coefficients de la DCT de manière à assurer un bitrate en sortie constant.
Compression Vidéo – Novembre 2006 7
MPEG-2
Pour (presque) chaque combinaison, il existe des algorithmes de compression proposés dans
le standard MPEG-2. La plus courante est l’association Main level at Main profile
(MP@ML), c’est-à-dire celle qui permet d’atteindre des taux d’information de 4 à 9 Mbits/s
et que l’on retrouve notamment dans le standard DVD.
En outre, dans MPEG-2, trois modes existent pour l’estimation des mouvements dans les
signaux video avec entrelacement : les blocs et macroblocs peuvent ainsi être créés sur
l’image complète (formée par deux trames successives) ou sur chaque trame séparément (une
trame = une demi-image).
Références
H. Benoit, Digital Television, MPEG-1, MPEG-2 and principles of the DVB system, Focal
Press, 2002.