Vous êtes sur la page 1sur 11

1.

Les normes MPEG:

La norme MPEG est un ensemble d'algorithmes de compression vido conus par un groupe d'experts, Moving Picture Experts Group, qui opre sous l'enseigne de l'Organisation Internationale de Standardisation (ISO). Quatre versions se sont succdes, toutes n'ayant pas exactement les mmes caractristiques. La premire est la norme MPEG1 ou H261 dite la norme de premire gnration qui a permis la compression efficace de donnes. Cette norme dcompose une squence vido en plusieurs parties qui remplissent toutes un rle dans le codage et la compression d'une squence. La norme MPEG2 ou H263 dite la norme de deuxime gnration a agrandi le champ d'application du MPEG1, notamment en amliorant la qualit de l'image. La norme MPEG3.En effet, contrairement au MP3, qui est un format de compression audio, le MPEG3 tait un format de compression vido destin la tlvision numrique. La norme MPEG4 ou H264 dite la norme de troisime gnration a pour but de trouver un compromis entre qualit et taille des fichiers. En effet, les flux MPEG1 possdaient une taille raisonnable, mais une mauvaise qualit. Contrairement le MPEG2 possde une trs bonne qualit mais la taille des fichiers est norme, notament si on veut faire circuler ces donnes sur un rseau. La norme MPEG4 est labore pour pallier ces deux problmes. Le MPEG-7, un standard visant fournir une reprsentation standard des donnes audio et visuelles afin de rendre possible la recherche d'information dans de tels flux de donnes. Ce standard est ainsi galement intitul Multimedia Content Description Interface. Le MPEG-21, en cours d'laboration, dont le but est de fournir un cadre de travail (en anglaisframework) pour l'ensemble des acteurs du numriques (producteurs, consommateurs, ...) afin de standardiser la gestion de ces contenus, les droits d'accs, les droits d'auteurs, ...
2. Le MPEG 2 :

MPEG-2 est une extension de la norme MPEG-1 pour la compression numrique des signaux audio et vido. MPEG-1 a t conu pour la vido balayage progressif de code des dbits allant jusqu' 1,5 Mbit / s. MPEG-2 est dirig vers des formats de diffusion des dbits plus levs, il fournit algorithmes supplmentaires , et supporte une large gamme de dbits binaires et prvoit un codage audio surround multicanal . MPEG -2 visait tre un gnrique du systme de codage vido supportant une large gamme d'applications. Diffrents algorithmes , sont mis au point pour de nombreuses applications, ont t intgres dans la norme complte. Pour mettre en uvre toutes les fonctionnalits de la

norme dans tous les dcodeurs et viter de gaspiller la bande passante. Ce rapport prsente la norme de compression vido MPEG4 Advanced Video Coding (AVC) et ses diffrences avec la norme MPEG-2 vido. On va commencer par prsenter les principes utiliss dans les systmes MPEG-2.
2.1.

PRINCIPES FONDAMENTAUX VIDEO EN MPEG 2 :

Gnralement les stations de tlvision diffusent un "frame rate" de 25Hz. Chaque frame (cadre) est form de deux champs "entrelacs", donnant un taux de champs ("field rate") de 50Hz. Le premier champ de chaque "frame" contient seulement les lignes impaires du "frame" (la premire du haut sera la #1). Le second champ contient quant lui les lignes paires(environ 20 ms aprs le premier champ). Pour les systmes vido autres que la tlvision, on retrouve souvent un signal vido "nonentrelac". O toutes les lignes d'un "frame" sont lues au mme instant. La vido "nonentrelac" est galement appele "progressively scanned video" ou "sequentially scanned video". Le signal RGB(red, green and blue) peut tre exprim en composantes de luminance(Y) et de chrominance(UV). La largeur de la bande passante de la chrominance peut tre rduite en fonction de la luminance sans affecter de manire significative la qualit de l'image. En vido standard, le signal vido component(YUV) sera chantillonn et numris pour former des "pixels". Une image vido numrique standard est de 720 pixels X 576 lignes, pour un "frame rate" de 25 Hz. En utilisant 8 bits pour chaque pixels Y, U ou V, le "bit rate" non compress sera : - 720x576x25x8 + 360x576x25x(8+8) = 166 Mbits/s MPEG-2 est capable de compresser le "bit rate" d'un signal vido standard jusqu' un taux de 3 Mbits/s. Plus le "bit rate" est bas, plus la qualit du signal encod devient compromise. Pour un signal de diffusion numrique terrestre standard, un "bit rate" d'environ 6 Mbits/s est gnralement accept comme un bon compromis entre la qualit d'image et les impratifs de bande passante du transmetteur(Cbles, Satellites,etc).

3. Principes de rduction de dbit dans MPEG 2 : La rduction du "bit rate" opre en enlevant l'information redondante du signal avant la transmission, grce au codeur et en la rinsrant grce au dcodeur. Deux types de redondances existent: La redondance spatiale et temporelle o un lment commun plusieurs images conscutives n'est transmis qu'avec la premire image. Pour les autres images, on ne transporte que sa position dans l'image. Une autre redondance exploite est la redondance spatiale. Si, dans la mme image, il y a par exemple plusieurs objets identiques, lobjet n'est code qu'une seule fois.

La redondance psycho-visuelle: Comme l'il humain est moins sensible aux dtails prs des bords d'objets ou autour des prises changements.Les dficiences contrles introduites dans l'image dcode par le processus de rduction de dbit ne devrait pas tre visible pour un observateur humain. Deux techniques cls sont utilises dans un codec MPEG2 qui sont intra-trame transforme en cosinus discrte (DCT) et de codage compensation de mouvement inter-trame de prdiction. Ces techniques ont t appliques avec succs la rduction de dbit binaire vido MPEG avant, notamment pour les 625-ligne normes contribution vido 34 Mbit / s [5] et les systmes de confrence vido des dbits binaires infrieurs 2 Mbit / s [6]. Intra-frame codage DCT La Transforme Cosinus Discrte (DCT, Discrete Cosine Transform) est utilise sous forme bidimensionnelle en MPEG-2. Le bloc de 8x8 pixels est chang en bloc de 8x8 coefficients. Comme la transformation rside en une multiplication par une fraction, il se produit un allongement du mot provenant du fait que les coefficients ont une longueur suprieure celle des valeurs de pixels. Un bloc de pixels 8 bits devient alors un bloc de coefficients 11 bits. Une DCT ne constitue pas alors une compression, mais elle obtient, en fait, le rsultat inverse. Cependant, la DCT convertit la source de pixels en une forme facilitant la compression. La figure suivante montre le rsultat dune transforme inverse des coefficients individuels dune DCT pour un bloc 8x8. Dans les images relles, diverses frquences spatiales verticales et horizontales peuvent se produire simultanment et un coefficient en un certain point en reprsente toutes les combinaisons possibles.

Fig. 1 -Le transforme en cosinus discrte (DCT) de valeur de pixel et l'ampleur de coefficients de DCT est reprsent par la taille des points.[2]

Motion-compensated inter-frame prediction : Cette technique exploite la redondance temporelle en essayant de prdire le frame tre

cod partir dun frame de rfrence. La prdiction la plus simple du bloc encoder est celle qui utilise le bloc le plus prs de limage de rfrence. Ceci permet de raliser une bonne prdiction pour les rgions stationnaires de limage, mais russissent moins bien dans les rgions o il y a mouvement. Quand un objet se dplace sur lcran TV, il apparat un endroit diffrent, mais il ne change pas beaucoup daspect. On introduit donc une mthode plus sophistique, appele motion-compensated interframe prediction, qui consiste copier (offset) tout mouvement translationnel qui existe entre le bloc qui est encod et le frame de rfrence et utiliser le bloc ainsi cr comme prdiction.

Motion-compensated inter-frame prediction :[3]

Les blocs de prdiction sont crs de plusieurs manires diffrentes. Par exemple le forward predicted,backward predicted ou bi-directionnellement (bidirectionnally predicted).ce rduit considrablement la quantit de donnes de diffrence ncessaire lamlioration du degr possible de prdiction. Pour chaque bloc coder, l'encodeur choisit la meilleure mthode pour maximiser la qualit de l'image selon les contraintes du "bit rate". La mthode choisie est ensuite transmise au dcodeur pour reconstituer l'image correctement.

Dans les images caractristiques de programme, les coefficients les plus significatifs de la DCT se trouvent gnralement dans le coin suprieur gauche de la matrice. Aprs pondration, les coefficients de faible valeur seront tronqus zro. On obtiendra une transmission plus efficace si on met dabord tous les coefficients non-nuls et quun code indique ensuite que tous les autres sont zro. La scrutation constitue une technique qui augmente la probabilit dobtenir ce rsultat car elle met les coefficients dans lordre probable damplitude dcroissante.

Codage de lentropie:

Dans une image vido anime, toutes les frquences spatiales ne sont pas prsentes simultanment, la matrice de coefficients de la DCT comportera donc des termes nuls. Malgr la scrutation, des termes nuls apparatront encore au milieu des coefficients non-nuls. Le codage RLC(Run Length Coding) permet de grer plus efficacement ces coefficients. Quand une suite de valeurs identiques, comme des zros, existe, le codage RLC met simplement le nombre de zros plutt que toute la suite de bits nuls.

Un codeur spatial:

La figure suivante regroupe lensemble des concepts de codage prcdemment voqus.

Le signal dentre est suppos tre la norme 4:2:2 srie en 8 ou 10 bits(SDI). Le MPEG nutilise cependant quune rsolution de 8 bits; aussi, un tage de traitement sera ncessaire pour arrondir les valeurs si le signal entrant est 10 bits. Les profils MPEG effectuent un chantillonnage du type 4:2:0; un tage dinterpolation verticale/filtre passe-bas sera alors ncessaire. Larrondi et le sous-chantillonnage couleur introduisent une lgre mais irrversible perte dinformations, mais aussi une rduction du dbit. Le format dentre de la scrutation dcran doit tre tel quil puisse tre converti en blocs de 8x8 pixels. Ltage DCT transforme linformation dimage dans le domaine frquentiel. La DCT neffectue pas de compression par elle-mme. Aprs la DCT, les coefficients sont tronqus et pondrs, ce qui correspond une premire compression. Les coefficients sont ensuite scruts en zigzag pour accrotre la probabilit de commencer par les coefficients les plus significatifs. Aprs le dernier coefficient non-nul, un code de fin de bloc(EOB, End of Block) est gnr. Les donnes affrentes aux coefficients sont ensuite compresses laide de codages RLC et VLC. Dans les systmes dbit variable, la quantification est fixe mais, dans un systme dbit constant, une mmoire tampon est utilise pour absorber les variations intervenant au cours du codage. la suite de la transforme inverse, le bloc de 8x8 pixels est recr. Pour obtenir un signal de sortie dcran balay, les blocs sont stocks dans une RAM qui est lue ligne par ligne. Pour avoir une sortie 4:2:2 partir de donnes 4:2:0, il faudra utiliser une interpolation verticale comme indiqu sur la figure suivante:

Dans un systme 4:2:0, les chantillons de chrominance sont intercals verticalement entre les chantillons de luminance de faon ce quils soient rgulirement espacs quand un systme entrelac est utilis. Images I, P et B(I-Frames, P-Frames, B-Frames): En MPEG-2, trois diffrents types dimages sont ncessaires pour effectuer le codage diffrentiel et le codage bidirectionnel avec un minimum derreurs de propagation: Les images I(I-Frames): Sont intra-codes et ne ncessitent pas dinformations supplmentaires pour tre dcodes. Elles ncessitent beaucoup de donnes comparativement aux autres types dimages et cest pourquoi elles ne sont transmises que lorsque cela est ncessaire. Les images P(P-Frames): Sont celles qui sont dduites dune image antrieure qui peut tre de type I ou P. Les images B(B-Frames): Sont prdites bi-directionnellement partir dimages antrieures ou postrieures et de type I ou P. Les donnes des images de type B consistent en vecteurs dcrivant lendroit o les donnes doivent tre prises dans les images antrieures ou postrieures.

partir de ces frames a t introduit le concept de Groupe dImages (GOP, Group Of Pictures).

Le GOP commence par une image I, suivie de quelques images P espaces et entre lesquelles se placent les images restantes qui sont de type B. La fin du GOP se situe la dernire image prcdant immdiatement une nouvelle image I. La longueur dun GOP est variable, mais la valeur la plus courante se situe entre 12 et 15. En fait, si les donnes dune image B doivent tre utilises pour construire une image ultrieure, ces donnes doivent rester disponibles dans le dcodeur. Par consquent, le codage bidirectionnel implique que les donnes soient extraites de la squence et provisoirement sauvegardes.

La figure ci-dessus montre galement que les donnes de limage P sont mises avant celles de limage B. Notez galement que les dernires images B du GOP ne peuvent tre transmises quaprs la premire image I du GOP suivant, dans la mesure o elles ont besoin de son contenu pour tre dcodes bi-directionnellement. Afin de replacer convenablement les images dans leur ordre, une rfrence temporelle est incluse dans chaque image. Comme des en-ttes sont rgulirement insrs dans le flux de donnes, un fichier MPEG-2 peut tre affich dans lordre chronologique sur un ordinateur, par exemple. Lextraction des donnes dimages dune squence, non seulement ncessite un supplment de mmoire dans le codeur et le dcodeur mais aussi gnre du retard. Le nombre dimages bidirectionnelles insres entre des images dautres types doit tre rduit pour diminuer le cot des quipements et limiter le retard si celui-ci doit rpondre des contingences. Un compromis doit tre fait entre le facteur de compression et le retard de codage.

Pour une qualit donne, lmission dimages I uniquement double pratiquement le dbit par rapport une squence IBBP. Quand les facilits de montage sont essentielles, une squence IB constitue un compromis pratique. Profils et niveaux: laide des outils de codage dfinis dans MPEG-2, il existe des milliers de combinaisons possibles. Dans un but de simplification, le MPEG-2 est divis en Profils, chaque profil tant lui-mme subdivis en Niveaux. Un profil constitue la base la palette des caractristiques dun codage dune certaine complexit. Un niveau est en fait un paramtre dfinissant par exemple la taille de limage ou le dbit du flux de bits. Il existe en principe 24 combinaisons possibles mais toutes nont pas t dfinies.

Un dcodeur MPEG possdant un profil et un niveau donns doit pouvoir dcoder les signaux manant dun profil et dun niveau infrieurs. Le Profil Simple(Simple Profile) ne comporte pas de codage bidirectionnel, cest pourquoi seules les images de type I et P pourront tre gnres par le codeur. Les dlais de codage et de dcodage sont ici rduits et le matriel correspondant est plus simple. Le profil simple na t seulement dfini quau niveau Principal (Simple Profile at Main Level, SP@ML). Le Profil Principal(Main Profile) est conu pour une vaste gamme dutilisations. Le niveau Bas utilise un signal dentre faible rsolution ne possdant que 352 pixels par ligne. La plupart des applications de diffusion ncessite le Profil principal au Niveau Principal (Main Profile at Main Level, MP@ML), appellation du MPEG utilis en tlvision standard. Le niveau Haut-1440 est un systme haute dfinition qui double la dfinition par rapport au niveau principal. Le niveau Haut double non seulement la dfinition horizontale, mais maintient cette rsolution pour le format 16:9 en portant 1920 le nombre dchantillons horizontaux. Dans les systmes de compression utilisant les transformes spatiales et la re-quantification, il est possible de produire des signaux adaptables. Un processus dadaptabilit est celui o le signal dentre rsulte dun signal principal et dun signal complmentaire. Le signal principal

peut tre dcod seul pour donner une image dune certaine qualit mais, si linformation du signal complmentaire est ajoute, un certain aspect de la qualit peut tre amlior. Un codeur MPEG conventionnel peut, en re-quantifiant fortement les coefficients par exemple, coder une image avec un rapport signal/bruit modr. Si cette image est localement dcode et soustraite pixel par pixel de limage originale, le rsultat constituera limage de bruit de quantification. Cette image peut tre compresse et transmise en tant que signal complmentaire. Un dcodeur simple utilisera seulement le flux principal avec son niveau de bruit mais un dcodeur plus labor peut dcoder les deux flux de bits et produire une image moins bruite. Ceci constitue le principe de ladaptabilit SNR. Dautre part, le codage des frquences spatiales les plus basses dune image HDTV (High Definition Television) peut produire un flux principal quun rcepteur ordinaire SDTV (Standard Definition television) peut dcoder. Si limage faible dfinition est dcode localement et soustraite de limage originale, une image damlioration de la dfinition est obtenue. Cette image peut tre code comme signal complmentaire. Un dcodeur adquat sera capable de restituer limage haute dfinition. Ceci constitue le principe de ladaptabilit Spatiale. Le profil Haut est compatible avec les adaptabilits SNR et Spatiale et accepte lchantillonnage 4:2:2. Le profil 4:2:2 a t dvelopp dans le sens dune plus grande compatibilit avec le matriel de production numrique. Ce profil permet lexploitation en 4:2:2 sans exiger la complexit supplmentaire du profil Haut. Un dcodeur HP@ML peut accepter une adaptabilit SNR qui ne constitue pas en soi un impratif de production. Le niveau 4:2:2 a la mme libert de structure de GOP que les autres profils mais, en pratique, il est plus souvent utilis avec des GOPs courts pour faciliter les oprations de montage. Le 4.2.2 ncessite un flux de bits suprieur au 4.2.0 et l'utilisation de GOP impose quand mme un dbit suprieur pour une qualit donne.

Rfrences bibliographiques : Normes de Compression audio-vido : Universit de Paris 5 UFR de Mathmatiques & Informatique Ahmed Mehaoua.

http://pages.videotron.ca/danjean/MPEG-2.html http://www.bbc.co.uk/rd/pubs/papers/paper_14/paper_14.shtml

Vous aimerez peut-être aussi