Vous êtes sur la page 1sur 24

MPEG audio

Trs utilise depuis de nombreuses annes par les professionnels pour la visiophonie ou pour les tlcommunications et la tlphonie, la compression audio a vritablement acquis sa notorit auprs du grand public travers le dveloppement de l'Internet et plus prcisment du format MP3. Les ncessits d'un stockage facile sur les supports mobiles (baladeurs) mais limits en volume, le dveloppement de la musique en ligne et de ses usages... ont naturellement oeuvr dans ce sens. Chaque anne qui s'coule apporte son lot d'amlioration. La transparence avec le qualit CD audio, format non compress et considr comme la rfrence pour beaucoup de mlomanes est atteinte avec les formats compresss pour des dbits de plus en plus faibles. Entre le CD audio qui s'appuie sur un dbit de 1411 kb/s et les derniers
Les supports d'enregistrements sont aujourd'hui numriques. Mais le signal est toujours analogique aux deux extrmits de la chane !

dveloppements de la

norme MPEG HE-

AAC Surround qui avec un dbit de 28 kb/s offre en stro une qualit comparable, il

existe un rapport de 50. Que de progrs raliss en vingt cinq ans1 ! La diminution du volume des fichiers audio (et donc du dbit ncessaire pour leur lecture) a permis galement de multiplier le nombre de canaux audios disponibles. De la reproduction en
1- Le CD audio est n en 1982
MSH Paris Nord - Plate-forme Arts, Sciences, Technologies Les formats MPEG audio Ph. GASSER Dcembre 2006 - 1 /24

strophonie du CD audio, puis ensuite de la diffusion en 5+1 ou en 7+1 canaux offerte par le DVD, on peut maintenant encoder plusieurs dizaines de canaux avec les derniers dveloppements technologiques. Aujourd'hui, une restitution de trs bonne qualit sur cinq canaux est possible avec un dbit global de 48 kb/s seulement. C'est trente fois moins que le CD audio qui n'est, de surcrot, que strophonique ! Ce document fait le point sur les principes gnraux de la compression audio et sur les dveloppements technologiques qui ont t raliss. Il retrace les grandes tapes qui ont abouti l'laboration des diffrentes normes MPEG Audio.

MSH Paris Nord - Plate-forme Arts, Sciences, Technologies Les formats MPEG audio Ph. GASSER Dcembre 2006 - 2 /24

1. La numrisation : chantillonnage et quantification


La numrisation est une opration qui consiste transformer un signal analogique en un signal numrique. Elle se droule en deux temps (voir schma page suivante) :

un dcoupage temporel et rgulier du signal analogique (chantillonnage) La propagation d'un son dans l'air est un phnomne continu et analogique. Le signal audio

numriser ne possde pas de cadence intrinsque dfinie. La premire tape consiste dcouper temporellement le signal analogique en fines tranches : c'est l'opration dite d'chantillonnage. Le choix de la frquence d'chantillonnage est important. Elle s'exprime en hertz et doit tre en rapport avec la frquence maximum que l'on souhaite transmettre et reproduire. Selon le thorme de Shannon et Nyquist, elle doit tre au moins gale au double de la frquence maximum numriser. Si elle est trop faible, des informations seront irrmdiablement perdues. En d'autres termes, cela signifie que pour pouvoir retransmettre intgralement l'tendue du spectre audible (donc jusqu' 20 000 Hz), il faudra une frquence d'chantillonnage au moins gale 40 000 Hz. Si on souhaite une bande passante moins tendue (pour la restitution de la parole par exemple), on pourra opter pour des frquences d'chantillonnage moins leves, ce qui, corollaire immdiat, impliquera des fichiers moins volumineux (et donc des dbits moins levs). Pour les CD audio, la frquence d'chantillonnage est de 44,1 Khz. une valuation de lamplitude de chacun de ces chantillons par rapport des rfrences selon une chelle prcisment tablie (la quantification). Entre une tension de rfrence suprieure la tension max et une tension de rfrence minimum, on tablit une srie de palier gaux en amplitude (dans le cas dune quantification linaire). Chacun des chantillons du signal initial est compar avec cette chelle et est transform en un mot binaire correspondant lamplitude. Il faut bien comprendre que si un signal analogique peut prendre une infinit de valeurs (entre deux extrmes bien entendu), ce n'est pas le cas du signal numrique qui lui correspond et qui va tre compos par un nombre fini de valeurs numriques. Le nombre de paliers possibles N ne dpend que du nombre de bits n utilis par la quantification : il a pour valeur N= 2n. Avec 8 bits, on aura 28 paliers soit 256. Pour un systme 12 bits on aura 2 12 soit 4096 niveaux distincts, pour 16 bits, on obtiendra 65 536 paliers. Plus le nombre de bits utilis pour le codage sera important et plus les paliers seront nombreux et meilleure sera la prcision de la numrisation. A plusieurs valeurs trs proches du signal analogique peut correspondre une seule et

MSH Paris Nord - Plate-forme Arts, Sciences, Technologies Les formats MPEG audio Ph. GASSER Dcembre 2006 - 3 /24

mme valeur numrique, d'o les notions d'erreurs de quantification et de bruit de quantification.. L'erreur de quantification n'est pas corrigeable : le signal audio est irrmdiablement dgrad mais elle est chiffrable : elle reprsente au maximum une unit sur le nombre de quantums (les paliers) ce qui reprsente un taux maximal de 1/256 (0,39%) pour un systme 8 bits. Cette valeur ne dpend pas de la frquence d'chantillonnage mais uniquement du nombre du nombre de bits utiliss pour coder les valeurs numriques. L'erreur de quantification donne naissance un bruit alatoire appel bruit de quantification. Il s'exprime par la formule : S/B en dB = 20 log N (avec N=2 n o n = nombre de bits). Pour un systme 16 bits, ce rapport signal sur bruit prendra la valeur thorique de 96 dB, pour 8 bits il ne sera plus que de 48 dB.

Une fois numris, le flux binaire pourra tre, soit stock, soit transmis sur les rseaux. Le dbit s'exprime par la relation : D = Fe x N (D tant le dbit en bit par seconde, Fe la frquence d'chantillonnage en Hz et N le nombre de bits utiliss pour le codage). Ainsi un codage sur 8 bits avec une frquence d'chantillonnage de 8 Khz correspondra un dbit de 64 Kb/s (8 Ko/s) et une bande passante maximum de 4 Khz environ. Pour un signal en stro, le dbit indiqu sera multiplier par deux. Pour un CD audio, la frquence d'chantillonnage est de 44,1 Khz ( soit un chantillonnage toutes les 23s) sur 16 bits (quantification linaire). Le dbit est donc de 705 Kb/s
MSH Paris Nord - Plate-forme Arts, Sciences, Technologies Les formats MPEG audio Ph. GASSER Dcembre 2006 - 4 /24

par canal soit 1,411 Mb/s pour le signal complet en stro. Une heure de musique sur un CD occupe un volume de 630 Mo. Lorsque la qualit de restitution n'est pas requise, la bande passante ncessaire peut tre plus limite. Pour une utilisation tlphonique par exemple, une frquence d'chantillonnage de 11 Khz avec une quantification sur 8 bits suffira.

Ces principes de numrisation sont mentionns dans la littrature technique sous les acronymes de PCM (Pulse Code Modulation) pour la langue anglaise et MIC (Modulation par impulsions codes) dans les ouvrages en franais.

Frquences d'chantillonnage 48 KHz 44,1 KHz 22 KHz 11 KHz

Nombre de bits 16 bits 16 bits 16 bits 8 bits

Dbit obtenu (pour un canal en mono) 768 Kb/s 705 Kb/s 352 Kb/s 88 Kb/s

Volume des fichiers pour une minute de son en stro 11 Mo 10,6 Mo 5,3 Mo 1,3 Mo

Applications

professionnelles CD Audio Minimum pour l'enseignement des langues vivantes parole

Sur un plan purement informatique, les deux principaux formats de fichiers audios non compresss sont le format WAV dvelopp par Windows et dont l'extension est justement .wav et le format AIFF (Audio Interchange File format) son quivalent chez Apple.

MSH Paris Nord - Plate-forme Arts, Sciences, Technologies Les formats MPEG audio Ph. GASSER Dcembre 2006 - 5 /24

2. La compression
La compression a pour objectif de rduire le volume des donnes (et donc le dbit) tout en conservant au maximum les qualits du signal initial. Le CD audio qui n'utilise pas de dispositif de compression des donnes et est rput comme offrant une trs bonne qualit sonore sera souvent utilis comme rfrence, l'objectif de nombreux codecs tant de tendre vers cette qualit avec des dbits qui soient les plus faibles possibles. On distingue :

les compressions sans pertes

Ce type de compression est non destructif : le signal restitu est exactement identique au signal d'origine. On l'a vu, la numrisation du signal telle qu'elle a t dcrite prcdemment n'introduit aucune perte, si ce n'est les dfauts produits par des caractristiques de numrisation insuffisants. Un exemple de ce type de compression est donn avec la mthode DPCM (Differential Pulse Code Modulation). Par rapport la numrisation de type PCM dcrite prcdemment, au lieu de coder intgralement chacun des chantillons numriques (sur 256 niveaux par exemple avec un chantillonnage sur 8 bits) on ne code que la diffrence entre deux chantillons successifs plutt que le valeur elle mme. Except lorsque les variations de niveaux sont importantes, le codage de la diffrence va ncessiter un nombre de bits beaucoup moins important.

Les compressions destructives :

Le signal restitu aprs compression est diffrent du signal d'origine : il y a des pertes de donnes. L'enjeu de ce type de compression est de parvenir rduire le volume des donnes au maximum (de faon ce que la taille des fichiers soit la plus faible possible) sans que les dfauts introduits ne deviennent (trop) perceptibles. La perception ou la non perception des diffrences par l'oreille dpend du taux de compression adopt et du degr d'entranement de l'auditeur. Lors du choix des paramtres d'une compression, il y a donc un compromis raliser entre la qualit de la restitution d'une part et le volume des donnes numriques d'autre part. La compression audio perceptuelle s'appuie sur les caractristiques de l'oreille humaine. Elle est bien bien plus intressante que la mthode prcdente (ou que bien d'autres) parce qu'elle permet d'atteindre des taux de compression beaucoup plus importants. Son principe consiste ne prendre en compte que les informations pertinentes pour l'oreille humaine, c'est dire liminer (et donc ne pas coder) les informations qui ne peuvent pas tre perues, soit parce qu'elles ne sont pas audibles, c'est dire en dessous du seuil de perception du systme auditif, soit parce qu'elles sont masques par des sons plus forts (masquage psychologique).

MSH Paris Nord - Plate-forme Arts, Sciences, Technologies Les formats MPEG audio Ph. GASSER Dcembre 2006 - 6 /24

L'oreille est un systme non linaire seuillage adaptatif. L'oreille humaine peut percevoir en thorie toutes les frquences comprise entre 20 et 20 000 Hz . Le schma ci-dessous prsente le seuil de sensibilit de l'oreille au-dessous duquel une frquence pure n'est plus audible. Il s'agit d'une courbe moyenne , le seuil d'audibilit variant en fonction des individus, de leur ge.

Seuil d'audition de l'oreille humaine

Cette courbe n'est pas linaire : en fonction de leur frquence, tous les sons ne sont pas perus avec la mme intensit. Entre 1 et 4 Khz, l'acuit sonore de l'oreille est maximale. C'est prcisment la zone correspondant la parole. Les sons les plus graves ou les plus aigus doivent tre mis avec une intensit plus importante que les sons mdiums pour tre perus avec la mme niveau. Une premire tape dans la chane de compression consiste donc liminer tous les signaux dont l'amplitude se situe en dessous du seuil de perception.. Cette courbe correspond une coute dans une ambiance calme. En prsence de sons multiples, le seuil d'audibilit va se modifier en permanence. Le terme de masquage concerne tous les phnomnes qui participent la non perception d'un son par suite de la prsence simultane d'autres sons. On distingue deux types de masquages : le masquage frquentiel et le masquage temporel. On parle de masquage frquentiel lorsqu'un son faible - qui serait parfaitement audible s'il tait mis seul est masqu parce qu'il se trouve accompagn simultanment par un son fort de frquence voisine (son masquant). Ce qui vient d'tre nonc pour un son seul est fortiori valable lorsque plusieurs sons sont simultanment mis. Le seuil de perception voqu prcdemment se modifie donc en fonction des sons masqus et des sons masquants. Il est inutile de coder les signaux qui sont situs en dessous. Cette courbe de masquage (les variations du

MSH Paris Nord - Plate-forme Arts, Sciences, Technologies Les formats MPEG audio Ph. GASSER Dcembre 2006 - 7 /24

seuil d'audition donc) variant chaque instant en fonction du contenu spectral du signal, c'est donc une vritable analyse en temps rel qui doit tre ralise par les circuits de codage.

Les variations du seuil d'audibilit avec le masquage frquentiel : les deux sons S2 et S4 seraient parfaitement audibles s'ils taient mis seuls. En prsence des sons S1 et S3, ils ne sont plus perceptibles.

Le terme de masquage temporel fait rfrence au masquage ralis aprs l'apparition d'un son masquant de forte intensit, mais galement, ce qui peut paratre plus surprenant, au masquage avant la perception de ce son (ceci est du en fait l'inertie de l'oreille). Le terme de temporel indique que le son masquant et le son masqu sont dcals dans le temps par opposition au masquage frquentiel qui ne concerne que des sons simultanment prsents. Le pr-masquage est trs court et ne dure que quelques millisecondes (2 5 ms). Les sons ayant une dure trop courte ne seront pas perus. Le post-masquage est beaucoup plus long (100 200 ms) et dpend des caractristiques du son masquant. Aprs un son fort, l'oreille ne pourra percevoir un son plus faible qu'au terme de ce laps de temps.

Le masquage temporel

MSH Paris Nord - Plate-forme Arts, Sciences, Technologies Les formats MPEG audio Ph. GASSER Dcembre 2006 - 8 /24

Un son fort provoque simultanment un double masquage, un masquage frquentiel et un masquage temporel. (schma Telos)

La prise en compte de tous ces lments a permis la ralisation de solutions logicielles ou hardwares (modles psycho-acoustiques) qui reproduisent les particularits de l'oreille et qui, en analysant en temps rel les signaux sonores, permettent l'limination avant enregistrement de tous les lments inutiles et le codage des seuls sons retenus. Ces dispositifs sont aujourd'hui au coeur de tous les systmes de compression audio.

MSH Paris Nord - Plate-forme Arts, Sciences, Technologies Les formats MPEG audio Ph. GASSER Dcembre 2006 - 9 /24

De la difficult valuer la qualit d'une squence audio Dans la suite de ce document, l'impact qualitatif des nouveaux outils de codage va tre souvent prsent sous la forme d'une comparaison avec des codecs plus anciens ou avec le CD audio en s'appuyant notamment sur la valeur des dbits ncessaires. Les chiffres indiqus sont bien sr approximatifs parce que comparer deux squences audios issues de dispositifs de codage diffrents n'est pas une chose aise. Les paramtres et les quipements de mesure qui taient utiliss jadis pour valuer les performances des quipements analogiques (distorsions, bande passante...) ne sont plus utilisables aujourd'hui du fait de l'intgration dans les codecs de dispositifs de compression qui s'appuient sur les caractristiques psycho-acoustiques de l'oreille humaine et de surcrot dont les modalits de fonctionnement sont variables en temps rel en fonction du contenu mme du signal enregistrer. D'o la ncessit de faire appel des tests d'coute avec des panels d'auditeurs pour juger de la qualit des quipements de codage ou de restitution du son. De tels essais ont l'avantage de prendre en compte l'ensemble des facteurs humains qui interviennent dans l'valuation de la qualit mais pour tre scientifiquement valables et non contestables, ils doivent tre parfaitement dfinis et contrls de faon donner des rsultats fiables et reproductibles (deux essais raliss dans les mmes conditions doivent donner les mmes rsultats). Des procdures de tests ont t normalises au niveau des plus grands organismes internationaux comme l'UER (Union Europenne de Radiodiffusion) et l'ITU-R. (International Telecommunication Union). MUSHRA MUlti Stimulus test with Hidden Reference and Anchors est une mthode de test en double aveugle, stimulus multiples, rfrence et repres cachs. En termes plus clairs, cela signifie que pour raliser ces tests, les auditeurs sont invits couter au rythme et dans l'ordre de leur choix (avec toute la latitude ncessaire pour affiner leur jugement) des squences audio et tablir, par comparaison des unes avec les autres, une notation. Parmi ces squences figurent galement des squences de rfrence, squence de trs bonne qualit (rfrence cache) et squence(s) volontairement trs dgrade(s) par exemple avec des filtres passe bas qui limitent la bande passante quelques Khz (repres cachs) et qui permettront une vrification ultrieure de la cohrence des rponses. Ces diffrentes squences ne sont pas identifies (d'o le terme utilis de test en aveugle) de telle sorte que l'auditeur ne connat pas le statut de la squence audio qu'il est en train d'couter. Le CD audio qui n'utilise pas de dispositif de compression des donnes et est rput comme offrant une trs bonne qualit sonore sera souvent utilis comme lment de rfrence dans les documents prsents pas les industriels. MUSHRA est trs largement utilise aujourd'hui.

MSH Paris Nord - Plate-forme Arts, Sciences, Technologies Les formats MPEG audio Ph. GASSER Dcembre 2006 - 10 /24

3. MPEG-1
Paralllement aux dveloppements raliss par de nombreuses socits, des groupes de travail se sont constitus pour tester et dvelopper ces technologies et pour les normaliser. Le groupe MPEG (Moving Picture Experts Group) est lun dentre eux. Il est issu des deux instances de normalisation que sont l'ISO (International Standards Organisation) et l'IEC (International Electrotechnical Commission). Ce groupe a en charge l'tablissement de standards internationaux pour la vido et l'audio numrique. C'est une uvre de longue haleine puisque les premiers travaux ont commenc la fin des annes 80.

a) Les principes gnraux de MPEG-1


Les particularits perceptuelles de l'oreille voques dans les pages prcdentes ont bien sr t prises en compte dans cette premire norme. Pour raliser l'analyse en temps rel ncessaire ce type de codage, l'espace spectral a t divis en 32 bandes de frquences appeles sous-bandes l'aide de filtres numriques spcifiques. En prsence d'un signal audio numrique, la courbe de masquage est dtermine en temps rel l'intrieur de chaque sous bande partir du modle psycho-acoustique. La quantification est variable en fonction de la pertinence des donnes. Ainsi les signaux situs dans des zones o l'oreille est trs sensible sont affects d'un nombre de bits plus importants que ceux qui sont moins perceptibles. En prsence de sons masquants, le niveau plancher d'audition est relev dans chaque sous-bande. Les informations utiles peuvent donc tre quantifies avec un nombre plus rduit de bits mais ceci a pour incidence ngative de relever galement le bruit de quantification (1 bit de quantification en moins, c'est 6 dB de dtrioration du rapport signal sur bruit). Mme lev, ce bruit ne sera cependant pas audible s'il reste sous la courbe de masquage. Dans chaque sous-bande, le systme va donc grer un quilibre en temps rel entre le niveau de quantification que l'on souhaite le plus faible possible et le bruit qui ne doit pas tre perceptible. Le schma ci-aprs reproduit les diffrents tages d'un encodeur perceptuel suivant les principes dcrits prcdemment. Une dernire tape, le codage entropique, peut tre ajoute. Un codage entropique est un traitement purement informatique qui permet la rduction des redondances dans les suites de donnes numriques. Il n'introduit pas de perte. Le codage Huffman est le plus utilis des codages entropiques et consiste remplacer les suites numriques qui apparaissent souvent par des codes spcifiques courts (et donc avec un nombre de bits peu lev) et celles qui sont plus rarement prsentes par des codes plus longs. Ce systme est identique dans son
MSH Paris Nord - Plate-forme Arts, Sciences, Technologies Les formats MPEG audio Ph. GASSER Dcembre 2006 - 11 /24

principe au code morse qui affecte un simple point pour la lettre E trs courante et deux traits deux points pour la lettre Z dun emploi moins habituel. En terme de compression, lefficacit de cette seule opration est relativement modeste, mais elle s'ajoute aux autres tapes du dispositif.

Schma d'un encodeur perceptuel.

b) Les layers :
Dans MPEG-1 audio, trois niveaux diffrents (les layers) ont t dfinis. Ils ont en commun un certain nombre de caractristiques (les frquences d'chantillonnage utilises : 32 ; 44,1 et 48 Khz, la structure de base, le mode de traitement des donnes) mais ils se distinguent essentiellement par la complexit des encodeurs, donc par la plage du dbit numrique correspondant un niveau de qualit donn. Les 3 types de codecs sont compatibles sur le plan hirarchique : un dcodeur de niveau 3 dcodera les layers 1, 2 ou 3 mais un dcodeur prvu pour le layer 2 n'acceptera de dcoder que les layers 1 et 2. La complexit des codecs et les performances croissent avec chacun des layers : pour un dbit donn, la qualit de la restitution sera meilleure avec un layer 3 qu'avec un layer 1 mais le codeur du layer 3 sera plus complexe.

Le layer 1 :

C'est le systme le plus simple. Les dbits utilisables sont compris entre 32 kb/s et 448 Kb/s. Bien que dpendant de l'encodage, la qualit CD est obtenue avec un dbit de 384 kb/s environ pour un programme stro.

Le layer 2 :

Parfois mentionn dans la littrature un peu ancienne sous le nom de Musicam (Masking Pattern adapted Universal Subband Coding And Multiplexing) par rfrence l'algorithme dvelopp par le CCETT, Philips et IRT... qui a servi de base la cration de ce point de la norme. Les dbits sont compris entre 32 et 384 kb/s ce qui correspond des taux de compression plus importants que pour le layer 1 et donc une complexit accrue au niveau des quipements (2 4 fois plus importante
MSH Paris Nord - Plate-forme Arts, Sciences, Technologies Les formats MPEG audio Ph. GASSER Dcembre 2006 - 12 /24

pour l'encodage, 25% pour le dcodeur). La qualit CD est obtenue avec un dbit de 256 kb/s pour un programme stro. Ce layer est trs utilis pour la tlvision numrique (DVB). Il a galement t intgr dans les normes du DVD, mais il n'a gure t utilis dans les faits.

Le layer 3

Il permet des taux de compression encore plus importants. Les dbits sont compris entre 32 et 320 kb/s. Il est adapt aux plus faibles dbits grce la plus grande complexit de son codeur (avec notamment, outre la division en 32 sous-bandes principales, une subdivision supplmentaire pour chacune d'entre-elles en 18 sous-bandes soit au total 576) qui permet des plus grandes performances. La qualit CD est obtenue pour 192 kb/s environ. C'est trs certainement le format le plus connu dans le monde entier sous son nom de scne MP3, qui se rapporte l'expression MPEG layer 3 et non pas l'acronyme MPEG-3 comme on peut parfois le croire par erreur2. Trs utilis sur Internet, il offre 128 kb/s une rduction du volume des fichiers de 10 12 fois par rapport au classique CD audio.

Complexit du codeur

Plage de dbits

Caractristiques Filtrage numrique pour les 32 sous-bandes3 Quantification uniforme Utilisation du seuil de masquage frquentiel uniquement

Level 1

basse

32 448 Kb/s

Level 2

moyenne

32 384 kb/s.

Filtrage numrique pour les 32 sous-bandes Quantification uniforme Seuils de masquage frquentiel et temporel

Level 3

leve

32 320 kb/s

Filtrage numrique + opration mathmatique MDCT Quantification adaptative Masquage frquentiel et temporel Codage Huffman

Avec MPEG-1, la restitution audio est limite deux canaux. Quatre modes ont t dfini : mono, double mono (deux canaux indpendants), stro et joint stro (qui exploite les redondances entre les deux canaux, permettant de ce fait de rduire les dbits).

2- La norme MPEG-3 tait initialement prvue dans la continuation de MPEG-1 et MPEG-2. Elle avait pour objet la vido numrique en haute dfinition. Ces fonctionnalits ont t intgres dans MPEG-2 et de ce fait MPEG-3 ne verra jamais le jour. 3- La division en sous-bande est ralisable par l'utilisation d'une banque de filtres numriques ou en s'appuyant sur une transformation mathmatique, la MDCT (Modified Discrete Cosine Transform). Les layers 1 et 2 utilisent ces banques de filtres. Le layer 3 a une forme hybride et s'appuie successivement sur les deux procds (filters banks pour la premire division, MDCT pour la seconde division par 18).
MSH Paris Nord - Plate-forme Arts, Sciences, Technologies Les formats MPEG audio Ph. GASSER Dcembre 2006 - 13 /24

4. MPEG-2 audio :
MPEG-2 a t finalis en 1994. Elle apporte MPEG-1 des fonctionnalits supplmentaires :

une extension vers les bas dbits avec des frquences d'chantillonnage de 16 - 22,05 et 24 Khz et des dbits plus faibles qui peuvent descendre jusqu' 8 kb/s. la prise en compte de canaux supplmentaires pour les applications multicanaux. Avec MPEG-2, on passe de la restitution strophonique qui tait de mise avec le CD audio des dispositifs de reproduction surround comprenant jusqu' 5 ou 7 canaux audios en pleine bande. On y associe gnralement un canal supplmentaire destin la seule reproduction des sons les plus graves (LFE pour Low Frequency Effect). Ces dispositifs sont souvent mentionns dans la littrature sous l'appellation 5.1 ou 7.1, le chiffre 1 faisant rfrence ce canal LFE. MPEG-2 audio est une extension de MPEG-1 audio avec qui il reste compatible, d'o la

dnomination de MPEG-2 BC (pour Backward Compatible) qui est parfois employe. Un dcodeur MPEG-1 dcodera la partie stro de MPEG-2 et ignorera les donnes relatives l'extension multicanal. MPEG-2 audio n'apporte pas d'amlioration par rapport MPEG-1 au niveau de la qualit de la restitution. L'volution qualitative sera obtenue avec les versions suivantes de MPEG. A noter galement une dclinaison qui n'a pas t normalise et qui a t dveloppe par l'organisme de recherche Fraunhofer IIS. Baptise officieusement MPEG-2.5, elle permettait des frquences d'chantillonnage encore plus basses (8 12 Khz) pour des dbits compris entre 16 et 32 Kb/s.

5. MPEG AAC (Advanced Audio Coding)


Sous cet acronyme se cache une nouvelle srie d'innovations qui est d'abord apparue dans la continuation des normes MPEG-2 audio avant d'tre galement intgre et standardise dans MPEG-4. La premire volution AAC de MPEG-2 a t standardise en 1997. Si elle prsente l'inconvnient de ne pas tre rtro-compatible (NBC ou Non Backward Compatible) avec les normes prcdentes (un dcodeur MPEG-1 ne pourra pas dcoder un flux MPEG-2 AAC), elle
MSH Paris Nord - Plate-forme Arts, Sciences, Technologies Les formats MPEG audio Ph. GASSER Dcembre 2006 - 14 /24

apporte en contre-partie des nouvelles fonctionnalits dans deux directions :

la restitution multicanaux :

Cela tait dj possible avec MPEG-2 BC, mais cette nouvelle version en augmente de faon considrable les possibilits. Jusqu' 48 canaux en pleine rsolution sont possibles, 16 canaux en basse frquence, 16 flux de donnes... avec des frquences d'chantillonnage qui peuvent tre comprises entre 8 et 96 Khz. Les dbits pourront tre aussi bas que 8 Kb/s pour l'enregistrement monophonique de la parole et atteindre 160 kb/s par canal pour des codages de haute qualit. des performances accrues

Par rapport aux versions prcdentes, MPEG-2 AAC offre des performances accrues grce l'amlioration de l'efficacit de son codage (il s 'appuie notamment sur un jeu de 1024 filtres au lieu de 576 pour le MPEG1/2 layer 3) et par l'introduction de nouveaux outils (meilleur codage entropique, amlioration du codage stro, backward prediction , implmentation du TNS ou Temporal Noise Shaping pour le traitement du bruit et l'amlioration de la restitution de la parole aux bas dbits...). Le gain qualitatif est significatif et approche 30% par rapport au MP3. En stro, MPEG-2 AAC offre 96 Kb/s une qualit quivalente celle d'un signal MP3 128 Kb/s. Avec MPEG-2 layer 2, la comparaison s'tablit pour un dbit deux fois plus lev (192 kb/s). Pour une reproduction surround en 5.1, la transparence avec le CD audio est obtenue pour 384 kb/s. La version standard de AAC comporte 3 profiles (les profils) qui implmentent plus ou moins les nouveaux outils proposs et qui correspondent donc des niveaux de complexit diffrents : Main Profile (le plus complet), Low Complexity Profile (LC), le plus rpandu et Scalable Sampling Rate Profile (SSR) qui autorise un codage hirarchique (voir encadr). MPEG-4 AAC a t introduit en 1999. Il intgre certaines caractristiques de MPEG-2 AAC en y ajoutant des fonctionnalits et des outils supplmentaires
Le codage hirarchique : Trs utilis dans les normes MPEG, le terme de scabality dsigne la possibilit de transmettre dans un mme flux numrique tous les lments correspondant diffrents niveaux de qualit qui pourront tre exploits diffremment en fonction des conditions de transmission (variations instantanes, type de rseau...) ou du type de terminal utilis par lusager. Concrtement, cela consiste inclure dans un mme flux audio des donnes de base (base layer) utilisables dans tous les cas de figure et des donnes supplmentaires (enhancement layers) qui apporteront l'amlioration souhaite si les conditions le permettent.

notamment le PNS (Perceptual Noise Substitution) destin amliorer la qualit aux dbits intermdiaires (32 kb/s) ou bien le Long Term Prediction (LTP), un outil pour la prdiction qui ncessite moins de puissance de calcul que pour qualitatif comparable.
MSH Paris Nord - Plate-forme Arts, Sciences, Technologies Les formats MPEG audio Ph. GASSER Dcembre 2006 - 15 /24

MPEG-2 AAC, tout en offrant un rsultat

MPEG-4 se caractrisait lors des premiers travaux de normalisation par son approche objet avec toutes les formes d'interactivit attenantes que l'on pouvait imaginer4. Comme pour la vido o le contenu d'une image pouvait tre dcompos en une srie d'objets indpendants que l'on pourrait manipuler et coder sparment les uns des autres, il avait t prvu une approche similaire pour l'audio. Ceci offrait les avantages suivants : une adaptation du codage utilis en fonction de la nature mme de chacune des composantes sons (parole, musique, bruitages, sons synthtiques...), la mise en oeuvre de traitements spcifiques (effets, spatialisation, positionnement des sons dans l'espace)... Cette approche originelle a depuis t mise en stand by au profit de toutes les amliorations portant sur l'aspect qualitatif et sur la rduction des dbits. Aujourd'hui, le codage MPEG-4 AAC permet la restitution d'un signal stro avec un dbit compris entre 96 et 128 kb/s pour une qualit sensiblement comparable avec celle du CD audio. Une restitution surround en 5.1 pourra tre obtenue avec un dbit de 256 Kb/s. Deux amliorations majeures seront successivement apportes et normalises.
Des outils complmentaires : Des outils audio spcifiques regroupant diffrents algorithmes de compression ont t galement normaliss au sein de MPEG- 4 paralllement aux grandes orientations dcrites dans ces textes. Il en est ainsi de MPEG-4 AAC-LD (low delay) qui convient pour les communications interactives (visioconfrence, l'algorithme tlphonie sur IP...), de TWIN-VQ 16 (Transform du Weighted

Interleave-Vector Quantizition) qui offre de bonnes performances Kb/s, codeur HVXC (Harmonic Vector eXcitation Coding) qui convient pour le codage de la parole bas dbit...

6. MPEG-4 HE-AAC
SBR (Spectral Band Replication ce qui en franais signifie reconstruction de bande spectrale ) est une technologie mise au point par la socit Coding Technologies. Applique en complment de dispositifs de codage perceptuel comme AAC, elle permet d'augmenter l'efficacit du traitement de 30 % par rapport au codage AAC seul. Pour une restitution surround en 5.1, elle permet d'obtenir une trs bonne qualit avec un dbit de 160 Kb/s. Sur un plan normatif, cette association a notamment donne naissance un standard, le HE-AAC (High Efficiency AAC). N sous l'appellation aacPlus dans les laboratoires de la socit Coding Technologies et normalis en 2003 par le groupe MPEG, il est le fruit de l'union de la norme AAC-LC et du SBR. A

HE-AAC = AAC + SBR MP3 Pro = MP3 + SBR

noter galement que le MP3 Pro est le rsultat de la runion du MP3 et du SBR.
4 MPEG-4 a fait l'objet d'une note technique dtaille sur ce mme site, l'adresse http://plate-formeast.mshparisnord.org/Le-MPEG-4.
MSH Paris Nord - Plate-forme Arts, Sciences, Technologies Les formats MPEG audio Ph. GASSER Dcembre 2006 - 16 /24

Le principe s'appuie sur la forte corrlation qui existe dans un signal audio entre les basses et les hautes frquences, et sur l'ide qu'il n'est donc pas utile de retransmettre ces dernires en totalit mais simplement de permettre leur reconstruction ultrieure partir des donnes issues de la bande basse et de donnes complmentaires faible dbit qui ont t pralablement produites lors de l'encodage. Un codeur complet va donc comporter deux tages : un codeur SBR et un codeur AAC charg du codage des basses frquences (voir schma cidessous). partir du signal complet, et en s'appuyant sur cette corrlation entre hautes et basses frquences, le codeur SBR va sparer les deux gammes de frquences et gnrer un flux permettant une description des frquences les plus hautes. Le rle du codeur AAC se limite la compression des frquences les plus basses (le traitement des frquences
Principe de la technologie SBR

les plus leves tant inutile - elles seront de toute faon reconstruites sur le terminal final par les circuits SBR - elles sont supprimes par filtrage). Les circuits de traitement SBR sont prsents aux deux extrmits de la chane, ct encodage et ct lecture.

Encodage et dcodage d'un flux HE AAC MSH Paris Nord - Plate-forme Arts, Sciences, Technologies Les formats MPEG audio Ph. GASSER Dcembre 2006 - 17 /24

Le flux final issu de l'encodeur intgre donc deux sries de donnes : celles qui concernent le codeur AAC (c'est un flux AAC normal , il pourra tre exploit indpendamment par tout dcodeur de ce type, avec une bande passante tronque des frquences les plus aigus cependant) et les donnes auxiliaires SBR. Ces dernires sont faible dbit comparativement au dbit total ncessaire. Ainsi par exemple, un signal stro complet au format HE AAC avec un dbit de 48 Kb/s pourra tre compos par un flux principal avec un dbit de 42 Kb/s et par un flux annexe avec un dbit d'environ 3 kb/s par canal (soit 6 Kb/s au total). D'aprs l'tude de janvier 2006 publie par l'EBU, la frquence de coupure entre la bande basse et la bande haute qui est adopte dpend des dbits utiliss (ici entre 20 kb/s et 48 Kb/s) mais est situe entre 4500 Hz et 8300 Hz pour une bande passante totale originelle (et restitue) qui se situe aux environs 16 Khz. En termes de volume ou de dbit, le gain de ce systme est positif : les donnes auxiliaires n'occupent qu'un faible volume, les frquences les plus hautes ne sont pas encodes par le codeur, ce qui, permet, dbit gal, d'obtenir une meilleure efficacit qu'avec un systme AAC simple. Avec un signal audio stro, cod en MPEG-4 HE AAC, la qualit CD audio sera obtenue pour un dbit de 48 Kb/s environ. La technologie SBR fonctionne galement avec les dispositifs multicanaux : en surround 5.1, une restitution de bonne qualit peut tre obtenue pour 128 Kb/s.

7. MPEG-4 HE-AAC v2
La technologie PS (Parametric Stereo) est galement issue des laboratoires de la socit Coding Technologies. Cette amlioration est plus rcente et vient en complment au dispositif SBR dcrit prcdemment. L'intgration conjointe du SBR et du PS au sein des codecs AAC de cette socit a donn naissance la famille de codecs aacPlus v2. L'ensemble a t normalise au niveau du groupe MPEG sous la dnomination HE AAC v2 (v2 indiquant qu'il s'agit de la version 2 de la norme HE AAC par opposition la version v1 qui correspond aux codecs AAC qui n'intgrent que le SBR). Dans le mme esprit que la technologie SBR qui cre deux flux distincts (un flux principal et un flux annexe faible dbit) pour pouvoir ensuite reconstituer un signal complet, la technologie de codage PS consiste dcrire et coder le signal strophonique comme tant un signal monophonique auquel il suffit d'ajouter quelques donnes complmentaires contenant les informations spcifiques l'effet strophonique. Ces paramtres spatiaux permettront ultrieurement la reconstruction du signal strophonique avec la meilleure qualit possible en s'appuyant sur le signal monophonique qui aura t galement transmis. Ces paramtres s'appuient

MSH Paris Nord - Plate-forme Arts, Sciences, Technologies Les formats MPEG audio Ph. GASSER Dcembre 2006 - 18 /24

sur des principes psycho-acoustiques : les diffrences d'intensits ou de de phase, l'cart temporel, la cohrence... entre les sons qui parviennent l'oreille droite et l'oreille gauche sont autant d'lments qui participent la localisation d'un son dans l'espace. Lord Rayleigh dmontrait ds 1907 que c'tait la diffrence d'intensit qui intervenait pour la localisation des frquences les plus aigus, alors que la localisation des frquences les plus basses reposait sur l'cart temporel entre les signaux. Au niveau du codeur, deux oprations spares mais simultanes sont ralises. En premier lieu, la construction du signal monophonique partir des deux composantes stro et son encodage. C'est un traitement tout fait conventionnel qui est ralis ce niveau (par exemple AAC). En second lieu, la production et l'encodage du flux complmentaire faible dbit contenant la description de l'effet stro. En sortie de codeur, les deux flux sont recombins en un flux unique.

Schma synoptique d'un encodeur PS

Au niveau du dcodeur, les oprations inverses sont ralises, d'abord, le dcodage du signal monophonique, puis la reconstruction du signal strophonique complet en utilisant les donnes complmentaires. Par principe, un signal stro occupe un volume approximativement double de celui d'un signal monophonique (pris dans les mmes configurations de numrisation videmment). Le fait de ne coder qu'un signal monophonique augmente du faible volume des donnes complmentaires (leur dbit n'est que de quelques Kb/s, gnralement 2 3 Kb/s, soit 10 fois moins que le dbit ncessaire pour l'encodage d'un canal audio monophonique) permet une substantielle conomie par rapport aux technologies conventionnelles de codage strophonique. Des tests comparatifs avec des panels d'auditeurs ont t conduits par diffrents organismes, l'EBU ou par le groupe MPEG, afin de vrifier le niveau qualitatif de ces nouveaux codecs. Ils ont dmontr l'efficacit de cette technologie. Avec un signal stro 24 Kb/s, la combinaison de AAC + SBR + PS (HE-AAC v2) offre une qualit quivalente celle qui tait obtenue 32 Kb/s avec l'association AAC + SBR uniquement (HE-AAC). Cette nouvelle technologie est optimise pour une gamme de dbits compris entre 16 et 40 Kb/s. Son efficacit
MSH Paris Nord - Plate-forme Arts, Sciences, Technologies Les formats MPEG audio Ph. GASSER Dcembre 2006 - 19 /24

atteint son maximum pour les dbits aussi bas que 16 Kb/s. A un dbit de 48 Kb/s, la technologie PS n'apporte plus aucune amlioration : il n'y a alors aucune diffrence qualitative entre un signal cod en AAC+SBR et un signal cod en AAC+SBR+PS. L'apport conjoint de ces deux technologies par rapport l'AAC seul n'est plus perceptible partir de 100 kb/s.
Performances compares des technologies HE-AAC v1, HE-AAC v2 et AAC (tests raliss et publis pour l'EBU par S.Meltzer et G.Moser dans un article intitul MPEG-4 HE-AAC audio coding for today's digital media world . Cet article est disponible l'adresse : http://www.ebu.ch/en/technical/trev/trev_305-moser.pdf

8. MPEG-4 HE-AAC surround

Jusqu'au dbut des annes 2000, deux grands procds de codage multicanaux existaient. Le premier, le plus ancien car destin dans les annes 80 permettre l'enregistrement en analogique de quatre canaux sur des quipements qui n'taient encore que strophoniques, a t mis l'honneur notamment avec le systme Dolby Prologic. C'est un procd de matricage (matrix surround dans la littrature anglaise) qui consiste introduire deux signaux supplmentaires (un canal avant central et un canal arrire) dans un signal strophonique qui reste par ailleurs totalement compatible avec les quipements uniquement strophoniques. Du fait de l'imbrication des signaux les uns dans les autres, la qualit de la restitution ne peut pas tre parfaite. Le second repose sur un traitement totalement spar des diffrents canaux (d'o le terme de discret qui est parfois employ, discrete surround en anglais, et qui signifie littralement spar, distinct). Du fait de cette sparation, il n'existe aucune inter-action entre les diffrents canaux, la qualit de la restitution peut tre trs bonne mais les dbits sont levs du fait du codage spar des canaux. Il n'y a pas de compatibilit avec les quipements strophoniques. Ce procd est au coeur du Dolby Digital, du format DTS et de MPEG AAC dcrit prcdemment.
Matrixed Surround Discrete Surround Dolby Prologic2, Logic 7, Circle Surround... Dolby Digital, DTS, MPEG AAC, PCM... Le systme le plus ancien Rtro compatible avec les quipements stro et mono Limitation au niveau de la qualit de la restitution sonore Bonne qualit mais dbits levs Non rtro compatible avec les quipements stro et mono

MSH Paris Nord - Plate-forme Arts, Sciences, Technologies Les formats MPEG audio Ph. GASSER Dcembre 2006 - 20 /24

Un nouveau chantier a vu le jour. Par rapport ces deux familles de systmes, l'ide de base fut de crer un nouveau format qui en reprendrait les caractristiques les plus positives, c'est dire qui assurerait, d'une part, une restitution sonore de qualit mais avec des dbits qui devraient tre les moins levs possibles, et d'autre part, qui maintiendrait la compatibilit avec les quipements strophoniques. C'est l'un des derniers principaux chantiers du groupe MPEG. Quatre socits principalement (Fraunhofer IIS, Agere Systems, Coding Technologies et Philips) ont contribu l'laboration de cette nouvelle norme que l'on retrouvera sous le nom de HE AAC Surround ou de MPEG Surround. Les spcifications ont t finalises tout rcemment, en juillet 2006. Cette nouvelle volution n'est pas limite aux technologies MPEG, mais elle peut tre galement implmente tout autre type de codec, par exemple avec le format MP3 ce qui a donn naissance au MP3 Surround.

Encodeur Surround (ici pour 5 canaux en association avec un encodeur HE-AAC)

La nouvelle mthode de codage (Spatial Audio Coding) s'apparente dans sa philosophie aux processus dcrits prcdemment pour les technologies SBR et PS, savoir la cration de deux flux distincts, un flux principal et un flux annexe faible dbit, qui permettent ensuite la reconstitution de la totalit des informations au niveau du terminal de l'usager. Dans le cas prsent, le flux principal est un downmix stro ou mono cr partir des 5+1 canaux initiaux. Le flux additionnel est faible dbit et intgre l'ensemble des paramtres spcifiques ncessaires la reconstruction de l'image spatiale. MPEG Surround reprend en fait les principes adopts dans la technologie PS (dont l'objet tait la restitution strophonique partir d'un flux principal qui tait monophonique) mais en l'adaptant pour une restitution en multicanaux (avec un flux principal qui est cette fois strophonique). Comme elle, la technologie MPEG Surround exploite les diffrences de niveaux, de phase et la cohrence qui existent entre les diffrents canaux.

MSH Paris Nord - Plate-forme Arts, Sciences, Technologies Les formats MPEG audio Ph. GASSER Dcembre 2006 - 21 /24

Les technologies de codage surround reposent sur l'analyse des diffrences temporelles, de niveaux et sur la cohrence qui existe entre les diffrents sons qui atteignent nos deux oreilles. Ici, entre le son direct qui parvient l'oreille gauche et le son qui parvient l'oreille droite il existe des diffrences temporelles (dues la diffrence de distance entre la source et chacune des deux oreilles) et des diffrences de niveaux (dues la diffraction qui est cre par l'obstacle de la tte). La cohrence avec les sons rflchis par le milieu ambiant est galement prise en compte.

Le dbit de ce flux additionnel pourra tre compris entre 3 et 32 Kb/s pour un nombre de canaux qui n'est pas non plus limit au 5.1 mais qui peut s'adapter diffrentes configurations : 2.0 - 5.1 - 7.2 - 22.2 ... En termes de dbits, par comparaison avec un flux HE AAC strophonique 48 Kb/s, le surcot d au flux additionnel pour obtenir la mme qualit en surround n'est que de 16 Kb/s, ce qui aboutit un dbit total de 64 Kb/s. Outre l'efficacit du codage, l'un des attraits de cette norme est sa rtro-compatibilit avec les quipements strophoniques (ou monophoniques). Cette technologie peut tre une solution pour up-grader les infrastructures de diffusion de contenus qui existent (radios sur internet, streaming, tlchargement...) tout en continuant d'assurer la compatibilit avec les quipements de rception existants. Au niveau de la rception, deux cas de figure sont possibles :

les rcepteurs les plus basiques n'intgrant pas de dcodeur spatial n'utiliseront que le flux principal pour assurer une reproduction sonore qui ne sera alors ralise que sur deux canaux (ou sur un canal, si monophonique). Cela sera le cas pour un dcodeur MPEG-4 AAC face un flux HE-AAC surround, ou pour un rcepteur MP3 avec un fichier MP3 Surround. les rcepteurs plus rcents et intgrant un dcodeur Surround s'appuieront sur les deux flux pour raliser la reconstruction de la totalit des canaux audios.

MSH Paris Nord - Plate-forme Arts, Sciences, Technologies Les formats MPEG audio Ph. GASSER Dcembre 2006 - 22 /24

La restitution sera surround (schma du haut) ou seulement stro (synoptique du bas) en fonction du modle de dcodeur

En terme d'efficacit, des tests d'coute ont permis de dmontrer la meilleure efficacit de ce nouveau standard par rapport aux autres formats surround : 48 Kb/s, dbit permettant aujourd'hui une reproduction d'excellente qualit en 5.1, le gain est de 70% par comparaison avec le format MPEG-4 HE AAC et de plus de 80 % par comparaison avec le Dolby Digital (AC-3). Par rapport au CD audio, la transparence est obtenue avec un dbit de seulement 64 kb/s pour une restitution en 5.1, ce qui n'tait mme pas imaginable il y a seulement encore quelques annes.

Les volutions successives des techonogies AAC

MSH Paris Nord - Plate-forme Arts, Sciences, Technologies Les formats MPEG audio Ph. GASSER Dcembre 2006 - 23 /24

Conclusion : une division par 5 ?


A l'chelle du numrique, MPEG audio est dj une longue histoire et qui pourtant nous parat si proche. Le MP3 c'tait hier mais c'est encore aujourd'hui avec les milliers de baladeurs qui sont vendus quotidiennement de par le monde. MPEG audio, c'est galement une suite de progrs ininterrompus qui ont men depuis l'avnement du MP3, et qualit gale, une division par 5 des dbits ncessaires. Le schma ci-dessous prsent lors d'un l'IBC par la socit Streamcrest est sur ce point significatif.

MSH Paris Nord - Plate-forme Arts, Sciences, Technologies Les formats MPEG audio Ph. GASSER Dcembre 2006 - 24 /24