Vous êtes sur la page 1sur 24

Mmoire de fin d'tude :

La compression

Serge Radermecker 2006-2008

INDEX
../" Introduction ................................................................ 1

1) La compression d'un fichier audio ........................... 1


1.1 La compression sans perte de donnes ............................ l

1. 1. 1 Conversion en X, Y.................................... 2 1. 1.2 Prdicteur................................................ 2 1.1.3 Encodage data 1 Rice coding .. ..... .. ........... 4 1. 1.4 Exemples de codees lossless ....................... 6 1.1.5 Tableau de comparaison des codees lossless 8
1.2 La compression avec perte de donnes ........................... 9

1.2. 1 La compression avec perte par prdiction .... 9 1.2.2 La compression avec perte par transformation 1.2.3 Compression fractale ................................. 11 1.2.4 Exemples de codees lassy ........................... 12 1.2.5 Algorithmes psycho-acoustiques ........... .. .......... 12 10

Introduction:

Il existe deux types de compression audio. La compression d'un fichier audio avec pour but d'en rduire sa taille, et la compression du signal audio qui sert rduire la dynamique. Nous allons approfondir La compression d' un fichier audio avec pour but d'en rduire sa taille

La compression d'un fichier audio


La rduction de taille est dpendante de la source: plus le signal est constitu d'ondes rgulires (sons naturels), meilleure est la compression. Par contre, un signal alatoire (bruit) ne se compresse pas trs bien. Ce phnomne se constate pour tous les formats de compression sans perte. Nous pouvons distinguer la compression audio en deux catgories : La compression sans perte de donnes (Lossless) La compression avec perte de donnes (Lossy)

1.1 La compression sans perte de donnes


Une compression, audio, vido ou autre, est sans perte quand il est possible d'obtenir les donnes originales partir des donnes compresses. Le terme sans perte signifie non destructrice et vient de l'expression anglaise lossless. Un son est simplement une vague, et l'audio digitale n'est que la reprsentation digitale de cette vague. Ceci est ralis en chantillonnant. Actuellement le taux standard de frquence d'chantillonnage pour un CD est de 44100 samples la seconde pour 16Bits de dynamique. Vu que la plupart des fichiers audio sont en stro nous avons donc 88200 chantillons la seconde chacun repris sous 16Bits. Le calcul final est de 44100 x 2 x 16= 1.411.200Bits ou 176.400Bytes. Un fichier WA V est fondamentalement une en-tte suivi d'une sri deR, L, R, L.

La compression simplifi en trois tapes :

1.1.1 Conversion en X, Y:
La premire tape dans la compression sans perte est de rendre plus efficiente la modlisation de L et R en la transformant en valeurs X et Y. Souvent il y une forte corrlation entre le canal gauche et droit, et ceci peut tre exploiter en diffrentes faons. La plus souvent on retrouve le codage mi/latrale. Dans ce cas on utilise la valeur X pour exprimer le centre et la valeur Y pour exprimer un cot. Le centre (X) reprsente l'information centrale du canal gauche et droit quand la valeur (Y) reprsentera la diffrence qu'il y entre les canaux. De cette faon on peut archiver : X = (L + R) 12 Y= (L- R)

1. 1.2 Prdicteur :
Maintenant on fait passer les donnes X et Y dans un prdicteur pour en retirer toute redondance possible. Le but fondamental de cette tape est d ' aligner les valeurs X et Y reprsentant les plus petites valeurs possible tout en gardent la possibilit de reconstruire entirement le fichier en dcompressant. C' est dans cette tape qu ' on remarque les plus grosses diffrences entre les diffrentes manires de compresser. Les possibilits sont indfinies. Voici un exemple faisant appel l'algbre linaire: PX et PY sont les X et Y prdit X-1 remplace l'ancienne valeur X X-2 est 1'avant-dernire valeur de X Z est la valeur prdire PX = (2 PY = (2

* X-l) - X-2

* Y-1)- Y-2

Exemple: X = (2, 8, 24, Z)


,(}

PX= (2 * X-1)- X-2


,(}

PX = (2 * 24) - 8 = 40 En suite ces valeurs prdites seront compares avec la valeur actuelle. La diffrence (erreur de prdiction) sera envoye dans 1'tape suivante de 1' encodage. La plupart des bons prdicteurs sont adaptif, ainsi ils savent ajuster le degr de prdiction selon le data. Utilisons un facteur 'rn' dont les valeurs se situe entre 0 et 1024 avec 0 =pas de prdiction possible et 1024 =totale prdiction. Apres chaque prdiction la valeur 'rn' est ajust selon 1' efficacit ou non de la prdiction. Regardons ce qui reste de la prdiction prcdant : X = (2, 8, 24, Z)
,(}

PX = (2 * 24) - 8 = 40 Si Z = 45 et rn= 512 Alors [Valeur finale]= Z- (PX* rn 1 1024)


,(}

[Valeur finale]= 45- (40 *rn 1 1024)


,(}

[Valeur finale]= 45- (40 * 5121 1024)


,(}

[Valeur finale] = 45 - 20 = 25 Aprs ce rsultat la valeur 'm' sera augmenter parce que un 'rn' plus lev aurait t plus efficace. Le fait d'utiliser diffrentes quations de prdiction et plusieurs passes travers le prdicteur peut influencer considrablement le niveau de compression.

1.1. 3 Encodage data 1 Rice coding :


Le but de la compression audio est de rendre les valeurs (chiffres) le plus petit possible en retirant toute corrlation qui peut exister entre eux. Une fois que cette manipulation est archive il faut inscrire le rsultat sur un support. Une des faons les plus efficace d'inscrire est le ri ce coding. L'avantage d'inscrire des valeurs (chiffres) plus petites est que cela diminue le nombre de bit utilis pour reprsenter ces valeurs. Par exemple disons que nous voulons inscrire cet alignement de valeurs (en 32 bits): Base 10: 10, 14, 15,46 Ou en binaire Base 2: 1010, 1110, 1111, 101110 Maintenant il est clair, que si nous voulons reprsenter ces valeurs l'aide du plus petit nombre de bits, qu'il est tout fait inefficace de les reprsenter chacun par une longueur de 32 bits. Ceci prendrais 128 bits et en regardent simplement ces mms valeurs reprsente en base 2 il est clair qu'il doit y avoir un meilleur moyen. La faon idale serait de rassembler les valeurs spares par la virgule et les inscrire ainsi en utilisant le moins de bits ncessaire. Les valeurs 1010, 1110, 1111 , 101110 deviendrait 10101110111110111 0 sans les virgules. Du coup le problme n'est plus la taille mais bien le fait qu'on ne sait plus o commence ou termine chaque groupe binaire. C'est ici que le Rice coding intervient. Le Ri ce coding est une faon d'utiliser un minimum de bits pour reprsenter les petites valeurs (chiffres) tout en tant encore capable de distinguer un montant d'un autre. En gros cela fonctionne de la manire suivante : Essayons d'encoder la quatrime valeur de notre srie : 10, 1, 15 ,46 46 = 101110 a) Deviner du mieux possible combien de bits une valeur prendra, qu'on appellera (k): Vu que les trois nombres prcdents ont pris 4 bits il est raisonnable de penser que les nombres suivants continuerons dans cette ligne. On prendra donc k=4

b) Nous prenons en suite les 4 derniers chiffres se situant le plus droite : Les derniers quatre chiffres de 46 = 101110 sont 111 0. c) Imaginer ce nombre binaire situ droite sans ces quatre derniers chiffres (k) et regardons ca nouvelle valeur (ceci sera le restant qui ne pourra pas tre inscrit en k bits) : Quand on isole 1110 de 101110 il nous reste les 10 de la gauche ou (2 en base 10)

d) On utilise ce reste de l'tape ( c) pour encoder le nombre. La valeur encode est reprsente par un nombre de zros et est suivi d'un 1 qui signale la fin d'mission du reste (c). En suite viennent les k bits de l'tape 2: Nous allons inscrire deux zros puis le 1 suivi des k bits. Ensemble nous obtenons 0011110. Maintenant nous allons faire l'tape l'envers en prenant notre valeur 0011110. Vu que k = 4 nous pouvons dduire le reste 001. On voit au double zro que le reste reprsente deux bits et les quatre bits qui suivent restent inchang 111 O. Nous prenons la valeur 10 (reste) et la valeur 1110 (k) en changeant l'ordre on obtient nouveau notre valeur de dpart 101110. Un peu plus de description technique et mathmatique du mm procd suit cidessous Acceptons que 'n' est le nombre encoder et que 'k' est le nombre de bits encoder directement. Par exemple, si 'n'= 578 et k = 8: 100101000010 1) Signe (1 =positif, 0 =ngatif)= [1] 2) n 1 (2k) O's: n 1 2k = 578 /256 = 2 = [00] 3) Terminaison 1: [1] 4) 'k' dernier bits dpassent de 'n': 578 = [01000010] 5) Assembler 1-4: [1][00][1][01000010] = 100101000010

Lors de l'encodage l'optimum 'k' est dtermine en regardent continuellement les donnes dfilantes dont on extrait la valeur 'k'. Le 16-128 fonctionne bien. L'optimum k peut-tre calculer de la faon suivante: [log(n) 1 log(2)]

1.1.4 Exemples de codees lossless :


-FLAC (Free Lossless Audio Codee) : Les sources audio codes en FLAC permettent une rduction de taille allant de 30 70 % alors que les zip et gzip traditionnel atteignent maximum 20 40 % . Cette compression est approprie pour tous les archivages de donnes audio, avec le 1 support des mtadonnes , image de couverture, ainsi que pour la recherche rapide. FLAC est libre et open source, il est bien support par de nombreux logiciels. Le support de la restitution de FLAC sur les appareils audio portables, et les systmes audio ddis est limit mais en progrs. John Coalson est le premier auteur de FLAC. Un fichier FLAC est compos de blocs successifs d'environ 100 ms de donnes, et peut tre dcompress la vole durant la lecture, y compris par un systme autonome quip de peu de mmoire Dtails techniques : FLAC permet seulement les chantillons virgule fixe, pas ceux virgule flottante. Il peut manipuler n'importe quelles donnes audio PCM avec une profondeur d'chantillonnage de 4 32 bits par chantillon, n'importe quelle frquence d'chantillonnage de 1 Hz 1,048,570 Hz avec des incrments de 1 Hz, et n'importe quel nombres de canaux audio de 1 8. Les canaux peuvent tre groups comme dans le cas de la stro et des canaux 5.1 surround pour tirer parti de la corrlation inter-canal pour augmenter la compression. FLAC utilise un CRC pour identifier les morceaux corrompus dans le cas de l'utilisation en streaming, 2 mais aussi le hachage MD5 complet des donnes PCM brutes stocks dans leur en-tte de mtadonnes STREAMINFO. FLAC admet un paramtre de Golomb 3 entre 0 et 16 pour le code de Rice, et jusqu' 8 canaux audio et une large gamme de frquence d'chantillonnage jusqu' 192 KHz, avec des taux d'chantillonnages variables. FLAC prend aussi en charge le Replay Gain 4 .
2

Une mtadonne est une donne servant dfinir ou dcrire une autre donne Message Digest 5 est une fonction de hachage cryptographique qui perm et d'obtenir l'empreinte num rique d'un fichi er. Ell e a t invente par Ronald Rivest. 3 Go lomb coding est un schma de compress ion data invente par Solomon W. en 1960 4 Le repl ay gain est une analyse psychoacoustique effectu par un scannage et ca lcul des peak' s et loudness d' un fi chier audi o. Les donnes sont en suite stockes en mtadonn es dan s le fichi er audi o.

- Monkey's Audio CAPE) : L'extension de Monkey's Audio est: .ape (ape signifiant en anglais "grand singe", tout comme monkey). Mme si le taux de compression est lgrement meilleur que celui de FLAC, Monkey's Audio est souvent critiqu par le fait qu'il ne soit pas libre. - Shorten: Shorten signifie raccourcir en anglais. C'est un format de fichier audio sans perte, de qualit CD (44.1 kHz 16-bit stro PCM). Il est similaire aux formats ZIP ou RAR, mais conu pour l'audio puisque les compressions tradionnelles ne sont gnralement pas efficaces sur des donnes audio. La compression Shorten est beaucoup moins efficace que TTA ou FLAC. L'algorithme Shorten et son code de source ont t implments et dveloppes par Tony Robinson de l'universit de Cambridge en 1992/1993 et plus tard la Soft Sound Ltd. Le code a t rendu public sous une licence non-commerciale et a t amlior par Wayne Stielau pour inclure une table des pistes pour pouvoir naviguer plus aisment dans le fichier. - Apple Lossless Audio Codee : ALAC est un codee lossless dveloppe par Apple Inc. Il permets de compresser des fichiers audio ainsi que du data. Il la mme extension que le codee AAC (voir codee avec perte). ALAC n'est pas une variante de AAC mais utilise comme lui la prdiction linaire comme FLAC et Shorten. ALAC a t introduit le 28 avril 2004. La capacit de rduction est de 40% 50o/o selon le genre de musique. - Lossles Windows Media Audio : Windows Media Audio aussi appel WMA est un format propritaire de compression audio dvelopp par Microsoft. Le format WMA offre la possibilit de protger ds l'encodage les fichiers de sortie contre la copie illgale par une technique nomme gestion numrique des droits (ou GND). Le format existe sous quatre formes dont le WMA Lossless qui offre une qualit sonore identique l'original, un concurrent srieux des formats sans perte comme Monkeys Audio ou Flac.

1.1.5 Tableau de comparaison des codees lossless:

ComQresseur

Efficacit

TemQS coul QOur un album de (650MB) 2.1 min 1.7 min 4.1 min 1.5 min 5.0 min 5.4 min 2.1 min 2.9 min 9.8 min 1.2 min 1.6 min 1.7 min 1.9 min 24.0 min 8.0 min 2.9 min

ComQression: Taille de l' album (650 MB) / % 348.3 MB 1 53.6% 353.9 MB 1 54.5% 342.5 MB 1 52.7% 369.9 MB 1 56.9% 348.5 MB 1 53.6% 347.4 MB 1 53.5% 369.1 MB 1 56.8% 363.7 MB 1 56.0% 347.6 MB 1 53.5% 392.3 MB 1 60.4% 388.4 MB 1 59.8% 388.1 MB 1 59.7% 388.2 MB 1 59.7% 348.3 MB 1 53.6% 400.9 MB 1 61.9% 591.3 MB 1 91.0%

Monkey's Audio 3.90b1 (high)

222.9 221.6 218.0 211.6 211.1 210.9 207.7 207.2 203.0 197.6 196.7 196.2 194.8 191.5 169.3 42.5

J
Monkey's Audio 3.90b1 (normal) Monkey's Audio 3.90b1 (extra high)

1
Monkey's Audio 3.90b1 (fast) LPAC 3.03 (extra high- not random access)
1

RJ<AU 1.07 (fast) WavPack 3.8b (high)

1
FLAC 0.1 (default) RkAU 1.07 (normal)
~

avPack 3.8b (fast)

LPAC 3.03 (fast)

J
WavPack 3.8b (normal) S , orten 3.1 RKAU 1.07 (High)

1
ID<\R (Winrar 2.70, max with "-mm") Z P (Winrar 2.70, max)

L' efficacit est un rapport entre la vitesse d'excution et le taux de compression qui t calcul de la faon suivante: L'efficacit= ([MB Sauv] 16 1 [Seconds])(l/16))

1.2 La compression avec perte de donnes


Une compression, audio, vido ou autre, est appele destructrice (avec perte) quand on est incapable d'obtenir les donnes originales partir des donnes compresses. Il s'agit donc d'une reprsentation de la source liminant les donnes juges inutiles pour la bonne comprhension, en se focalisant sur les donnes significatives. Le terme "destructrice" signifie avec perte et vient de l'expression anglaise lossy. On peut distinguer trois grandes familles :

1.2.1 La compression avec perte par prdiction :


L' Adaptive Differentiai Pulse Code Modulation (ADPCM) est un algorithme non standardis de compression de donnes avec perte. L ' algorithme repose sur la prsence d'un schma de prdiction et d'un codage des erreurs entre la prdiction et le signal original. Les erreurs tant souvent de faibles magnitudes, une compression intressante et est possible grce la diminution des bits ncessaires l' opration. Dans le cas de l'ADPCM, ce codage est dynamique et tient compte de la grandeur des erreurs en modifiant le pas de quantification. Lors du dcodage, les erreurs sont ajoutes au signal issu de la prdiction pour obtenir un signal plus ou moins fidle l'original. Ce systme est surtout utilis pour les fichiers audio, en particulier les chantillons vocaux. En rsum l'ADPCM tient compte des proprits suivantes: ../ Le signal est quasi stationnaire ../ La prdiction est adaptive ../ La prdiction utilise les donnes prcdentes et fournit de nouvelles donnes ../ La prdiction tente de minimiser 1'erreur ../ une bonne prdiction assure une rduction de l'erreur et donc du taux de transmission

Au milieu des annes 1980, le CCITT 6 a introduit l'ADPCM 32 kbit/s (G.721 ). Plus tard, le 0.726 et 0.727 avec des taux diffrents (16, 24, 32 et 40 kbit/s). Par la suite, plusieurs formats et variantes firent leur apparition. Citons notamment les codees de Microsoft et Apple nomms IMA mais avec des diffrences entre les deux versions.

1. 2.2 La compression avec perte par transformation:


JPEG, JPEG 2000, MPEG sont les mthodes les plus efficaces et les plus utilises. Nous allons approfondir que la partie audio avec le MPEG : Moving Picture Experts Group ont dmarr en 1988 dans le but de dvelopper une premire norme, MPEG-1 ISO/CEl 11172-1 5, pour des applications de stockage audio/vido du type Vido CD. MPEG a ensuite rapidement produit une nouvelle srie de normes internationales, MPEG-2, ciblant essentiellement les applications lies la tlvision numrique. D'autres sries de normes ont depuis t produites. MPEG rassemble de nombreux de spcialistes provenant de l' industrie de 1' lectronique des composants, de l' informatique et des tlcommunications. Les spcifications de formats produits par MPEG sont ouvertes, mais non libres, leur utilisation est soumise au paiement de redevances. Diffrentes normes MPEG : - MPEG-1 : premire norme audio et vido utilis plus tard pour les Vido CDs. Ce format offre une rsolution l'cran de 352 x 240 pixels 30 images par seconde ou de 352 x 288 25 images par seconde avec un dbit d' environ 1,5 Mbit/s. Elle comprend le populaire format audio MPEG-1 partie 3 audio couche 3, MP3. (voir 1.2.4) - MPEG-2 : norme applicable au codage de l' audio et la vido, ainsi que leur transport pour la tlvision numrique : tlvision numrique par satellite, tlvision numrique par cble, tlvision numrique terrestre, et (avec quelques restrictions) pour les vidodisques DVD ou SVCD. C' est notamment le fonnat utilis jusqu' prsent pour la TV sur ADSL. Les dbits habituels sont de 2 6 Mbit/s pour la rsolution standard (SD), et de 15 20 Mbit/s pour la haute rsolution (HD)

Union intern ati onale des tlcommunications

- MPEG-4 : norme applicable aux bas dbits Uusqu' 2 Mbit/s), exclus de la matrice des dcodeurs de MPEG-2. Permet, entre autres, de coder des objets vido/audio, le contenu 3D et inclut le DRM. La partie 2 de MPEG-4 (Visual) est compatible avec la partie baseline de H.263 et a connu du succs grce la mise en application DivX ainsi que dans les tlphones mobiles. La partie 10 appele MPEG-4 A VC permet des gains d'un facteur 2 3 par rapport MPEG-2 et a dj t retenue comme le successeur de celui-ci pour la TV haute dfinition, la TV sur ADSL et la TNT. L'extension de cette partie, appele Scalable Video Coding (SVC), est en cours de dveloppement et devrait tre finalise en 2007. Elle permettra de proposer diffrents niveaux de qualit partir d'un mme flux cod. - MPEG-7 : norme de description pour la recherche du contenu multimdia. - MPEG-21: norme proposant une architecture pour l'interoprabilit et 1'utilisation simple de tous les contenus multimdia. - MPEG-A :tourn vers les applications multimdia. En cours de standardisation.

1.2.3 Compressionfractale:
La compression fractale est une mthode de compression d'images encore peu utilise aujourd'hui. Elle repose sur la dtection de la rcurrence des motifs, et tend liminer la redondance d'informations dans l'image. Il existe plusieurs mthodes de compression fractale (subdivision de triangles, Delaunay etc.), mais la compression par la mthode Jacquin est la plus connue. La compression fractale consiste tout d'abord raliser deux segmentations (appels aussi pavages, ou partitionnements) sur une image : une segmentation de figures Sources et une segmentation de figures Destinations. Il s'agit alors de trouver pour chaque figure Source, quel est le meilleur couple (figure source, figure destination) minimisant une erreur. Cette erreur est gnralement calcule en soustrayant les deux figures. Pour raliser l'opration de soustraction, il est ncessaire d'oprer une transformation de la figure source aux dimensions (et la gomtrie) de la figure destination. De plus, des rgles comme la rotation et les retournements sont possibles. Une fois que tous les couples ont t trouvs, le fichier de sortie contient alors les diffrents couples, ainsi que les diffrentes transformations effectues (rotation, rduction de la moyenne etc.).

Lors de la dcompression, l'image est recre partir de ces transformations. La convergence est alors garantie par le fait que d'une part il y a une minimisation d'erreur (diffrence) et une modification des pixels, et d'autre part, que les figures sources sont plus grandes que les figures destinations. La compression fractale utilise la mme proprit pour reconstruire l'image.

1.2.4 Exemples de codees lassy:

-AAC: L'Advanced Audio Coding ou AAC est un algorithme de compression audio avec perte de donnes ayant pour but d'offrir un meilleur rapport qualit/ dbit binaire que le format plus ancien MPEG-112 Layer 3 (plus connu sous le nom de MP3 ). Pour cette raison, il a t choisi par diffrentes firmes comme Apple ou Real Networks. Le bon compromis qualit 1 espace est de 128 kb/s Il a t conu par le Fraunhofer Institut fr integrierte Schaltungen en collaboration avec AT&T, Sony et Dolby pour remplacer le MP3. L'AAC, ISO/CEl 13818-7, est une extension du MPEG-2 (ISO/CEl 13818-3) et a t amlior en MPEG-4, MPEG-4 Version 2 et MPEG-4 Version 3 (ISO/CEl 14496-3). Il a t dclar standard international par le Moving Pictures Expert Group (MPEG) fin avril 1997.

Les amliorations apportes par 1'AAC touchent notamment : ./ Les frquences d'chantillonnage : de 8 kHz 96 kHz (MP3 officiel : 16 48kHz) ./ Le nombre de canaux: jusqu' 48 ./ Une efficacit de codage amliore pour les signaux stationnaires (la taille des blocs a t porte de 576 1 024 chantillons) ./ Une efficacit de codage amliore pour les signaux de transition (la taille des blocs a t rduite de 192 128 chantillons) ./ Une meilleure gestion des frquences au-del de 16kHz ./ Une jonction stro (joint-stereo) plus souple (distincte pour chaque bande) ./ Une compatibilit de gestion numrique des droits (DRM) pour contrler 1'utilisation des fichiers dans ce format. Ces avances techniques devant apporter l'auditeur un message audio d'une qualit et d'une stabilit accrue par rapport au MP3 frquence d'chantillonnage quivalente ou infrieure. L' AAC adopte une approche modulaire du codage : en fonction de la complexit du flux coder, de la qualit vise et de la taille du fichier que l'on souhaite obtenir. L'utilisateur peut crer des profils afin de dfinir 1'outil qu'il souhaite utiliser parmi le jeu de rglages prdfinis. -MP3: Le MPEG-1/2 Audio Layer 3, plus connu sous son abrviation de MP3, est la spcification sonore du standard MPEG-1, du Moving Pic ture Experts Group (MPEG). C'est un algorithme de compression audio capable de rduire drastiquement la quantit de donnes ncessaire pour restituer de l'audio, mais qui, pour l'auditeur, ressemble une reproduction du son original non compress, c'est--dire avec perte de qualit sonore significative mais acceptable pour l'oreille humaine. L'extension de nom de fichier est .mp3. Le codage MPEG-1/2 Layer 2 est n avec le projet Digital Audio Broadcasting (radio numrique DAB) qui fut lanc par le Deutsche Luft und Raumfahrt. Ce projet a t financ par l'Union europenne, et faisait partie du programme de recherche EUREKA, plus connu sous le nom de EU-14 7.

Le projet EU-147 exista de 1987 1994. En '91 deux formats taient disponibles: ../ MUSICAM (Masking pattern adapted Universal Subband Coding And Multiplexing), bas sur un pur codage psycho-acoustique (voir 1.2.5) et un banc de filtres adapts aux sons de type percussifs ../ ASPEC (Adaptive Spectral Perceptual Entropy Coding), qui introduisait la technologie de codage entropique. Le format Musicam conu par le CCETT, Philips et l'IRT fut choisi par l'ISO MPEG Audio dirig par Hans-Georg Mussman en raison de sa structuration modulaire en plusieurs couches de codage [Layers], sa simplicit de mise en uvre ct dcodeur et sa grande tolrance aux erreurs de transmission. la demande de Hans-Georg Mussman, un groupe de travail regroupant Leon Van de Kerkhof (Philips), Yves-Franois Dehery (TDF-CCETT), Karlheinz Brandenburg (Fraunhofer-Gesellschaft) reprit des ides de Musicam et d'ASPEC, ajouta de nouveaux outils technologiques et cra le format MP3 (Layer III ou couche III), conu pour tre de mme qualit 128 kbit/s que le MP2 192 kbit/s. La norme ISO MPEG Audio avec ses trois couches de codage Layer I, Layer II (Musicam), Layer III (.MP3) fut acheve officiellement en 1992 et constitua la premire partie du MPEG-1, le premier travail du groupe MPEG, groupe l'origine de la norme internationale ISO/CEl 11172-3, publie en 1993. Le travail sur l'audio MPEG se termina en 1994 et constitua la seconde partie (MPEG-2) de la norme internationale ISO/CEl 13 818-3, publie pour la premire fois en 199 5. Les quipes de normalisation procdrent de nombreux tests subjectifs en double aveugle sur de nombreux matriaux sonores pour dterminer le niveau de compression appropri pour les diverses couches de l'algorithme. On a notamment utilis Tom's Dner, la chanson de Suzanne Vega comme squence de test pour l'algorithme de compression du MP3. Cette chanson a t choisie cause de sa finesse et de sa simplicit, qui facilite la dtection des imperfections du codee. Utilisation : Ce format populaire de compression audio permet une compression approximative de 1:4 1:12. Un fichier audio occupe ainsi quatre douze fois moins d'espace une fois compress au format MP3. La rduction de taille facilite le tlchargement et le stockage de donnes musicales sur un support numrique, tel qu'un disque dur ou une mmoire flash. Il a galement t largement mis en uvre en diffusion numrique dans les rcepteurs T-DMB Radio dont la spcification a t adopte par l'ETSI en 2005. En effet le MP3 appartient la mme famille de norme MPEG Audio que le MP2 utilis en radiodiffusion numrique (TNT et T-DMB Radio). Un simple transcodage binaire du format MP2 audio diffus au format MP3 enregistr est

ralis dans les terminaux T-DMB, autorisant ainsi la mtse sur le march de terminaux baladeurs/rcepteurs audionumriques. Technique de codage : Le taux de compression peut tre augment en choisissant un dbit binaire plus faible. On considre en gnral qu'il faut au moins 128 ou 192 kilobits par seconde (kbit/s) pour bnficier d'une qualit audio acceptable pour un morceau de musique. La compression au format MP3 exploite un modle psycho-acoustique de l'effet dit de masque : Si deux frquences d'intensits diffrentes sont prsentes en mme temps, l'une peut tre moins perue que l'autre selon que ces deux frquences sont proches ou non. Toutefois, si le taux de compression est trop important, on peut tre amen faire ressortir certaines harmoniques de faon non attendue. Cela donne alors l'impression de bruits parasites et dsagrables au milieu du son. On peut amliorer la qualit dbit moyen gal en utilisant un dbit binaire variable (VBR). Dans ce cas, les instants peu complexes (contenant peu de frquences), comme les silences par exemple, seront cods avec un dbit d'information plus faible. Par exemple 64 kbit/s au lieu de 128, rduisant ainsi la taille totale du fichier tout en gardant une trs bonne qualit lors des passages riches en harmoniques. L'amlioration apporte est variable selon le morceau cod. Taux de compression : L'efficacit de la compression des codeurs avec perte est habituellement dfinie par le dbit binaire, puisque le taux de compression dpend de la taille de l'chantillon et de la frquence d'chantillonnage du signal d'origine. Toutefois, les paramtres du disque compact sont souvent utiliss comme rfrence (44,1 kHz, 2x16 bits). Et aussi parfois, ceux du DAT SP (48kHz, 2 x16 bits). Le taux de compression pour cette rfrence est plus lev, ce qui montre la complexit de la dfinition du terme taux de compression pour les codeurs avec perte. Fraunhofer-Gesellschaft publie sur son site Web officiel les taux de compression et les dbits de donnes pour le MPEG-1 Layer I, II et III : ./ Layer I : 384 kbit/s, compression 4:1 ./ Layer II : 160 256 kbit/s, compression 6:1 10:1 ./ Layer III: 112 128 kbit/s, compression 12:1 14:1

Ces valeurs ne disent pas grand-chose sur la qualit du rsultat obtenu, puisque la qualit ne dpend pas seulement du format de codage du fichier, mais galement de la qualit de l'algorithme psycho-acoustique utilis par le codeur. Typiquement, les codeurs layer I utilisent un algorithme trs simple, d'o un rsultat ncessitant un dbit suprieur pour un codage transparent. En considrant de bons codeurs, on obtient : ./ Layer I cod en 384 kbit/s, mme avec ses algorithmes psycho-acoustiques simples, est meilleur que Layer 2 en 256 kbit/s ./ Layer II cod en 160 192 kbit/s est quivalent au Compact Dise ./ Layer III cod en 112 128 kbit/s est quivalent au Layer II 192 .. 256 kbit/s. Les dbits prsents ne sont donc pas quivalents en terme de qualit, et les qualits ne sont pas forcment optimales. De plus, la qualit du codeur est un facteur trs important. Ainsi, avec les premiers codeurs, il tait gnralement admis que 128 kbit/s avec le Layer III n'avait pas un son excellent, mais tout juste raisonnable. La gnration de codeurs actuels permet d'obtenir un son tout fait correct 128 kbit/s avec le Layer III. Si l'on est soucieux de la qualit et pas seulement du dbit, on utilisera plutt les valeurs suivantes : ./ Layer I : 384 kbit/s ./ Layer II : 256 384 kbit/s ./ Layer III : 224 320 kbit/s La strophonie a un dbit exactement deux fois suprieure la monophonie si la qualit est identique pour ces deux modes d'coute. Le mode stro joint diffre de la stro simple car il n'encode pas sparment les deux canaux gauche et droit si les informations sonores sont identiques, permettant un gain de qualit par rapport la stro, voir lossles coding, classique avec une mme valeur de compression.

- Ogg Vorbis OggVorbis est un algorithme de compression et de dcompression audio numrique, sans brevet, ouvert et libre, plus performant en terme de qualit et taux de compression que le format MP3, mais moins populaire que ce dernier. Promu par la fondation Xiph.org, c'est un des composants de leur projet Ogg, qui a pour but de crer un ensemble de formats et codees multimdia ouverts (son, vido), libre de tout brevet. Le format sonore Vorbis doit obligatoirement tre encapsul. Il 1' est dans la majorit des cas par le format Ogg, d'o l'appellation de Ogg Vorbis. Nanmoins, Vorbis et Ogg sont diffrents (l'un tant le contenu et l'autre le contenant, Matroska pouvant servir de contenant alternatif). Ogg Vorbis n'est donc pas un format, mais un ensemble de formats.

1.2.5 Algorithmes psycho-acoustiques


Pour bien comprendre le fonctionnement des algorithmes psycho-acoustiques, il est ncessaire d'aborder certaines notions thoriques de notre organe auditif, en particulier le comportement de notre oreille en fonction de la frquence et du niveau sonore. En effet, l'algorithme de compression quantifie et comprime les donnes audio en fonction de ce que peroit ou non notre oue. Cet algorithme est un outil de calcul doubl d'une base de donnes appele modle psycho-acoustique comprenant une multitude de schmas de quantifications diffrents en fonction du contenu sonore. La sensibilit de notre organe auditif n'est pas linaire, elle varie en fonction de la frquence (20-20 000 Hz) et du niveau sonore. L'oreille possde un maximum de sensibilit pour des frquences comprises entre 2 et 5 kHz (pointe 4kHz). De ce fait, deux sons de frquence diffrentes et de mme intensit peuvent provoquer une sensation de force sonore diffrente (ou une sonie diffrente). L'expression de la sonie se dfinit en sones, o un sone reprsente une sensation de force sonore quivalente de 40 dB 1 kHz. En fonction de la sonie et de la frquence, le comportement de notre oreille varie et des phnomnes de masquage apparaissent. Dans la figure ci-dessous, la courbe "1 sone" exprime l'tendue en frquence d'une sensation de force sonore quivalente de sonie 1, la courbe isosonique "1 0 son es" reprsente une sensation de force sonore 10 fois suprieure 1 sone, enfin la courbe en pointills exprime elle le seuil absolu d'audibilit.

Niveau (dB)
1~0

160

HO
120 100
~0

l'o.

~
'

l'o ~~--

60
40

..

"'..

~~

--- i'...

i 0

..._ -..,
~

~ 0

..... ~ 1'1'- ~~

~o

" ).:
. ...
,'

1 1,
,

lJ

- - se ui 1 absolu

20
0
-20
-

.
~

"""
. ...

l-

Nous pouvons donc constater qu'il y a une discrimination faite par l'oreille: celle-ci semble plus sensible aux mdiums qu'aux graves et aux aigus. L'Effet de "masque" : On parle de masquage quand un son est rendu inaudible par un autre. Il existe plusieurs sortes d'effets de masque. Tout d'abord le plus connu, celui que l'on peut exprimenter tous les jours en discutant avec une personne pendant qu'un train passe proximit, c'est--dire le masquage simultan. Il existe galement un masquage appel "effet de prcdence" (ou effet de Haas) qui apparat lorsque le signal masqu est mis aprs le signal masquant. Enfin, un son masqu mis avant le signal masquant est un masquage de postriorit. Sur le graphique ci-dessous, on peut observer une reprsentation de ce phnomne (valable pour des sons de type impulsionnels ).

Masquage de Postriorit Niveau

Masquage Simultan

Effet de pre den ce

(dB )

__..

..,..____ 2 ms

15 ms

Temps (ms)

Le masquage de postriorit et l'effet de prcdence sont des masquages temporels. Sur ce graphe on peut constater que l'effet de Haas est beaucoup plus "tolrant" que le masquage de postriorit. Un son thoriquement masqu tant mis plus de 2 ou 3 ms avant le son soit disant masquant, devient un pr-cho audible et gnant tandis que dans le cas du masquage par prcdence, une fois le son masquant mis, le son masqu le reste tant qu'il survient dans les 20 ms (environ) qui suivent l'mission du masquant. Ces valeurs ne sont cependant valables que pour des impulsions trs brves, du type transitoires. Pour des dures suprieures, le phnomne n'est plus le mme. Le graphique ci-dessous met en vidence les phnomnes psycho-acoustiques dans le cas du masquage simultan.

Un sujet est soumis un son pur 0 (dans ce cas 1 kHz 60 dB) et doit se manifester lorsqu'il peroit un autre son pur , de frquence diffrente ou voisine. On constate que le seuil d'audition absolu est alors "relev". En effet, au voisinage de 1 kHz, il faut augmenter de faon considrable le niveau de , pour que le sujet l'entende. Il est important de noter que le phnomne est d'autant plus perceptible lorsqu'on dpasse la frquence du son masquant, savoir 1 kHz. Ceci souligne en fait le comportement de notre oreille interne, notamment la membrane basilaire, l'intrieur de laquelle les sons graves ont tendance masquer les sons aigus, ce qui explique la dissymtrie du parcours de , autour de 0 . Grce ce test, nous avons pu constater qu'il y a une grande partie du spectre qui n'est pas perue par l'oreille. En dcouvrant ces phnomnes, les ingnieurs de chez Sony comme de chez Philips ont pens qu'il serait peut-tre possible de restituer les mmes caractristiques audio que le CD sur un support comportant cinq fois moins de donnes.

10

Niveau (dB)

I<J< li sonpur masquant


- - - - - Sontest

Seuil Pi! solu

Partie masqu e par

lliliJ

Malgr que les tudes de l'oreille de Fletcher et Munson soient trs significatives, il est important de prciser qu'elles sont tablies avec des sons purs; l'exprience avec des sons complexes donnerait d'autres rsultats. Je veux dire par l que le seuil d'audibilit n'est ici valable que pour des sons purs, si l'on mettait par exemple un son complexe dont les composantes spectrales sont toutes en dessous de ce seuil, l'oreille percevrait tout de mme quelque chose.

Niveau (dB)
9D
~y

Lgend e :
~ Seuil absolu

BD 7D

aD
ID

1 \
\
f\
~

"' ~ (_Qu'entend-on? ~
( ____:)

d'un son pur

1-K

r--- - -r"'

1 111111

So n co mpl exe

::
2D

1D

l-'
1

........__
~

J
r---v

. 1D

Les Bandes Critiques : La thorie des bandes critiques est ne de la dcouverte du phnomne dcrit cidessus. Elle vient de l'ide que notre oreille intgre les sons par tranches de frquences appeles sous-bandes. Nous avons en effet pu constater que pour entendre le son , au voisinage de 0 , il fallait fournir beaucoup plus de niveau par rapport au seuil d'audition. Le phnomne observ n'est pas linaire: selon la frquence mise en cause, la largeur de ces bandes critiques varie.
Bande Critique Frquence (Hz) Bande Critique Frquence (Hz)

Basse

Haute

Largeur

Basse

Haute

Largeur

0 1 2 3 4 5 6 7 8 9 10 11 12

0 100 200 300 400 510 630 770 920 1080 1270 1480 1720

100 200 300 400 510 630 770 920 1080 1270 1480 1720 2000

100 100 100 100 110 120 140 150 160 190 210 240 280

13 14 15 16 17 18 19 20 21 22 23 24

2000 2320 2700 3150 3700 4400 5300 6400 7700 9500 12000 15500

2320 2700 3150 3700 4400 5300 6400 7700 9500 12000 15500 22050

320 380 450 550 700 900 1100 1300 1800 2500 3500 6550

Le tableau ci-dessus reprsente les 24 bandes critiques les plus significatives.

Rfrencs:
http: //flac. sourceforge.net/links.html#hardware http: //www.bobulous.org.uk/misc/audio_formats_comparison_2006.html http://flac.sourceforge.net http://www.twixo.org http: //www.lire-fichier.com/extension-fichier/ouvrir-flac-lire-fichier-flac-171 .htm http://www .monkeysaudio.com http://inventors.about.com/od/mstartinventions/a/MPThree.htm http://www.minidisc.org/French_tech/section l .html Zwicker, E., Psychoakustik , Springer-Verlag 1982