problemes. .
Lors d'une compression deux types ‘algoithmes peuvent étre uiisés.
Ualgorthme non destructif. Sa propriété principale est qu'une fols décompressé, le
fichier est rigoureusement le méme que le fichier avant le compression. Il ny a donc aucune perte
information.
‘Son fonctionnement est le suivant: lors de la compression algorithme de compression
recherche dans le fichier des occurrences multiples d'une suite doctets. Il se crée ains! ce que
Hon appelle un dictionnaire, index qui référence ces suites doctets répétitives. Ensuite,
"algorithme remplacera celles“), dans le fichier compressé, par ces codes qui prennent moins de
place.
Si on prend exemple d'un fichier texte I'algorithme va cer une table de correspondance
pour des mots qui sont utilsés plusieurs fols, X=1', ''=2','Z=3, 'O=4’. Ainsi, dans le texte, ces
mots vont étre remplacés par leur code, p)lus court, donc’ prenant moins de place dans le fichier
‘compressé. Voili, de maniére simplfée le fonctionnement de la compression non destructive.
Pour ce qui concemne audio on se servira dune compression qui utilise un algorithme
destructif. Un fichier texte peut se compresser trés fcilement, ce n’est pas le cas de Vaudio, car
Inyy a pas beaucoup de répétition.
3.2. Codage Huffman/ Shannon-Fano
Les ordinateurs codent généralement des caractéres en utilisant le diagramme standard
«ASCII », qui assigne un code de & bits @ chaque symbole. Pour exemple, la lettre ‘a’ a pour
valeur « ASCII » : 61 et est codé en tant que 00111101. Des caractéres qui se produisent plus
fréquemment comme ‘e’ sont traités de la méme facon que les caractéres rares tels que ‘u’. Un
dossier qui a 100 caractéres exigeront 800 bits, cette valeur est fixe, si le dossier contient’ 100
caractéres uniques ou sil a 100 occurrences de méme caractire. Les avantages de Varrangement
de codage ASCII est que des frontiéres entre les caractéres sont facilement déterminées, et le
‘modéle utilisé pour chaque caractére est fixe et universel.
Cependant, dans n’importe fichier texte, il y a des caractéres qui se produisent plus
fréquemment que d'autres, Aux caracteres plus souvent usités ont été affecté des codes courts, et
pour les caractéres moins souvent utilsés ont été affecté des codes plus longs.
e
FID Copyright - Enseignement des Métiers de la Communicaton
Lk Malakoff 92240 - Tous droits réservés,
C_ Site web : http://www.eme.fr
iCette iée n’est pas nouvelle. Un exemple de ce type de compression est le code Morse
<éveloppé par Samuel Morse au milieu du. 19°" sidde. Des lettres envoyées par le téegraphe
sont codes avec des points et des tirets. Morse a noté que certaines lettres se sont produites
lus souvent que d'autres. Afn de réduire fe temps moyen requis pour envoyer un message, il a
{assigné des ordres plus courts aux lettres qui se produisent plus fréquemment comme e( ) et
), et de plus longs ordres aux lettres qui se produisent moins fréquemment comme d-- -) et f -
)
Cette idée d'employer des codes plus courts pour les caractiéres plus fréquemment utlisés
{été prise dans le champ de calcul par Claude Shannon et Fano dans les années 50, quand ils ont
développé Falgorithme de compression de Shannon-Fano. Cependant Huffman a édité un papier
en 1952 qui améliore algorithme légérement.
3.3. arbre de Huffman
Le codage atHuffman crée ce qui stappelle un arbre d'Huffman, qui est un arbre binaire tel
‘que celunci:
Je vals expiuer Ia construction de cet ane par un exemle. Consdrons
composée de 35 caractéres dont 14 A, 7B, 5C, 5D, 4E. ee une Phrase
Copyright - Enseignement des Métiers de la Communication
Malakoft 92240 - Tous arotts réservés,
Site web : hitp://www.eme.
0x)
po oo warenans Par choir Hes deux plus petits nenuds, qui sont D et €. Nous
Gans coras'ss Ga0* Noeuds dans un nouvel arbre dont la racine est la omnes des sae choisis,
‘dans ce cas 9 . Pus, nous remplacons les deux nazuds par Varbre comtane
2 "ous répétons cette tape, combinant 8 et C. Nous enlevons ces deux noeuds, et,
chaque tara emere étape, nous les combinons dans un arbre e polos ts votes que sur
eae Retation le nombre de nezudsrestants dans le chou se tavect poe Un, car nous enlevons
‘deux noeuds et les remplacons par un noeud simple de racine,
De nouveau, nous reirons les plus petits neeuds et consrusons un arbre dy poids 21,
Malakoff 92240 - Tous dros réservés,
CS} Site web : http://wmw-eme trFt en conclusion, nous combinons les deux derniers noeuds restants dans notre file
Gatente Pour obtenr notre arbre fina, la racine de farre final aura toujours un pods Sool oe
nombre de caractéres dans le dossier d‘entrée,
‘Qui est dans cet exemple 35,
Pour lire les codes de cet arbre
de Huffman, nous commengons par la
racine et ajoutons un 0 & chaque fois
que nous nous déplacons vers la
gauche, et ajoutons un 1a chaque fois
que nous nous déplacons vers la
droite,
Cet arbre nous donne le tableau ci-dessous :
(Symbol |éode
aloo
| 700
Hor
oD fo
ebant
Je vous ai présenté d'une maniére simpliste le fonctionnement du codage de Huffman,
-Maintenant je vais passer & la compression,
Copyright - Enseignement des Métiers de la Communication
Malakoff 92240 - Tous drolts réservés.
Site web : http://www.eme.tr4. QU'EST-CE QUE LA COMPRESSION
De nos jours, la pulssance des processeurs augmente plus vite que les capacités de
stockage, et énormément plus vite que la bande passante des réseaux, car cela demande
énormes changements dans les infrastructures de télécommunication
Ans pour palier 8 se manque, il est courant de réduire la talle des données en exploitant
la puissance des processeurs plutOt qu'en augmentant les capacités de. stockage et de
transmission des données,
La compression consiste & réduire ta taille physique de blocs dinformations, Un
ccompresseur utlise un algorithme qui sert & optimiser les données en utilisant des considerations
Propres au type de données & compresser. Un décompresseur est donc nécessaire pout
Feconstruire les données onginelles gréce 8 Talgorithme inverse de celui ‘utilisé pour lo
compression.
La méthode de compression déprend in
‘on ne compressera pas de la méme facon une i
wséquement du type de données compresser ;
image qu'un fichier audio,
4.L.Les différents types de compression et de codage
\s compression physique agit directement sur les données, i s'agit ainsi de regarder les
Gonnées redondantes d'un train de bits & un autre.
La compression logique par contre est effectuée par un ralsonnement logique en
‘substituant une information par une information équivalente,
\a compression symétrique utiise la méme méthode pour compresser et décompresser
information. I faut donc la méme quantité de travail pour chacune de ces opérations. est ce
lement utilisé dans les transmissions de données.
(eerche souvent des algorthmes pour lesquels la compression est plus lente. cus
compression. Des algorithmes plus rapides en compression quien décompression peuvert tre
nécessaire lorsque Yon archive des données auxquelles on
accéde peu souvent (pour des
‘raisons de sécurité par exemple), car cela crée des fichiers compacts,
Les programmes ont besoin de conserver leur itégrité pour fonctionner, en effet l nest
as concevable de reconstrure & 3
eu prés un programme en omettant parfois des bits et en
2joutant ld oil nen faut pas,
2 compression avec pertes se permet d’sliminer quelques informations pour avoir le
‘meilleur taux de compression possible, tout en gardant un ré
sultatqut soit le plus proche possible
‘es données originales. Cest le cas par exemple de certaines compressions images ou de sane
LMalakert 92240 ~ Tous droits reserves,
SteeCertains algorthmes de compression sont basés sur des dictionnaires spécifiques & un type
de données : ce sont des encodeurs non adaptatifs, Les occurrences de lettres dans un fichier
texte par exemple dépendent de la langue dans laquelle celui‘ est éerit
‘Un encodeur adaptatif <‘adapte aux données quil va devolr compresser, ne part pas
avec un dictionnaire déja préparé pour un type de données.
Un encodeur semi-adaptatif construira celui-i en fonction des données compresser
1 construt le dictionnaire en parcourant le fichier, puis compresse ce dernier.
La compression RLE est utlisée par de nombreux formats dimages (BMP, POX, TIFF)
Elle est basée sur la répétiton d’éléments consécutifs. Une premigre valeur (codée sur un octet)
donne le nombre de répétitions, une seconde valeur donne la valeur a répéter (codée sur un
octet).
La phrase suivante 'oooooohhhhhhhhhhh’ donnerait ‘Gol ih’, elle est trés utile dans ce cas
la, Par contre dans ‘onde’ cela donne ‘Loinidie’, elle vavére ici trés colteuse.
Le codage Huffman est une méthode qui permet dattribuer un mat de code binaire aux
différents symboles & composer (pixels ou caractéres par exemple). La longueur de chaque mot
de code n'est pas identique pour tous les symboles : les sjmboles les plus fréquents (qui
‘spparaissent le plus souvent) sont codés avec de petits mots de code, tandis que les symboles les
plus rares recoivent de plus longs codes binaires. Ainsi la suite finale de mots codés 8 longueurs
variables sera en moyenne plus petite qu’avec un codage de tale constante
Le codeur de Huffman crée un arbre ordonné a partir de tous les symboles et de leur
fréquence c'appariton. Les branches sont construtes récursivement en partant des symboles les
‘moins fréquents. Pius le symbole est ‘profond' dans arbre, plus le mot de code sera long.
Les compressions basées sur ce type de codage donnent de bonds taux de compressions,
‘notamment pour les images monachromes (les fax par exemple).
La compression LZW_ est un algorithme trés rapide aussi bien en compression qu‘en.
écompression.
Ses créateurs sont Abraham Lempel et Jacob Ziv, ils ont créé le compresseur L277 en
197. Il tat utlisé pour farchivage (les formats ZIP, AR) et LHA Iutlisent)
En 1978 ils eréés le compresseur L278 spécalisé dans la compression dimages.
En 1984, Terry Welch le modifa pour Tutlser dans les contrdleurs de disques durs, son
Initiale vit conc se rajouter 8 Vabréviation LZ pour donner LW.
Le LZW substitue des motifs en construisant au fur et & mesure un dictionnaire, De plus i
\ravaille sur des bits et non sur des octets, II ne dépend donc pas de la maniére de laquelle le
Drocesseur code les informations. Crest un des algorithmes les plus populaires, il est utlisé
‘notamment dans les formats TIFF et GIF.
Construction du dictionnaire :
Le dctionnaire est initalsé avec les 256 valeurs de la table ASCII, Le fichier est découpé
en chaines doctets (ans! pour des images monachromes -codées Sur 1 bit. ~ cette compression
st peu efcace), chacune de oes chaines est comparée au dictonnaire et est ajoutee jamais
ellen est pas présente. Pour la décompression Falgorthme reconstrut le dicionnaire dar le
Sens inverse, ina donc pas besoin etre stocké
Communication4.2, Informations sur la compression non destructive
existe plusieurs algorthmes non destructifs (le ZIP, RAR , ACE). autres sont plus déciés
{au son. Notons le WAVE (.wav) développé par Microsoft pour les PC et I/AIFF (.aif) développé par
‘Apple pour les macintosh. Elle utilise comme mode de compression le PCM expliité dane le
chapitre Introduction a 'audionumérique’).
‘De nombreux autres algorithmes propres & ce type de média existent, bien quis
soient moins connus. Citons WavArc (ac), tiré du format. de compression ARC de Dennis Lee,
Audio2IP (zip), tiré du ZIP de Lin Xiao, LPAC de Tilman Liebchen, Monkeys Audio de Matthew 7.
Ashland et enfin RKAU de Malcolm Taylor,
Sound Forge propose quant & lul un format propriétalre, le Perfect Clarrty Audio (dont
extension des fichiers est le PCA),
Cependant, malgré la compression, les fichiers audio sont encore trop volumineux pour
tre utilises dans certaines applications : dans lutlisation de tels fichiers sur Internet, certes, mais
‘ussi dans les canaux de transmission numériques comme le c&ble téévisé. On a done recours 3
lun autre type de compression: la compression destructive,
4.3. La compression destructive.
1 existe également de multiples formats de compression destructive. Il faut savoir que un
Gente eux, le tres connu MP3, a été créé et brevet6 par Thomson Multimédia. Aussi
‘théoriquement, chaque personne qui crée un fichier MP3 pour Texplotter commercialement est
censé reverser des droits 8 Ventreprise,
Le format impose par Microsof, le Windows Média Audio (WMA), ressemble au MP3. Son
format est également breveté donc son utilisation se fait en contre parte de drot reversé 3
Microsoft.
Le format OGG Vorbis quant & lui résout ces problémes de brevet. C'est un format
<< quasi identique » au MP3, 2 la dfférence que Iutlsation de celuicl est libre de droit. Mais ce
format nest pas aussi répandu que le MP3 ou le WMA.
Parmi les autres formats de compression destructive, citons le MP3Pro, le Real
‘Audio de Real Networks, le Yamaha VOF.
Les algorithmes utilisés sont principalement le MPEG (pour le format MP3), FAC.
(M4P3Pro), ATRAC (Sony Minidisc), le PASC (Philips DCC), et enfin les Dolby AC-1, AC-2 et
C3.
Afin de définir les différentes techniques utilisées pour compresser le son, je vais
Principalement m‘appuyer sur le format MP3, 'ATRAC, format audio utilsant typiquement [a
compression destructive, donc les limites psychoacoustiques de oreille humaine, afin de
supprimer certaines parties du son inaudibles.
e
Ce eames