Vous êtes sur la page 1sur 18

Chapitre 1

Compression et stockage de donnes


La compression a pour but de rduire la longueur dune chane sans aecter son contenu informatif. Cela permet la fois de rduire les exigences en mmoire et daugmenter la capacit dun canal de transmission (thorie de Shannon). Il existe principalement 2 types de compression, bien que dautres catgories puissent tre ralises, comme nous le verrons par la suite : Par codage Par substitution

1.1

Par Codage

Linformation dun message peut se dnir comme la "surprise" cause par la connaissance de ce message. Elle se calcule par la formule log2 p si p est la probabilit doccurrence du message. Soit lensemble X compos de N messages dont les probabilits doccurrence sont donnes par p1 , ...pN . Alors
N

pi = 1
i=1

Linformation H associe ces N messages est dnie comme la surprise moyenne :


N

H(x) =
i=1

pi log pi

H(x) permet de mesurer linformation. On lui donne le nom dEntropie. 0H<1 et est maximum quand p1 = p2 = ... = pN = Indpendance des messages Soit un ensemble C de messages gal au produit de 2 ensembles A et B indpendants. Alors H(C) = H(A) + H(B)
1 N

En eet, pi qj log pi qj =
i j i

pi

qj (log pi + log qj )
j

=
i

=
i

pi log pi +

pi log pi +
j

qj log qj

qj log qj

Longueur moyenne dun code Soit un codage des messages partir dun alphabet de d caractres tel quil existe une correspondance non ambigu entre chaque message et son code. Si le message i est reprsent par une squence de li caractres, la longueur moyenne dun code est donne par la formule suivante : L H(X) log d

Ecacit et redondance dun systme de codage On dnit lecacit dun systme de codage par H(X) L log d La redondance est donne par R = 1 ecacit. Il existe un codage dont lecacit tend vers 1 ainsi quune mthode de construction. 1

1.1.1

Codage de Human

Supposons avoir 8 messages m1 , ..., m8 dont la probabilit doccurrence est donne par p1 = p2 = ... = p8 = 1/8. Il vient 8 1 pi log pi = 8. .3 = 3 H(X) = 8 1 Si lalphabet est quivalent {0,1}, alors d=2 et L 3 =3 1

Donc, le codage 3 bits [000,001,...,111] est ecace1 . Quand d=2 (et donc que log2 d = 1), H(X) donne la longueur en bits pour un codage non-redondant, ou encore le nombre de choix binaires faire en moyenne pour identier un message. Si on dispose dune autre distribution P telle que {p } = i
1 On

1 , 2

1 2

1 2

1 2

1 2

1 2

1 2

dit galement "non-redondant".

alors H(X) = 127 et on obtient un codage non-redondant o L est infrieure 2 bits ! Cest ce que 64 lon appelle le codage de Human.

Fig. 1.1 Codage de Human

Ce codage a en plus le mrite de permettre le dcodage instantan (caractre par caractre, sans attendre une squence entire). On parle de proprit prxe : (aucun code nest prxe dun autre code). Exemple : 111100111111110 est dcod directement en eahb, partir du codage de la gure 1.1.

Algorithme 1. Les messages constituent les feuilles dun arbre portant chacune un poids gal la probabilit P doccurrence du message correspondant 2. Joindre les 2 noeuds de moindre poids en un noeud parent auquel on attache un poids gal la somme de ces 2 poids 3. Rpter le point 2 jusqu lobtention dune seule racine larbre (de poids 4. Aecter les codes 0 et 1 aux noeuds descendants directs de la racine 5. Continuer descendre en aectant des codes tous les noeuds, chaque paire de descendants recevant les codes L0 et L1 o L dsigne le code associ au parent. Par exemple, soit un ensemble de 3 messages a, b et c de probabilit respective 0.6, 0.3 et 0.1. La construction de lalgorithme est donne la gure 1.2. pi = 1)

Fig. 1.2 Codage de Human

En codant des squences de plus en plus longues, lecacit tend vers 100% (mais le gain est de moins en moins important, comme on le voit sur la gure 1.3).

Fig. 1.3 Codage de Human En rsum, lalgorithme de HUFFMAN donne un codage optimal (car la redondance est minimale) et possde la proprit prxe (ce qui est intresssant en cas de transmission sur un canal).

1.1.2

Codage de Shannon-Fano

Ce procd est antrieur au codage de Human est se base galement sur un codage statistique.

Algorithme 1. Construire une table des frquences dapparition des symboles trie par ordre dcroissant. 2. Diviser cette table en deux parties. Celles-ci doivent avoir une somme de frquences gale (ou pratiquement gale) celle de lautre. 3. Aecter le chire binaire 0 la moiti infrieure, la moiti suprieure prenant la valeur 1. 4. Rpter les oprations 2 et 3 aux deux parties, jusqu ce que chaque symbole ne reprsente plus quune partie de la table.

Fig. 1.4 Codage de Shannon-Fano

1.2

Par Substitution

Le codage de HUFFMAN est ecace quand il y a un petit nombre de types de messages dont quelquesuns couvrent une proportion importante du texte (pi >> pj ). Quand le nombre de types de messages augmente et que les frquences sont plus uniformes ( pi pj ij), le gain est ngligeable. Souvent, le nombre de messages dirents est indtermin lavance (par exemple quand il sagit de mots dans un texte simple) ou trop grand pour justier un codage longueur variable (par exemple, le jeu de caractres ASCII). Dans ces cas, on eectue une compression en remplaant seulement des squences choisies de texte par des codes plus courts. Il y a plusieurs faons de procder : parcourir le texte et remplacer les squences redondantes par des squences plus courtes (RLE) analyser pralablement le texte pour dterminer les groupes remplacer et les codes qui les remplacent (LZW) ...

1.2.1

Codage RLE (Variante)

Le codage RLE (Run-Length Encoding) est, comme son nom lindique, un codage de "course", cest-dire quil limine certaines squences de caractres en les remplaant par un code spcique. Dans le cas prsent, il limine les squences de blancs ou zros. Chaque "course" de k zros (ou blancs) (2 < k 9) est remplace par un caractre non utilis (ex : @) suivi de lentier k.

Exemple "AB200003940000052600D000@A2" est remplac par "AB2@4394@552600D@3@@A2". Si tous les caractres sont utiliss, on en choisit un rarement utilis comme "indicateur" de zros (ou de blancs) et on le double quand on rencontre ce caractre rare. Ce principe est illustr dans lexemple ci-dessus.

Le RLE basique comporte un inconvnient majeur : il dpend fortement de la chane coder. Ainsi, "Pigmentation" devient "1P1i1g1m1e1n1t1a1t1i1o1n". Ainsi, on utilise la version modie dans le cadre de transmissions par fax et ou encore dans le traitement dimages en noir et blanc.

1.2.2

Utilisation dune bit-map

Il est facile de laisser tomber des champs entiers dun enregistrement. Prenons un enregistrement de 4 champs de 8 caractres (32 caractres) pour les noms alors que la longueur moyenne est bien plus courte. On utilise alors la technique du bit-mapping. Le principe est dutiliser une bit-map devant chaque enregistrement pour indiquer la prsence ou labsence de valeur dans les dirents champs.

Fig. 1.5 Utilisation dune bit-map

1.2.3

Recherche de pattern

Par une tude sur des textes anglais, on a pu dterminer que le nombre de mots distincts utiliss reprsentait 10 15% du nombre total de mots dans le texte. Ce pourcentage est encore plus petit pour les textes lis des domaines spcialiss (articles scientiques, documents militaires, mdicaux, ...). Ds lors, on pourrait remplacer des mots ou patterns pralablement choisis. Cependant, le gain est limit par 2 observations : les mots les plus courants sont courts (the, a, to, in, ...), par loi de ZIPF : la frquence du nieme mot le plus courant est proportionnelle 1/n, cest--dire que le gain augmente de plus en plus lentement quand on code de plus en plus de mots. Il existe tout de mme quelques pistes de solution : on peut coder des "digrammes", cest--dire remplacer des paires de lettres par un seul caractre. On obtient une compression denviron 50% en moyenne. on peut aussi coder les "patterns" les plus courants mais 1. lanalyse pralable pour les dterminer est coteuse : il faut tenir compte dun nombre lev de candidats, et

le choix dun pattern peut aecter lutilit des prcdents. Par exemple, si la squence ere est choisie puis galement here, there et where, si on commence par remplacer les squences les plus longues, le codage de ere devient beaucoup moins utile. 2. cela peut gner la recherche : Par exemple, si ing l est cod par # et ing t par @, et si string est cod par str# dans le contexte string lists et par str@ dans le contexte string trees. La recherche de string conduit analyser plus dun pattern.

1.2.4

Les algorithmes dictionnaire (ou substitution de facteurs)

Ils consistent remplacer des squences (les facteurs) par un code plus court qui est lindice de ce facteur dans un dictionnaire. Lexemple le plus courant est lalgorithme LZW (Lempel, Ziv, Welch). Cr en 1977, et amlior en 1984 par Welch, cet algorithme est la base de tous les algorithmes dictionnaire actuels. Ce codage utilise un dictionnaire construit la vole, aussi bien pour la compression que pour la dcompression. Ainsi, le code (la substitution) utilis na pas besoin dtre envoy au destinataire du chier an quil puisse le dcoder.

Algorithme On initialise la table (le dictionnaire) en y plaant les codes des caractres ASCII, On regarde le caractre transmettre : 1. sil existe dj dans la table, on regarde le caractre suivant, 2. si le groupe des deux existe galement, on regarde le suivant, etc. Lorsquun nouveau groupe est dcouvert, on le dnit en linsrant dans le dictionnaire. Dans un premier temps, on transmet les codes des morceaux qui le composent. La prochaine fois quon le rencontrera, on ne transmettra que son code propre. Les mots ajouts au dictionnaire seront dtermins par lintermdiaire dune "fentre" voluant au l de lanalyse du texte compresser. Ce concept est explicit dans lexemple ci-dessous. On procde de la sorte jusqu la n de la transmission. Lorsque le dictionnaire est plein, soit on procde son extension, soit on se borne utiliser les codes dj existants. La base du dictionnaire repose sur les 256 caractres du code ASCII. A la suite de ceux-ci, on trouvera dirents groupes de lettres rencontrs au fur et mesure de la compression du texte.

Comment se construit le dictionnaire ? Le principe est dutiliser une fentre grandissant jusqu lobtention dun mot inexistant dans le dictionnaire. Auquel cas le mot en question est ajout, le code du prxe connu envoy, et la fentre ramene au dernier caractre analys. Pour plus de clart, soit lexemple suivant, sachant que les 256 premires entres du dictionnaire sont initialises avec les 256 valeurs du code ASCII : Imaginons le message "ma maison" a compress. 1. Le premier caractre a analys est "m". Il est dans le dictionnaire.

2. Le caractre suivant est concatn avec "m" et forme la chaine "ma". Elle nest pas dans le dictionnaire : il faut donc lajouter. On lui aecte donc lentre 256 dans le dictionnaire (on commence 0). On envoie la valeur correspondante "m"(109). 3. Un nouveau mot venant dtre ajout, on reprend alors au dernier caractre pris en compte (ici "a"). Le caractre suivant est concatn et forme la chaine "a ". Elle nest pas dans le dictionnaire : il faut donc lajouter. On lui aecte donc lentre 257 dans le dictionnaire. On envoie la valeur correspondante "a"(97). 4. Un nouveau mot venant dtre ajout, on reprend alors au dernier caractre pris en compte (ici " "). Le caractre suivant est concatn et forme la chaine " m". Elle nest pas dans le dictionnaire : il faut donc lajouter. On lui aecte donc lentre 258 dans le dictionnaire. On envoie la valeur correspondante " "(32). 5. Un nouveau mot venant dtre ajout, on reprend alors au dernier caractre pris en compte (ici "m"). Le caractre suivant est concatn et forme la chaine "ma". Cette chaine est dj dans le dictionnaire. On concatne le caractre suivant et cela forme la chaine "mai". Elle nest pas dans le dictionnaire : il faut donc lajouter. On lui aecte donc lentre 259 dans le dictionnaire. On envoie donc la valeur correspondante "ma"(256). 6. Un nouveau mot venant dtre ajout, on reprend alors au dernier caractre pris en compte (ici "i"). Le caractre suivant est concatn et forme la chaine "is". Elle nest pas dans le dictionnaire : il faut donc lajouter. On lui aecte donc lentre 260 dans le dictionnaire. On envoie la valeur correspondante "i"(105). 7. Un nouveau mot venant dtre ajout, on reprend alors au dernier caractre pris en compte (ici "s"). Le caractre suivant est concatn et forme la chaine "so". Elle nest pas dans le dictionnaire : il faut donc lajouter. On lui aecte donc lentre 261 dans le dictionnaire. On envoie la valeur correspondante "s"(115). 8. Un nouveau mot venant dtre ajout, on reprend alors au dernier caractre pris en compte (ici "o"). Le caractre suivant est concatn et forme la chaine "on". Elle nest pas dans le dictionnaire : il faut donc lajouter. On lui aecte donc lentre 262 dans le dictionnaire. On envoie la valeur correspondante "o"(111). 9. Un nouveau mot venant dtre ajout, on reprend alors au dernier caractre pris en compte (ici "n"). Le caractre suivant est concatn et forme la chaine "n(eof)". Elle nest pas dans le dictionnaire : il faut donc lajouter. Etant donn le caractre spcique de n de chier, il nest pas ajout au dictionnaire. On envoie la valeur correspondante "n"(110). Au nal, le ux compress sera (109)(97)(32)(256)(105)(115)(111)(110). Lors de la dcompression, le dcodage se fera de manire inverse. Cette compression est ecace pour de gros chiers. Il nen est pas de mme pour un petit chier, comme on le voit ci-dessus dans lexemple : le message est trop court pour pouvoir bncier des avantages de la compression LZW. Il arrive frquemment de combiner LZW et un algorithme de codage statistique : les logiciels tels que ARJ ou PkZip utilisent LZW suivi dun codage de Shannon-Fano.

1.2.5

La compression par antidictionnaire

Un antidictionnaire2 est un ensemble de mots qui napparaissent pas dans le texte. Pour mieux comprendre son fonctionnement, nous allons lillustrer par un exemple :
2 M.Crochemore,

F.Mignosi, A.Restivo, S.Salemi., Data Compression using antidictionnary, 2000.

Soit un texte (binaire) que lon souhaite compresser. Imaginons que le mot 1001 soit dans lanti-dictionnaire. Ds lors, on pourra coder la squence 1000 par 100. En eet, sachant que le mot 1001 est dans lanti-dictionnaire, cest donc que ce mme mot nest pas dans le texte coder. Donc seul un 0 peut suivre la squence 100 dans le texte.

1.3

La compression vido/audio

La premire question que lon pourrait se poser est : Pourquoi compresser ? Il faut savoir quune image vido non compresse (320*240, en 16 bits) occupe environ 1 MB. An dassurer un rafrachissement susant (25 images/sec.), il faudrait ds lors un dbit de 25 MB par seconde, ce qui est trop lev. Sachant quune image de tlvision ore des dimensions galent 640*480, et que le format numrique est au minimum gale 1280*720, on peroit rapidement lutilit de cette compression. An de compresser et dcompresser des ux vido et audio, on utilisera des algorithmes spciques rassembls sous le terme commun CoDec . Ce "codec" est constitu de deux lments : Le COdeur : lalgorithme destin encoder linformation Le DECodeur : lalgorithme dcodant linformation

1.3.1

La compression vido

La compression vido repose sur deux principes : La redondance spaciale prsente dans les images (le fait que des pixels voisins soient corrls) La redondance temporelle (le fait que des images successives aient des parties communes) Dans le domaine de la compression vido, il existe principalement deux types dimage : Les images codes indpendamment des autres : les images intra ( ou frame intra, notes I) Les images codes partir des autres : les frames inter (ou frame inter, notes P et B) La premire image dune squence sera une image intra, les suivantes tant des images inter (P). La succession des images intra et inter dpendra de lalgorithme utilis. Lide sera de coder les changements, les dirences, entre les images, par prdiction. En raison de ces prdictions, des pertes sont souvent gnres. Il est donc ncessaire de rgulirement encoder une frame inter (I), an de "repartir sur une bonne base". De plus, pour acclrer encore le dcodage, on utilisera un autre type dimages : les images B, encodes partir des images prcdentes et suivantes (I ou P). Ainsi, comme lillustre la gure 1.6, en (a), on considre la sortir de lencodeur. Ce sera a bien encod la frame I, suivie de la frame P (encode partir de la frame I). A leur suite, on trouve trois images B, encodes partir des frames I et P. Dans le ux en sortie du dcodeur (pour lachage), on remarque que lordre est modi. Cela implique lutilisation dun marqueur temporelle. Cet ordre correspond bien aux dnitions que nous avons donn plus haut concernant lencodage des images B. Les images I (Intra coded frames) sont codes par JPEG, et dcodes indpendamment des autres. Les images P (Predictive coded frames) sont codes partir de limage I ou P prcdente. Les images B (Bidirectionnal prdictive coded frames) sont codes partir des frames I ou P prcdente et suivante.

Fig. 1.6 La compression vido

Dans la majorit des cas, ces relations entre images seront utilises, cependant, comme nous le verrons avec le M-JPEG, ce nest pas toujours le cas.

1.3.2

MPEG-1 Vido

Cest probablement lun des formats de compression les plus connus. MPEG est lacronyme de Moving Pictures Experts Group, et est le nom dun projet cr en 1988. Le principe de base repose sur lintroduction faite ci-dessus3 . Sans entrer dans plus de dtails, prcisons toutefois le vocabulaire utilis : un ux vido porte le nom de squence vido. cette squence est compose dimages. on utilise toujours le terme "intra", les images "inter" portant galement le nom de non-intra. le ux en entre de lencodeur sappelle donnes dentre. la sortie du dcodeur porte le nom de donnes reconstruites. Enn, si on regarde la partie (a) de la gure 1.6, cette suite dimages est appele ordre de codage. La partie (b) porte le nom dordre dachage.

1.3.3

M-Jpeg (Motion JPEG)

Lorsquon parle de compression vido, si on connait le compression Jpeg, la premire ide est de coder chaque image individuellement par compression Jpeg. Il est alors possible datteindre un dbit aux alentours de 8 10 Mbits/sec. On lutilise principalement dans les studios de montage numrique. Il est aussi important de remarquer quil sagit dun format de compression vido nutilisant pas les images P et B. Notons galement que cette compression nest pas un standard, comme le sont Mpeg-1, et Mpeg-2 par exemple.
3 Pour

plus de dtails, voir "Data compression : the complete reference", D. Salomon.

10

1.3.4

MPEG-1 Audio

Il sagit dune norme nalise en novembre 1992, alors quelle existe depuis 1988. Elle dnit 3 mthodes de compression (layers), dsignes par I, II, et III. Lors de la compression dun ux sonore, il faudra donc slectionner une des 3 mthodes, une rfrence vers cette slection tant prsente par la suite dans le ux compress4 . On notera que ces mthodes peuvent galement tre utilises indpendamment de tout support vido. Le format de chier audio le plus rpandu, le .mp3, est une des mthodes spcie dans la norme : le MPEG-1 Audio Layer III. On pourra relever quelques particularits intressantes : Plus la couche est leve, meilleur est le taux de compression Les couches suprieurs peuvent dcoder les couches infrieurs La couche III peut dcoder les ux compresss par les couches I et II MP3/WMA Ces deux formats sont brevets. Lun par linstitut de recherche Fraunhofer en Allemagne (MP3 dbut 90) et le second par Microsoft (WMA - dbut 00). Dans les deux cas, il sagit dune compression avec perte, o on utilise le principe des frquences masques : loreille ne distingue pas certaines frquences (infrieures 20 Hz, et suprieures 20.000 Hz). On peut ds lors les supprimer an damliorer le taux de compression. A un niveau basique, la mthode de compression est identique : tous deux utilisent un codage de Human pour le codage des chantillons. La distinction des deux formats de compression se fait par une exploitation dirente des caractristiques de loreille humaine. Bien que le dcodage du format mp3 soit libre, les brevets sur lencodage peuvent restreindre lutilisation du format. Mme si il existe des encodeurs libres (Lame, apparu grce la suppression de certains brevets n des annes 90), il existe galement des alternatives Open-Source. On trouvera notamment le format .Ogg (quivalent au format mp3, mais totalement libre) ou encore le format Flac (compression sans perte orant une rduction de 50%).

1.3.5

Mpeg-2 et Mpeg-4

Le MPEG-25 fut cr pour les besoins dun format de compression compatible haut-dbit. On le trouvera principalement dans le contexte des liaisons numriques haut dbit (HDTV) et sur les supports optiques tels que les dvds. Ce format de compression est galement support par les hd-dvds et blu-ray. En ce qui concerne le MPEG-46 , il fut initialement cr pour fournir une qualit vido raisonnable trs bas dbit (de lordre de quelques milliers de bits par seconde). Par la suite, lobjectif fut modi : au lieu de crer un standard de compression, il fut dcid de crer une boite outils dans le but dencourager le dveloppement du multimdia. Alors que la mthode traditionnelle de compression vido et la recherche des corrlations existantes entre les dirents pixels constituant les images, Mpeg-4 se base sur les objets composant ces images. Mpeg-4 comprend un langage de description des objets permettant (visage, eur, vhicule, ...) de spcier
4 Il ne faut pas confondre format compress et conteneur que sont les chiers AVI, QuickTime, OGM ou encore MKV. Ces derniers permettent dassocier un ux compress vido et un chier sonore, avec la possibilit dajouter des informations (chapitrage, menus,...) 5 Voir Introduction To Data Compression, Khalid Sayood, 2006, chap. 18.9 6 Voir Data Compression, the complete reference, David Salomon, 2004, chap. 6.6

11

la fois les objets en tant que tels, ainsi que leurs dplacements dans limage.

1.3.6

Catgorisation des compressions

Il existe plusieurs manires de classer les formats de compression. On peut notamment les scinder comme suit : Par analyse statistique ou par dictionnaire : Human VS LZW Avec ou sans perte (= destructive ou non destructive) : Avec perte : des dtails sont dtruits lors de la compression, et il est impossible de les retrouver par la suite. On utilise les proprits de loreille et de loeil humain pour supprimer les informations inutiles. Exemples : MP3, WMA, Jpeg, ... Sans perte : aucune perte et restitution parfaite aprs dcompression. Exemples : Human, RLE, Zip, ... Symtrique ou asymtrique : Symtrique : le temps de calcul ncessaire pour la compression ou la dcompression est quivalent. Il sagit par exemple dalgorithmes de transmission de donnes. Asymtrique : lune des deux phases est plus rapide que lautre, tels que les algorithmes darchivage massif.

1.4

Le stockage des donnes

Aprs codage des informations, les donnes doivent tre stockes sur un support quelconque. Dans la suite du cours, nous expliciterons : les supports de type carte magntique les supports optiques CD (laser infrarouge) DVD (laser rouge) HD-DVD (laser bleu) Blu-Ray (laser bleu) les supports utilisant la technologie holographique

1.4.1

Reprsentation de quelques grandeurs binaires

Dans la gure 1.7, on compare des tailles en octets des tailles plus "physiques". Lerreur dapproximation est volontaire, dans un but de reprsentation.

Fig. 1.7 Valeurs reprsentatives en octets

12

1.4.2

Le support magntique

Le principe est dencoder les informations partir dun champ magntique. La bande magntique est constitue de pigments (p.ex. oxyde de fer). Par lintermdiaire dune tte dcriture (un lectro-aimant), on induit un champ magntique qui va marquer ces pigments et ainsi y retenir une information. On parle de support coercitif . Lors dune lecture, la tte remarquera ces modications de champs magntiques. La tension lectrique induite sera traduite et restituera les informations. Les supports magntiques sont encore couramment utiliss : disquettes, bandes magntiques et disquettes haute-densit (Zip, Jaz, SuperDisk, PeerLess,...). Ce support rencontre toutefois plusieurs problmes : Usure relativement rapide Consommation forte en nergie Taille de certains supports de stockage En raison de ces inconvnients, des recherches sont actuellement menes (notamment chez HP). Le type de stockage rsultant porterait le nom de "Stockage rsolution atomique". Stockage rsolution atomique (ARS) Ce type de support de stockage permettrait 1000 Gbits/in2 (1 inch = 2.54 cm). Le principe est dutiliser un rseau de pointes microscopiques qui crivent et lisent sur un matriau spcique. Une partie mcanique dplacera le support dcriture. Ce matriau a la particularit de possder deux tats selon sa temprature, lun servant lcriture, lautre la lecture. Une pointe sous tension envoie un faisceau dlectrons qui crira sur le matriau lorsque la temprature sera assez leve, et aprs refroidissement, une autre pointe lira sur la surface laide dun faisceau plus faible. Plusieurs problmes importants restent rsoudre : Le mcanisme de dplacement doit avoir une prcision de lordre du nanomtre Le systme doit sutiliser dans une atmosphre ferme pour viter la dispersion des lectrons la sortie de la pointe

1.4.3

Support optique

En rgle gnrale, pour les supports optiques, on utilisera le systme de chiers UDF (Universal Disk Format). Celui-ci est propre au stockage de donnes sur disque optique. Descendant de la norme ISO9660, cest par son intermdiaire quil est possible dajouter des chiers sur un disque aprs une premire gravure (multi-session). Enn, ce systme de chiers ore une compatibilit entre les systmes dexploitation (DOS, Windows, Linux, OS/2, Macintosh et UNIX) Le Compact Disque CD-Rom : Les donnes sont incrustes dans une couche de plastique (polycarbonate) et recouvertes par une couche daluminium (ou dor, ou dargent). Le tout est recouvert par une couche de vernis et par une couche utilise pour la prsentation du disque (label). Ce type de stockage est durable car aucune partie du lecteur ne touche la surface des donnes. Il utilise les proprits de rfraction de la lumire pour identier les 1 et les 0 daprs les creux et plats (pits and lands).

13

CD-R : Une couche photosensible (entre le polycarbonate et laluminium) est brule par le laser du graveur, ce qui permet de reproduire les trous prsents dans un CD-Rom classique. CD-RW : La couche inscriptible est un alliage de plusieurs matriaux (argent, indium, antimoine, et tellure). Deux couches dilectriques sont insres entre le polycarbonate, cette couche inscriptible et la couche mtallique rchissante. Suivant la temprature applique, diverses ractions ont lieu au niveau des atomes la composant, ayant pour eet de laisser passer ou non la lumire. Le DVD (Digital Versatil Disc) Le support de stockage est similaire au CD-Rom, mais le code correcteur derreurs est plus volu et ncessite moins de bits.

Fig. 1.8 Comparaison CD - DVD

En jouant sur la longueur donde du laser du lecteur (ou du graveur) et de la transparence des couches du disque, on peut lire (graver) plusieurs couches prsentes sur le disque. Le HD-DVD Au lieu dutiliser le traditionnel laser rouge des graveurs conventionnels, on utilise ici le laser bleu, dont la longueur donde est plus courte.

Fig. 1.9 Comparaison CD - DVD - HD-DVD Le codage utilis est le ETM (Eight to Twelve Modulation). Il consiste en une table de correspondance entre les dirents octets possibles et leur traduction sous la forme dune suite de 12 bits. Le Blu-Ray Il est lui aussi bas sur la technologie du laser bleu. Il possde ds lors une nesse de gravure gale celle du HD-DVD. Ce support est plus performant en termes de capacit de stockage que le HD-DVD car le lecteur utilise une lentille plus volue.

14

Fig. 1.10 Comparaison DVD - Blu-Ray

Le codage des donnes utilis par le Blu-Ray porte le nom de RLL (Run Length Limited). Son principe est illustr la gure 1.11. Tout comme dans le cas du codage ETM, il sagit dune table de correspondance.

Fig. 1.11 Codage des informations sur un disque Blu-Ray Sur la gure 1.12, on comprend lavantage de ce type de codage. Si on le compare au codage MFM, on remarque que les transitions sont beaucoup moins nombreuses. Il est ds lors possible dacclrer la frquence dhorloge.

Fig. 1.12 Codage RLL 2,7

15

Remarques : Le thme tant en constante volution, certaines remarques seront peut-tre obsoltes dans un laps de temps plus ou moins court. A lheure actuelle, tous les formats sont compatibles. Le problme de la cartouche du Blu-Ray fut supprim grce une technologie mise au point par TDK (application dune couche de polymre protectrice). Le disque tant protg, il ntait donc plus ncessaire de conserver la cartouche.

Fig. 1.13 Traitement de surface Si on compare les tailles des supports, le hd-dvd permet de stocker 30Go (2 couches de 15Go), alors que le Blu-Ray autorise jusqu 50Go (2 couches de 25Go). En 2005, Toshiba a annonc un Hd-DVD pouvant stocker 45 Go (3 couches). Au CES7 2006, TDK a prsent un prototype Blu-Ray de 100 Go (4 couches). Selon Sony, des recherches ont lieu pour crer des disques Blu-Ray de 8 couches et ainsi porter la taille du stockage 200 Go. Samsung a annonc larrive dans le courant 2006-2007 dun lecteur compatible tout format (cd, dvd, hd-dvd et blu-ray. Les chaines de production pour le HD DVD sont sensiblement moins coteuses. Hormis la capacit de stockage, les dirences sont minimes (dirences au niveau des lentilles utilises, de la puissance du laser ncessaire, ...). Les deux supports sont compatibles avec les mmes formats de compression vido et utilisent la mme longueur donde du laser. Autres supports Il existe plusieurs autres supports optiques plus ou moins rpandus : FMD (Fluorescent MultiLayer Disc) : ce disque utilise les proprits de uorescence au lieu des proprit de la rexion. Dun point de vue thorique, il pourrait contenir jusqu cent couches. DMD (Digital Multilayer Disc) : il est bas sur le FMD. Il peut stocker jusqu 21 Go par couche, mais uniquement sur 2 couches (jusqu prsent). Cependant, il ny a plus dvolutions depuis 2004. VMD (Versatile Multilayer Disc) : Concurrent des HD-dvd et Blu-ray, il utilise le laser rouge et autorise entre 20 et 100 Go par couche. Il na malheureusement pas de soutien de la part des industries. EVD (Enhanced Versatile Disc) : Cest lquivalent du dvd en Chine. Dune capacit de 8.5 Go, il utilise encore le laser rouge. FVD (Forward Versatile Disc) : Semblable au dvd Taiwan. Il peut renfermer 6 Go et utilise lui aussi le laser rouge. Recherches en cours : le support holographique Un nouveau type de cupport fait de plus en plus parler de lui : le support holographique. On parle ds lors de HDSS (Holographic Data Storage System). Les disques conventionnels orent une lecture deux dimensions. Avec ce systme, il est possible de stocker les donnes de faon volumiques, cest--dire dans lpaisseur mme du mdia. Cette technique repose sur une proprit des interfrences naissant entre deux ondes lors de leur passage dans un matriau
7 Consumer

Electronics Show

16

photosensible. Ces interfrences provoquent dans le matriau une srie de transformations physiques et/ou chimiques.

Fig. 1.14 Ecriture et lecture sur un support holographique Lavantage est que suivant langle des rayons utiliss, on peut superposer les informations, et y accder de manire indpendante. Pour ce faire, on joue sur langle dincidence du rayon de rfrence (Reference Beam).

Fig. 1.15 Ecriture et lecture sur un support holographique (II) Par ce procd, il pourrait tre possible de crer des lments de mmoire vive de 25 Go lunit, des disques durs de 1 To (1000 Go) par plateau, ou encore des data warehouse de 1 Po (1 000 000 Go). Holographic Versatile Disc (HVD) : A partir de cette technologie, il serait possible de crer des supports de stockage trs intressants. Quelques prototypes de disques optiques reposant sur cette technologie existent dj. Bas sur le laser bleu, on parle de 1.6 To sur un disque de 12 cm en 2009. Dans le courant de lanne 2006, des disques optiques de 200 Go, et des cartes mmoire de 30 Go devrait voir le jour. Linconvnient reste cependant de taille : leur prix lev.

17

1.5

Ressources

Ressources bibliographiques : Data compression, the complete reference, David Salomon, 2004, Springer. Introduction to Data compression, Khalid Sayood, 2006, Morgan Kaufmann. Illustrations : EMC Annual Report 2000 DVD Forum, Jean-Jos Wangue http://www.storagereview.com/ CST-Commission Suprieure Technique de limage et du son In-Phase Technologies

Ressources Internet : http://www.dataligence.com/ http://www.pcguide.com/ref/hdd/geom/ http://www.vulgarisation-informatique.com/graveur.php http://www.research.ibm.com/journal/rd/443/ashley.html http://www.optware.co.jp/english/ http://www.inphase-tech.com/ http://www.nmeinc.com/

18

Vous aimerez peut-être aussi