Vous êtes sur la page 1sur 15

B.

La numrisation des sons

1. Le mcanisme de l'audition

a. Qu'est-ce que le son ?

I. DE LA VIBRATION NAIT LE SON :

Phnomne moins vident saisir que pour les images, il est ncessaire de rappeler quelques notions de base sur le
son. Le son est cr lorsqu'un objet vibrant transmet sa vibration l'air ambiant. La vibration de l'air se propage alors
et atteint nos oreilles, o elle fait vibrer nos tympans. L'oreille interne transforme alors cette information mcanique
en signaux lectriques et chimiques que le cerveau sait interprter. Le son est donc une grandeur analogique qu'il
convient de transformer si on veut la stocker pour la reproduire. C'est le rle du microphone (qui transforme la
vibration acoustique en un signal lectrique), puis du pramplifcateur (qui amplife le niveau lectrique extrmement
faible du microphone).

II. ENREGISTREMENT ANALOGIQUE:

Pendant de nombreuses annes, la seule technologie connue tait l'enregistrement analogique du son.
Enregistrements sur des cylindres, puis des disques en cire et en vinyle, et enfn sur des bandes magntiques. La
technologie analogique a atteint ses limites dans les annes 80. Les dispositifs ne permettaient plus d'amlioration
signifcative de la qualit, notamment l'augmentation de la dynamique et la diminution du bruit de fond.

Historique rapide de l'enregistrement des sons :

1807: L'Amricain Thomas Young invente un instrument capable d'inscrire les variations acoustiques sur la surface
d'un cylindre couvert de suie.

1877: Thomas Edison construit le premier systme permettant l'enregistrement et la reproduction des sons, le
phonographe. La transformation entre les ondes acoustiques et les informations enregistres tait accomplie par la
gravure d'une feuille d'aluminium recouvrant un cylindre rotatif.

1889: Le premier enregistrement magntique est ralis par le physicien Danois Valdeman Poulsen. Cet appareil, le
"Tlgraphon", utilise un cble d'acier enroul hlicodalement autour d'un cylindre tournant sous un lectro-
aimant, connect un microphone au charbon ou un casque.

1905-1926: L'industrie du 78-tours croit rapidement, et la recherche sur l'enregistrement magntique pitine.

1931: En Allemagne, Pfeumer et AEG conoivent et utilisent le premier magntophone avec une bande similaire
celles d'aujourd'hui.

1947: Lancement du 45-tours microsillon

1948: L'utilisation des magntophones devient plus courante, mais ils sont toujours lourds et encombrants. Les
magntophones mobiles sont installs dans des camions.

1949 : disque microsillon en vinyle, commercialis en France

1955: Lancement des magntophones strophoniques.

1974: Les premiers magntophones numriques PCM pour instrumentation font leur apparition.

1979 - Les frmes Philips, Sony et Hitachi prsentent le Compact Disc (CD), marque dpose, qui remplacera petit
petit le disque microsillon.

1983 - Le DAT (magntophone numrique) est annonc par la frme Sony (la commercialisation sera faite en 1987).

1992 - Sony prsente le MiniDisc numrique et Philips commercialise la Digital Compact Cassette, cette dernire
devant prendre la suite de la Compact Cassette (CC).

Cours numrisation (c) JMM 2009-2010 version du 22/09/09 page 15/71


1995/96 - Apparition des premiers graveurs de CD-R vendus dans le grand-public, puis des disques CD-RW
renregistrables (disques magnto-optiques).

1998 -Premier microphone numrique (Beyer).

III. ENREGISTREMENT NUMRIQUE:

C'est au cours des annes 80 que la numrisation du son a progressivement envahi les studios d'enregistrement, puis
s'est installe chez l'utilisateur fnal. Les ordinateurs multimdias modernes permettent de donner un nouvel intrt
au son numrique, puisqu'il devient possible d'enregistrer des sons moindre frais sur son disque dur ou sur un CD
enregistrable. Le tout est de savoir comment s'y prendre, car le numrique n'est pas un gage de qualit en soi. Un
enregistrement rat restera toujours un enregistrement rat... ft-il numrique !

2. Les diffrents types de documents analogiques "sons" numriser

Des enregistrements sur tous types de supports :


disques vinyles 78, 45 et 33 tours/min (1899 1960s)
cassettes audio et micro cassettes (1965 Present)
bandes (6,25 et 6,35 mm, 1,2 - 2,4 - 4,75 - 9,5 - 19 cm/s, 2 et 4 pistes - c. 1945 Prsent)
cylindres29 de cire (2 4 minutes d'enregistrement - 1888 1929)
fl magntique (15 30 minutes d'enregistrement - c. 1945 1955)
son des vido (Hi8, Video 8, DV)
...
Sans oublier les vnements live !

3. Les concepts de base (Dfinitions/Vocabulaire)

a. Numrisation d'un son

Voir les prconisations du rapport Best Practices For Audio Preservation 30 pour complter les informations ci-
dessous.

Comme nous l'avons dfni dans l'introduction du cours, le son numriser doit tre chantillonn et quantif.

I. L'CHANTILLONNAGE D'UN SON

Le son doit tre chantillonn une frquence au minimum suprieure au double de la frquence maximale contenue
dans le signal analogique (thorme de Shannon). Notre oreille peroit les sons environ jusqu 20000 Hz (au grand
maximum et partir de l'adolescence, a ne cesse de baisser). Donc la frquence d'chantillonnage doit tre au moins
de l'ordre de 40 000 Hz. Quand ce n'est pas le cas comme on le verra ci-dessous, il est indispensable de supprimer les
frquences suprieures la moiti de l'chantillonnage prvu, par un fltre passe-bas. Seules les frquences infrieures
une valeur fxe seront transmises au sortir du fltre. On parle aussi de limitation de la bande passante .

Frquences d'chantillonnage normalises :


32 kHz : pour la radio FM en numrique (bande-passante limite 15 kHz)
44.1 kHz : pour l'audio professionnelle et les compact-disques
48 kHz : pour les enregistreurs numriques multipistes professionnels et l'enregistrement grand public (DAT,
MiniDisc).
96 kHz (en 5.1) : norme pour le DVD-Audio.

II. LA QUANTIFICATION D'UN SON

Plus le nombre de bits utilis pour le codage sera grand, meilleure sera la ressemblance avec le signal original.

Les systmes grand-public actuels (CD, DAT) travaillent avec 16 bits, soient 65536 niveaux.

29 http://cylinders.library.ucsb.edu/ (visit le 19/07/2007)


30 http://www.dlib.indiana.edu/projects/sounddirections/papersPresent/sd_bp_07.pdf (visit le 24/07/2008)

Cours numrisation (c) JMM 2009-2010 version du 22/09/09 page 16/71


Le standard du DVD audio et des nouvelles machines professionnelles est de 24 bits 96 kHz. Ces caractristiques
permettent encore d'amliorer la dynamique et la bande-passante des signaux audio, une reproduction encore plus
proche de la ralit, ainsi que la possibilit de se livrer des traitements numriques plus sophistiqus.

Comparaison des formats CD-Audio et DVD-Audio31 :

CD-audio DVD-audio

Capacit 640 Mo 4,7 Go

Nombre de canaux 2 (stro) 26

Dure denregistrement 74 minutes 74 min en 6 canaux

Nature du signal audio PCM32 PCM et MLP33

Frquence d'chantillonnage 44, 1 kHz Jusqu 192 kHz

Taux de transfert 1,4 Mbps 9,6 Mbps

Le concurrent du DVD-Audio est le Super-Audio CD dont les performances sont comparables mais les technologies
sont diffrentes et incompatibles. Jusqu' preuve du contraire, les lecteurs aussi sont incompatibles.

Quel format employer en fonction de la qualit souhaite ?

Type d'enregistrement Qualit souhaite Format employer

Studio / Master 48~96 KHz - 16~24 bits linaire - stro

CD 44,1 KHz - 16 bits linaire - stro


Musique strophonique
Archive qualit CD 44,1 KHz - 16 bits - MPeg 256K - Stro

Assez bonne qualit pour


32 KHz - 16 bits - MPeg 128K Stro-joint
transmission sur Internet

Studio / Master 48~96 KHz - 16~24 bits linaire - mono

CD 44,1 KHz - 16 bits linaire - mono


Voix ou musique mono
Archive qualit CD 44,1 KHz - 16 bits - MPeg 128K - mono

Assez bonne qualit pour


32 KHz - 16 bits - MPeg 64K mono
transmission sur Internet

Son type "tlphone" 16 KHz - 8 bits - Mono

La taille mmoire occupe par du son numrique :

Un enregistrement de qualit CD (44,1 kHz, 16 bits stro) occupe


1,4 Mbits/s soit environ 10 Mo / mn (environ)

A la diffrence des images, les sons numriques doivent subir un processus de reconversion en valeurs lectriques
analogiques pour pouvoir tre reprsents. Les images, elles, peuvent tre constitues directement de pixels de
valeurs de couleurs ponctuellement trs prcises et correspondant directement l'information numrique. Pour le
son, on ne peut pas se passer de microphones, d'enceintes et de casques (et de nos oreilles ...)
31 http://www.son-video.com/Conseil/Hif/DVDAudio.html (visit le 19/07/2007)
32 http://en.wikipedia.org/wiki/PCM (visit le 19/07/2007)
33 http://en.wikipedia.org/wiki/Meridian_Lossless_Packing (visit le 19/07/2007)

Cours numrisation (c) JMM 2009-2010 version du 22/09/09 page 17/71


b. La mesure des sons

I. LES DCIBELS

(Source34).

C'est un fait d'exprience ... nos sensations physiques " varient peu " lorsque la grandeur provoquant la stimulation
" varie beaucoup ". Fait surprenant mais vrifable : lorsque nous doublons la puissance d'un appareil producteur de
son, c'est peine si nous nous apercevons de l'augmentation de volume !

C'est l'quipe de Graham Bell qui, pour la premire fois de l'histoire, a dvelopp une technique dont l'aboutissement
tait l'apprciation de l'un des sens humains : l'audition. Il fallait s'adapter et l'on chercha une fonction qui, comme
les sensations, varie peu quand la variable varie beaucoup. Tous les types de logarithmes rpondent ce critre, en
particulier le logarithme dcimal.

Observons qu'il s'agit, non pas de mesurer, mais de comparer deux sensations. Ds lors, on tablit cette comparaison
en prenant le logarithme du rapport des puissances (au sens de la physique) des grandeurs qui provoquent les deux
sensations. Ce nombre, cens reprsenter une diffrence de sensations, est donn en Bel, en hommage Graham Bell.

P2
Ecart de sensations en dciBel (dB) = 1 0log
P1
Jusqu'ici, les dcibels on servi mesurer des variations d'une grandeur. Ils peuvent servir reprer le niveau d'une
grandeur physique par rapport un repre appel 0 dB et choisi par pure convention. La puissance sonore (en mW)
qui correspond 0 dB rsulte d'une convention internationale. C'est la puissance considre comme minima de
perception par un chantillon moyen de population. Cette dfnition est trs arbitraire et dpend la fois des
conditions de vie des personnes (campagne calme ou ville bruyante) et du type de bruit considr (stridences, bruit
sourd des autos, ptarades etc.).

La mesure de la pression acoustique se fait en dcibel (dB)35

X
La formule X dB=10log signife qu'une augmentation d'un dciBel correspond une pression acoustique
X0
multiplie par 10. La valeur de rfrence est le seuil de l'audition (un moustique volant 3 mtres de notre oreille).

Le seuil de l'audition est fx 0dB, le seuil de la douleur est de 120dB. Pour bien comprendre ce que signifent ces
chiffres, la pression acoustique est multiplie par un facteur 1000 milliards entre 0 et 120 dB.

Quelques chiffres sur les intensits sonores :


0 dB : seuil d'audibilit
De 0 10 dB : dsert
De 10 20 dB : cabine de prise de son
De 20 30 dB : conversation voix basses, chuchotement
De 30 40 dB : fort
De 40 50 dB : bibliothque, lave-vaisselle
De 50 60 dB : lave-linge
De 60 70 dB : sche-linge, sonnerie de tlphone, tlviseur, conversation courante
De 70 80 dB : aspirateur, restaurant bruyant
De 80 90 dB : tondeuse gazon, klaxon de voiture
De 90 100 dB : route circulation dense, trononneuse, atelier de forgeage
De 100 110 dB : marteau-piqueur moins de 5 mtres dans une rue, discothque
De 110 120 dB : tonnerre, atelier de chaudronnerie
120 dB : seuil de la douleur
De 120 130 dB : sirne d'un vhicule de pompier, avion au dcollage ( 300 mtres) , concert amplif
180 dB : dcollage de la fuse Ariane, lancement d'une roquette
194 dB : son le plus bruyant possible
Source : wikipedia36

Attention de ne pas confondre compression dynamique des sons avec la compression informatique (voir ci-aprs).
La dynamique (audio) c'est l'cart existant entre le son le plus faible et le plus fort dans un morceau. La 9e symphonie
de Beethoven est connue pour tre une des oeuvres de la musique classique ayant la plus grande dynamique. Cela

34 http://perso.orange.fr/arsene.perez-mas/signal/decibels/decibels.html (visit le 19/07/2007)


35 http://en.wikipedia.org/wiki/Decibels (visit le 19/07/2007)
36 http://fr.wikipedia.org/wiki/D%C3%A9cibel (visit le 25/09/2008)

Cours numrisation (c) JMM 2009-2010 version du 22/09/09 page 18/71


signife que dans cette oeuvre il existe des passages qui sont extrmement doux (pianissimo) et d'autres au contraire
extrmement forts (fortissimo). Il est possible suivant les interprtations et les effectifs qu'en concert les 100 dB de
dynamique soient dpasss, ce qui est norme. La compression dynamique audio consiste rduire artifciellement
cette dynamique, cet cart entre les sons faibles et les sons forts. Une srie d'articles de blog retrace l'histoire de la
compression dynamique du son enregistr et diffus. C'est passionnant mais cela dpasse largement la porte de ce
cours37.

II. LES FRQUENCES DES SONS

Les frquences des signaux sonores se mesurent en Hz, et sont l'inverse de la longueur d'onde du signal. Si vous avez
d'excellentes oreilles, les limites frquentielles de votre spectre d'audition s'tendront de 20Hz (vers le grave) jusqu'
15-20kHz (dans les aigus).

Attention, notre audition nest pas aussi transparente quon pourrait le croire : nous avons l'impression d'entendre
aussi bien les sons aigus, que le mdium ou les graves mais ce n'est pas le cas. L'oreille est trs sensible aux alentours
de 2,8-3 kHz, ce qui n'est pas un hasard puisque c'est la frquence moyenne de la voix humaine38.

Important : il n'y a aucune raison de limiter la numrisation de l'audio aux frquences et puissances admises et
reconnues par l'oreille humaine. Les infra sons et surtout les ultrasons peuvent parfaitement tre capts et numriss.
Il faudra simplement un dispositif de transcodage (visuel ou audio) pour les rendre accessibles (visibles) aux
humains.

c. La visualisation d'un son

Outre l'coute, le travail sur un son sera grandement facilit par les techniques permettant de le visualiser...

I. VOIR LA PUISSANCE DU SON EN FONCTION DU TEMPS

En utilisant Audacity, on peut visualiser un graphique reprsentant la puissance acoustique en fonction du temps.
Les zones faiblement actives reprsentent des silences.

II. VOIR LA DISTRIBUTION INSTANTANE DES FRQUENCES D'UN SON

D'autres visualisations sont possibles, par exemple un diagramme frquence instantan :

37 http://blog.formations-musique.com/index.php?2009/04/02/49-sommaire-de-l-histoire-de-la-compression-dynamique-audio (visit le
29/8/2009)
38 http://www.restauration-audio.com/Les-traitements-psychoacoustiques_a22.html (visit le 19/07/2007)

Cours numrisation (c) JMM 2009-2010 version du 22/09/09 page 19/71


... et un sonagramme qui reprsente en dynamique quelles frquences sont prsentes dans un signal un instant
prcis :

4. La prsentation de la chane numrique

On peut reprsenter la chane de traitement numrique par le schma suivant :

Cours numrisation (c) JMM 2009-2010 version du 22/09/09 page 20/71


Chane de traitement numrique du son
Capteur analogique :
Stockage,
microphone, tte de lecture Transducteur analogique :
traitement ou
magntophone, diamant haut-parleur
transmission
platine tourne-disque

AA CAN Traitement CNA AA

num r i q ue
anal og i q ue
Conver t i sseur

anal og i q ue
num r i q ue
Conver t i sseur
amplificateur amplificateur
Onde Onde
analogique analogique
sonore sonore

10110010
01001011
00111101
10110100
10110010
01001011
00111101
10110100
10110010
01001011
00111101
10110100

Domaine analogique Domaine numrique Domaine analogique

Une fois converti en numrique, le son peut subir toutes sortes de traitement de transformation et de stockage.

Pour un expos complet des meilleures pratiques de numrisation des sons, cf Capturing Analog Sound for Digital
Preservation: Report of a Roundtable Discussion of Best Practices for Transferring Analog Discs and Tapes, March
2006 39 voir aussi, en franais, l'article Numrisez vos vinyles grce GarageBand 40
http://www.cuk.ch/articles/3040

5. Les matriels et logiciels

Voir sur le site d'un passionn de restauration numrique une liste d'appareils de niveau professionnel41.

a. La lecture

I. POUR LES DISQUES

Ncessite un capteur de la meilleure qualit possible et un support analogique le plus propre possible. Il existe des
appareils spcialiss : la KEITH MONKS cleaning machine. Machine professionnelle destine nettoyer en
profondeur les 78 tours et les vinyles.

Il existe des platines disques professionnelles, telles que :


la Platine tourne disques Bang & Olufsen BEOGRAM 4002 bras tangentiel.
Platine tourne disques professionnelle STANTON avec un choix de plusieurs cellules et diamants de diffrentes
tailles, pour s'adapter le mieux possible aux caractristiques du sillon lire. Possibilit de lecture l'envers,
souvent utile pour les sillons fatigus d'tre lus l'endroit...

II. POUR LES BANDES

La rfrence reste le STUDER REVOX PR99. Machine professionnelle de fabrication Suisse, la plus utilise dans les
radios et les studios d'enregistrement durant ces 20 dernires annes. 2 pistes Vitesses 19 et 38 cm/s.

39 http://www.clir.org/pubs/reports/pub137/pub137.pdf
40 http://www.cuk.ch/articles/3040 (visit le 29/08/2009)
41 http://www.restauration-audio.com/index.php?action=article&id_article=174098 (visit le 19/07/2007)

Cours numrisation (c) JMM 2009-2010 version du 22/09/09 page 21/71


b. La pr-amplifcation

Le pramplifcateur effectue un premier traitement analogique sur le son (cette tape inclut les oprations de mixage
dont la complexit dpasse le cadre de ce cours).

On branche ensuite le pramplifcateur l'entre line-in de la carte son de l'ordinateur (o, pour des projets trs
pointus, on branche un Convertisseur Analogique Numrique externe)

c. Les logiciels d'enregistrements

Un logiciel spcialis intervient alors pour numriser le son entrant dans l'ordinateur (rglages effectuer pour la
qualit de l'chantillonnage et de la quantifcation).
Par exemple on peut employer Audacity, logiciel Open Source, multi-plate formes et trs complet permettant
d'effectuer toutes sortes de traitements. Des experts utilisent Audacity pour numriser professionnellement des
sons. Voir l'excellent article Digitizing records and tapes with Audacity 42
Par contre, la rfrence reste Pro Tools HD distribu par DIGIDESIGN. diteur audio rput dans tous les studios
du monde.

d. Le traitement

Vise supprimer les silences non dsirs, nettoyer l'enregistrement d'ventuels cracks , de fltrer les frquences
contenant trop de souffe, etc... Des logiciels trs spcialiss permettent d'effectuer ces oprations trs coteuses en
temps de faon semi-automatique. Exemple :
CEDAR DC1 Declicker. Capable d'effectuer 50 millions d'oprations la seconde ce qui lui permet
d'radiquer plus de 2500 "scratches" ou "clicks" par seconde. Systme coteux mais un des meilleurs.
Aural exiter APHEX 204. Permet de redonner de l'paisseur, de la brillance et ses harmoniques natives
un enregistrement analogique altr par le temps et l'usure des lectures.
Il est possible d'couter des exemples sonores43 de restauration44.

6. Enregistrement et compression de l'audio

Ci-dessous un tableau des tailles de fchiers non compresss en fonction de la qualit de la numrisation voulue. On
comprends vite la ncessit de trouver un moyen d'en rduire la taille.
Qualit Echantillonnage (kHz) Quantifcation (bits) Mono/Stro Taille (1 min, en Ko)
Tlphone 11 8 mono 660
Radio 22 8 stro 2560
Radio 22 16 stro 5120
CD Audio 44 16 stro 10 240

Les formats audio sont multiples et il est parfois diffcile de s'y reprer. Consultez un tableau complet 45 et trs
document sur le site Sustainability of Digital Formats Planning for Library of Congress Collections .

Voici les plus courants :

a. Formats sans pertes

Note : les codecs gnralistes de compression de fchiers informatiques tels que zip, bzip, ... sont notoirement
ineffcaces sur les fchiers de donnes audio.

Pour une analyse dtaille des diffrents formats audio sans pertes , c'est--dire partir desquels on peut
reconstituer la version numrique du fchier audio initialement numris, voire la page Lossless comparaison 46.

42 http://www.linux.com/articles/119550 (visit le 17/06/2008)


43 http://www.restauration-audio.com/index.php?action=article&id_article=174099 (visit le 19/07/2007)
44 http://www.restauration-audio.com/Qu-est-ce-que-la-restauration-sonore-_a13.html (visit le 19/07/2007)
45 http://www.digitalpreservation.gov/formats/fdd/sound_fdd.shtml (visit le 19/07/2007)
46 http://wiki.hydrogenaudio.org/index.php?title=Lossless_comparison (visit le 19/07/2007)

Cours numrisation (c) JMM 2009-2010 version du 22/09/09 page 22/71


I. WAV (FORMAT OUVERT)

Wav (.wav) Wave est le standard pour l'audio en format non compress, en utilisant l'encodage PCM 47. Les CD Audio
stockent leurs donnes dans un format proche du WAV. Les logiciels d'dition sonore ncessitent galement que les
sons soient dans ce format pour pouvoir les diter. Des logiciels comme Audacity permettent tout de mme
d'importer des fchiers mp3 qu'ils reconvertissent d'abord en .Wav (Source48).

Codage/dcodage dans Audacity notamment.

II. MPEG-4 AUDIO LOSSLESS CODING (ALS) MPEG

La compression sans pertes est l'extension la plus rcente du standard audio MPEG-4, destine aux signaux audio en
haute dfnition. La technologie de base a t dveloppe par le NUe Group (Fachgebiet Nachrichtenbertragung)
l'universit technique de Berlin. La norme ISO du MPEG-4 ALS est ISO/IEC 14496-3:2005/Amd 2:2006.49 Ce format
n'est pas encore rpandu du fait du manque (depuis 2006) d'encodeurs et de dcodeurs.

III. APPLE AAC LOSSLESS (FORMAT PROPRITAIRE)

Apple Lossless Audio Codec (ALAC) est un format d'encodage sans perte (lossless) apparu en 2004. Le format a t
dvelopp par Apple pour combler une lacune de la norme MPEG-4, dont la partie consacre l'encodage sans perte
tarde encore tre fnalise (cette extension existe depuis 2006, cf le codec ALS). ALAC est un format propritaire et
qui s'adresse majoritairement aux utilisateurs d'iTunes et de l'iPod.

l'instar de tous les formats sans perte, ALAC permet de compresser sans aucune dgradation des fchiers musicaux
au format PCM un taux de compression voisin de 40 50% (les ratios mesurs peuvent cependant grandement
varier en fonction principalement du volume de la piste : plus le volume est fort (pour la pop music par exemple),
plus le ratio est mauvais, l'inverse du classique.

En regard des formats concurrents, ALAC prsente une effcacit moindre. Cette contre-performance est toutefois
partiellement dlibre, puisque le format a t essentiellement dvelopp en vue d'tre dcod par des appareils
bien moins puissants et autonomes que les ordinateurs de bureau (comprendre des baladeurs et l'ipod en
particulier). Une meilleure compression suppose en effet une complexit accrue, complexit ayant pour consquence
de rduire l'autonomie des appareils nomades.

Ainsi, les quelques pourcentages perdus en terme de ratio de compression sont compenss par une implmentation
matrielle facilite. Nanmoins, ALAC reste actuellement infrieur aux autres formats sans perte de faible complexit.
FLAC prsente ainsi une rapidit suprieure pour un taux de compression quasi-identique, alors que WavPack
bnfcie de performances en tout point (ratio de compression, vitesse d'encodage et de dcodage) suprieures.

Codage/Dcodage : iTunes, QuickTime

(Source50).

IV. FLAC (FORMAT OUVERT)

Free Lossless Audio Codec (FLAC) est un codec libre de compression audio sans perte. Un enregistrement
numrique (tel qu'un CD) cod en FLAC peut tre dcompress pour obtenir une copie identique des donnes audio.
Les sources audio peuvent tre codes en FLAC pour permettre une rduction de taille de 30 70 %. La rduction de
taille est dpendante de la source : plus le signal est constitu d'ondes rgulires (sons naturels), meilleure est la
compression. Par contre, un signal alatoire (bruit) ne se compresse pas trs bien. Ce phnomne se constate pour tous
les formats de compression sans perte.

FLAC est appropri pour tous les archivages de donnes audio, avec le support des mtadonnes, image de
couverture, ainsi que pour la recherche rapide. FLAC est libre et open source ; ne ncessitant pas le paiement de
redevances, il est bien support par de nombreux logiciels.51

Codage/dcodage par de nombreux outils gratuits ou OpenSource dont Audacity, lecture par VLC.

47 http://fr.wikipedia.org/wiki/Modulation_d%27impulsion_cod%C3%A9e (visit le 29/08/2009)


48 http://fr.wikipedia.org/wiki/WAVEform_audio_format (visit le 7/09/2009)
49 http://en.wikipedia.org/wiki/MPEG-4_ALS (visit le 29/08/2009)
50 http://fr.wikipedia.org/wiki/Apple_Lossless (visit le 19/07/2007)
51 http://fr.wikipedia.org/wiki/Free_Lossless_Audio_Codec (visit le 7/09/2009)

Cours numrisation (c) JMM 2009-2010 version du 22/09/09 page 23/71


b. formats avec pertes

On utilise pour ce faire les limitations de l'oreille humaine qui ne peroit pas certaines donnes audio 52 et on code de
faon compacte des donnes rptitives.

I. MP3 (FORMAT PROPRITAIRE)

Le MPEG-1/2 Audio Layer 3, plus connu sous son abrviation de MP3, est la spcifcation sonore du standard MPEG-
1, du Moving Picture Experts Group (MPEG). C'est un algorithme de compression audio (voir aussi codec) capable de
rduire drastiquement la quantit de donnes ncessaire pour restituer de l'audio, mais qui, pour l'auditeur,
ressemble une reproduction du son original non compress, c'est--dire avec perte de qualit sonore signifcative
mais acceptable pour l'oreille humaine.

L'extension de nom de fchier est .mp3 et le type MIME est audio/mpeg[1]. Ce type de fchier est appel fchier
MP3 .

Le codage MPEG-1/2 Layer 2 est n avec le projet Digital Audio Broadcasting (radio numrique DAB) qui fut lanc
par le Deutsche Luft und Raumfahrt. Ce projet a t fnanc par l'Union europenne, et faisait partie du programme
de recherche EUREKA

Ce format populaire de compression audio permet une compression approximative de 1:4 1:12. Un fchier audio
occupe ainsi quatre douze fois moins d'espace une fois compress au format MP3.

Le taux de compression peut tre augment en choisissant un dbit binaire (en anglais bitrate) plus faible. On
considre en gnral qu'il faut au moins 128 ou 192 kilobits par seconde (kbit/s) pour bnfcier d'une qualit audio
acceptable pour un morceau de musique. 8 kbit/s, le son est fortement altr (bruits parasites non attendus, spectre
sourd , ).

Ce format de donnes utilise un systme de compression partiellement destructif. Il ne stocke pas intgralement le
spectre des frquences audio. En revanche il tente d'annuler d'abord les sons les moins perus de faon ce que les
dgradations se fassent le moins remarquer possible. Ce n'est pas une compression proprement parler, mais plutt
une suppression d'informations.

La compression au format MP3 exploite un modle psycho-acoustique de l'effet dit de masque : si deux frquences
d'intensits diffrentes sont prsentes en mme temps, l'une peut tre moins perue que l'autre selon que ces deux
frquences sont proches ou non. La modlisation de notre audition selon ce principe est au dpart empirique, mais
assez effcace.

Toutefois, si le taux de compression est trop important, on peut tre amen faire ressortir certaines harmoniques de
faon non attendue. Cela donne alors l'impression de bruits parasites et dsagrables au milieu du son.

On peut amliorer la qualit dbit moyen gal en utilisant un dbit binaire variable (VBR ou Variable Bit Rate par
opposition un dbit constant Constant bit rate, CBR). Dans ce cas, les passages peu complexes, comme les silences
par exemple, seront cods avec un dbit d'information plus faible. On code 64 kbit/s au lieu de 128, rduisant ainsi
la taille totale du fchier tout en gardant une trs bonne qualit lors des passages riches en harmoniques.
L'amlioration apporte est variable selon le morceau cod. L'encodage en VBR peut nanmoins poser des problmes
de compatibilit avec certains lecteurs.53

La popularit du format MP3 ne se dment pas, mme compte tenu de son obsolescence technique. Le dernier
magasin de vente de musique en ligne, sur Amazon, utilise encore ce format (mise jour du 7/09/2009).

Codage/dcodage avec le codec LameEncoder, encoder MP3 Open Source, qui produit, de l'avis gnral, la meilleure
compression. LameEncoder est intgrable Audacity.

II. REALAUDIO (FORMAT PROPRITAIRE)

RealAudio (.ra)54 est un format de stream (de diffusion en continu) souvent utilis par les radios qui diffusent sur
internet. A qualit quivalente, les fchiers en RealAudio sont plus petits qu'encods en MP3 mais de moins bonne
qualit si le dbit est faible.

Codage/dcodage : RealProducer55, dcodage simple avec le lecteur RealPlayer.

52 http://en.wikipedia.org/wiki/Psychoacoustics (visit le 19/07/2007)


53 http://fr.wikipedia.org/wiki/Mp3 (visit le 7/09/2009)
54 http://en.wikipedia.org/wiki/Realaudio (visit le 19/07/2007)
55 http://www.realnetworks.com/products/producer/index.html (visit le 19/07/2007)

Cours numrisation (c) JMM 2009-2010 version du 22/09/09 page 24/71


III. OGG (FORMAT OUVERT)

Ogg (prononcer augue ) est le nom du principal projet de la fondation Xiph.Org dont le but est de proposer la
communaut des formats et codecs multimdias ouverts, libres et dgags de tout brevet.

Cest aussi le nom du format de fchier conteneur propos par ce mme projet. Lextension .ogg est une des extensions
possibles pour les fchiers au format Ogg. Par abus de langage, on appelle couramment fchier Ogg un fchier
audio au format Ogg contenant des donnes audio compresses en Vorbis, lun des codecs du projet Ogg.

La fondation Xiph.Org a pourtant cr un ensemble d'extensions pour les diffrents types de contenus : .oga pour les
fchiers audio uniquement, .ogv pour la vido (gnralement encode avec Theora)56

codage/dcodage : Audacity

IV. MP3PRO (FORMAT PROPRITAIRE)

La compression mp3Pro57 se prsente comme un successeur avantageux au mp3. En effet, les fchiers gnrs par un
encodeur mp3PRO sont compatibles avec tous les lecteurs mp3. Cependant seuls les lecteurs certifs mp3PRO
bnfcient des avantages supplmentaires de cet encodage.

L'encodage mp3Pro prsente trois particularits qui en font un systme de compression offrant de meilleurs rsultats
sonores que ceux d'un simple mp3 standard :

L'utilisation du VBR (pour Variable Bit Rating) qui adapte en temps rel le dbit en fonction de la densit et de
la complexit sonore ;
La prservation de la bande passante aigu normalement sacrife par le mp3 standard ;
Une qualit sonore quivalente au 320 kbit/s du layer III en VBR (qui varie entre 64 kbit/s et 128 kbit/s) si
bien qu' qualit gale un fchier mp3Pro permet un gain de place substantiel par rapport un fchier mp3
standard (entre 25% et 50% de gain).

Le Codec mp3PRO est propritaire. Nanmoins un lecteur MP3 standard saura lire un mp3PRO, avec une qualit
moindre.

Trs peu de logiciels prennent en compte le mp3PRO et seuls les baladeurs de marque Thomson et ses fliales savent
en tirer pleinement proft. Codage/dcodage : Thomsom Encoder58, ou Audion pour Mac59.

V. AAC (FORMAT OUVERT)

AAC - Advanced Audio Coding - L'Advanced Audio Coding ou AAC est un algorithme de compression audio avec
perte de donnes ayant pour but d'offrir un meilleur ratio qualit/compression que le format plus ancien MPEG-1/2
Layer 3 (plus connu sous le nom de MP3). Utilis dans iTunes, iPod et largement rpandu grce au succs de l'Itunes
Store. Peut-tre utilis avec des DRM. Il est dfni dans la partie 3 de la norme MPEG-4 . Les amliorations
apportes par l'AAC touchent notamment :
les frquences d'chantillonnage : de 8 kHz 96 kHz (MP3 offciel : 16 48 kHz) ;
le nombre de canaux : jusqu' 48 ;
une meilleure gestion des frquences au-del de 16 kHz ;
Ces avances techniques devant apporter l'auditeur un message audio d'une qualit et d'une stabilit
accrue par rapport au MP3 frquence d'chantillonnage quivalente ou infrieure.
L'AAC adopte une approche modulaire du codage : en fonction de la complexit du fux coder, de la qualit
vise et de la taille du fchier que l'on souhaite obtenir. L'utilisateur peut crer des profls afn de dfnir
l'outil qu'il souhaite utiliser parmi le jeu de rglages prdfnis.
l'intgration de systmes de DRM.
L'extension de fchier gnralement adopte est .mp4 (pour MPEG-4), .m4a (pour MPEG-4 audio) ou .m4p (pour
MPEG-4 protg).

Codage/dcodage : iTunes, QuickTime, VLC pour le dcodage des fchiers sans DRM.

56 http://fr.wikipedia.org/wiki/Ogg (visit le 7/09/2009)


57 http://fr.wikipedia.org/wiki/Mp3PRO (visit le 7/09/2009)
58 http://www.mp3prozone.com/download.htm (visit le 19/07/2007)
59 http://www.panic.com/audion (visit le 9/10/2007)

Cours numrisation (c) JMM 2009-2010 version du 22/09/09 page 25/71


VI. WINDOWS MEDIA AUDIO (FORMAT PROPRITAIRE)

Windows Media Audio60 aussi appel WMA est un format propritaire de compression audio de type lossy
(destructeur) dvelopp par Microsoft. Le format WMA offre pour spcifcit la possibilit de protger ds l'encodage
les fchiers de sortie contre la copie illgale par une technique de gestion des droits numriques (DRM en anglais).

Le format existe sous deux formes :


le WMA Standard, le premier tre sorti, le plus rpandu sur Internet et le seul tre lisible (actuellement)
sur de nombreux baladeurs numriques
le WMA Pro, thoriquement de meilleure qualit mais bien moins rpandu.
Les deux sont capables de coder en dbit constant (CBR) ou en dbit variable (VBR). Le codec wma est parmi tous les
formats d'encodage avec pertes disponibles l'un des plus rapides.

c. Cas du MIDI

Le Musical Instrument Digital Interface ou MIDI est parfois confondu avec les formats dcrits ci-dessus. C'est un
protocole de communication et de commande permettant l'change de donnes entre instruments de musique
lectronique, un ou plusieurs de ces instruments pouvant tre des ordinateurs. Il permet de prciser le type
d'instrument, la note, la dure, etc... Les fchiers MIDI sont reproduits sur ordinateurs ou sur instruments MIDI
l'aide de sons pr-numriss ou synthtiss. En ce sens, les fchiers MIDI sont l'quivalent des formats vectoriels pour
les images. Ils prennent en gnral trs peu de place puisque ne sont codes que des descriptions textuelles des sons
reproduire.

d. Le(les) formats choisir pour l'archivage

Les formats privilgier pour un archivage des sons (on parle de fchiers master ou matres partir desquels
seront drivs les fchiers de diffusion) sont ceux qui contiennent toute l'information numrise, et qui sont donc de la
qualit maximale. On choisira prfrentiellement le format Wav (aucune compression) ou FLAC (compression sans
pertes).

e. Les formats choisir pour la diffusion

Pour la diffusion, on peut choisir un format avec pertes (MP3, MP4 ou OGG), dont les paramtres seront
soigneusement choisis pour minimiser la perte d'information et, suivant les besoins, stream. viter les formats
propritaires tels que WMA. On voit apparatre de nouvelles faons de diffuser, en intgrant le son dans un fchier
fash. L'avantage est l'absence de plugins supplmentaires ncessaires la lecture (Flash tant extrmement rpandu)
et une certaine barrire la rcupration du fchier son en tant que fchier indpendant. Cette protection est
cependant bien facilement contournable.

L'anne 2005/2006 a aussi t marque par le dveloppement du podcast qui combine une diffusion de fchiers MP3
ou MP4 un abonnement RSS.

Cf Best Practice Guidelines for Digital Collections at the UM Libraries 61 appendice VIII pour des exemples de bonnes
pratiques. Cf Appendix IV: A Typology of Formats pour des guides de rfrence sur les formats audio.

f. Paramtres de numrisation et de compression

Les paramtres de numrisation et de compression s'expriment d'une faon lgrement diffrente de ce qui a t
prsent jusqu' prsent. On utilise l'chantillonnage d'une part, exprim en Hz, et le dbit, exprim en kbps. En
dehors de contraintes spcifques lies aux technologies de diffusion (tlphone, bande FM, ) l'chantillonnage n'est
pas une valeur qu'on peut modifer loisir cause du thorme de Shannon. Il est le plus souvent fx 44,1 kHz ou
48 kHz de plus en plus souvent. Par contre, le vritable paramtre sur lequel on peut ajuster la qualit de compression
est le dbit (et le CODEC de compression choisi en slectionnant le format de compression).

Un dbit de 1 kbps = 1000 bits par seconde.

Un fchier de 3 minutes numris et compress au dbit constant (ou moyen) de 320 kbps aura la taille suivante :

3*60*320000/8 = 7,2 Mo

Prenons l'exemple d'une compression en mp3 en utilisant Audacity avec le plugin LameEncoder. Le fux bitrate est
ici choisi en mode moyenne (ABR : Average Bitrate) ce qui permet au compresseur de dpenser plus

60 http://en.wikipedia.org/wiki/Windows_Media_Audio (visit le 19/07/2007)


61 http://www.lib.umd.edu/dcr/publications/best_practice.pdf (visit le 19/07/2007)

Cours numrisation (c) JMM 2009-2010 version du 22/09/09 page 26/71


d'information dans les passages sonores qui le ncessitent tout en assurant une taille moyenne prdictible. Voici
quelques uns des paramtres qu'on peut conseiller pour la diffusion :
rglage tlphone : 16kbps/mono
voice : 56kbps/mono
fm/tape : 112kbps
hif : 160kbps
cd : 192kbps
studio : 256kbps
La meilleure qualit en MP3 s'obtient en choisissant un mode constant bitrate et un fux de 320kbps, en
chantillonnant la frquence d'chantillonnage maximale (48kHz). Faut-il encore que le son analogique et numris
soient de grande qualit, sinon, c'est inutile.

Un contrle auditif est toujours conseill (attention la qualit du matriel de reproduction et aux conditions
environnementales).

g. Restitution du son

Comme indiqu ci-avant, la restitution d'un son ncessite son codage inverse en analogique l'aide d'un processeur
ou d'un processus CNA (Convertisseur Numrique Analogique). Si le format n'est pas un format directement
exploitable il faut d'abord ramener le son un format WAV puis le convertir en analogique.

7. tude de cas : le Cornell Lab of Ornithology

a. Introduction

Ce qui suit est la traduction partielle et grands traits de l'article Digitizing the Worlds Largest Collection of
Natural Sounds : Key Factors to Consider when Transferring Analog-Based Audio Materials to Digital Formats 62 de
la revue RLG DigiNews (fvrier 2004). Il est fortement recommand de le lire en intgralit !

Projet de la Macauly Library63 :


Concerne : the Macaulay Library of Natural Sounds (MLNS)[1] at Cornell University, 160 000 enregistrements
d'oiseaux, d'insectes, de grenouilles, et de cris de mammifres.
Formats analogiques : disques actates, cassettes, bandes, dans des tats de conservation trs varis (certaines
bandes ont ncessit un traitement spcifque avant exploitation).
6 studios de numrisation compltement quips

b. Etapes cruciales de ce projet

I. LES MDIA ET FORMATS ANALOGIQUES

Examen des bandes, et traitement prventif pour temporairement les "stabiliser" par une cuisson 50C pendant
24 heures. Certaines avaient leurs axes briss, d'autres avaient des traces d'adhsifs.

Examen du format d'enregistrement de chaque bande, rendu ais par des "mtadonnes" compltes sur
l'enregistrement et le modle de magntophone utilis pour les produire. Pour les cas litigieux, utilisation d'un
"dveloppeur magntique" permettant de visualiser l'enregistrement magntique et de dterminer quelles ttes
choisir.

Utilisation d'un magntophone haut de gamme (Studer A-820) dont la propret et la tension de la bande ont t
rgulirement vrifs.

Lecture en vitesse lente pour tenir compte des bandes fragiles

Calibration des ttes de lecture en utilisant des normes internationales : alignement des ttes (hauteur,
azimuth, ...), qualisation de la lecture, niveaux de lecture, vitesse, ...

Concernant les cassettes audio, lecture par un magntophone professionnel Nakamichi CR-7A calibr et mis en
marche avec le mme soin

62 http://worldcat.org/arcviewer/1/OCC/2007/08/08/0000070519/viewer/fle3226.html (visit le 7/09/2009)


63 http://www.animalbehaviorarchive.org/loginPublic.do (visit le 19/07/2007)

Cours numrisation (c) JMM 2009-2010 version du 22/09/09 page 27/71


Les calibrations et alignements des ttes furent accomplies l'aide de tests informatiss de la socit Audio Precision,
spcialise dans toutes les mesures audio. Les rsultats des tests initiaux furent rgulirement compars aux tests
raliss en cours de numrisation pour suivre l'volution des performances des lecteurs. Ceci permit de dceler les
problmes avant qu'ils aient des incidences sur le processus de numrisation lui-mme.

II. LA CONVERSION ANALOGIQUE/ NUMRIQUE

Le convertisseur fut l'objet d'une attention toute particulire. Cet lment est l'un des maillons primordiaux de la
chane de numrisation et son mauvais fonctionnement pouvait dtruire tous les efforts effectus par ailleurs.

Dans le cas prsent, les sons sont d'excellente qualit, couvrant un large spectre. Les objectifs taient ici de raliser une
numrisation d'une qualit sans compromis.

Les tests raliss sur 6 matriels aux caractristiques techniques apparemment proches ont donn des rsultats trs
diffrents. Le choix s'est fnalement port sur le Prism Dream AD-2, le seul dispositif ne pas "colorer" les signaux.

Qu'est-ce qui constitue un bon convertisseur analogique/numrique ? :


capacit prendre en compte l'intgralit du spectre sonore numriser : de 4 32 kHz, chantillonn 96 kHz
capacit rendre la dynamique : quantifcation sur 24 bits (128 dB rendus)
(cf les autres caractristiques dans l'article original)

Ces spcifcations ne sont pas facilement rencontres dans les cartes sons prsentes dans les ordinateurs, ni dans les
enregistreurs de CD-AUDIO grand public. Les quipements doivent de plus :
avoir un courant lectrique trs pur,
tre fxs au sol pour viter toute vibration
tre pilots par des horloges ultra prcises
utiliser des composants lectroniques de trs grande qualit faible tolrance,
un design de carte lectronique de trs grande qualit.
Tout ceci un prix, mais cela en valait la peine pour ce projet

Un autre lment cl du processus fut la dtermination du niveau de signal de transfert : utilisation d'un pr-
amplifcateur Benchmark Media trs faible bruit, et faible distorsion entre le lecteur analogique et le convertisseur
A/N. Ses vue-mtres ont t trs utiles pour dterminer le bon niveau d'entre sur le convertisseur A/N (pas assez =
perte de dynamique, trop fort : saturation du signal).

En complment de la surveillance du signal par vue-mtres, un second dispositif de surveillance a t mis en place
utilisant l'oreille humaine. Il a fallu pour cela employer un convertisseur inverse (numrique => analogique) et des
hauts-parleurs de contrle. Un dispositif permettait l'oprateur de passer facilement de la lecture analogique la
lecture du signal numris et, ainsi, de se rendre compte trs rapidement de tout problme potentiel.

III. L'DITION DU SIGNAL NUMRIQUE

Grce une station digital audio workstation (DAW), le cas chant, pour crer des fade-in fade out, ajouter des mta
informations vocales, attribuer chaque fchier un nom unique et construire les fchiers permettant en fn de compte
de crer les DVD-R. Le modle retenu a t un matriel Sonic, pour sa capacit prserver la qualit du signal des
enregistrements initiaux vers les enregistrement fnaux en 48 bits tout au long du processus ( la diffrence de la
plupart des units logiques qui travaillent en 32 bits en virgule fottante, le Sonic Studio HD utilise des units logiques
de 48 bits - c'est une prcision suprieure de 16 bits ce qu'on a habituellement avec des signaux 24 bits). Ceci
amliore grandement les erreurs d'arrondis.

IV. QUELS FORMATS ET MDIA CHOISIS ?

Donnes prliminaires :
le choix du stockage optique avait dj t fait
les besoins de stockage allaient tre normes (32 Mo/minute en stro) cause des paramtres de numrisation
choisis (chantillonnage 96 kHz, sur 24 bits)
le choix du DVD-R a t fait sur ces bases.

Concernant le format, le DVD-Audio a t envisag mais ses contraintes en termes de protection par les industriels
ont ts juges rdhibitoires. Le choix fnalement a t fait de graver les disques en format DVD-ROM et en AIFF
(quivalent du Wav). Chaque fchier audio comporte une identifcation audio au dbut qui est compose du numro

Cours numrisation (c) JMM 2009-2010 version du 22/09/09 page 28/71


de l'asset. Ce numro est repris dans le nom du fchier. Aucune autre mtadonne n'est inclue dans les fchiers audio.
Elles sont enregistres dans une base de donnes relationnelle spare.

Les disques ont t gravs en utilisant des Pioneer DVR-S201. Les disques ont t achets par lots de 100 ou 200 chez
Maxell, TDK et Pionner. Il faut environ une heure pour enregistrer 4,3 Go de donnes (les disques ne sont pas remplis
car les tests ont rvl que leur qualit se dgrade au centre !)

Chaque disque a t grav en double exemplaire et contient 125 minutes de stro ou 250 minutes de mono. Un
disque est plac dans un jukebox Plasmon D-480 pour la distribution en interne, le second est dplac hors site, pour
un stockage scuris, l'atmosphre contrle, sous terre.

V. LE CONTRLE QUALIT

Les DVD-R, comme les CD-R peuvent poser problme lors de leur conservation au cours du temps. Des tests effectus
pour maximiser la dure de vie de chaque disque enregistr :
chaque disque vierge est analys par le systme "AudioDev Computer Aided Test System" qui consiste en 20 tests
diffrents.
chaque disque enregistr est vrif. 50 paramtres importants sont tests cette tape. Les disques rejets sont
examins en dtail.
Surveillance des archives : Toutes les donnes du contrle qualit sont stockes numriquement. Les disques sont
priodiquement et alatoirement re-tests. Les donnes des tests sont compares aux donnes de tests initiales. Toute
dgradation est rapidement analyse et un clone est cr.

Cf aussi le cours sur l'archivage pour plus de dtail sur ces procdures qualit.

VI. ACCESSIBILIT/DISTRIBUTION

Ces disques sont les "coeurs d'archive". Les donnes hautes-rsolutions sont disponibles uniquement en interne. Pour
la distribution par internet, des fchiers drivs de moindre qualit sont crs et notamment des enregistrement au
format CD-audio, des MP3 96kbps, des streams RealAudio et Quicktime. Ces donnes rsident sur un serveur
Apple Xserve RAID de 25 teraoctets. Le backup de ces fchiers est assur par un systme bandes.

c. Autre tude de cas

Large Scale Digitization of Oral History64

64 http://www.dlib.org/dlib/may07/weig/05weig.html (visit le 19/07/2007)

Cours numrisation (c) JMM 2009-2010 version du 22/09/09 page 29/71