Vous êtes sur la page 1sur 49

Le traitement

numérique
du signal audio

jean-philippe muller

version juillet 2001


Le traitement numérique du signal audio 2

Sommaire page

I) Les sons et leur perception :

• les performances de l’oreille 3


• analyse spectrale et timbre d’un son 6
• le mécanisme de l’audition 9
• les phénomènes de masquage 10

II) L’intérêt de la numérisation du son :

• pallier les défauts du support 12


• maîtriser la dégradation du signal 14
• permettre des traitements particuliers 15

III) Acquisition d’un signal analogique :

• échantillonnage 17
• spectre du signal échantillonné 18
• règle de Shannon 20
• filtre anti-repliement 21
• le bloqueur 22
• quantification 23

IV) Restitution d’un signal analogique :

• par bloqueur 27
• par filtre compensateur de sinus cardinal 29
• par suréchantillonnage 30

V) Les systèmes audionumériques actuels :

• le compromis capacité de stockage - débit numérique 32


• l’enregistreur DAT 32
• le disque compact 35
• le mini disc 42

jean-philippe muller
Le traitement numérique du signal audio 3

I) Les sons et leur perception :

1) Les performances de l’oreille :

On appelle son tout message naturel ou provoqué perçu par l’intermédiaire du sens de l’ouïe.

Physiquement, le son s’analyse comme une variation de pression au voisinage de l’oreille, cette
onde de pression se propageant de sa source jusqu'à l’oreille avec une célérité de c=340m/s environ.

Un son est caractérisé par :

• son niveau ou intensité


• sa hauteur liée à la fréquence de son fondamental
• son timbre lié à sa composition spectrale
2
L’intensité d’un son se mesure en Watts/m .

Le son le plus faible que l’oreille puisse entendre a une intensité Io de :


-12 2
Io = 10 W/m pour un signal de fréquence 1 kHz
2
Les sons les plus intenses que l’oreille puisse supporter ont une énergie de 100 W/m .

La gamme d’intensité s’étend donc sur 14 décades, ce qui est considérable.

C’est pour cela qu’on utilise souvent une échelle logarithmique pour exprimer l’intensité d’un son en
dB par rapport au niveau de référence Io précédent :

I en dB = 10log( I/Io )

Voici quelques exemples de niveaux sonores :

0 dB seuil d’audition
bourdonnement de moustique à 2 m

20 dB intérieur d’un studio d’enregistrement

40 dB conversation normale

60 dB conversation vive

80 dB rue bruyante

100 dB marteau piqueur à 2 m

120 dB réacteur d’avion à 10 m

130 à 140 dB seuil de douleur

Une oreille jeune est capable d’entendre des sons dans une gamme de fréquence très vaste qui va de
20 Hz à 20 kHz, soit 10 octaves ou 3 décades.

jean-philippe muller
Le traitement numérique du signal audio 4

Le niveau minimal de sensibilité ( seuil d’audition ) et le niveau maximal ( seuil de douleur ) ne sont
pas constants sur toute la gamme de fréquences.

Le diagramme suivant montre la répartition en niveau et en fréquence des sons audibles :

Figure 1.
L’étendue des
sons audibles

Les courbes de Fletcher montrent que l’impression de niveau sonore change avec la fréquence du
signal écouté :

Figure 2
Les courbes de
Fletcher

Cette variation de sensibilité en fonction de la fréquence explique les faits suivants :

• le piccolo ou le triangle émergent facilement de l’orchestre


• on entend beaucoup mieux un petit sifflet à 4 kHz qu’un gros tuyau d’orgue à 30 Hz
• les cordes graves d’un instrument émettent plus de puissance que les aiguës, mais la sensation
d’intensité est la même

jean-philippe muller
Le traitement numérique du signal audio 5

A l’intérieur du champ d’audition, on définit :

• la sensibilité différentielle d’intensité liée à la variation minimale d’intensité que peut déceler
l’oreille

Figure 3.
Sensibilité
différentielle de
l’oreille.

On constate que dans la partie centrale du champ cette sensibilité différentielle est constante et vaut
environ 10%.

Cela veut dire que l’oreille peut distinguer une variation d’intensité qui passe de :

la valeur I1 à I2 = 0,9.I1 soit en dB : 10 log(I2/I1) = -0,5 dB

De ce chiffre découle directement un critère de qualité d’une chaîne de reproduction sonore pour
laquelle les variations de la courbe de réponse devront être inférieures à ± 0,5 dB.

• la sensibilité différentielle de hauteur liée à la variation minimale de fréquence que peut déceler
l’oreille

Figure 4.
Sensibilité
différentielle de
hauteur.

Dans la partie centrale du champ d’audition, cette sensibilité vaut 0,3 % ce qui veut dire que l’oreille
peut déceler une variation de hauteur entre deux sons dont l’un est à f1 = 1000 Hz et l’autre à f2 =
1003 Hz.

Cette bonne sensibilité de l’oreille aux variations de hauteur a compliqué la tâche des concepteurs de
magnétophones au niveau du taux de pleurage qui devra évidemment rester en-dessous de la
sensibilité de l’oreille.

jean-philippe muller
Le traitement numérique du signal audio 6

2) Analyse spectrale et timbre d’un son :

Le signal le plus simple du point de vue contenu fréquentiel est un signal sinusoïdal comme :

x(t) = Esin(ωt) car il ne contient qu’une seule fréquence f = ω/2π

Un signal parlé ou musical est plus complexe puisque son allure varie au cours du temps. Il contient
des fréquences graves, moyennes et aiguës. On dit que son spectre s’étend de 20 Hz à 20 kHz et
varie en permanence entre ces deux limites.

Le spectre d’un signal est la représentation en fonction de la fréquence des amplitudes des
différentes composantes présentes dans ce signal.

Voici quelques exemples de spectres simples tracés sans aucun calcul :

• signal sinusoïdal x(t) = 10sin(40t)

Figure 5.
amplitude
Spectre d’un
signal sinusoidal.
10

pulsation

40

Remarque : lorsqu’on trace un spectre on ne s’intéresse sauf exception qu’à l’amplitude de la


composante et pas à sa phase

• signal composite x(t) = 3cos(15t) + 10sin(40t) + 6cos(60t + π/2)

Figure 6
amplitude
Spectre d’une
somme de
sinusoïdes. 10

pulsation
15 40 60

Il est clair que ces signaux trop simples sont rarement intéressants. Les signaux utiles à analyser sont
ceux qui contiennent une information comme les signaux audio, vidéo, etc ... et dont le spectre est
plus riche.

Suivant le type de signaux, nous disposons d’outils mathématiques et d’appareils analyseurs de


spectre qui nous permettent d’avoir accès à la représentation spectrale du signal.

jean-philippe muller
Le traitement numérique du signal audio 7

Pour les signaux périodiques, nous avons à notre disposition la décomposition en série de
Fourier ( voir Annexes A1, A2 et A3 ) qui nous permet de calculer mathématiquement le spectre de
cette catégorie de signaux.

Un signal périodique de fréquence f a un spectre formé de raies aux fréquences :

•f c’est le fondamental
• 2f ------- l’harmonique 2
• 3f ------- l’harmonique 3 etc ...

Voici le spectre d’un signal triangulaire à 300 Hz relevé avec un analyseur :

Figure 7. 10 dBEr
Spectre d’un
signal 300 Hz
X(t)
triangulaire. -10
Echelle y

t -20

fenêtre
T

Fmax

Position du marqueur Niveau du fondamental

On note la présence des harmoniques impairs qui décroissent si la fréquence augmente.

Pour un signal audiofréquence, le calcul mathématique strict n’est plus possible puisqu’on ne dispose
pas de l’équation mathématique du signal en fonction du temps. Pour accéder au spectre il faut alors
disposer d’un analyseur de spectre ( batterie de filtres décalés ou analyseur à transformée de Fourier
discrète ).

Voici l’oscillogramme et le spectre d’une tranche de musique du groupe Dire Straits de durée 10 ms :

Figure 8.
Spectre d’un
signal musical.

jean-philippe muller
Le traitement numérique du signal audio 8

La répartition et les amplitudes des harmoniques ont une importance fondamentale en musique
puisque c’est cela qui définit le timbre d’un instrument .

Le son d’un violon est différent de celui de la trompette et de l’orgue parce que les spectres de ces 3
instruments ont une composition en harmoniques différente.

Figure 9.
Oscillogrammes et
spectres du son :
! de violon
! de trompette
! d’orgue

D’autre part, pendant la durée d’une note, l’allure temporelle et la composition harmonique ne restent
pas identiques. C’est cela qui rend la musique si vivante et si riche.

Cette « vie » des harmoniques est bien mise en évidence sur les enregistrements suivants où on voit
l’évolution du spectre en fonction du temps, l’amplitude de la raie se traduisant par l’épaisseur du
trait :

Figure 10. On peut noter :


Sonagrammes
d’instruments de • le bruit d’attaque pour le violon et
le piano
musique.
• le bruit de souffle pour la flûte

• l’importance des harmoniques


impairs pour la clarinette, liée au
son nasillard

• la durée de vie et l’amplitude


variables des différents
harmoniques

jean-philippe muller
Le traitement numérique du signal audio 9

Dans le même ordre d’idée, voici l’évolution d’un son de piano :

Figure 11.
Evolution du son
d’un piano au Spectre
cours du temps.

t1 t2 > t1 t3 > t2 t4 > t3

Oscillogramme

3) Le mécanisme de l’audition :

Le système auditif humain est constitué d’un capteur ( l’oreille ) relié électriquement par un faisceau
de nerfs à un centre de traitement de l’information ( le cerveau ).

Figure 12.
Structure de
l’oreille.

Les sons sont captés par le pavillon et font vibrer le tympan. Cette vibration est transmise par les
osselets à la fenêtre ovale.

Les 3 osselets ( marteau, enclume et étrier ) sont des merveilles de mécanique puisqu’ils transmettent
les vibrations de faible amplitude avec une bonne efficacité, alors que les vibrations intenses
correspondant à des sons forts font bouger les osselets latéralement , ce qui diminue l’efficacité de la
transmission.

jean-philippe muller
Le traitement numérique du signal audio 10

Les osselets jouent donc le rôle important de contrôle de volume permettant d’éviter la dégradation de
l’organe sensible si le son est trop fort.

Les vibrations transmises à la fenêtre ovale se propagent ensuite dans le limaçon à une distance qui
dépend de la fréquence et excitent les cellules de Corti qui envoient au cerveau des impulsions
(jusqu'à 1000 par seconde ) dont le nombre dépend de l’intensité du son.

On voit que le limaçon effectue une analyse spectrale du son, ce qui explique que les modèles
psychoacoustiques conduisant à des techniques de compression de débit numérique devront
obligatoirement passer par une transformation dans le domaine des fréquences.

Le système auditif peut donc être schématisé par le diagramme suivant :

Figure 13.
Diagramme réflexe
fonctionnel de
l’oreille. Nerf

Osselets Cellules de
tympan CAG limaçon Corti cerveau

volontaire

Le contrôle de volume peut-être volontaire :

• quand on tend l’oreille, on se met à la sensibilité maximale


• quand on s’attend à un bruit fort, on se met à la sensibilité minimale

ou réflexe :

• si le niveau sonore augmente, l’oreille diminue automatiquement sa sensibilité


• si le niveau sonore est faible, la sensibilité de l’oreille augmente

En conséquence, la sensation sonore n’est pas du tout proportionnelle à l’intensité du son à cause de
ce phénomène de contrôle automatique de gain, mais à peu près proportionnelle au logarithme de
l’intensité.

L’oreille a d’énormes qualités au niveau de la sensibilité et de la dynamique, mais n’est pas un bon
indicateur de niveau sonore.

4) Les phénomènes de masquage :

Nous avons vu que le fonctionnement mécanique de l’oreille est modifié par l’intensité du son qui
arrive sur le tympan.

On comprend donc que la perception d’un son de faible intensité soit modifiée par la présence ou
l’absence d’un autre son plus intense .

Un son intense pourra même empêcher la perception de sons de faible intensité : c’est le phénomène
de masquage qui se manifeste :

• dans une plage de fréquence autour du son intense ( masquage fréquentiel )


• pendant la durée du son intense et même un peu plus ( masquage temporel )

jean-philippe muller
Le traitement numérique du signal audio 11

Ce phénomène de masquage est tellement courant qu’on n’y prête plus guère attention . Par exemple,
le passage d’une voiture nous empêche momentanément d’entendre le gazouillis des oiseaux.

Les courbes suivantes montrent comment un signal A perçu lorsqu’il est seul puisque d’un niveau
supérieur au seuil d’audition devient inaudible parce que masqué par un signal B plus intense.

Figure 14.
Mise en évidence
de l’effet de
masquage.

On voit bien que la courbe de seuil d’audition est fortement modifiée par la présence du son B.

Du fait de l’inertie mécanique des osselets, ce masquage se prolonge quelques dizaines de


millisecondes après la suppression du signal B : un son intense masque les sons plus faibles le
suivant ou le précédent immédiatement.

Figure 15.
Le masquage dans
le temps.

jean-philippe muller
Le traitement numérique du signal audio 12

II) L’intérêt de la numérisation du son :

1) Pallier les défauts du support :

La difficulté de stocker un signal musical trouve son origine dans l’extraordinaire gamme de niveaux
(14 décades ) et la plage de fréquences ( 3 décades ) qu’il faut reproduire.

Cette dynamique de 14 décades ne peut pas être reproduite actuellement, mais on estime que 10
décades, soit une plage de 100 dB, est tout à fait satisfaisante même pour les mélomanes les plus
exigeants.

Il ne faut pas perdre de vue que pour produire un son d’intensité I = 120 dB correspondant à un piano
jouant à fortissimo avec des enceintes de rendement élevé de 95 dB/W il faudra leur fournir une
puissance électrique P = 300 W efficaces, ce qui montre que le problème de la dynamique ne se
rencontre pas seulement au niveau du support d’enregistrement.

Prenons l’exemple de l’enregistrement magnétique analogique d’un signal musical pour lequel le
signal est inscrit sous forme d’état magnétique de l’oxyde de fer ou de chrome couché sur la bande.

Du fait de la structure granulaire de l’oxyde, le défilement de la bande produit dans la tête de lecture
un bruit de fond à répartition spectrale quasi uniforme. Ce bruit de fond définit un seuil en-dessous
duquel le signal enregistré n’est plus exploitable.

Pour les forts niveaux, les non-linéarités et les saturations définissent le niveau maximal admissible
pour un taux de distorsion donné.

L’écart entre ces deux limites définit la dynamique du système de l’ordre de 40 dB .

Pour produire des systèmes d’enregistrement plus performants, on a du développer des techniques
analogiques destinées à réduire le bruit de fond de la bande et donc à améliorer la dynamique.

C’est toute la famille des réducteurs de bruit développés par les laboratoires Dolby qui compriment la
dynamique avant l’enregistrement et appliquent une expansion de dynamique à la lecture :

Figure 16.
Action du circuit
de compression et
d’expansion de
dynamique.

Grâce à ces circuits, la dynamique des enregistreurs analogiques actuels de très bonne qualité atteint
les 70 dB.

jean-philippe muller
Le traitement numérique du signal audio 13

En ce qui concerne la bande passante, de nombreux facteurs interviennent pour perturber la courbe
de réponse :

• du coté des basses-fréquences, on retrouve la difficulté très générale de transmettre des signaux
lentement variables auxquels se superposent des dérives inévitables ainsi que la limitation due au
principe de lecture basé sur la variation de flux

• du coté des fréquences élevées, nous trouvons les limitations dues à l’inertie des systèmes
mécaniques, à la constante de temps des circuits électriques, ainsi qu’à la largeur de l’entrefer.

Figure 17.
Irrégularité de la
courbe
d’enregistrement
magnétique.

Grâce à une électronique analogique très soignée, on arrive à obtenir une courbe de réponse a peu
près linéaire dans la gamme de fréquences allant de 30 Hz à 10 kHz :

Figure 18.
Courbe de
réponse d’un
enregistreur
analogique.

Dans le cas d’un enregistrement numérique, le signal à inscrire sur la bande est un signal binaire.
Celui-ci sera également affecté et donc déformé à cause des limitations de la bande passante et des
défauts du système.

Mais aussi longtemps que cette déformation reste raisonnable, on pourra reconstituer le signal initial à
l’aide d’un dispositif de remise en forme du signal à la lecture.

La distorsion introduite par les limitations du support pourra donc être supprimée. C’est une différence
importante avec l’enregistrement analogique dans lequel la dégradation est irréversible et augmente à
chaque nouvel enregistrement.

jean-philippe muller
Le traitement numérique du signal audio 14

2) Maîtriser la dégradation du signal :

Pour enregistrer un signal audiofréquence sous forme numérique, un certain nombre d’opérations
sont nécessaires :

• prendre des échantillons à des intervalles de temps suffisamment faibles


• convertir ces échantillons en valeurs numériques sur un nombre de bits N

Ces opérations, étudiées dans le paragraphe Acquisition , sont résumées sur le dessin ci-dessous :

Figure 19.
Principe de
l’acquisition d’un
signal analogique.

Au cours de l’opération de numérisation, on peut essentiellement agir sur deux paramètres :

• la fréquence d’échantillonnage fe
• le nombre de bits N sur lequel va être codé un échantillon

Si la fréquence d’échantillonnage est bien choisie, la seule erreur introduite au cours de la


numérisation résulte de l’approximation faite en codant un nombre infini de valeurs analogiques par un
N
nombre fini 2 de niveaux binaires.

Contrairement à ce qu’on entend quelquefois, le numérique n’est pas « parfait », simplement on peut
, en augmentant le nombre de bits N , diminuer autant qu’on veut l’erreur introduite par la
numérisation. Avec , comme objectif, de maintenir l’erreur de quantification en dessous du seuil
de sensibilité de l’oreille.

On montre que le rapport signal/bruit après cette opération de quantification dépend du nombre de
bits N par la relation :

S/B en dB ≈ 6.N + 2
soit : S/B = 50 dB pour un codage sur 8 bits
S/B = 98 dB pour un codage sur 16 bits ( qualité CD )

Pour respecter intégralement la dynamique de l’oreille de 140 dB, et en supposant que les autres
maillons de la chaîne puissent restituer cette dynamique..., il faudrait coder le signal sur 23 bits.

jean-philippe muller
Le traitement numérique du signal audio 15

A la lecture, les signaux binaires sont remis en forme, le cas échéant restaurés grâce aux algorithmes
de corrections d’erreurs puis transformés en échantillons analogiques :

Figure 20.
Principe de la
restitution d’un
signal analogique.

Dans cette opération de lecture, une distorsion peut s’introduire lors de la reconstitution du signal
analogique à partir du signal en marche d ’escalier ( voir paragraphe Restitution ).

En conclusion, le passage à un signal numérique se fait avec introduction d’une erreur maîtrisée et
choisie à priori, alors qu’on s’affranchit de la dégradation liée au support ou au canal de
transmission subie dans un traitement analogique.

3) Utilisation de traitements particuliers :

Une fois le signal numérisé, un grand nombre de traitements sont possibles grâce aux progrès
spectaculaires faits ces dernières années dans le domaine du traitement numérique du signal.

On peut évidemment citer des traitements classiques comme la correction de timbre ou le filtrage
passe-haut et passe-bas.

Mais grâce aux techniques numériques, on pourra aussi supprimer des défauts localisés affectant le
support : c’est le rôle imparti aux techniques de correction d’erreurs. Les données numériques
correspondants aux différents échantillons du son sont brassés avant d’être inscrits sur le support.

Ainsi, si par suite d’un défaut du support des données sont perdues, le système numérique pourra les
retrouver par un calcul mathématique d’interpolation. On peut de cette façon supprimer l’effet d’un
petit trou dans la couche d’oxyde lors d’un enregistrement magnétique, et d’une poussière ou d’une
rayure sur un CD audio, ce qui est impossible à faire sur un enregistrement analogique.

Le traitement numérique du signal a permis aussi de faire une numérisation plus « intelligente » dans
le but de réduire le flot de données numériques à transmettre ou à stocker.

C’est toute la famille des techniques de compression de débit dont les applications s’étendent
rapidement.

jean-philippe muller
Le traitement numérique du signal audio 16

Voici la situation au point de vue du bruit de quantification après une numérisation de type classique :

Figure 21.
Bruit de
quantification
apparaissant à
l’acquisition.

Le bruit de quantification est la plupart du temps largement en dessous du seuil d’audition, ce qui est
un « luxe » puisque cela correspond à un débit numérique qu’on pourrait réduire.

Dans les techniques de compression de débit actuelles, on analyse le signal à l’aide de filtres sélectifs
numériques et on digitalise chaque bande de fréquence sur un nombre de bits juste suffisant pour que
le bruit de quantification reste un peu inférieur au seuil d’audition :

Figure 22.
Le codage par
bandes permet de
maintenir le bruit
de quantification
juste en-dessous
du seuil d’audition.

Il est clair qu’à cause de l’effet de masquage la courbe de sensibilité de l’oreille se déforme au cours
du temps en fonction du contenu musical du signal. Seul un traitement numérique puissant permettra
de réaliser la fonction ainsi décrite.

Ces techniques de compression du débit numérique ont fait des progrès très importants ces dernières
années et sont utilisées de façon quasi systématique dans tous les systèmes audio et vidéo
numériques.

Figure 23.
Les différentes
réductions de
débit utilisées Il est clair que la qualité
dans la pratique. diminue lorsque le taux
de compression
augmente, et le choix
final ne peut aboutir
qu’à un compromis débit
numérique/qualité.

jean-philippe muller
Le traitement numérique du signal audio 17

III) Acquisition d’un signal analogique :

Elle se fait en trois phases distinctes :

• la prise d’un échantillon ou échantillonnage


• son maintien durant la conversion A/N ou blocage
• la conversion analogique-numérique

Figure 24. Signal Signal


Structure de la analogique numérique
chaîne sur n bits
d’acquisition d’un échantillonneur bloqueur CAN
signal analogique.

x(t) x(t) x(t)

t t

L’échantillonnage modifie la forme du signal et donc son spectre . On étudiera successivement les
différents aspects de cette acquisition.

1) Echantillonnage :

Pour échantillonner un signal analogique continu x(t) et le transformer en une suite discrète
d’échantillons x*(t), on prélève périodiquement à des intervalles de temps Te la valeur du signal.

Cette fonction de prélèvement d’échantillons est assurée par un commutateur analogique K qui se
ferme durant un temps to très bref toutes les Te secondes. Ce temps to s’appelle temps d‘ouverture
de la porte d’échantillonnage.

Figure 25.
L’échantillonneur.

x(t) x*(t)
Te

Le signal échantillonné est constitué par un train d’impulsions espacées de Te , de largeur to et


d’amplitude x(nTe).

Figure 26.
x*(t)
Allure temporelle
d’un signal
échantillonné.

to
t
Te 2Te 3Te 4Te

jean-philippe muller
Le traitement numérique du signal audio 18

On peut considérer que ce signal échantillonné x*(t) peut être obtenu à partir du signal analogique x(t)
en le multipliant par le signal d’échantillonnage d(t) suivant :

Figure 27.
Allure temporelle d(t)
du signal
d’échantillonnage.
1

t
Te 2Te 3Te 4Te

Le signal d’échantillonnage d(t) est caractérisé par :

• une période de répétition Te


• une largeur to
• une amplitude unité

On écrira donc : x*(t) = x(t).d(t)


Cette manière de voir permet de mettre en évidence simplement les effets de l’échantillonnage sur le
spectre du signal x(t).

2) Spectre d’un signal échantillonné :

Le signal d’échantillonnage d(t) est un signal périodique dont la décomposition en série de Fourier
contient une valeur moyenne do , un fondamental d1 à la fréquence fe = 1/Te et des harmoniques dn :

d(t) = do + d1.cos(ωet) + d2.cos(2ωet) + ... + dn.cos(n.ωet) + ...

avec : do = to/Te et dn = 2.sin(nπto/Te)


Comme la durée d’ouverture to est faible par rapport à la période d’échantillonnage Te, l’angle nπto/Te
est petit et on pourra confondre le sinus avec l’angle pour les premiers harmoniques , soit :
dn ≈ 2. nπto/Te. nπ ≈ 2to/Te

Le début du spectre de d(t) a donc l’allure suivante :

Figure 28.
Début du spectre amplitude
du signal
d’échantillonnage. 2to/Te

to/Te

fréquence
Fe = 1/Te 2Fe 3Fe 4Fe

jean-philippe muller
Le traitement numérique du signal audio 19

Le signal échantillonné x*(t) s’écrit alors :

x*(t) = x(t).d(t) = x(t).( to/Te + 2to/Te. cos(ωet) + 2to/Te. cos(2ωet) + ... )

= x(t).to/Te + 2to/Te.x(t). cos(ωet) + 2to/Te.x(t). cos(2ωet) + ...

On constate que le signal échantillonné est beaucoup plus riche puisqu’il contient des termes à tous
les multiples de la fréquence d’échantillonnage Fe.

Plaçons nous dans le cas particulier simple d’un signal échantillonné x(t) sinusoïdal dont le spectre
est formé d’une raie à F :

x(t) = Acos(Ωt)

Le signal échantillonné s’écrit alors :

x*(t) = to/Te.Acos(Ωt) + 2to/Te.Acos(Ωt).cos(ωet) + 2to/Te.Acos(Ωt).cos(2ωet) + ...

= to/Te.Acos(Ωt)+ to/Te.A(cos(ωe-Ω)t)+ cos(ωe+Ω)t)+ to/Te.A(cos(2ωe-Ω)t)+ cos(2ωe+Ω)t) + ...

et le spectre du signal sinusoïdal échantillonné x*(t) a l’allure suivante :

Figure 29.
Spectre d’une amplitude
sinusoïde
échantillonnée.
Ato/Te

fréquence
F Fe-F Fe+F 2Fe-F 2Fe+F

On obtient le spectre de x*(t) en reproduisant le spectre de x(t) autour de chaque multiple de la


fréquence d’échantillonnage Fe.

Ce résultat se généralise à un signal x(t) de forme quelconque et permet de dessiner sans peine le
spectre du signal échantillonné x*(t) correspondant :

Figure 30. Amplitude Amplitude


Spectre d’un
signal
échantillonné
V Vto/Te
quelconque.
fréquence fréquence
Fmax Fe 2Fe

Spectre du signal x(t) Spectre du signal échantillonné x*(t)

Le signal échantillonné a un spectre extrêmement riche, ce qui était évident à priori puisqu’il s’agit
d’un train d’impulsions très fines.

Cette grande étendue spectrale ne pose pas de problème puisque ce signal n’est pas destiné à être
amplifié, mais sera immédiatement bloqué puis converti en signal numérique .

jean-philippe muller
Le traitement numérique du signal audio 20

3) Règle de Shannon :

Cette décomposition un peu théorique il est vrai entre l’échantillonneur et le bloqueur nous permet de
mettre en évidence de façon simple les règles qu’il faut respecter pour une acquisition correcte et en
particulier comment choisir la fréquence d’échantillonnage pour un signal donné.

En effet, l’opération d’échantillonnage ne doit pas amener une perte d’informations. Autrement dit
l’opération d’échantillonnage doit être réversible et on doit pouvoir repasser du signal échantillonné au
signal initial.

On voit facilement que ceci n’est possible que si la fréquence Fe est suffisamment élevée, d’où le
résultat fondamental :

Si on ne veut pas perdre d’information, il faut que la fréquence d’échantillonnage soit au moins
égale au double de la fréquence maximale Fmax contenue dans le signal.

Dans ce cas, on pourra revenir en arrière par simple filtrage passe-bas.

Figure 31.
Amplitude
Signal Amplitude
échantillonné avec
Filtre
le bon choix de
Fe
V Vto/Te
fréquence fréquence

Fmax Fe 2Fe

Si on n’échantillonne pas assez vite, les différents paquets spectraux se recouvrent.

Figure32.
Signal Amplitude
échantillonné à Amplitude
une fréquence
d’échantillonnage
in correcte..
V Vto/Te
fréquence
fréquence
Fmax
Fe 2Fe

Dans la pratique, la règle de Shannon nous conduit aux choix suivants :

• Son en qualité téléphonique : Fmax = 3 kHz et Fe = 8 kHz


Chaque échantillon est codé sur 8 bits, soit un débit D = 8.8000 = 64 kbits/s

• Son en qualité hi-fi : Fmax = 20 kHz et Fe = 44,1 kHz


Codage en stéréo sur 16 bits, soit un débit D = 2.16.44100 = 1,41 Mbits/s

jean-philippe muller
Le traitement numérique du signal audio 21

4) Filtre anti-repliement :

Le bon choix de Fe nécessite de bien connaître la valeur de Fmax, fréquence maximale contenue
dans le signal à échantillonner.

A ce niveau, il ne faut pas confondre la fréquence maximale utile ( par exemple 20 kHz pour la
musique ) avec la fréquence maximale effectivement présente dans le signal qui est toujours
supérieure à la fréquence précédente ( bruit produit par le préamplificateur du micro au delà de 20
kHz par exemple ).

Plaçons-nous par exemple dans la situation de l’enregistrement numérique d’un musicien en studio.

Le pianiste joue son morceau, la musique est enregistrée à l’aide d’un microphone qui, avec son
préamplificateur, a une bande passante de 40 kHz. Personne n’a remarqué la chauve-souris qui
dormait dans l’instrument et qui, réveillée par la musique, pousse des cris parfaitement inaudibles
puisque dans la bande ultrasonore.

Le microphone fournit donc un signal électrique composé:

• de la musique produite par le musicien dans la bande 20 Hz-20 kHz


• de bruit électrique à densité spectrale constante dans la bande 0-40 kHz
• du cri de la chauve-souris à 35 kHz

L’ingénieur du son choisit une fréquence d’échantillonnage Fe = 44,1 kHz en pensant respecter
parfaitement la règle de Shannon. C’est parfaitement vrai pour la musique, mais pas pour le bruit, ni
pour le cri de la chauve-souris.

Le spectre du signal échantillonné est alors le suivant :

Figure 33.
Spectre d’un Amplitude
Raie parasite Raie parasite
signal musical + repliée à 9,1 kHz
à 35 kHz
bruit
échantillonnés.

f en kHz
f en kHz
20 40
Fe

On constate l’apparition dans la bande audio par repliement de spectre :

• du cri de la chauve-souris à 44,1 - 35 = 9,1 kHz qui est devenu audible


• d’une augmentation du bruit provenant du bruit au-delà de 20 kHz replié vers les BF

Pour éviter ces problèmes, il faut s’assurer que le spectre est vraiment limité à Fmax. La meilleure
façon de s’en assurer est de placer un filtre à coupure raide qui supprimera tous les signaux parasites
au-delà de la fréquence limite Fmax : c’est le filtre anti-repliement.

Ce filtre passe-bas doit avoir les spécifications suivantes :

• fréquence de coupure égale à Fmax


• variations de gain minimales dans la bande passante
• pente la plus raide possible après la coupure
• atténuation hors bande passante adaptée au nombre de bits N de la numérisation

En effet, les signaux parasites au-delà de Fmax vont être atténués par le filtre anti-repliement et se
retrouver dans la bande du signal.

Pour que ces parasites repliés ne soient pas gênant, il suffit que leur niveau soit suffisamment faible
c’est à dire d’un niveau inférieur à la résolution du convertisseur analogique-numérique.

jean-philippe muller
Le traitement numérique du signal audio 22

Par exemple, on désire échantillonner un signal de fréquence maximale Fmax = 1 kHz et le numériser
sur 8 bits.

Le rapport signal/bruit après numérisation sera de : S/B = 6.N + 2 = 50 dB


ème ème
On utilisera donc une filtre anti-repliement coupant à fc = 1 kHz, au moins du 6 ou du 8 ordre,
ayant une atténuation hors bande d’au moins 60 dB

On pourra par exemple utiliser un filtre MAXIM Max 294 du huitième ordre dont la courbe de réponse
a l’allure suivante :

Figure 34.
Exemple de
gabarit de filtre
anti-repliement.

Dans le cas d’une acquisition d’un signal musical sur 16 bits, le filtre anti-repliement aura
nécessairement une atténuation supérieure à 100 dB hors bande, ce qui n’est pas sans poser des
problèmes de réalisation technologique .

En conclusion, le filtre anti-repliement ne supprime pas le phénomène de repliement, mais


atténue le signal replié au point de le rendre négligeable.

5) Le bloqueur :

Pour permettre la conversion analogique-numérique entre deux instants d’échantillonnage, il faut


maintenir la valeur du signal x(nTe) à l’entrée du convertisseur jusqu’à l’arrivée de l’échantillon
suivant.

De ce fait l’échantillonneur est toujours suivi dans la pratique d’un circuit de maintien appelé bloqueur.

Figure 35.
L’échantillonneur-
bloqueur

Dans la pratique, cette mémorisation de la grandeur analogique est toujours réalisée à l’aide d’un
condensateur qui devra être choisi avec un faible courant de fuite.

jean-philippe muller
Le traitement numérique du signal audio 23

Voici un exemple de réalisation pratique d’un échantillonneur bloqueur :

Figure 36. R R
Exemple pratique
d’échantillonneur- Le dispositif fonctionne en deux temps :
bloqueur.
x(t • K fermé : échantillonnage
K C
)
C se charge à la tension x(nTe) avec une
constante de temps RC
-
+
• K ouvert : phase de blocage
s(
t) C garde sa charge et on a
s(t) = -x(nTe)

Pour éviter une perte de charge de C durant la phase de maintien, il faut utiliser un Aop à faible
courant d’entrée et un condensateur de très bonne qualité à faibles pertes.

6) Quantification :

Le signal en marches d’escalier peut maintenant être converti en une suite de valeurs binaires. Il faut
donc classer les échantillons analogiques selon différents niveaux : c’est le rôle du quantificateur
réalisé en pratique par le convertisseur analogique-numérique.

Voici par exemple la caractéristique de transfert d’un quantificateur sur 4 bits en code binaire décalé :

Figure 37.
Caractéristique
de transfert d’un
quantificateur
linéaire.

jean-philippe muller
Le traitement numérique du signal audio 24

Il est clair qu’en remplaçant une échantillon par un autre de valeur voisine, on introduit une erreur
d’arrondi quasiment aléatoire appelée bruit de quantification.

Cette erreur d’arrondi sera d’autant plus faible que le nombre de niveaux numériques sera grand, elle
diminue donc lorsque le nombre de bits N augmente.

C’est à ce niveau que se trouvent la faiblesse et la force des systèmes numériques :

• faiblesse car on dégrade la qualité en quantifiant


• force car on peut toujours améliorer la qualité en augmentant le nombre de bits N

Rappelons la formule donnant l’importance de ce bruit de quantification :

S/B en dB = 6.N + 2

Ce rapport Signal/Bruit est évidemment atteint pour un signal d’amplitude maximale Smax utilisant la
N
pleine échelle des 2 niveaux.

Le bruit de quantification a une valeur crête égale au quantum Q. Si l’amplitude du signal traité
diminue, le rapport S/B se dégrade.

Voici l’allure du bruit de quantification pour un signal quelconque :

Figure 38.
La valeur crête
du bruit de
quantification ne
dépend pas du
niveau du signal.

Contrairement au bruit d’un système analogique, ce type de bruit qui se traduit par une sorte de
bourdonnement n’apparaît qu’en présence d’un signal.

Un convertisseur analogique-numérique 8 bits travaille sur une plage d’entrée de -5V à +5V. La
conversion se fera donc sur 256 niveaux.

Le bruit de quantification a une valeur crête de Q = 10/256 = 40 mV quel que soit l’amplitude du
signal.

• un signal d’entrée sinusoïdal d’amplitude 5V sera digitalisé sur 256 niveaux, d’où un rapport S/B =
6.N + 2 = 50 dB

• un signal d’entrée sinusoïdal d’amplitude 2,5V sera digitalisé sur 128 niveaux soit 7 bits , d’où un
rapport S/B plus faible de : S/B = 44 dB.

jean-philippe muller
Le traitement numérique du signal audio 25

La courbe montrant l’évolution du rapport signal/bruit après quantification sur 8 bits en fonction du
niveau du signal traité met en évidence le phénomène :

Figure 39.
S/B dB après
Dans un système
quantification
à quantification
linéaire, le
50
rapport S/B
diminue avec le 40
niveau du signal.
30

20 niveau du
signal
-50 - 40 -30 -20 -10 0 S/Smax

Cette dégradation du rapport S/B pose un problème dans des applications comme le téléphone pour
lequel la voix est justement codée sur N = 8 bits.

Si on veut avoir un confort d’écoute satisfaisant, il faut avoir au moins une dynamique de 30 à 40 dB,
ce qui veut dire qu’un conversation à fort niveau ( -5dB ) se fera avec une qualité tout à fait
satisfaisante ( S/B = 45 dB ), alors qu’une conversation plus « intime » (-40dB ) se fera avec une
piètre qualité ( S/B = 10 dB ).

Pour pallier à ce défaut, on utilise en téléphonie une courbe de quantification non linéaire qui permet
d’avoir un rapport S/B constant sur une plage de dynamique supérieure à 30 dB.

Figure 40.
Exemple de
système à
quantification
non-linéaire.

Dans le cas de la musique échantillonnée sur 16 bits, la situation est un peu différente. En effet, avec
une quantification sur 16 bits le rapport signal/bruit est voisin de 100 dB à niveau maximal.

Si la chaîne de reproduction sonore est capable de fournir à niveau maximal un volume sonore de 110
dB ( amplificateur de 100 W, enceintes de rendement 90 dB/W ), le bruit de quantification reste à un
niveau de 10 dB , soit à peine au-dessus du seuil d’audition.

jean-philippe muller
Le traitement numérique du signal audio 26

Figure 41.
Le niveau de bruit
de quantification
dans un système
audio numérique à
16 bits.

Ce bruit de quantification sera probablement plus faible que le bruit thermique en sortie de la chaîne
de reproduction sonore et que le bruit ambiant.

Ceci explique pourquoi on n’utilise jamais de quantification non linéaire dans les systèmes de
traitement du son digitalisé sur 16 bits.

jean-philippe muller
Le traitement numérique du signal audio 27

IV) Restitution d’un signal analogique :

1) Par circuit de maintien :

En sortie du système numérique, il faut transformer la séquence numérique yn en signal analogique


y(t). Pour cela, la séquence yn est appliquée à un convertisseur numérique analogique qui fournit en
sortie les échantillons y(nTe).

Ces convertisseurs sont toujours équipés d’un bloqueur qui maintient en sortie la valeur de
l’échantillon y(nTe) jusqu'à l’arrivée de l’échantillon suivant y((n+1)Te).

Le signal en marches d’escaliers ainsi obtenu est simplement lissé par un filtre passe-bas.

Figure 42.
Structure d’un y’(t)
yn y*(t) Bloqueur y(t)
CNA Passe-
système de bas
restitution.

amplitude

temps

Dans cette figure, les différents types de traits correspondent aux signaux suivants :

y*(t) : échantillons analogiques correspondant aux valeurs numériques yn

yi(t) : signal analogique idéal passant par les échantillons y*(t)

y(t) : signal réellement obtenu en sortie du filtre passe-bas de restitution

On constate que cette structure ne fournit pas le signal idéal yi(t), mais une approximation y(t) de ce
signal, ce qui n’est guère acceptable dans un système de reproduction du son de bonne qualité.

En théorie, on peut obtenir yi(t) à partir de y*(t) par simple filtrage passe-bas :

Figure 43. Amplitude


Restitution du
signal analogique Filtre passe-bas
par filtrage
passe-bas. Vto/Te

fréquence

Fe 2Fe

Cette solution n’est pourtant pas envisageable dans la pratique parce qu’elle donne un signal yi(t)
certes exact, mais d’amplitude extrêmement faible et donc forcément parasité par des signaux
numériques (horloge par exemple ).

jean-philippe muller
Le traitement numérique du signal audio 28

Pour voir simplement l’influence du bloqueur sur le signal de sortie, dessinons le spectre du signal en
sortie du bloqueur en considérant celui-ci comme un filtre dont la transmittance (et par conséquent
aussi la courbe de gain et la courbe de phase) a une expression très particulière :

Figure 44.
Transmittance du Transmittance
bloqueur. -Tep
T(p) = 1 - e
p

fréquence
Fe 2Fe 3Fe 4Fe

phase
Fe 2Fe 3Fe 4Fe
fréquence
-

La transmittance du bloqueur est une courbe en sin(X)/X appelée aussi sinus cardinal et la courbe de
phase est linéaire.

Pour obtenir le spectre du signal en sortie du bloqueur, il suffit de superposer le spectre des
échantillons y*(t) et la transmittance du bloqueur :

Figure 45.
Amplitude
Restitution par
bloqueur.

fréquence
Fe 2Fe

On constate les résultats suivants :

• le premier paquet spectral est légèrement déformé à cause de la chute du gain du bloqueur,
l’atténuation étant la plus sensible au voisinage de Fmax

• les paquets autour de Fe, 2Fe ... sont atténués mais subsistent et traduisent la présence des
marches d’escalier

jean-philippe muller
Le traitement numérique du signal audio 29

Le filtre passe-bas de restitution permet de supprimer ces paquets autour de Fe, 2Fe ...et ainsi de
lisser le signal :

Figure 46.
Utilisation d’un Amplitude
filtre passe-bas
de restitution.

Filtre passe-bas de restitution

fréquence

Fe

On constate que le signal y(t) en sortie du filtre de restitution diffère du signal idéal yi(t) correspondant
aux échantillons sur deux points :

• une atténuation des fréquences aiguës due à la chute de gain du sinus cardinal ( de l’ordre de 3dB
à Fe/2 )

• un déphasage de Te/2 lié à la courbe de phase du bloqueur qui n’est absolument pas gênant dans
la pratique

Pour passer d’un signal numérique au signal analogique correspondant, on dispose actuellement de 3
possibilités suivant les exigences de précision et de simplicité de réalisation qu’on s’impose :

2) Utilisation d’un filtre compensateur de sinus cardinal :

On peut très bien grâce au filtre compenser la perte des aiguës en utilisant un filtre dont la courbe de
gain augmente légèrement jusqu’à Fmax :

Figure 47.
Filtre passe-bas Amplitude Chute de gain du
de restitution bloqueur sin(x)/X
compensateur de
sinus cardinal.

Filtre passe-bas de restitution


compensant la chute de gain
du bloqueur

fréquence

Fe 2Fe

Ce filtre doit remonter le gain de 4 dB environ à la fréquence Fe/2. Si on veut une correction parfaite,
ce filtre est délicat à réaliser en analogique, vu l’expression particulière de la transmittance du
bloqueur.

L’Inconvénient de cette technique est qu’elle nécessite la mise en oeuvre d’un filtre analogique assez
difficile à réaliser dans la pratique.

jean-philippe muller
Le traitement numérique du signal audio 30

3) Restitution par suréchantillonnage :

Le convertisseur numérique-analogique est précédé d’un interpolateur linéaire qui calcule un certain
nombre d’échantillons qui seront placés entre yn et yn+1.

Dans le cas du quadruple suréchantillonnage, la situation au niveau des échantillons et du spectre est
la suivante :

Figure 48.
Calcul yn+1
d’échantillons yn
intermédiaires.

temps
échantillons calculés
par l’interpolateur linéaire

On dispose alors de 4 échantillons au lieu d’un seul pour la période d’échantillonnage Te. La nouvelle
fréquence d’échantillonnage apparente vaut donc :

F’e = 4.Fe

et le spectre du signal après conversion et blocage a l’allure suivante :

Figure 49. Amplitude


Signal restitué
après
suréchantillonnage

Filtre passe-bas de restitution

4 Fe 8 Fe

On constate que dans la bande du signal le gain du bloqueur reste pratiquement à une valeur
constante, le signal restitué est donc presque le signal idéal défini précédemment.

La seule différence provient du fait que les échantillons intermédiaires ne sont pas des échantillons
exacts, mais calculés par interpolation linéaire.

jean-philippe muller
Le traitement numérique du signal audio 31

L’amélioration de la restitution se constate aussi aisément sur le dessin des échantillons :

• sans interpolation :

Figure 50.
Signal restitué yi(t) : signal idéal
sans interpolation.

y(t) : signal réel


yn+1

yn

temps

nTe (n+1)Te

• avec quadruple suréchantillonnage :

Figure 51.
Signal restitué yi(t) : signal idéal
avec interpolation.
y(t) : signal réel

yn+1

yn

temps
échantillons calculés
par l’interpolateur

Pour que l’interpolation soit effectivement utile, même entre deux échantillons qui ne diffèrent que par
le bit de poids le plus faible, il faut évidemment que les échantillons obtenus par calcul soient codés
sur un nombre de bits supérieur que le signal de départ.

C’est ainsi que dans les lecteurs de disques compacts actuels qui utilisent couramment l’octuple
suréchantillonnage à la restitution, en sortie de l’interpolateur les échantillons sont codés sur 20 voire
22 bits.

Cela suppose l’existence de convertisseurs numériques analogique de précision suffisante. Disons


simplement qu’on dispose actuellement de convertisseurs adaptés à un octuple suréchantillonnage et
que la précision de ces convertisseurs s’améliore sans cesse.

jean-philippe muller
Le traitement numérique du signal audio 32

V) Les systèmes audionumériques actuels :

1) Capacité de stockage et débit numérique :

Le standard de numérisation actuel est celui utilisé pour le disque compact et correspond à un
échantillonnage à Fe = 44,1 kHz et un codage sur 16 bits pour les deux voies, ce qui correspond à un
débit numérique de :

D = 2.16.44100 = 1,41 Mbits/s

Avec ce standard, le rapport signal/bruit théorique est de 98 dB.

Au niveau du support ( disque ou bande ), l’objectif est d’arriver à une capacité de stockage
supérieure à 1 heure.

Nous en déduisons la valeur de capacité nécessaire :


6
Capacité totale = débit.durée = 1,41.10 .3600 = 5 Gbits/heure = 625 Moctets/heure environ

Ainsi selon le standard précédent :

• une disquette ordinaire 1,44 Moctets peut contenir 8 secondes de musique


• un disque dur 1,2 Goctets peut stocker 2 heure
• un disque compact peut stocker environ 600 Moctets soit 1 heure de musique

Une autre limitation est la vitesse d’enregistrement et de lecture des données numériques. Si le débit
de 1,41 Mbits/s peut être assuré par les procédés optiques, ce chiffre est bien trop rapide pour une
tête d’enregistrement et de lecture magnétique fixe.

Il a donc fallu développer des techniques particulières qui peuvent se classer en deux familles :

• réduire le débit numérique en s’adaptant à l’oreille sans perte subjective de qualité


• travailler en parallèle avec plusieurs têtes magnétique
• utiliser un dispositif d’enregistrement et de lecture optique
• utiliser des têtes tournantes comme en vidéo

Les dispositifs actuels utilisent tous l’une ou l’autre de ces techniques :

• CD : pas de réduction de débit, lecture optique, stockage optique


• DAT : pas de réduction de débit, enregistrement, lecture et stockage magnétique
• minidisc : réduction de débit, enregistrement et lecture optique, stockage magnétique
• DCC : réduction de débit, enregistrement, lecture et stockage magnétique (abandonné)

Seuls les 3 derniers systèmes permettent un enregistrement facile. Malheureusement les systèmes de
protection des oeuvres artistiques mis en place ont beaucoup freiné le développement de ces
nouveaux produits.

2) L’enregistreur DAT :

Dans la filière de production sonore, l’enregistrement magnétique sur bande ou disque est
pratiquement un passage obligé vu son faible coût de revient et sa souplesse aux niveau des
traitements ultérieurs (effacement, mixage etc ...).

La limitation liée aux têtes de lecture aux hautes fréquences est la plus gênante et conditionne toute
la technologie. En effet, il est nécessaire que les signaux élémentaires enregistrés aient une
dimension suffisamment importante devant les cristaux magnétiques disposés sur le ruban. Il est
aussi nécessaire que ces signaux élémentaires soient d'une taille supérieure à la largeur de l'entrefer
de la tête de lecture, chargé de collecter le champ magnétique enregistré.

jean-philippe muller
Le traitement numérique du signal audio 33

Une cassette audio analogique peut fournir un enregistrement à peu près fiable à 10 kHz. La vitesse
de défilement standard étant de 4,75 cm/s, la longueur de l'onde enregistrée sur le ruban est donc :

λ = 4,75.10 /10 = 4,75 µm


-2 4

Cela veut dire que sur une bande magnétique ordinaire on peut enregistrer des données avec une
densité de l’ordre de 1 bit tous les 2 µm.

Pour un débit d'information de 1,4 Mbits/s, la vitesse de défilement de la bande devra être de :

≈ 3 m/s
6 -6
v = 1,4.10 .2. 10

On est donc loin des 4,75 cm/s des magnétophones analogiques.

Le DAT (Digital Audio Tape) fut le premier système d'enregistrement numérique spécialement conçu
pour des applications grand public.

Le DAT utilise un système à tambour genre vidéo, associé à une cassette de petite taille contenant
une cassette de 3,8 mm de large. Elle ressemble fort à une cassette vidéo miniature dont elle reprend
le volet de protection qui s'ouvre au moment de l'introduction de la cassette dans le magnétophone.

Les DAT fonctionnent aux fréquences compatibles avec les trois grandes catégories d'applications :
48 kHz pour les applications de haute qualité et professionnelles, 44,1 kHz pour la compatibilité avec
le Compact Disc, 32 kHz pour la radiodiffusion numérique et les enregistrements longue durée de
qualité moindre.

Comme dans le cas du disque compact, les données sont enregistrées après brassage et introduction
de codes correcteurs d’erreurs, mais le signal ne subit aucun traitement de compression de débit.

Dans un DAT la grande vitesse relative tête bande est obtenue en fixant les têtes sur un cylindre
rotatif tournant à grande vitesse ( 2000 tours/mn ).

Figure 52.
Structure
mécanique du
DAT.

La bande défile à vitesse lente ( 8,15 mm/s ) en contact avec ce cylindre, de manière que chaque tête
inscrive sur la bande une piste en décrivant une trajectoire oblique par rapport à l'axe de la bande.

jean-philippe muller
Le traitement numérique du signal audio 34

La vitesse relative résultante est de 3,13 m/s. La densité d’écriture atteint 2400 bits/mm, soit 0,42 µm
par bit.

Figure 53.
Inscription des
données sur la
bande.

A l'enregistrement, la rotation de la tête doit être synchronisée avec le signal, de manière que chaque
piste comporte une fraction cohérente de signal (une trame entière). Simultanément, on enregistre sur
une zone spéciale de la bande prévue à cet effet des signaux qui permettront, à la lecture, de localiser
la position des pistes sur la bande et de corriger la trajectoire des têtes.

La mécanique est donc délicate. L’électronique de pilotage de la platine est complexe et comprend
fréquemment plusieurs microprocesseurs.

Les performances obtenues sont excellentes, la bande passante dépendant évidemment du choix de
la fréquence d’échantillonnage.

Voici les courbes de réponse obtenues sur un appareil de ce type pour les deux fréquences
d’échantillonnage possibles : 32 kHz et 48 kHz.

Figure 54.
Exemple de
courbe de
réponse d’un
DAT.

Les caractéristiques principales de l’enregistreur DAT sont :

• dimensions de la cassette 73 x 54 x 10,5 mm


• largeur de bande 3,81 mm
• vitesse de bande 8,15 ou 4,075 mm/s
• vitesse du tambour 2000 tours/mn
• vitesse têtes/bande 3,13 m/s ou 11,3 km/h
• taille d’une piste 23,5 mm x 13,59 µm
• nombre de bits par piste : 196 blocs de 288 bits soit 56448 bits
• densité linéaire 2400 bits/mm

jean-philippe muller
Le traitement numérique du signal audio 35

3) Le disque compact :

Sur ce support, l’information numérisée selon le standard défini précédemment est inscrite sous la
forme de cuvettes réfléchissantes car recouvertes d’une fine pellicule d’aluminium.

Figure 55.
Inscription des
données sur un
CD.

Lors de la lecture, un point du disque est éclairée par une diode laser à semi-conducteur à arséniure
de gallium. Ce composant est réalisé autour d’une jonction P-N polarisée en direct et constituant une
cavité résonante.

Cette diode laser émet une puissance lumineuse inférieure à 2,5 mW et le courant qu’elle consomme
est de l’ordre de 50 à 60 mA. Ce courant augmente lors du vieillissement de la diode laser et peut
atteindre 100 mA : on peut alors considérer que la diode laser est épuisée et il faut procéder au
remplacement du bloc optique( durée de vie de l’ordre de 6000h ).

Figure 56.
Effet de la
régulation de
puissance sur le
courant de la
diode.

Pour pouvoir réguler la puissance émise par la diode laser, il faut la mesurer, ce qui se fait par
l’intermédiaire d’une photodiode montée dans le boîtier de la diode laser.

Figure 57.
Structure d’une
diode laser.

jean-philippe muller
Le traitement numérique du signal audio 36

Le faisceau lumineux émis par cette diode laser est focalisé sur le disque sous la forme d’un spot plus
large que les cuvettes et s’y réfléchit .

Figure 58.
Géométrie du
trajet optique
dans un lecteur
CD..

Deux cas peuvent se présenter :

• si le spot tombe sur un endroit dépourvu de cuvette, tout le rayonnement émis par le laser revient
alors en phase et l’éclairement de la cible est maximal.

• si le spot tombe sur une cuvette, une partie du faisceau se réfléchit au fond de la cuvette, l’autre
partie du faisceau sur le disque. La profondeur de la cuvette étant de l’ordre de λ/4, la partie du
rayonnement se réfléchissant au fond de la cuvette revient avec un déphasage de 180° par
rapport au rayonnement se réfléchissant sur le disque. Il en résulte une interférence soustractive
et un éclairement de la cible beaucoup plus faible.

Figure 59.
Technique de
lecture des
informations sur
le disque.

• en b : tout le rayonnement revient en phase, éclairement maximal

• en a : la moitié du rayonnement se réfléchit dans la cuvette, l’autre moitié ( car S1 + S3 = S2 ) se


réfléchit sur le disque. L’éclairement est quasi nul.

• en c : l’éclairement a une valeur intermédiaire

jean-philippe muller
Le traitement numérique du signal audio 37

Le signal en sortie de la photodiode cible a alors l’allure suivante quand le disque tourne :

Figure 60.
Le signal électrique
en sortie du
détecteur optique.

Outre la lecture du signal numérique, le bloc optique doit aussi permettre l’asservissement de la
focalisation du faisceau laser et le suivi de la piste ( tracking ).

La régulation de focalisation utilise une lentille cylindrique qui déforme la tache arrivant sur la cible.
Celle-ci comporte 4 zones sensibles A,B,C et D.

Figure 61.
Technique
d’asservissement
de la focalisation
du faisceau laser.

Figure a : la lentille de focalisation est trop basse, le point de focalisation est en dessous du miroir du
CD. Le faisceau réfléchi est séparé par le miroir semi-transparent et traverse la lentille cylindrique. Le
faisceau émergeant de la lentille cylindrique est elliptique et éclaire plus fortement les photodiodes B
et D de la cible.

Figure b : la focalisation est correctement réalisée. L'angle d'incidence du faisceau arrivant sur la
lentille cylindrique donne un faisceau émergeant à section circulaire. Les quatre photodiodes de la
cible sont également éclairées.

Figure c : la lentille de focalisation est trop haute , le point de focalisation est au-dessus du CD. Le
faisceau émergeant de la lentille cylindrique est à nouveau elliptique et éclaire plus fortement les
photodiodes A et C de la cible.

L’exploitation des signaux issus des capteurs A,B,C et D permet de réaliser l’asservissement de
focalisation.

jean-philippe muller
Le traitement numérique du signal audio 38

Pour le suivi de piste, on utilise, dans les lecteurs CD actuels, la technique du triple faisceau. Pour
obtenir ce triple faisceau, on utilise simplement une grille de diffraction en sortie de la diode laser.

Figure 62.
Principe du triple
faisceau.

Les spots latéraux encadrent la piste lue. Quand le spot principal est bien placé, les spots latéraux
sont tangents à la piste et la quantité de lumière constituant les faisceaux latéraux réfléchis est
identique.

Les photodiodes de tracking E et F reçoivent une quantité de lumière identique.

Figure 63.
Les spots latéraux
encadrent la piste.

Si une erreur de piste se produit, l’ensemble des 3 faisceaux se décale. Un des spots latéraux vient
mordre sur la piste. La quantité de lumière réfléchie associée diminue. Les photodiodes de tracking E
et F ne sont plus également éclairées.

Figure 64.
Effet d’une
erreur de piste.

jean-philippe muller
Le traitement numérique du signal audio 39

Voici un exemple concret montrant la structure de la tête de lecture :

Figure 65.
Structure du
système optique à
triple faisceau
FOP de Sony.

L’électronique de lecture du signal numérique régule l’intensité du faisceau laser et utilise les signaux
issus des cellules A,B,C et D pour extraite l’information utile.

Figure 66.
Interface laser
utilisant un
CXA1081M de
Sony

Les données ne sont pas inscrites séquentiellement sur le disque, mais ont subit un brassage ainsi
que l’adjonction de codes correcteurs d’erreurs qui rendent ce support insensible aux petits défauts de
surfaces.

jean-philippe muller
Le traitement numérique du signal audio 40

A chaque échantillon est attribué un mot de 16 bits (soit deux octets). L'enregistrement est
stéréophonique, à chaque impulsion de la fréquence d'échantillonnage fe, on obtient en sortie des
circuits de quantification 2 x 16 bits = 32 bits = 4 octets.

Chaque trame contient 6 échantillons stéréophoniques (6 x 4 = 24 octets, soit 192 bits) auxquels il
faut a jouter un certain nombre d'informations.

Le mot de synchronisation (codé sur 24 bits) est placé en tête de chaque trame. Ce mot de
synchronisation permet au processeur de traitement de signal implanté dans le lecteur, de reconnaître
le début de chaque trame. Il est utilisé par les circuits d'asservissement de débit trame et permet de
déterminer en partie la vitesse de rotation du disque (vitesse de lecture de l'ordre de 1,2 à 1,4 m/s).

Les mots de service et systèmes sont ces informations codées sur un octet qui contiennent des
données appelées sous-codes permettant aux circuits de traitement de signal et aux circuits de
Gestion du lecteur de reconnaître le type de contenu de la trame lue :

• présence ou absence d'informations audionumériques, c'est le sous-code P(pause) qui indique la


fin d'un morceau ou l'absence d'information audionumérique quand il est au niveau 0. Il indique le
début d'un morceau quand il prend la valeur 1.
• repérage de la trame dans le morceau, durée et type d'enregistrement (stéréophonie,
quadriphonie, préaccentuation, etc.), c'est le sous-code Q.
• affichage de graphismes, ou de textes (nom de l’auteur, intitulé de l'oeuvre, etc.), c'est le rôle des
sous-codes R, S, T, U, V, W Ces sous-codes n'étant pas utilisés sur les disques au standard
CDDA, le contenu est au niveau 0.

Le mot de parité est dans le principe, l'association à chaque octet de données audionumériques d'un
bit (appelé bit de parité) dont la valeur est obtenue en opérant un OU exclusif entre les bits d'un octet.
Si, lors de la lecture, on refait la même opération sur les bits constituant l'octet, le bit de parité reste
inchangé si aucune erreur n'a été commise au moment de la gravure ou de la lecture du disque. Il
devient possible de détecter une erreur mais il manque encore les éléments permettant de la corriger.

Figure 67.
Structure d’une
trame CD.

Afin de pouvoir réaliser une gravure sur le disque compatible avec les caractéristiques du faisceau
laser (diamètre du spot. etc.), il est nécessaire de réduire le débit numérique. Les octets sont
transposés en mots de l4 bits ( Eight to Fourteen Modulation}.

Par exemple, l'octet 0111 0010 est transposé en 10010010000010 de telle sorte qu'entre deux
niveaux 1 successifs il puisse y avoir au moins deux niveaux 0 et au plus dix niveaux 0.

Figure 68.
Codage EFM.

jean-philippe muller
Le traitement numérique du signal audio 41

D'autre part, on rappelle que le passage d'une absence de cuvette à une cuvette correspond à un
niveau 1 (modulation NRZl soit Non Retour à Zéro, IBM). La longueur des cuvettes enregistrés sur le
disque s'en trouve allongée. Pour conserver une valeur moyenne nulle du signal de lecture, on
introduit des mots de liaison de trois bits entre chaque échantillon codé et transposé EFM.

Pour se protéger des macro-défauts (rayure du disque, trace de doigts, défaut de fabrication, etc.)
pouvant entraîner la perte d'un ou plusieurs octets de données, on accroît la protection des données
enregistrées en ayant recours à un procédé appelé entrelacement. Le procédé consiste à changer
l'ordre naturel des octets à l'enregistrement.

Le scrambling est le résultat d'un entrelacement réalisé au niveau des octets constituant une trame.
Pour autoriser la correction de défauts plus important, on entrelace les octets sur un grand nombres
de trames : c' est ce qu'on appelle interleaving.

Les dispositifs permettant de corriger les erreurs de transmission (à l'enregistrement et à la gravure du


disque ou lors de la lecture) sont regroupés dans un circuit de codage (à l'enregistrement) et dans un
circuit de décodage (à la lecture).

L'entrelacement est réparti sur un ensemble important de trames : cet ensemble constitue un secteur.

Le codage et le décodage sont réalisés selon une procédure rigoureuse appelée CIRC soit Cross
Interleaving Reed-Solomon Code.

Un secteur est constitué de 98 trames comportant 98 x 24 = 2 352 octets de données


audionumériques.

La capacité de correction atteinte par le procédé CIRC est supérieure à un secteur. En lecture, quand
la capacité de correction est atteinte, le signal de sortie est assourdi : c'est un mute.

Caractéristiques principales d’un lecteur CD

• 2 canaux • pas 1,6 µm


• durée 60 mn • matériau : polycarbonate
• diamètre 120 mm • densité linéaire : 43 kbits/inch
• épaisseur 1,2 mm • fréquence d’échantillonnage 44,1 kHz
• départ programme intérieur • quantification : 16 bits linéaire
• vitesse linéaire constante (1,2 à 1,4 m/s) • modulation EFM
• profondeur de la microcuvette 0,11 µm • correction d’erreur CIRC
• longueur de la microcuvette 0,9 à 3,2 µm • débit 2,03 Mbits/s
• largeur de la microcuvette 0,5 µm

Figure 69.
Allure du signal
en sortie du bloc
optique d’un
lecteur CD.

jean-philippe muller
Le traitement numérique du signal audio 42

4) Le minidisc :

Le lecteur enregistreur minidisc peut fonctionner avec deux types de disques différents mais de
diamètre identique ( 64 mm) :

• le CD normal utilisé pour les minidiscs préenregistrés


• le CD enregistrable magnéto-optique

Le bloc optique d’enregistrement lecture doit donc être capable d’exploiter ces deux types de disques.

Sony a mis au point un système d'enregistrement magnétique (c'est une couche magnétique qui
supporte les données) qui combine, pour l'enregistrement, les effets d'un laser et d'une tête
magnétique.

La technique consiste à faire chauffer à l’aide d’une impulsion lumineuse suffisamment énergique ( 5
mW environ ) une couche magnétique de ferrite au terbium et cobalt, pour l'amener à son point de
Curie, température à laquelle il perd son magnétisme.

Simultanément, cette couche est soumise à un champ magnétique correspondant à un « 0 » ou à un


« 1 » qui oriente les molécules de cette couche.

Lors du refroidissement, la polarité magnétique présente au moment du passage au point de Curie


reste piégée dans la couche magnétique.

Cette technique présente l'avantage de ne pas exiger de puissance magnétisante trop importante ; en
revanche, le laser doit élever fortement la température de la couche magnétique. L’échauffement est
très localisé, c' est la surface du point échauffé qui détermine la taille du signal. Le laser est guidé par
un sillon moulé dans le disque vierge, son optique focalise la puissance du laser sur la couche
magnétique.

Figure 70.
Principe de
l’enregistrement
sur disque
magnéto-optique.

Un minidisc enregistrable devra donc, contrairement au minidisc préenregistré, présenter une fenêtre
d’accès au disque sur chaque face.

jean-philippe muller
Le traitement numérique du signal audio 43

Pour la lecture, on utilise le phénomène de changement de polarisation de la lumière par un champ


magnétique.

La lumière est une onde électromagnétique, et à ce titre caractérisée par la présence simultanée d’un
champ électrique et d’un champ magnétique, tous deux perpendiculaires à la direction de
propagation.

Figure 71.
La lumière est
une onde
électromagnétique
.

Cette lumière est dite « polarisée » lorsque le champ électrique a une direction fixe et connue.

Certaines substance appelées dichroïques absorbent plus ou moins les ondes selon la direction du
champ magnétique. La lumière qui sort d’une telle substance est polarisée.

Figure 72.
Action d’une
substance
dichroïque sur la
polarisation de la
lumière.

Certaines substances sont dites optiquement actives quand la direction de la polarisation tourne
lorsque la lumière polarisée les traverse ou s’y réfléchit.

Ainsi, une fine couche d’un alliage de terbium-ferrite-cobalt placée entre deux couches diélectriques
présente une activité optique rémanente quand les molécules constituant l’alliage sont orientées
correctement.

Dans un minidisc, le faisceau laser est émis, se réfléchit sur le disque et va être renvoyé vers le
photodétecteur avec une polarisation qui dépendra de l’état magnétique de la couche magnéto-
optique.

Figure 73.
Le trajet optique
dans un lecteur
enregistreur
minidisc.

Un dispositif transforme ensuite cette modulation de polarisation en modulation d'amplitude. On peut


utiliser pour cela des filtres polariseurs ou un prisme de Wollaston.
jean-philippe muller
Le traitement numérique du signal audio 44

On remarquera que, la puissance de la diode étant plus importante que dans un lecteur CD, il n’est
plus possible de placer la photodiode de contrôle de puissance dans le boîtier de la diode laser.

La cible utilisée dans le minidisc a un arrangement particulier et ne compte pas moins de 8 surfaces
sensibles.

Figure 74.
Agencement de la
cible utilisée dans
le bloc optique du
minidisc.

En sortie du prisme de Wollaston, on a un faisceau principal et 4 faisceaux secondaires. Les capteurs


I et J servent pour la mesure du signal optique, les autres surfaces sensibles sont utilisées pour la
mesure de la focalisation du faisceau laser et pour le suivi de piste.

⇒ lors de la lecture d’un minidisc magnéto-optique, la variation de la polarisation du faisceau se


traduit par une variation opposée des intensités des faisceaux I et J :
• pour un « 1 » enregistré sur le disque, le faisceau J sera plus intense que le I
• pour un « 0 » enregistré sur le disque, le faisceau J sera moins intense que le I

⇒ lors de la lecture d’un minidisc préenregistré, le passage sur une cuvette se traduit par une
variation simultanée des intensités des faisceaux I et J :
• si le spot tombe en dehors d’une cuvette, les faisceaux I et J seront égaux et forts
• si le spot tombe dans une cuvette, les faisceaux I et J seront identiques et faibles

L’électronique de mesure exploite les signaux issus des deux cellules I et J pour produire le signal
numérique contenant l’information enregistrée.

Figure 75.
Interface laser
utilisant un
CXA1381R de
Sony

jean-philippe muller
Le traitement numérique du signal audio 45

En ce qui concerne le suivi de piste ( tracking), la technique utilisée pour le CD à dû être adaptée vu
l’absence de cuvettes sur les minidisc enregistrable.

Le minidisc enregistrable est donc muni à la fabrication d’un sillon prégravé, au pas de 1,6 µm,
destiné à guider la tête d’enregistrement laser.

La profondeur de ce sillon est la même que celle des cuvettes d’un minidisc préenregistré.

Figure 76.
Le sillon
prégravé sur un
minidisc
enregistrable.

Le spot éclaire le sillon en débordant de part et d’autre, ce qui permet de détecter une variation de
niveau d’éclairement sur les 2 capteurs latéraux E et F si le spot s’écarte de la trajectoire idéale.

Figure 76.
La modulation
en fréquence du
sillon prégravé.

Pour avoir des repères sur le disque, la position du sillon oscille autour de la position moyenne à la
fréquence de 22,05 kHz. Cette fréquence est modulée en fréquence par des informations concernant
l’adresse ( ADIP : ADress In Pregroove ).

Ce signal à 22,05 kHz modulé en fréquence pourra être récupéré dans l’électronique de suivi de piste
et permettra, après démodulation, au système de se repérer sur le disque.

jean-philippe muller
Le traitement numérique du signal audio 46

Contrairement au CD, toutes les informations musicales arrivant dans le message à enregistrer ne
sont pas inscrites sur le disque. La technique de compression de données utilisée par le mini-disc
s’appelle l’ATRAC et permet une diminution de débit d’un facteur 5 environ sans perte sensible de
qualité... pour une oreille « normale » !

Dans ce système, le processeur travaille par tranches de signal et calcule le spectre de cette tranche
pour évaluer les composantes spectrales par bande de fréquence et les numériser en tenant compte
de l’effet de masquage.

Les signaux tombant dans la bande de fréquence où l’oreille est sensible seront digitalisés avec une
meilleure précision que ceux qui tombent en bout de bande audio.

Figure 77.
Structure du
codeur ATRAC.

Le spectre audio est divisé, par deux filtres numériques, en 3 sous-bandes :

• les basses fréquences de 0 à 5,5 kHz


• les fréquences moyennes de 5,5 à 11 kHz
• les fréquences aiguës de 11 à 22 kHz

Les signaux issus de ces filtres sont ensuite transformés en composantes spectrales par une
transformée en cosinus modifiée ( MDCT) qui est une variante de la transformée de Fourier discrète.

La longueur des tranches n’est pas fixe et ATRAC analyse plus finement les passages musicaux dont
le contenu est riche. Ainsi la longueur temporelle des blocs analysés peut varier entre 1,45 ms et 11,6
ms.

Avant l’application de cette transformée en cosinus, le signal est donc analysé pour savoir s’il varie
rapidement ou lentement. Si le signal varie rapidement, la transformée en cosinus sera calculée sur
un bloc court.

En sortie des blocs de calcul de la transformée discrète, le signal est maintenant représenté par 512
coefficients spectraux.

jean-philippe muller
Le traitement numérique du signal audio 47

Ces coefficients spectraux seront alors quantifiés avec réduction de débit :

• en tenant compte de la courbe de sensibilité de l’oreille on peut quantifier de façon moins précise
les raies de fréquence très basse ou très élevée
• en tenant compte des effets de masquage éventuels on peut s’éviter de quantifier des raies qui ne
seraient de toutes façons pas audibles
• en supprimant les bits de poids le plus fort lorsqu’ils sont nuls ( signaux de faible amplitude)

Figure 78.
Allocation des
bits par le
codeur ATRAC.

La première version de l'Atrac n'a pas reçu un accueil unanime des amateurs d'audio une nouvelle
version, plus subtile l'a remplacée et réduit l'écart entre le son numérique non comprimé et le son
comprimé.

A cause de la compression de débit obtenue grâce à ATRAC, le débit de données nécessaire (0,3
Mbits/s) est 5 fois inférieur au débit de lecture sur le disque ( 1,4 Mbits/s)

Contrairement à ce qui se passe dans un lecteur CD, les données ne sont pas lues en continu, mais
de façon intermittente. Une mémoire de capacité assez importante ( 1 Mbit soit 3 secondes de
musique, ou 4 Mbits ) sert de tampon entre le dispositif de lecture de données et le décodeur ATRAC.

Figure 79.
Comparaison
CD/minidisc.

jean-philippe muller
Le traitement numérique du signal audio 48

Cette mémoire tampon est indispensable pour une autre raison. Un des défauts inhérents à la lecture,
ou d'ailleurs à l'enregistrement optique, réside dans la relative sensibilité aux chocs.

Figure 80.
Le rôle de la
mémoire tampon.

Le fait de disposer de quelques secondes de musique dans la mémoire tampon laisse le temps à
l’asservissement de suivi de piste de replacer le spot laser à l’endroit adéquat.

Figure 81.
Comportement
du lecteur
minidisc en cas
de choc.

Le MD ne supporte que la fréquence d'échantillonnage de 44,1 kHz, impossible donc de faire entrer
sur ces appareils les signaux d'un DAT enregistrés à 48 kHz ou ceux d'un récepteur radio satellite. La
solution existe sur certains magnétophones MD, elle consiste à intégrer un convertisseur de fréquence
d'échantillonnage. Son inconvénient, dans le cas d'un signal enregistré à 48 kHz, est que la bande
passante est réduite. En revanche, en entrant à 32 kHz, on n'élargit ni ne rétrécit le spectre...

Les données numériques enregistrées sur le MD sont stockées par paquets. Si le disque est vierge,
ils seront vraisemblablement placés côte à côte.

En revanche, lorsque vous avez enregistré un disque il vous est parfaitement possible d'effacer une
plage. Cet effacement est purement virtuel, ce n'est que lorsque l’espace qu'elle utilisait sera
réoccupé que l'effacement aura vraiment lieu.

Il n'y a pas, ici, d'effacement avant enregistrement, tout s'effectue en même temps. L’effacement
d'une plage se réduira à un changement dans une table d'allocation. Cette technique permet de
disposer de tout l'espace laissé disponible par l'effacement de plages pour enregistrer d'autres
morceaux, même plus longs, technique impensable avec un support en bande.

jean-philippe muller
Le traitement numérique du signal audio 49

Voici un exemple de courbe de réponse et de caractéristiques de distorsion obtenus avec un


enregistreur minidisc Sony MZ-R30:

Figure 82.
Caractéristiques
d’un lecteur
minidisc Sony.

jean-philippe muller