Vous êtes sur la page 1sur 688

L’audionumérique

Musique et informatiqu

3 e éditi

Traduction et adaptation française : Jean de Reydel


mise à jour et enrichie, de la traduction française
de l’ouvrage de Curtis Roads publié en langue anglaise sous le titre :
The Computer Music Tutorial

Copyright 1ère édition © 1996 Massachusetts Institute of Technology


Authorized translation from the English Language edition published by MIT Press
All rights reserved.

© Dunod, 2016 pour la 3e édition française

Traduction et adaptation française : Jean de Reydellet

Photo de couverture : B&W Loudspeakers LTD, England

© Dunod, 1998, 2007, 2016 pour la traduction française


5 rue Laromiguière, 75005 Paris
www.dunod.com
ISBN 972-2-10-074650-7
Table des matières

AVANT-PROPOS DE L’AUTEUR X

AVANT-PROPOS DU TRADUCTEUR XI

PARTIE A – ENVIRONNEMENT ET OUTILS

CHAPITRE 1 – CONCEPTS AUDIONUMÉRIQUES

1.1 Origines : histoire de l’enregistrement audionumérique


1.2 Éléments fondamentaux des signaux sonores 1
1.3 Représentations analogiques du son 1
1.4 Représentations numériques du son 1
1.5 Gamme dynamique des systèmes audionumériques 3
1.6 Suréchantillonnage 3
1.7 Supports audionumériques 3
1.8 Compression des données audio 3
© Dunod. Toute reproduction non autorisée est un délit.

1.9 Synthèse et traitement du signal 3


1.10 Conclusion 4

CHAPITRE 2 – MIXAGE 4

2.1 Mixage et gamme dynamique 4


2.2 Tables de mixage 4
2.3 Tables hybrides 5
2.4 Éléments des tables de mixage numériques 5
2.5 Enregistrement et mixage multipiste 5
2.6 Écoute audio 5
2.7 Automatisation du mixage 5
2.8 Synchronisation du mixage audio et de la vidéo 6
2.9 Conclusion 6
3.1 Remodeleurs d’enveloppes 6
3.2 Extensions avec seuil (noise gates) 6
3.3 Compresseurs 6
3.4 Extenseurs 7
3.5 Limiteurs 7
3.6 Unités de réduction du bruit et compresseurs-extenseurs 7
3.7 Dangers de la transformation de la gamme dynamique 7

CHAPITRE 4 – LES FILTRES NUMÉRIQUES 7

4.1 Présentation de la théorie des filtres aux musiciens 7


4.2 Filtres : origines 7
4.3 Réponse impulsionnelle, fréquentielle et de phase d’un filtre 7
4.4 Les filtres sous forme d’équations 7
4.5 Filtre passe-bas simple 8
4.6 Filtre passe-haut simple 8
4.7 Filtres à réponse impulsionnelle finie généraux 8
4.8 Filtres à réponse impulsionnelle infinie simples 8
4.9 Filtres à réponse impulsionnelle infinie généraux 8
4.10 Comparaison des filtres FIR et des filtres IIR 8
4.11 Conception d’un filtre à partir d’une spécification arbitraire 8
4.12 Blocs de construction des filtres complexes 8
4.13 Filtres en peigne 8
4.14 Filtres passe-tout 9

CHAPITRE 5 – LA CONVOLUTION 9

5.1 L’opération de convolution 9


5.2 Convolution par impulsions élémentaires échelonnées et retardées 9
5.3 Définition mathématique de la convolution 9
5.4 Comparaison de la convolution et de la multiplication 9
5.5 La loi de la convolution 9
5.6 Relation entre convolution et filtrage 9
5.7 Convolution rapide 10
5.8 Signification musicale de la convolution 10
5.9 Convolution avec des grains et des pulsars 10
5.10 Comparaison de la convolution linéaire et de la convolution circulaire 10
5.11 Déconvolution 10

CHAPITRE 6 – LES EFFETS DE RETARD 10

6.1 Les effets de retard temporel fixe 10


6.2 Les effets de retard temporel variable 11
6.3 Changement temps/hauteur 11
7.1 Spatialisation du son 12
7.2 Indications de localisation 12
7.3 Haut-parleurs rotatifs 13
7.4 Son surround 13

CHAPITRE 8 – LA RÉVERBÉRATION 15

8.1 Réverbération 15
8.2 Modelage d’espaces sonores 16

CHAPITRE 9 – RECONNAISSANCE DE LA HAUTEUR 16

9.1 Analyse de hauteur, de rythme et de forme d’onde : origines 16


9.2 Reconnaissance de la hauteur et du rythme dans les systèmes MIDI 17
9.3 Le problème de la détection de hauteur 17
9.4 Méthodes de détection de hauteur 17

CHAPITRE 10 – RECONNAISSANCE DU RYTHME 18

10.1 Applications de reconnaissance du rythme 18


10.2 Niveaux de reconnaissance du rythme 18
10.3 Détection d’événement 18
10.4 Transcription 19
10.5 Récupération 19

CHAPITRE 11 – ANALYSE SPECTRALE : MÉTHODES DE FOURIER 19

11.1 Applications de l’analyse spectrale 19


11.2 Tracés spectraux 19
11.3 Modèles derrière les méthodes d’analyses spectrales 20
11.4 Spectre et timbre 20
© Dunod. Toute reproduction non autorisée est un délit.

11.5 Analyse spectrale : origines 20


11.6 Le spectre de Fourier à court terme 20
11.7 La représentation sonagramme 22
11.8 Le vocodeur de phase 22

CHAPITRE 12 – ANALYSE SPECTRALE : 23


MÉTHODES PAR DÉCOMPOSITION ATOMIQUE

12.1 Fondamentaux 23
12.2 Méthodes 23
12.3 Applications 23
12.4 Conclusion : études avancées 24
13.1 Analyse du son sans la méthode de Fourier 24
13.2 Analyse par banque de filtres à Q constant 24
13.3 Analyse par ondelettes 24
13.4 Analyse du signal par distribution de Wigner-Ville 25
13.5 Analyse spectrale par autorégression 25
13.6 Analyse par d’autres fonctions 25
13.7 Modèles d’audition 26
13.8 Systèmes comprenant le signal 26

CHAPITRE 14 – MIDI 26

14.1 Comparaison des données de contrôle MIDI et du son 27


14.2 Origines : la spécification MIDI 1.0 27
14.3 Possibilités musicales du MIDI 27
14.4 Matériel MIDI 27
14.5 Pilotes MIDI 27
14.6 Canaux MIDI 27
14.7 Messages MIDI 28
14.8 Modes MIDI 28
14.9 Contrôle continu par MIDI 28
14.10 Fichiers MIDI standards 29
14.11 Transfert de données audio 29
14.12 Contrôle temporel du MIDI 29
14.13 Contrôle de machine MIDI et contrôle de show MIDI 29
14.14 Accessoires MIDI 29
14.15 Limites du MIDI 29
14.16 Accélérer les communications MIDI 30
14.17 Écriture de logiciel de musique MIDI 30
14.18 Contacts sur le MIDI 30
14.19 Conclusion 30

CHAPITRE 15 – INTERCONNEXIONS DE SYSTÈME 30

15.1 Alimentations en courant alternatif 30


15.2 Câbles audio analogiques 30
15.3 Patchbays 31
15.4 Lignes série électroniques 31
15.5 Câbles MIDI 31
15.6 Liaisons audionumériques 31
15.7 Câbles en fibre optique 31
15.8 Liaisons de synchro 32
15.9 Ports et bus parallèles 32
15.10 Contrôleurs d’accès direct à la mémoire et mémoires partagées 32
15.11 Réseaux 32
15.12 Conclusion 33
16.1 Perception de l’intensité 33
16.2 L’oreille humaine 33
16.3 Perception des caractéristiques temporelles 33
16.4 Perception de la fréquence 33
16.5 Perception du bruit 34
16.6 Fusion et perception du timbre 34
16.7 Effets de masques 34
16.8 Conclusion : psychoacoustique et perception 34
16.9 Remerciements 34

PARTIE B – SYNTHÈSE SONORE

CHAPITRE 17 – INTRODUCTION À LA SYNTHÈSE 34

17.1 Origines : histoire de la synthèse numérique du son 34


17.2 Synthèse par lecture de table d’onde fixe 35
17.3 Bruit de lecture de table et oscillateurs interpolants 35
17.4 Synthèse de formes d’ondes variant dans le temps 35
17.5 Logiciels de synthèse 36
17.6 Synthèse numérique en temps réel 36
17.7 Comparaison de la synthèse différée et de la synthèse en temps réel 36
17.8 Spécification des sons musicaux 36
17.9 Conclusion 37

CHAPITRE 18 – L’ÉCHANTILLONNAGE 37

18.1 Musique Concrète et échantillonnage : origines 37


18.2 Bouclage 37
18.3 Transposition de hauteur 37
© Dunod. Toute reproduction non autorisée est un délit.

18.4 Conversion du taux d’échantillonnage sans transposition de hauteur 38


18.5 Problèmes du rééchantillonnage 38
18.6 Réduction et compression des données dans les échantillonneurs 38
18.7 Bibliothèques d’échantillons 38
18.8 Évaluation des échantillonneurs 38
18.9 Modelage des transitions note à note 38

CHAPITRE 19 – LA SYNTHÈSE ADDITIVE 38

19.1 Synthèse additive 38


19.2 Analyse/resynthèse additive 39
20.1 Fondu enchaîné de tables d’ondes 40
20.2 Empilement d’ondes 41

CHAPITRE 21 – LA SYNTHÈSE PAR TERRAINS D’ONDES 41

21.1 Terrains et orbites 41


21.2 Création de formes d’ondes prévisibles à partir des terrains d’ondes 41
21.3 Orbites périodiques 41
21.4 Orbites variant dans le temps 41

CHAPITRE 22 – LA SYNTHÈSE GRANULAIRE 42

22.1 Synthèse granulaire : historique 42


22.2 Grains sonores 42
22.3 Instrument générateur de grain 42
22.4 Organisations granulaires de haut niveau 42
22.5 Évaluation de la synthèse granulaire 43

CHAPITRE 23 – LA SYNTHÈSE PULSAR 43

23.1 Synthèse pulsar de base 43


23.2 Spectres de la synthèse pulsar de base 44
23.3 Synthèse pulsar avancée 44
23.4 Implémentations de la synthèse pulsar 45
23.5 Composer avec les pulsars 45
23.6 Applications musicales de la synthèse pulsar 45
23.7 Conclusion 45

CHAPITRE 24 – LA SYNTHÈSE SOUSTRACTIVE 45

24.1 Synthèse soustractive 45


24.2 Analyse/resynthèse soustractive 46
24.3 Codage prédictif linéaire 46

CHAPITRE 25 – LA SYNTHÈSE PAR MODULATION 47

25.1 Signaux bipolaires et unipolaires 48


25.2 Modulation en anneau 48
25.3 Modulation d’amplitude 48
25.4 Modulation de fréquence 48
25.5 Modulation de fréquence à multiples porteuses 49
25.6 Modulation de fréquence à multiples modulantes 49
25.7 Modulation de fréquence bouclée 50
25.8 Distorsion de phase 50
25.9 Synthèse par distorsion non linéaire 50
25.11 Conclusion 51

CHAPITRE 26 – LA SYNTHÈSE PAR MODÈLES PHYSIQUES 51

26.1 Synthèse par modèles physiques 51


26.2 Analyse de source et de paramètres pour les modèles physiques 53
26.3 Synthèse Karplus-Strong (corde pincée et tambour) 53

CHAPITRE 27 – LA SYNTHÈSE ANALOGIQUE VIRTUELLE 54

27.1 Comparaison de numérique et d’analogique 54


27.2 Analogique virtuelle 54
27.3 Évolution de la synthèse analogique 54
27.4 Questions soulevées par l’émulation de synthèse analogique 55
27.5 Amplificateurs, compresseurs et égaliseurs par modelage analogique 55
27.6 Conclusion 55

CHAPITRE 28 – LA SYNTHÈSE FORMANTIQUE 55

28.1 Synthèse par fonction d’onde formantique et CHANT 56


28.2 Analyse/resynthèse FOF 56
28.3 VOSIM 57
28.4 Synthèse par fonction de fenêtrage 57

CHAPITRE 29 – LA SYNTHÈSE PAR SEGMENTS DE FORME D’ONDE 57

29.1 Interpolation de forme d’onde 57


29.2 SAWDUST 58
29.3 SSP 58
29.4 Synthèse par instruction 58

CHAPITRE 30 – LA SYNTHÈSE CONCATÉNATIVE 58


© Dunod. Toute reproduction non autorisée est un délit.

30.1 Fondamentaux 58
30.2 Deux approches générales 59
30.3 Perspectives historiques 59
30.4 Conclusion 59

CHAPITRE 31 – LA SYNTHÈSE GRAPHIQUE 59

31.1 Graphiques dans la synthèse sonore : origines 59


31.2 Interaction avec l’UPIC 59
31.3 Synthèse graphique avec le MIDI 59
31.4 Évaluation de la synthèse sonore graphique 59
32.1 Modulation de bruit 60
32.2 Synthèse stochastique de forme d’onde 60

BIBLIOGRAPHIE 61

INDEX DES SUJETS 65

INDEX DES NOMS 67


Avant-propos de l’auteur

Après des décennies de recherche musicale, les conditions d’un âge d’or de création dans la mus
que électronique et informatique ont émergé. Un certain nombre de facteurs cruciaux, à la fo
techniques et esthétiques, se mettent en place pour favoriser cette tendance.
La musique informatique est le sujet d’un nombre de publications plus élevé qu’à aucun autr
moment dans le passé. La recherche est florissante, et des douzaines de festivals servent de terrai
d’expérimentation pour la musique électronique. Une industrie variée est apparue autour de
création de nouveaux synthétiseurs, logiciels et composants audio. La mentalité puremen
commerciale est contrebalancée par un vigoureux marché alternatif d’instruments exotiques et d
logiciels gratuits. Les outils d’organisation du son — les appareils d’édition et de mixage — on
atteint un degré d’efficacité indéniable, tandis que leur prix a chuté. Le coût d’un studio à bas
d’informatique — inimaginable pour un musicien individuel il y a encore vingt ans — est souven
inférieur au prix d’un instrument traditionnel.
Les avancées dans les domaines de la recherche et de la technologie ne relatent cependant qu’un
partie de l’histoire. Nous possédons maintenant une meilleure compréhension des implication
© Dunod. Toute reproduction non autorisée est un délit.

esthétiques de cette approche de la musique. Nous voyons qu’elle se déploie sur de multiples éche
les temporelles, et nos méthodes de synthèse, d’analyse et de transformation du son reflètent cel
La perspective des échelles multiples a commencé avec l’exploration du microson et de ses effet
depuis les procédés granulaires jusqu’aux masses sonores en mutations continues. Couplée à ce
aperçu, la spatialisation du son a évolué pour devenir un élément à part entière de la composition
Ces perspectives ont eu un impact profond sur notre conception de la forme musicale.
Les nouveaux outils et matériaux sonores conduisent inévitablement à de nouvelles stratégie
d’organisation. Parmi celles-ci se trouvent des processus basés sur les mutations sonores,
contrepoint timbral et spatial, le contrôle détaillé de masses sonores complexes, les juxtaposition
de paysages sonores virtuels et réels, la coalescence et la désintégration sonore, le contrepoin
microtonal, et l’interaction entre l’échelle microtemporelle et les autres échelles de temps qui n
peut être réalisée par des instruments acoustiques.
C’est pour moi un grand plaisir que de pouvoir présenter cette troisième édition française d
L’audionumérique. J’ai la chance d’avoir comme collaborateur Jean de Reydellet, qui aura été
visionnaire, qui aura su prévoir le besoin d’une édition révisée et actualisée de ce livre. Je su
heureux d’annoncer qu’avec cette nouvelle édition, le lecteur francophone possède la version
plus récente et la plus à jour de toutes celles qui existent, y compris en langue anglaise.

Curtis Roa
Santa Barbara, novembre 20

Présentation des collaborateurs


Curtis Roads
Curtis Roads est compositeur et professeur au Media Arts and Technology, University of Californ
Santa Barbara.
Jean de Reydellet (chapitre 7)
Titulaire d’une maîtrise en musicologie, Jean de Reydellet s’est spécialisé dans les technologi
informatiques et matérielles appliquées à la musique.
John Strawn (chapitre 1 et chapitre 17)
Titulaire d’un doctorat de Standford, John Strawn est le fondateur de S Systems, Inc, société fou
nissant des services de conseil et d’expertise en programmation pour de nombreux acteurs
l’industrie audio.
Bob L. Sturm (chapitre 12 et chapitre 30)
Après avoir obtenu un doctorat à l’University of California, Santa Barbara, Bob L. Sturm travaille
Paris puis Copenhague. Il est maintenant maître de conférences en médias numériques à la Scho
of Electronic Engineering and Computer Science, au sein de la Queen Mary University de Londre
John William Gordon (chapitre 16)
John William Gordon a obtenu le premier doctorat en informatique musicale au monde, au sein d
CCRMA de la Stanford University. Au cours de sa carrière, il a conçu des logiciels liés à l’acous
que, des solutions de traitement du signal et des systèmes de surveillance.
Avant-propos du traducteur

L’audionumérique, version française de l’ouvrage The Computer Music Tutorial de Curtis Road
voit aujourd’hui le jour dans sa troisième édition. Dix-sept années se sont écoulées depuis la sort
de la première édition, qui constituait déjà une somme de connaissances remarquable dans le
domaines de l’informatique musicale et de la synthèse du son. La seconde édition, conçue dè
l’origine pour augmenter le nombre des informations fournies au lecteur, et divisée en deux pa
ties, avait permis l’ajout de nombreux chapitres ou parties : MIDI, interconnexion de système
supports audionumériques, compression des données audio, formats de son surround, protocole
réseau, synthèse pulsar et synthèse par émulation analogique.
Cette troisième édition intègre quant à elle deux nouveaux chapitres. Les méthodes par décompo
sition atomique permettent l’émergence de techniques à fort potentiel pour des applications d
traitement avancé de l’audio : débruitage, désaturation, correction de corruptions dans le
signaux, ou encore séparation de sources ou détection de notes dans des environnements comple
xes. La synthèse concaténative quant à elle, constitue la méthode la plus aboutie de synthèse texte
parole actuellement existante. Elle est également utilisée dans les domaines de la synthèse voca
© Dunod. Toute reproduction non autorisée est un délit.

et de la synthèse d’instruments en intégrant des données de haut niveau telles que phrasés, trans
tions entre les notes ou nuances de jeu. Le livre a enfin fait l’objet d’une relecture qui a permis
correction d’un certain nombre d’erreurs et la suppression de quelques rares parties devenue
obsolètes.
Je tiens tout d’abord à remercier Curtis Roads d’être parvenu au cours des années à réunir c
ensemble de connaissances et d’informations sur de nombreux sujets liés au travail sur le son, e
d’avoir su les exprimer dans un style concis et clair. Il m’a fait l’honneur de m’accorder sa confianc
lors de la réalisation de cette version en langue française, et parce qu’il est un homme épris d
savoir, de recherche et de vérité, je ne peux éprouver à son égard qu’un sentiment de profond res
pect. J’exprime également ma gratitude à Horacio Vaggione, pour avoir assuré des cours passion
nants, et pour sa capacité à placer constamment des concepts liés à la composition musicale a
sein d’un ensemble plus grand d’idées esthétiques et philosophiques. À lui, ainsi qu’à Gérard Pap
ancien directeur du CCMIX (Centre de Composition Musicale Iannis Xenakis), j’adresse de chaleu
reux remerciements pour avoir permis à Curtis Roads d’assurer des cours sur le sol français dan
nombre de sujets abordés dans ce livre sur un plan pratique, par l’utilisation du studio et de
composition musicale.
J’adresse ma reconnaissance à Jean-Baptiste Gugès et Cécile Rastier des Éditions Dunod. Leur pr
fessionnalisme, leur sensibilité, leur gentillesse et leur intelligence auront permis d’éditer u
ouvrage d’un haut niveau de qualité, tant sur le fond que sur la forme. J’espère que chaque lecte
passionné par le son et la musique trouvera parmi ces pages matière à alimenter ses réflexions
son inspiration.

Jean de Reydel
Novembre 20
Partie A

Environnement
et outils
Chapitre 1

Concepts audionumériques
Curtis Roads et John Straw

La fusion de l’enregistrement audionumérique et de la technologie de l’informatique musicale cré


un médium artistique souple et puissant. Ce chapitre présente l’histoire et la technologie de l’enre
gistrement et de la reproduction audionumérique. Après avoir étudié cette introduction, vous devrie
être accoutumé au vocabulaire de base et aux concepts de l’audionumérique. Par souci de brièvet
nous condenserons les grands sujets ; pour plus d’informations, se reporter à D. Davis (1988, 1992

1.1 Origines : histoire de l’enregistrement audionumérique


© Dunod. Toute reproduction non autorisée est un délit.

Figure 1.1 – Séance d’enregistrement par procédé mécanique avant 1900.


Les vibrations sonores captées par le large cône situé au-dessus du piano étaient transformées sou
forme de vibrations mécaniques d’un stylet qui perçait un cylindre de cire en rotation.
Figure 1.2 – Haut-parleur Amplion, publicité de 1925.
Edison et d’Émile Berliner dans les années 1870, puis fut marquée par le Telegraphone de Valdema
Poulsen, un enregistreur magnétique à fil métallique datant de 1898 (Read et Welch, 1976). L’enre
gistrement sonore des débuts était mécanique (figure 1.1).
Bien que l’invention de la lampe à triode en 1906 lançât l’ère de l’électronique, les enregistremen
produits électroniquement ne furent pas mis en application avant 1924 (Keller, 1981). La figure 1
montre un haut-parleur à pavillon typique des années 1920.
© Dunod. Toute reproduction non autorisée est un délit.

Figure 1.3 – Prototype d’un enregistreur à bande portable Magnetophon de 1935,


construit par AEG (avec l’aimable autorisation de BASF Aktiengesellschaft).

L’enregistrement optique sur film fut présenté pour la première fois en 1922 (Ristow, 1993). L’enre
gistrement sur bande recouverte de matériau magnétique pulvérisé fut développé en Allemagn
dans les années 1930 (figure 1.3), mais ne s’étendit au reste du monde qu’après la Seconde Guerr
mondiale. Les enregistreurs allemands Magnetophon étaient largement en avance sur les enregis
treurs à fil métallique ou à ruban d’acier, qui nécessitaient une soudure pour faire un raccord. Le
Magnetophon et leurs descendants étaient des enregistreurs analogiques. Le terme « analogique
fait référence à la forme d’onde codée sur la bande : une proche analogie de la forme d’onde sonor
captée par le microphone. L’enregistrement analogique continue d’être amélioré, mais doit faire fac
analogique à un autre : un bruit additionnel est inévitable.
Pour plus d’informations sur l’enregistrement analogique, en particulier sur les machines mul
pistes, voir le chapitre 2.

1.1.1 Expérimentation de l’enregistrement numérique


Le concept clé de l’enregistrement audionumérique est l’échantillonnage, c’est-à-dire la conversi
de signaux analogiques continus (tels que ceux provenant d’un microphone) en signaux discre
échantillonnés temporellement. La clé de voûte théorique de l’échantillonnage est le théorème
l’échantillonnage, qui spécifie la relation entre le taux d’échantillonnage et la largeur de ban
audio (voir la partie sur le théorème de l’échantillonnage plus loin dans ce chapitre). Ce théorèm
est également appelé théorème de Nyquist d’après les travaux de Harold Nyquist aux Bell Telepho
Laboratories (Nyquist, 1928), mais une autre forme de ce théorème fut tout d’abord établie en 18
par le mathématicien français Augustin Louis Cauchy (1789-1857). Le chercheur britannique Al
Reeves développa le premier système breveté de modulation par impulsion (PCM) pour la tran
mission de messages sous forme (numérique) de « dichotomie de l’amplitude, quantification d
temps » (Reeves, 1938 ; Licklider, 1950 ; Black, 1953). Même aujourd’hui, l’enregistrement numériq
est quelquefois appelé « enregistrement PCM ». Le développement de la théorie de l’informati
contribua à la compréhension de la transmission audionumérique (Shannon, 1948). La résoluti
des difficiles problèmes de conversion entre signaux analogiques et signaux numériques deman
deux décennies, et est encore en cours d’amélioration. Nous présenterons les procédés de conversi
plus tard.
À la fin des années 1950, Max Mathews et son groupe de travail des Bell Telephone Laboratories gén
rèrent les premiers sons synthétiques à partir d’un ordinateur. Les échantillons étaient écrits p
l’ordinateur sur des armoires de stockage à bandes magnétiques volumineuses et coûteuses.
production de son à partir des nombres était effectuée de façon séparée en relisant la bande à trave
une lampe « faite maison » de 12 bits, un « convertisseur numérique son » développé par Eps
Corporation (Roads, 1980 ; voir également le chapitre 17).
Hamming, Huffman et Gilbert sont à l’origine de la théorie de la correction d’erreur numérique data
des années 1950 et 1960. Plus tard, Sato, Blesser, Stockham et Doi contribuèrent à la correcti
d’erreur, ce qui permit la construction des premiers systèmes d’enregistrement audionumérique u
lisables. Le premier enregistreur audionumérique monophonique spécialisé (basé sur un méc
nisme de magnétoscope), fut présenté par la compagnie japonaise de diffusion NHK (Nakajima
coll. 1983). Peu après, Denon développa une version améliorée (figure 1.4), et la course commen
pour la mise sur le marché d’enregistreurs audionumériques (Iwamura et coll., 1973).
En 1977, le premier système d’enregistrement arriva sur le marché, le processeur Sony PCM-
conçu pour coder des signaux audionumériques 13 bits sur des enregistreurs de vidéocassett
Sony de format Beta. En moins d’une année, il fut remplacé par les codeurs PCM en 16 bits tels q
le Sony PCM-1600 (Nakajima et coll. ,1978). À ce moment, la production se divisa en deux secteur
des unités professionnelles et des unités « grand public », bien qu’un réel marché de masse pour
type d’enregistreurs numériques ne se soit jamais matérialisé. Les Sony PCM-1610 et 1630 profe
sionnels devinrent les normes pour le mastering des disques compacts (CD), tandis que les systèm
compatibles avec le Sony PCM-F1 (également appelés systèmes EIAJ pour Electronics Indust
Association of Japan — Association de l’Industrie Électronique du Japon) devinrent de facto
norme pour l’enregistrement audionumérique à bas prix sur vidéocassette. Ces normes ont perdu
durant les années 1980.
Figure 1.4 – Enregistreur audionumérique construit en 1973 par Nippon Columbia (Denon)
et basé sur un enregistreur à bande vidéo 1 pouce (sur la droite).

L’Audio Engineering Society établit deux normes de fréquences d’échantillonnage en 1985 : 44,1
48 kHz. Ils révisèrent leurs spécifications en 1992 (Audio Engineering Society, 1992a, 1992b).
existe également une fréquence d’échantillonnage de 32 kHz pour la radiodiffusion. Entre-temp
quelques compagnies développèrent des enregistreurs numériques de plus haute résolution capab
de coder plus de seize bits à des taux d’échantillonnage plus élevés. Par exemple, une version de l’enre
gistreur numérique à bande X-86 de Mitsubishi codait en 20 bits à une fréquence d’échantillonnag
de 96 kHz (Mitsubishi, 1986). Un certain nombre d’enregistreurs à haute résolution sont maintenan
© Dunod. Toute reproduction non autorisée est un délit.

sur le marché.
1.1.2 Son numérique pour le public
Le son numérique atteignit tout d’abord le grand public en 1982 grâce au format disque compa
(CD), un disque optique de 12 cm lu par un laser (figure 1.5). Le format CD fut développé conjoin
tement par les sociétés Philips et Sony après des années de recherche. Ce fut un succès commerci
énorme, car plus de 1,35 million de lecteurs et des dizaines de millions de disques furent vendu
en moins de deux ans (Pohlman, 1989). Depuis lors, une variété de produits a été dérivée de la tech
nologie du CD, dont le CD-Rom (Read Only Memory — Mémoire à lecture seule), le CD-I (Interactif
et d’autres formats mélangeant les données audio, les textes et les images.
Au début des années 1990, les constructeurs se recentrèrent sur un besoin de support numériqu
enregistrable. Différents supports apparurent, dont la DAT (Digital Audio Tape — Bande audionu
mérique), la DCC (Digital Compact Cassette — Cassette compacte numérique), le MD (Mini-Disc
et le CD-R (CD enregistrable). Voir plus bas la partie sur les supports audionumériques.
Figure 1.5 – Le disque compact Sony-Philips.

1.1.3 Son numérique pour les musiciens


Bien que les lecteurs de CD aient eu des convertisseurs 16 bits bon marché, les convertisseurs
bonne qualité n’étaient pas répandus avant 1988. Avant cette date, quelques centres de musique avaie
développé des convertisseurs analogique-numérique et numérique-analogique, mais les posse
seurs d’ordinateurs personnels devaient attendre. Ils pouvaient acheter des synthétiseurs numériqu
et les contrôler par protocole MIDI, mais ils ne pouvaient directement synthétiser ou enregistr
des sons avec l’ordinateur.
Ce n’est qu’à la fin des années 1980 que des convertisseurs bon marché et de bonne qualité fure
mis sur le marché pour les ordinateurs personnels. Ce développement proclama l’arrivée d’u
nouvelle ère de la musique informatique. En peu de temps, la synthèse du son, l’enregistrement, et
traitement du son par ordinateur se répandirent. Des douzaines de stations de travail audio dif
rentes apparurent sur le marché de la musique. Ces systèmes permettaient au musicien d’enregistr
sément sur l’écran de l’ordinateur, avec relecture à partir du disque dur.

1.1.4 Enregistrement numérique multipiste


Contrairement aux enregistreurs stéréophoniques qui enregistrent en même temps les canau
gauche et droit, les enregistreurs multipistes possèdent différents canaux séparés ou pistes qui peuven
être enregistrées à différents moments. Chaque piste peut par exemple enregistrer un instrumen
séparé, ce qui permet une flexibilité lors du mixage ultérieur. Un autre avantage des machines mult
pistes est qu’elles laissent les musiciens construire les enregistrements par couches, chaque nouvel
couche étant un accompagnement des couches enregistrées précédemment.
La British Broadcasting Company (BBC) développa un enregistreur numérique expérimental à d
canaux en 1976. Deux années plus tard, la société 3M, en association avec la BBC, présenta le pre
mier enregistreur commercial 32 canaux (figure 1.6), accompagné d’un éditeur numérique de band
rudimentaire (Duffy, 1982). Le premier éditeur et mélangeur basé sur disque dur fut construit pa
la compagnie Soundstream de Salt Lake City, en Utah. Ce système permettait le mixage de huit piste
simultanées ou fichiers sons stockés sur disque dur (Ingebretsen et Stockham, 1984).
© Dunod. Toute reproduction non autorisée est un délit.

Figure 1.6 – Enregistreur numérique 32 pistes à bande de 3M, présenté en 1978.

Au milieu des années 1980, 3M et Soundstream s’étaient retirés du marché des enregistreurs numé
riques multipistes, dominé alors par les conglomérats Sony et Mitsubishi, plus tard rejoints par
compagnie Studer. Depuis un certain nombre d’années, l’enregistrement numérique multipis
était une activité très onéreuse (figure 1.7). La situation entra dans une nouvelle phase au débu
des années 1990, avec la présentation d’enregistreurs multipistes à bande peu onéreux, par le
Figure 1.7 – Enregistreur multipiste numérique Studer D820-48 DASH,
présenté en 1991 à un prix de vente au détail d’environ 200 000 €.

compagnies Alesis et Tascam, et d’enregistreurs multipistes sur disque dur par diverses comp
gnies. Le chapitre 2 raconte l’histoire de l’enregistrement multipiste analogique.

1.2 Éléments fondamentaux des signaux sonores


Cette partie présente les éléments fondamentaux et la terminologie pour décrire les signaux sonore
y compris la fréquence, l’amplitude et la phase.
1.2.1 Fréquence et amplitude
Le son atteint les oreilles de l’auditeur après avoir été transmis par l’air depuis sa source. Les aud
teurs entendent des sons, car la pression de l’air change légèrement dans leurs oreilles. Si la pressi
varie selon un modèle répétitif, nous disons que le son a une forme d’onde périodique. S’il n’y a p
sons quasi périodiques et quasi bruiteux.
La répétition d’une forme d’onde périodique est appelée un cycle, et la fréquence fondamentale d
la forme d’onde est le nombre de cycles qui se produit par seconde. Lorsque la longueur du cyc
appelée longueur d’onde ou période augmente, la fréquence en cycles par seconde diminue, et vic
versa. Dans le reste de ce livre, nous substituons Hz pour « cycles par seconde » en conformité ave
la terminologie standard de l’acoustique (Hz est une abréviation de Hertz, d’après le nom d
l’acousticien allemand Heinrich Hertz).
✦ Représentation dans le domaine temporel

+1

Amp. 0 Pression
de l’air

-1
Temps

Figure 1.8 – Représentation dans le domaine temporel d’un signal.


L’axe vertical montre la pression de l’air. Lorsque la courbe est près du sommet du graphique, l
pression de l’air est plus élevée. Au-dessous de la ligne horizontale, la pression est réduite. Le
variations de pression atmosphérique entendues comme du son peuvent survenir rapidement ; pou
des sons musicaux, ce graphique peut ne durer qu’un millième de seconde (1 ms).

Une méthode simple pour décrire les formes d’ondes sonores est de les dessiner sous forme de gra
phiques de pression d’air par rapport au temps (figure 1.8). Ceci est appelé représentation dans
domaine temporel. Lorsque la courbe est proche du bas du graphique, la pression est faible, et lors
que la courbe est proche du haut, la pression d’air a augmenté. L’amplitude de la forme d’onde est
quantité de changement de pression d’air ; nous pouvons mesurer l’amplitude comme la distanc
verticale entre le point de pression zéro et le point le plus haut (ou le plus bas) d’un segment de form
d’onde donné.
Un instrument acoustique crée du son en émettant des vibrations qui changent la pression de l’a
autour de l’instrument. Un haut-parleur crée du son en se déplaçant d’avant en arrière selon le
© Dunod. Toute reproduction non autorisée est un délit.

changements de tension dans un signal électronique. Lorsque le haut-parleur « entre » par rappo
à sa position de repos, la pression d’air diminue. Lorsque le haut-parleur « sort », la pression d’a
près du haut-parleur augmente. Pour créer un son audible, ces différentes vibrations doivent sub
venir à une fréquence comprise entre 20 et 20 000 Hz.
✦ Représentation dans le domaine fréquentiel
Mise à part la fréquence fondamentale, il peut y avoir de nombreuses fréquences présentes dan
une forme d’onde. Une représentation dans le domaine fréquentiel ou représentation du spect
montre le contenu fréquentiel d’un son. Les composants fréquentiels individuels du spectre son
appelés harmoniques ou partiels. Les fréquences harmoniques sont des multiples entiers de la fré
quence fondamentale. Si l’on considère une fondamentale ou premier harmonique de 440 Hz, so
second harmonique sera 880 Hz, son troisième 1 320 Hz, et ainsi de suite. De façon plus général
n’importe quel composant harmonique peut être appelé partiel, qu’il soit ou non multiple entier d
la fondamentale. En fait, de nombreux sons n’ont pas de fréquence fondamentale particulière.
Amp.

-100%
0° 360°
Phase
(b) 100%

Amp.
0%
1 10 20 30 40 50 60
Harmoniques
(c) 100%

Amp.

-100%
0° 360°
Phase
(d)

Amp.

1 10 20 30 40 50 60
Harmoniques

Figure 1.9 – Représentations dans les domaines temporels et fréquentiels de quatre signaux.
(a) Vue dans le domaine temporel d’un cycle de sinusoïde. (b) Spectre du composant unique d
fréquence d’une sinusoïde. (c) Vue dans le domaine temporel d’une forme d’onde en dent-de-sci
(d) Spectre montrant le contenu fréquentiel d’une dent-de-scie décroissant de façon exponentiell
© Dunod. Toute reproduction non autorisée est un délit.

Figure 1.9 – Suite


(e) Vue dans le domaine temporel d’un cycle de forme d’onde complexe. Bien que la forme d’ond
ait un aspect complexe, lorsqu’elle est répétée elle sonne de façon simple — comme un son d’orgu
à anche. (f) Le spectre de la forme d’onde (e) montre qu’il est dominé par quelques fréquences
(g) Forme d’onde de bruit aléatoire. (h) Si la forme d’onde change constamment (chaque cycle es
différent du cycle précédent), nous entendons du bruit. Le contenu du bruit est très complexe. Dan
ce cas, l’analyse extrait 252 fréquences. Cet instantané ne montre pas comment leurs amplitude
varient dans le temps.
sentation standard consiste à relever les partiels sous forme de lignes sur un axe x. La hauteur
chaque ligne indique la force (ou amplitude) de chaque composant fréquentiel. Le signal le pl
pur est une forme d’onde dite sinusoïde, car elle peut être calculée grâce à la formule trigonométriq
du sinus d’un angle. Une onde sinusoïdale pure représente juste un composant fréquentiel ou u
ligne dans le spectre. La figure 1.9 montre les représentations dans le domaine temporel et dans
domaine fréquentiel de quelques formes d’ondes. Remarquez que les relevés spectraux sont nomm
« Harmoniques » sur leur axe horizontal, puisque l’algorithme d’analyse suppose que l’entrée e
exactement une période de la fondamentale d’une forme d’onde périodique. Dans le cas du brui
la figure 1.9g, cette supposition n’est pas valide, donc nous renommons les partiels « Composan
fréquentiels ».

1.2.2 Phase
Le point de départ d’une forme d’onde périodique sur l’axe d’amplitude ou axe des y est sa pha
initiale. Par exemple, une sinusoïde typique commence à l’amplitude 0 et achève son cycle à
Si l’on déplace le point de départ de 2¼ sur l’axe horizontal (ou 90 degrés), la sinusoïde commen
et s’achève à 1 sur l’axe d’amplitude. Par convention, on nomme cette forme d’onde cosinus. En eff
un cosinus est l’équivalent d’un sinus déphasé de 90 degrés (figure 1.10).

Cosinus
Sinus

Amp.
-1
Temps

Figure 1.10 – Une sinusoïde est équivalente à une forme d’onde cosinus
retardée ou légèrement déphasée.

Lorsque deux signaux commencent au même point, on dit qu’ils sont en phase ou en alignement
phase. Au contraire, lorsqu’un signal est légèrement retardé par rapport à un autre, on dit qu’
sont déphasés. Lorsqu’un signal A est exactement l’opposé d’un autre signal B (c’est-à-dire dépha
de 180 degrés, pour qu’à chaque valeur positive de A, il existe une valeur correspondante négati
pour le signal B), nous disons que B est en polarité inversée par rapport à A. Nous pourrions éga
ment dire que B est une copie en inversion de phase de A. La figure 1.11 montre l’effet de l’addition
deux signaux en inversion de phase.
✦ Importance de la phase
On dit souvent que la phase est insignifiante à l’oreille humaine, parce que deux signaux totaleme
identiques à l’exception de leur phase sont difficiles à distinguer. En fait, les recherches montre
que des différences de 180 degrés en phase ou polarité absolue peuvent être distinguées par certain
personnes en condition de laboratoire (Greiner et Melton, 1991). Mais même en dehors de ce c
(a)

+
(b)


(c)

Figure 1.11 – Les effets de l’inversion de phase.


(b) est la copie en inversion de phase de (a).
Si les deux formes d’onde sont additionnées, leur résultat est nul (c).

particulier, la phase est un concept important pour diverses raisons. Tous les filtres utilisent
déphasage pour altérer les signaux. Un filtre déphase un signal (en retardant son entrée d’un temp
très court) puis combine la version déphasée avec le signal originel pour créer des effets d’annulatio
de phase en fonction de la fréquence qui altèrent le spectre de l’original. Par « en fonction de
fréquence », nous voulons dire que tous les composants fréquentiels ne sont pas affectés de faço
égale. Lorsque le déphasage change dans le temps, les bandes fréquentielles affectées changen
© Dunod. Toute reproduction non autorisée est un délit.

également, créant des effets sonores de balayage appelés phasing ou flanger (voir le chapitre 6).
La phase est également importante dans les systèmes qui resynthétisent le son en se basant su
l’analyse d’un son existant. En particulier, ces systèmes ont besoin de connaître la phase initiale d
chaque composant fréquentiel afin de replacer les différents composants dans le bon ordre (voir
chapitre 11). Les données de phase sont particulièrement critiques lors de restitution de sons tran
sitoires courts et changeants rapidement, tels que l’attaque de sons instrumentaux.
Finalement, une grande attention a été portée depuis quelques années sur les composants audi
qui déphasent leur signal d’entrée au minimum, car les déphasages dépendant de la fréquence dis
tordent les signaux musicaux audibles et interfèrent avec l’image des haut-parleurs. L’image est
capacité d’un ensemble de haut-parleurs à créer une « image audio » stable, où chaque source est bie
localisée à une place précise. Un déphasage involontaire est appelé distorsion de phase. Pour prendr
une analogie avec l’image, un signal en distorsion de phase est « flou ».
Maintenant que nous avons présenté les propriétés de base des signaux audio, nous allons compare
leurs deux représentations : analogique et numérique.
La quantité électrique appelée tension, tout comme la pression de l’air, varie dans le fil métalliq
connectant un amplificateur avec des haut-parleurs selon les ondes sonores. Inutile de définir
ce qu’est la tension. Pour les besoins de ce chapitre, nous pouvons simplement considérer qu’il e
possible de modifier les propriétés électriques du fil métallique de façon à ce qu’elles suivent étro
tement les changements de pression d’air.
Une des caractéristiques importantes des quantités variant dans le temps dont nous venons de par
(pression d’air et tension) est que chacune d’entre elles est plus ou moins analogue à l’autre. U
graphique des variations de pression d’air captées par un microphone a un aspect très similaire
celui d’un graphique des variations de la position du haut-parleur lorsque le son est lu. Le term
« analogue » sert à se souvenir de la relation qui lie ces quantités.
La figure 1.12 montre une chaîne audioanalogique. La courbe d’un signal audio peut être inscr
le long des sillons d’un disque phonographique. Les parois des sillons contiennent une représentati
temporelle continue du son stocké sur le disque. Lorsque l’aiguille glisse à travers le sillon, elle

Platine
tourne-disque Sillons microscopiques
d’un enregistrement
phonographique

Temps

Signal électronique
faible

Préamplificateur
Signal légèrement
amplifié
Amplificateur
0

Signal très amplifié

Variation de pression d’air


(son)

Haut-parleur

Figure 1.12 – La chaîne audioanalogique, commençant avec une forme d’onde analogique
transformée à partir des sillons d’un disque en tension, qui est ensuite envoyée dans un préamp
ficateur, un amplificateur, un haut-parleur, puis projetée dans l’air.
est amplifiée et atteint finalement les haut-parleurs.
La reproduction analogique du son a atteint un très haut niveau ces dernières années, mais il exis
malgré tout des limites fondamentales associées à l’enregistrement analogique. Lorsque vous copie
un enregistrement d’un enregistreur analogique à un autre, la copie n’est jamais aussi bonne qu
l’original. Ceci en raison du fait que le procédé d’enregistrement analogique ajoute toujours d
bruit. Pour un enregistrement de première génération ou enregistrement original, ce bruit peut êtr
admissible. Mais si l’on continue avec trois ou quatre générations, une part de plus en plus impo
tante de l’enregistrement originel est transformée en bruit. Au contraire, la technologie numériqu
peut créer n’importe quel nombre de générations de clones parfaits (sans bruit) de l’enregistremen
originel, comme nous le montrerons plus tard.
Par définition, la génération ou la reproduction d’un son numérique implique la conversion d’un
chaîne de nombres en l’un des changements variant dans le temps dont nous venons de parler. Si ce
nombres peuvent être transformés en tension, alors les tensions peuvent être amplifiées et conduite
à un haut-parleur pour reproduire le son.

1.4 Représentations numériques du son


Cette partie présente les concepts de base associés aux signaux numériques, y compris la conversio
de signaux en nombres binaires, la comparaison des données audio et des données MIDI, l’échan
tillonnage, le repliement, la quantification et le dither.

1.4.1 Conversion analogique-numérique


Examinons le procédé d’enregistrement et de lecture numérique d’un son. Au lieu des signau
continus dans le temps du monde analogique, un enregistrement numérique traite des signau
discrets dans le temps. La figure 1.13 présente le diagramme de l’enregistrement et de la lectur
numérique. Sur cette figure, le microphone transforme les variations de pression d’air en tension
électriques, qui passent à travers un fil métallique vers le convertisseur analogique-numériqu
généralement abrégé en CAN. Cet appareil convertit les tensions en chaînes de nombres binaires
chaque période de l’horloge d’échantillonnage. Les nombres binaires sont stockés sur un suppo
d’enregistrement numérique — une sorte de mémoire.

1.4.2 Nombres binaires


© Dunod. Toute reproduction non autorisée est un délit.

Contrairement aux nombres décimaux (ou base dix), qui utilisent les dix chiffres 0 à 9, les nombre
binaires (ou base deux) n’utilisent que les deux chiffres 0 et 1. Le terme bit est une abréviation d
binary digit (chiffre binaire). Le tableau 1.1 liste des nombres binaires et leurs équivalents en décima
Il existe plusieurs façons d’indiquer qu’un nombre est négatif en binaire.
Tableau 1.1 – Nombres binaires et leurs équivalents décimaux.

Binaire Décimal Binaire Décimal Binaire Décimal

0 0 11 3 10000 16

1 1 100 4 100000 32

10 2 1000 8 111111111111111 65535


1
de pression d’air

Microphone
Tension

Préamplificateur

Tension
Filtre
antirepliement
passe-bas
Horloge
d’échantillonnage
Tension
φ
CAN
Nombres
Enregistrement binaires

Stockage Mémoire

Nombres
binaires
Lecture
φ CNA

Tension
Horloge
d’échantillonnage
Filtre
de lissage
passe-bas

Tension
Amplificateur

Tension

Haut-parleur

Variations
de pression d’air

Figure 1.13 – Vue globale de l’enregistrement et de la lecture numérique.

Dans de nombreux ordinateurs, le bit le plus à gauche est interprété comme indicateur de signe,
1 indiquant un nombre positif et le 0 un nombre négatif. Les nombres réels ou nombres à virgu
flottante peuvent être représentés en binaire.
La façon dont un bit est codé sur un support d’enregistrement dépend des propriétés de ce suppo
Sur un magnétophone numérique par exemple, 1 peut être représenté par une charge magnétiq
analogique, dans lequel le signal est représenté par une charge variant constamment. Sur un suppo
optique, les données binaires peuvent être codées sous forme de variations de la réflectivité d’u
endroit particulier.
1.4.3 Conversion numérique-analogique
La figure 1.14 montre le résultat de la conversion d’un signal audio (a) en signal numérique (b
Lorsque l’auditeur veut réécouter le son, les nombres sont lus les uns après les autres dans la mémoir

(a)

Un cycle

(b)

(c)
© Dunod. Toute reproduction non autorisée est un délit.

Temps

Figure 1.14 – Représentations analogiques et numériques d’un signal.


(a) Sinusoïde analogique. La barre horizontale sous l’onde indique une période ou cycle. (b) Versio
échantillonnée de la sinusoïde (a), telle qu’elle apparaît à la sortie d’un CAN. Chaque barre vert
cale représente un échantillon. Chaque échantillon est stocké en mémoire sous forme de nombr
qui représente la hauteur de la barre verticale. Une période est représentée par quinze échantillons
(c) Reconstruction de la version échantillonnée de la forme d’onde (b). Les sommets des échanti
lons sont connectés par le filtre passe-bas lissant pour former la forme d’onde qui atteint finalemen
l’oreille de l’auditeur.
contrôlé par une horloge d’échantillonnage, change les suites de nombres en série de niveaux
tension. À partir de là, le procédé est le même que celui de la figure 1.13 ; c’est-à-dire que les séri
de niveaux de tension passent par un filtre passe-bas pour devenir une forme d’onde contin
dans le temps (figure 1.14c), amplifiée, puis conduite vers le haut-parleur, dont les vibrations fo
changer la pression de l’air. Voilà, le signal sonne de nouveau.
En résumé, nous pouvons changer un son dans l’air en une chaîne de nombres binaires qui peuve
être stockés numériquement. Le composant central de cette conversion est le CAN. Lorsque no
souhaitons réécouter le son, un CNA peut de nouveau transformer ces nombres en son.
1.4.4 Comparaison de l’enregistrement audionumérique
et de l’enregistrement MIDI
Ce point final devrait lever toute confusion : la chaîne de nombres générés par le CAN n’a rien à vo
avec les données MIDI. MIDI est la spécification Musical Instrument Digital Interface « Interfa
Numérique pour Instruments de Musique », un protocole largement utilisé pour le contrôle de sy
tèmes de musique numériques ; voir le chapitre 14. Les enregistreurs audionumériques et les séque
ceurs MIDI sont tous les deux numériques et peuvent enregistrer en « multipistes », mais ils diffère
dans la quantité et le type d’informations qu’ils manipulent.
Lorsqu’un séquenceur MIDI enregistre une interprétation humaine sur un clavier, seule une relativ
ment petite quantité d’information de contrôle est en fait transmise du clavier jusqu’au séquenceur.
MIDI ne transmet pas la forme d’onde échantillonnée du son. Pour chaque note, le séquence
n’enregistre que le temps de début et le temps de fin, sa hauteur, et son amplitude au commenceme
de la note. Si cette information est retransmise au synthétiseur sur lequel elle était jouée à l’origin
alors celui-ci rejouera le son comme précédemment, en analogie avec un rouleau de piano méc
nique. Si le musicien joue quatre noires à un tempo de 60 sur un synthétiseur, seulement seize info
mations définissent ce son de quatre secondes (quatre débuts, fins, hauteurs et amplitudes).
En comparaison, si nous enregistrons le même son avec un microphone connecté à un enregistre
audionumérique configuré à une fréquence d’échantillonnage de 44,1 kHz, 352 800 informatio
(sous la forme d’échantillons audio) sont enregistrées pour le même son (44 100 ∞ 2 cana
∞ 4 secondes). Les exigences de stockage de l’enregistrement audionumérique sont énormes. E
utilisant des échantillons 16 bits, il faut plus de 700 000 octets pour stocker 4 secondes de so
C’est 44 100 fois plus de données que ce qui est stocké en MIDI.
Grâce à la faible quantité de données qu’il manipule, l’enregistrement de séquences MIDI a l’avanta
d’être bon marché. Par exemple, un programme d’enregistrement de séquences MIDI de 48 pist
tournant sur un petit ordinateur peut coûter moins de 100 € et manipule 4 000 octets par second
En comparaison, un enregistreur numérique à bande de 48 pistes coûte des dizaines de millie
d’euros et manipule plus de 4,6 Mo d’information audio par seconde, plus de mille fois le taux
données du MIDI.
L’avantage de l’enregistrement audionumérique est qu’il peut capturer n’importe quel son pouva
être enregistré par un microphone, y compris la voix humaine. L’enregistrement de séquenc
MIDI est limité aux signaux de contrôle de départ, de fin, de hauteur et d’amplitude d’une sér
d’événements de notes. Si vous branchez le câble MIDI du séquenceur dans un synthétiseur qui n’e
pas celui sur lequel la séquence a été jouée à l’origine, le résultat sonore peut changer radicalemen
Le signal numérique montré à la figure 1.14b est de façon significative différent du signal analogiqu
montré à la figure 1.14a. Tout d’abord, le signal numérique n’est défini qu’à certains points dans
temps. Ceci en raison du fait que le signal a été échantillonné à ces moments. Chaque barre vertica
de la figure 1.14b représente un échantillon du signal originel. Les échantillons sont stockés sou
forme de nombres binaires, et la barre de la figure 1.14b correspond à la grandeur du nombre.
Le nombre de bits utilisé pour représenter chaque échantillon détermine à la fois le niveau de bru
et la gamme dynamique qui peuvent être traités par le système. Un disque compact utilise un nombr
de 16 bits pour représenter un échantillon, mais l’on peut également utiliser plus ou moins de bit
Nous reviendrons sur ce point dans la partie sur la « quantification ».
Le taux auquel les échantillons sont pris — la fréquence d’échantillonnage — est exprimé e
échantillons par seconde. C’est une spécification importante des systèmes audionumériques. El
est souvent appelée taux d’échantillonnage et est exprimée en Hertz. Mille Hertz est abrégé en kH
et nous disons donc : « Le taux d’échantillonnage d’un disque compact est de 44,1 kHz », où « k
est tiré du système métrique dans lequel « kilo » signifie mille.
✦ Reconstruction du signal analogique
Les fréquences d’échantillonnage autour de 50 kHz sont fréquentes dans les systèmes audionumé
riques, bien que l’on puisse également trouver des fréquences plus basses ou plus élevées. De tou
façon, 50 000 nombres par seconde sont un débit rapide de nombres ; cela signifie qu’il existe plu
de 6 000 000 échantillons pour une minute de son en stéréophonie.
Le signal numérique de la figure 1.13b ne montre pas les valeurs entre les barres. La durée d’un
barre est extrêmement courte, pouvant durer seulement 0,00002 seconde (un deux cent millièm
de seconde). Ceci signifie que si le signal originel change « entre » les barres, ce changement n’e
pas reflété dans la hauteur de la barre, tout au moins jusqu’à l’échantillon suivant. En termes tech
niques, nous disons que le signal de la figure 1.13b est défini à des temps discrets, chacun de ce
temps étant représenté par un échantillon (par une barre verticale).
Une partie de la magie des sons numérisés vient du fait que si le signal est limité en fréquence
le CNA et le matériel associé peuvent exactement reconstruire le signal originel à partir de ce
échantillons ! Ceci signifie que, sous certaines conditions, la partie manquante du signal « entre le
échantillons » peut être restaurée. Ceci arrive lorsque les nombres sont passés par le CNA et par u
filtre de lissage. Le filtre de lissage « connecte les points » entre les échantillons discrets (voir
© Dunod. Toute reproduction non autorisée est un délit.

ligne de points à la figure 1.13c). Ainsi, un signal envoyé au haut-parleur a l’apparence et sonn
comme le signal originel.

1.4.6 Repliement
Le procédé d’échantillonnage n’est pas aussi simple qu’il peut en avoir l’air. Tout comme un ampl
ficateur ou un haut-parleur peuvent introduire de la distorsion, l’échantillonnage peut jouer des tou
au son. La figure 1.15 en donne un exemple. En utilisant la forme d’onde montrée à la figure 1.15
supposez qu’un échantillon est pris à chaque point temporel montré par les barres verticales de
figure 1.15b (chaque barre verticale crée un échantillon). Comme avant, les échantillons résultan
de la figure 1.15c sont stockés sous forme de nombres dans une mémoire numérique. Mais lorsqu
l’on essaie de reconstituer la forme d’onde originelle, comme dans la figure 1.15d, le résultat e
complètement différent.
Afin de mieux comprendre les problèmes qui peuvent subvenir avec l’échantillonnage, nous allon
examiner ce qui arrive lorsque nous changeons la longueur d’onde (la longueur d’un cycle) du sign
(a)

(b)

(c)

(d)

Temps

Figure 1.15 – Problèmes de l’échantillonnage.


(a) Forme d’onde à enregistrer. (b) Impulsions d’échantillonnage ; dès qu’une impulsion d’écha
tillonnage apparaît, un échantillon est pris. (c) La forme d’onde échantillonnée et stockée dans
mémoire. (d) Lorsque la forme d’onde (c) est envoyée au CNA, le signal de sortie aura l’apparen
montrée ici (d’après Mathews, 1969).

originel sans changer l’espace de temps entre les échantillons. La figure 1.16a montre un signal av
un cycle de huit échantillons de longueur, la figure 1.16d avec un cycle de deux échantillons de lo
gueur, et la figure 1.16 g une forme d’onde avec onze cycles pour dix échantillons.
De nouveau, lorsque l’ensemble des échantillons est repassé par le CNA et par le matériel assoc
le signal est reconstruit (figure 1.16c, f et i) et envoyé aux haut-parleurs. Le signal montré par
ligne pointillée à la figure 1.16c est relativement bien reconstruit. Les résultats de l’échantillonna
à la figure 1.16f sont potentiellement moins satisfaisants ; une reconstruction possible est montr
ici. Mais à la figure 1.16i, la forme d’onde resynthétisée est complètement différente de l’origin
ou très exactement la longueur d’onde (longueur du cycle) est différente. Physiquement, ceci signi
que le signal reconstitué sonne à une hauteur différente de l’original. Ce genre de distorsion est appe
repliement.
Les fréquences auxquelles surviennent ces repliements peuvent être prédites. Imaginons, po
utiliser des nombres simples, que nous prenions 1 000 échantillons par seconde. Le signal à
figure 1.16a a une fréquence de 125 cycles par seconde (puisqu’il y a huit échantillons par cycle et q
1 000/8 = 125). À la figure 1.16d, le signal a une fréquence de 500 cycles par seconde (1 000/2 = 50
La fréquence du signal d’entrée à la figure 1.16g est de 1 100 cycles par seconde. Mais la fréquen
du signal de sortie est différente. À la figure 1.16i, vous pouvez compter dix échantillons par cyc
de forme d’onde de sortie. En fait, celle-ci apparaît à une fréquence de 1 000/10 = 100 cycles p
seconde. Ainsi, la fréquence du signal originel de la figure 1.16g a été modifiée par un procédé
conversion du taux d’échantillonnage. Ceci représente un changement inacceptable du sign
musical, et doit être évité le plus possible.
(a)

(b)

(c)

(d)

(e)

(f)

Un cycle d'entrée

(g)

(h)
© Dunod. Toute reproduction non autorisée est un délit.

Un cycle de sortie

(i)

Figure 1.16 – Effets du repliement.


Dans la partie inférieure de chaque graphique, les barres noires représentent les échantillons, e
la ligne pointillée le signal reconstruit par le CNA. Chaque cycle de la sinusoïde (a) est échantillonn
huit fois dans (b). En utilisant la même fréquence d’échantillonnage, chaque cycle de (d) n’es
échantillonné que deux fois dans (e). Si les impulsions d’échantillonnage dans (e) étaient dépla
cées vers la droite, la forme d’onde de sortie dans (f) pourrait être déphasée, bien que la fré
quence de sortie soit la même. Dans (h), il y a dix échantillons pour les onze cycles de (g). Lorsqu
le CNA essaie de reconstruire le signal, comme cela est montré dans (i), nous obtenons une sinusoïd
dont la fréquence a été complètement modifiée par l’effet de repliement. Remarquez les deux flèche
au-dessus de (g) et de (i), montrant la durée pour les formes d’onde d’entrée et de sortie.
Nous pouvons dire de façon générale, en partant de la figure 1.16, que s’il y a au moins deux écha
tillons par période de la forme d’onde originelle, nous savons que la forme d’onde resynthétis
aura la même fréquence. Mais lorsqu’il y a moins de deux échantillons par période, la fréquen
(et peut-être le timbre) du signal originel sera perdue. Dans ce cas, la nouvelle fréquence peut êt
trouvée par la formule suivante. Si la fréquence originelle est plus grande que la moitié de la fr
quence d’échantillonnage, alors :
nouvelle fréquence = fréquence d’échantillonage – fréquence originelle
Cette formule n’est pas complète mathématiquement, mais est suffisante pour notre propos. E
signifie ceci : imaginons que nous ayons choisi une fréquence d’échantillonnage fixe. Nous com
mençons avec un signal basse fréquence que nous échantillonnons, puis nous resynthétisons le sign
Si nous augmentons la hauteur du signal d’entrée (tout en gardant la fréquence d’échantillonna
constante), la hauteur du signal resynthétisé est la même que le signal d’entrée jusqu’à ce que no
atteignions la moitié de la fréquence d’échantillonnage. Si nous augmentons encore la hauteur
signal d’entrée, la hauteur du signal de sortie redescend dans les plus basses fréquences ! Lorsq
le signal d’entrée atteint la fréquence d’échantillonnage, le procédé entier se répète.
Pour donner un exemple concret, supposons que nous introduisions un signal analogique à 26 kH
dans un convertisseur analogique-numérique travaillant à 50 kHz. Le convertisseur le lit comm
un son à 24 kHz puisque 50 – 26 = 24 kHz.
Le théorème de l’échantillonnage définit la relation entre le taux d’échantillonnage et la largeur
bande du signal transmis. Il fut énoncé par Harold Nyquist (1928) comme suit :
Pour toute déformation donnée du signal reçu, le domaine de fréquence transmis doit être augmen
en proportion directe avec la vitesse du signal… La conclusion est que la largeur de fréquence
directement proportionnelle à la vitesse.
Le point essentiel du théorème de l’échantillonnage peut être établi précisément comme ceci :
Afin d’être capable de reconstruire un signal, la fréquence d’échantillonnage doit être le double
la fréquence du signal échantillonné.
En raison de sa contribution à la théorie de l’échantillonnage, la plus haute fréquence qui puis
être produite dans un système audionumérique (c’est-à-dire la moitié du taux d’échantillonnag
est appelée la fréquence de Nyquist. Dans les applications musicales, la fréquence de Nyquist est
général dans le domaine supérieur à celui de l’écoute humaine, au-dessus de 20 kHz. Ainsi, la fr
quence d’échantillonnage peut être spécifiée comme étant au moins le double, c’est-à-dire au-dess
de 40 kHz.
Dans certains systèmes, la fréquence d’échantillonnage est établie à plus de deux fois la plus hau
fréquence, car les convertisseurs et le matériel ne peuvent pas parfaitement reconstruire un sign
proche de la moitié de la fréquence d’échantillonnage (une reconstruction idéalisée d’un tel cas e
montrée à la figure 1.16f).

✦ Fréquence d’échantillonnage idéale

La question de savoir quelle fréquence d’échantillonnage est idéale pour l’enregistrement et la repr
duction musicale de haute qualité est un débat encore en cours. L’une des raisons est que la théor
mathématique et la pratique des ingénieurs rentrent souvent en conflit : les horloges des convert
seurs ne sont pas stables, leurs tensions ne sont pas linéaires, les filtres introduisent de la distorsi
de phase, et ainsi de suite. Voir les parties sur la correction de phase et le suréchantillonnage.
le terme « ambiance ») dans la région située autour de la « limite » humaine d’écoute de 20 kH
(Neve, 1992). En fait, Rudolph Koenig, dont les mesures précises ont établi les normes internationale
d’acoustique, a observé qu’à l’âge de 41 ans sa propre audition s’étendait jusqu’à 23 kHz (Koeni
1899). Il peut sembler étrange qu’un nouveau disque compact numérique ait moins de largeur d
bande qu’un disque fabriqué dans les années 1960, ou bien qu’un nouvel enregistreur audio
numérique ait moins de largeur de bande qu’un enregistreur analogique à bandes vieux de vingt an
De nombreux systèmes analogiques peuvent reproduire des fréquences situées au-delà de 25 kH
Des expériences scientifiques confirment les effets du son au-dessus de 22 kHz, d’un point de vu
physiologique aussi bien que subjectif (Oohashi et coll., 1991 ; Oohashi et coll. ,1993).
Dans les applications de synthèse sonore, le manque de « hauteur libre » fréquentielle dans les tau
d’échantillonnage standards de 44,1 et de 48 kHz cause de sérieux problèmes. Cela oblige les algo
rithmes de synthèse à ne générer que des sinusoïdes au-dessus de 11,025 kHz (pour un taux d
44,1 kHz) ou 12 kHz (pour un taux de 48 kHz), ou bien il se produit un repliement. Ceci en raiso
du fait que tout composant de haute fréquence ayant des partiels au-delà de la fondamentale possèd
une fréquence dépassant le taux de Nyquist. Le troisième harmonique d’un son de 12,5 kHz est pa
exemple égal à 37,5 kHz, et, dans un système fonctionnant à un taux d’échantillonnage de 44,1 kH
il se repliera en un signal audible de 6 600 Hz. Dans les applications d’échantillonnage et de dépla
cement des hauteurs, le manque de hauteur libre nécessite un filtrage passe-bas des échantillon
avant que ceux-ci ne soient déplacés vers le haut. Le problème que ces limites imposent est gênan
Il est clair que des enregistrements à un taux d’échantillonnage élevé sont préférables d’un poin
de vue artistique, bien qu’ils posent des problèmes pratiques de stockage et la nécessité d’avoir de
systèmes de reproduction de haute qualité afin que cet effort en vaille la peine.

1.4.8 Filtres antirepliement et filtres de lissage


Afin de s’assurer qu’un système audionumérique marche convenablement, deux filtres importan
sont incorporés. Un filtre est placé avant le CAN, pour être sûr que rien (ou le moins possible) d
signal d’entrée ne survienne à une fréquence supérieure à la moitié de la fréquence d’échantillon
nage. Tant que ce filtre fait bien son travail, le repliement ne doit pas survenir durant l’enregistremen
De façon logique, un tel filtre est appelé filtre antirepliement.
L’autre filtre est placé après le CNA. Sa fonction principale est de transformer les échantillons stocké
numériquement en une représentation lisse et continue du signal. Ce filtre passe-bas de lissage crée
© Dunod. Toute reproduction non autorisée est un délit.

ligne pointée de la figure 1.14c en reliant les points noirs de cette figure.

1.4.9 Correction de phase


La venue de la correction de phase a suivi de près l’introduction de la première génération d’enre
gistreurs/lecteurs audionumériques. De nombreuses personnes se plaignaient du son « dur » de
enregistrements numériques, un problème qui venait des filtres antirepliement en mur de briqu
(Woszczyk et Toole, 1983 ; Preis et Bloom, 1983). On appelle ceux-ci des filtres en mur de brique e
raison de leur courbe raide de rejet de fréquences (en général plus de 90 dB/octave à la fréquence d
Nyquist). Ces filtres raides peuvent causer des retards temporels significatifs (distorsion de phase
dans les fréquences médiums et hautes (figure 1.17). Un plus petit retard en fonction de la fréquenc
est également créé par le filtre de lissage à la sortie du CNA.
Aucun filtre analogique ne peut être à la fois extrêmement raide et linéaire du point de vue de
phase autour du point de coupure. Linéaire du point de vue de la phase signifie que le filtre introdu
très peu, voire pas du tout, de retard en fonction de la fréquence. En conséquence, l’effet d’un filtr
(b)

Figure 1.17 – Distorsion de phase causée par un filtre antirepliement.


(a) Onde carrée de 2,5 kHz distordue par un filtre antirepliement en mur de briques.
(b) Onde carrée avec phase corrigée.

raide se « répand » dans le domaine audio. Pour des enregistrements sur disques compacts à un ta
d’échantillonnage de 44,1 kHz, la fréquence de Nyquist est de 22,05 kHz, et un filtre antireplieme
raide peut introduire de la distorsion de phase qui s’étend bien en dessous de 10 kHz (Meyer, 1984
Ce type de distorsion de phase donne aux hautes fréquences un son dur et peu naturel.
Il existe différentes façons de s’attaquer à ce problème. La plus simple est de réduire la proprié
d’antirepliement du filtre pour obtenir une distorsion de phase plus faible. Un filtre antireplieme
moins raide (de 40 à 60 dB/octave, par exemple) introduit moins de distorsion de phase, mais av
un risque de repliement des sons de très hautes fréquences. Une autre solution est d’appliquer un f
tre de correction temporelle avant le CAN pour fausser les relations de phase du signal d’entrée af
de préserver les relations de phase d’origine dans l’enregistrement (Blesser, 1984 ; Greenspun, 198
Meyer, 1984). Aujourd’hui, quoi qu’il en soit, les solutions de haute technologie utilisées pour obten
une conversion de phase de qualité acceptable sont les techniques de suréchantillonnage, aussi bi
en entrée qu’en sortie du système. Nous parlerons plus tard du suréchantillonnage.
1.4.10 Quantification
L’échantillonnage à intervalles de temps discrets, dont nous avons parlé dans les parties précédent
constitue l’une des différences majeures entre les signaux analogiques et les signaux numérique
Une autre différence est la quantification, ou résolution d’amplitude discrète. Les valeurs du sign
échantillonné ne peuvent pas prendre n’importe quelle valeur. Ceci est dû au fait que les nombr
numériques ne peuvent être représentés qu’à l’intérieur d’un certain domaine, et avec une certai
exactitude, qui varie selon le matériel utilisé. Les implications de ceci sont un facteur important
la qualité audionumérique.
Les échantillons sont en général représentés sous forme de nombres entiers. Si le signal d’entré
a une tension correspondant à une valeur entre 53 et 54, par exemple, alors le convertisseur do
l’arrondir et lui assigner une valeur de 53. En général, à chaque échantillon donné, la valeur d
l’échantillon diffère légèrement de la valeur du signal d’origine. Ce problème des signaux numérique
est connu sous le terme d’erreur de quantification ou bruit de quantification (Blesser, 1978 ; Mahe
1992 ; Lipshitz et coll., 1992 ; Pohlmann, 1989a).
La figure 1.18 montre les genres d’erreurs de quantification qui peuvent survenir. Quand le sign
d’entrée est quelque chose de compliqué comme une symphonie, et lorsque nous n’écoutons que le
erreurs, montrées en bas de la figure, cela sonne comme du bruit. Si les erreurs sont grandes, alor
on peut remarquer quelque chose de similaire au sifflement d’une bande analogique à la sortie d
système.

(a)

Forme d’onde
originelle

(b)

Valeurs
échantillonnées
© Dunod. Toute reproduction non autorisée est un délit.

(c)

Erreurs

Figure 1.18 – Effets de la quantification.


(a) Forme d’onde analogique. (b) Version échantillonnée de (a). On ne peut assigner à chaqu
échantillon qu’un certain nombre de valeurs, qui est indiqué par les traits dessinés sur l’axe vertica
à gauche de la forme d’onde. Les différences entre chaque échantillon et le signal originel son
montrées en (c), où la hauteur de chaque barre représente l’erreur de quantification.

Le bruit de quantification dépend de deux facteurs : le signal en lui-même, et l’exactitude ave


laquelle le signal est représenté sous forme numérique. Nous pouvons expliquer la sensibilité a
signal en notant que sur un enregistreur à bande analogique, la bande impose un léger halo de bru
peut y avoir de bruit de quantification lorsque rien (ou le silence) n’est enregistré. En d’autres terme
si le signal d’entrée est le silence, alors le signal est représenté par une série d’échantillons dont ch
cun a une valeur égale à zéro. Les petites différences montrées à la figure 1.18c disparaissent po
un tel signal, ce qui signifie que le bruit de quantification disparaît. Si, d’un autre côté, le sign
d’entrée est une sinusoïde pure, alors l’erreur de quantification n’est pas une fonction aléatoire, ma
un effet de troncature déterministe (Maher, 1992). Ce son grinçant, appelé bruit de granulatio
peut être entendu lorsque des sinusoïdes à très faible niveau se transforment progressivement
silence. Lorsque le signal d’entrée est compliqué, la granulation devient aléatoirement du bruit blan
Le second facteur dans le bruit de quantification est l’exactitude de la représentation numériqu
Dans un système PCM qui représente chaque valeur d’échantillon par un nombre entier (un systèm
PCM linéaire), le bruit de quantification est directement lié au nombre de bits qui sont utilisés po
représenter un échantillon. Cette spécification est la largeur d’échantillon ou niveau de quantificati

(a) 1

Points d’échantillonnage

(b) 15

Points d’échantillonnage

Figure 1.19 – Comparaison de la finesse d’une quantification à 4 bits


et d’une quantification à 1 bit. La courbe arrondie est la forme d’onde à l’entrée. (a) La quantificatio
à 1 bit fournit deux niveaux de résolution d’amplitude, tandis qu’une quantification à 4 bits fourn
seize différents niveaux de résolution d’amplitude (b).
0

Amp.

Temps

(b)

Amp.

Temps

Figure 1.20 – Effet de la quantification sur le lissé d’une sinusoïde.


(a) « Sinusoïde » avec dix niveaux de quantification, correspondant à un son modérément fort émi
par un système 4 bits. (b) Sinusoïde plus lisse émise par un système 8 bits.

d’un système. La figure 1.19 montre les effets de différents niveaux de quantification, en comparan
la résolution d’une quantification en 1 bit et en 4 bits. Dans un système PCM linéaire, généralemen
plus il y a de bits utilisés pour représenter un échantillon, moins il y a de bruit de quantification
La figure 1.20 montre l’amélioration spectaculaire de l’exactitude d’une onde sinusoïdale attein
en accroissant le nombre de bits de résolution.
© Dunod. Toute reproduction non autorisée est un délit.

La mesure de quantification est rendue confuse par les systèmes de suréchantillonnage, qui utilisen
un convertisseur très rapide à « 1 bit ». La quantification d’un système utilisant un convertisseu
« 1 bit » est en fait bien plus grande que 1 bit. Voir la partie sur le suréchantillonnage plus loin.

✦ Bruit de quantification à faible niveau et dither

Bien qu’un système numérique ne reproduise pas de bruit lorsqu’il n’y a pas de signal d’entrée, au
niveaux très faibles (mais non nuls) du signal, le bruit de quantification prend une forme pernicieus
Un signal de très faible niveau ne provoque des variations que sur le bit le plus bas. Ces variations d
1 bit ont l’apparence d’une onde carrée, riche en composants harmoniques impairs. Si l’on cons
dère la chute d’une note de piano qui s’atténue doucement, avec les partiels élevés s’estompant pro
gressivement, au moment exact du niveau le plus bas, cette note change distinctement et devient un
onde carrée sonnant durement. Les harmoniques de l’onde carrée peuvent même s’étendre au-de
de la fréquence de Nyquist, causant des repliements et introduisant de nouveaux composants fré
quentiels qui n’étaient pas présents dans le signal d’origine. Ces artefacts peuvent être ignorés si
riquement à un niveau plus élevé, il devient évident. Dès lors, il est important que le signal s
quantifié aussi exactement que possible en entrée.
Pour combattre les problèmes de quantification à faible niveau, certains systèmes d’enregistreme
numériques agissent d’une façon qui peut à première vue sembler étrange. Ils introduisent u
faible quantité de bruit analogique dans le signal, appelé dither, avant la conversion analogiqu
numérique (Vanderkooy et Lipshitz, 1984 ; Lipshitz et coll., 1992). Ceci oblige le CAN à faire d
variations aléatoires autour du signal de faible niveau, ce qui atténue les effets pernicieux des ha
moniques d’onde carrée (figure 1.21). Avec le dither, l’erreur de quantification, qui est généraleme
dépendante du signal, est transformée en un bruit de large bande qui n’est plus en corrélation av
le signal. Pour des decrescendos comme la note de piano mentionnée plus haut, l’effet est celui d’u
« atterrissage en douceur », lorsque le son s’évanouit lentement dans un lit de bruit aléatoire de faib
niveau. La quantité de bruit ajoutée est d’habitude de l’ordre de 3 dB, mais l’oreille peut reconstru
des notes de musique dont les amplitudes descendent en dessous de celle du signal dither. Vo
Blesser (1978, 1983), Rabiner et Gold (1975), Pohlmann (1989a), et Maher (1992) pour plus
détails sur le bruit de quantification et sur les méthodes pour le minimiser. Lipshitz, Wannamak
et Vanderkooy (1992) présentent une analyse mathématique de la quantification et du dither. Vo
Hauser (1991) pour un exposé sur le dither dans les convertisseurs suréchantillonneurs.
Le dither peut ne pas être nécessaire avec un convertisseur 20 bits précis, puisque le bit faible repr
sente un signal extrêmement doux, à plus de 108 dB en dessous du signal le plus fort. Mais lorsq

-10

-20

dB -30

-10

-20

-30
1 kHz 10 kH
Fréquences

Figure 1.21 – Le dither réduit la distorsion harmonique d’un système numérique.


La partie supérieure de la figure montre le spectre d’une sinusoïde à 1 kHz avec une amplitude d
1/2 bit. Remarquez les harmoniques produits par l’action du CAN. La partie inférieure montre
spectre du même signal après qu’un dither d’une amplitude d’environ 1 bit a été appliqué ava
conversion. Seule une petite quantité du troisième harmonique subsiste, accompagnée d’un bruit d
large bande. L’oreille peut reconstituer la sinusoïde au-dessous du seuil bruiteux.
pour préserver la fidélité du signal.
✦ Linéarité du convertisseur
Les convertisseurs peuvent provoquer un certain nombre de distorsions (Blesser, 1978 ; Mc Gill, 1985
Talambiras, 1985). L’une d’elles vient du fait qu’un convertisseur n bits n’est pas nécessairemen
exact vis-à-vis du domaine dynamique entier impliqué par ses entrées et sorties à n bit. Tandis qu
la résolution d’un convertisseur n bits est une partie de 2n, la linéarité du convertisseur est le degr
auquel les signaux analogiques et numériques d’entrée et de sortie s’épousent en terme de magn
tude. C’est-à-dire que certains convertisseurs utilisent 2n valeurs, mais ces valeurs ne sont pa
linéaires, ce qui cause de la distorsion. Dès lors, il est possible de voir par exemple un « convertisseu
18 bits », qui est en fait « 16 bits linéaire ». Un tel convertisseur peut être meilleur qu’un simp
convertisseur 16 bits non linéaire. Voir Pohlmann (1989a) pour un exposé de ces problèmes.

1.5 Gamme dynamique des systèmes audionumériques


Les spécifications des équipements numériques parlent en général de l’exactitude ou de la résolutio
du système. Ceci peut être exprimé en utilisant le nombre de bits que le système utilise pour sauve
garder chaque échantillon. Le nombre de bits par échantillon est important pour le calcul de
gamme dynamique maximum d’un système audionumérique. En général, la gamme dynamiqu
est la différence entre les sons les plus forts et les sons les plus faibles que le système peut produir
et elle est mesurée grâce à l’unité des décibels (dB).

1.5.1 Décibels
Le décibel est l’unité de mesure des relations entre les niveaux de tension, l’intensité, ou la pui
sance, particulièrement dans les systèmes audio. Dans les mesures acoustiques, l’échelle des décibe
indique le rapport d’un niveau par comparaison à un niveau de référence, selon la relation :
nombres de décibels = 10 × log 10 ( niveau ⁄ niveau de référence )
où le niveau de référence est en général le seuil de l’audition (10–12 watts par mètre carré). La bas
logarithmique des décibels signifie que si deux notes sonnent ensemble, et que chaque note a un
puissance de 60 dB, l’augmentation de niveau n’est que de 3 dB. Si l’on accroît l’intensité un millio
de fois, le résultat est une augmentation de 60 dB. Voir le chapitre 16, Backus (1977) ou Pohlman
© Dunod. Toute reproduction non autorisée est un délit.

(1989) pour plus de précisions sur les décibels.


La figure 1.22 montre l’échelle des décibels et des niveaux de puissance acoustique estimés pa
rapport à 0 dB. Deux faits importants décrivent les besoins de la gamme dynamique d’un systèm
audionumérique :
1. L’étendue de l’audition humaine s’étend approximativement de 0 dB, à peu près le niveau o
le son le plus doux peut être entendu, jusqu’à environ 125 dB, qui équivalent au seuil de dou
leur des sons tenus.
2. Une différence d’un peu moins de 1 dB entre les niveaux d’amplitude de deux sons corres
pond à la plus petite différence d’amplitude qui peut être entendue.
Ces cas peuvent varier avec l’âge, l’entraînement, les hauteurs, et les individus.
Lors de l’enregistrement de musique, il est important de capturer la gamme dynamique la plus larg
possible, si l’on veut reproduire toute la puissance d’expression de la musique. Dans un conce
d’orchestre, par exemple, la gamme dynamique peut varier du « silence », à un solo instrument
Décibels Source acoustique

195 Fusée lunaire au décollage

170 Avion turboréacteur avec postcombustion

150
Avion à hélices

130 Concert de musique rock (son continu)


Orchestre de 75 instruments (pics momentanés)
120
Marteau piqueur

110
Piano (pics momentanés)
100
Automobile sur une autoroute

90 Cri (niveau moyen)

80

70 Conversation (niveau moyen)

60

50

40
Murmure
30

20 Studio d’enregistrement traité acoustiquement

10
0 Seuil de l’audition

Figure 1.22 – Niveaux de puissance acoustique pour différentes sources acoustiques.


Tous les cas se rapportent à 0 dB = 10–12 watts par mètre carré.
enregistreurs analogiques est limitée par la physique des procédés d’enregistrement analogiqu
Elle se situe aux alentours de 80 dB pour un son de 1 kHz lors de l’utilisation d’enregistreurs à bande
professionnels, sans ajout de réduction de bruit. La réduction de bruit peut accroître l’étendue a
prix de certaines distorsions. Voir le chapitre 3 pour plus d’informations sur la réduction de brui
Lorsqu’un enregistrement est produit pour la distribution sur un support qui ne possède pas un
grande gamme dynamique (une cassette analogique produite en grand nombre, par exemple), le
passages doux sont un peu remontés par l’ingénieur, et les passages forts sont légèrement atténué
Si cela n’était pas fait, les passages les plus forts créeraient de la distorsion, et les passages les plu
doux seraient masqués par du sifflement et par d’autres bruits.

1.5.2 Gamme dynamique d’un système numérique


Pour calculer la gamme dynamique maximale d’un système audionumérique, nous pouvons utilise
la simple formule suivante :
étendue dynamique maximum en décibels = nombre de bits × 6,11
Le nombre 6,11 est une approximation du maximum théorique (van de Plassche, 1983 ; Hause
1991). En pratique, 6 est plus proche de la réalité. Une dérivée de cette formule est donnée dan
Mathews (1969) et Blesser (1978).
Ainsi, si l’on enregistre du son avec un système 8 bits, la limite supérieure de la gamme dynamiqu
sera approximativement de 48 dB, ce qui est pire que la gamme dynamique des enregistreurs ana
logiques. Mais si l’on enregistre par exemple en 16 bits, la gamme dynamique s’accroît jusqu’à u
maximum de 96 dB — une amélioration très nette. Un convertisseur 20 bits offre une gamm
dynamique potentielle de 120 dB, ce qui correspond environ à l’étendue de l’oreille humaine. Puisqu
le bruit de quantification est directement lié au nombre de bits, même les passages les plus dou
qui n’utilisent pas la gamme dynamique entière du système devraient être plus nets.
Cet exposé suppose que l’on utilise un système PCM linéaire qui stocke chaque échantillon sous form
de nombre entier représentant la valeur de chaque échantillon. Blesser (1978), Moorer (1979b), e
Pohlmann (1989a) étudient les implications d’autres systèmes de codage, qui convertissent le so
en nombres décimaux, en fractions, en différences entre deux échantillons successifs, et ainsi d
suite. Les autres systèmes de codage ont en général pour but de réduire le nombre total des bits qu
le système doit stocker. Pour certaines applications, comme les disques compacts qui mélangen
© Dunod. Toute reproduction non autorisée est un délit.

images et données audio (CD-Rom, CD-I, etc.), il peut être nécessaire de faire un compromis ave
la gamme dynamique en stockant moins de bits, afin de faire rentrer toutes les informations sur
disque. Une autre façon de sauvegarder de l’espace est, bien entendu, de réduire le taux d’échanti
lonnage.

1.6 Suréchantillonnage
Jusqu’ici, nous avons principalement parlé des convertisseurs PCM linéaires. Un CNA PCM linéair
transforme un échantillon en tension analogique en une seule étape. Contrairement aux convertis
seurs PCM linéaires, les convertisseurs suréchantillonneurs utilisent plus d’échantillons lors d
l’étape de conversion que ceux qui sont effectivement stockés sur le support d’enregistrement. L
théorie du suréchantillonnage est un sujet complexe, quoi qu’il en soit, et pour nos besoins ici mêm
il est suffisant de n’en présenter que les idées de base, en laissant de nombreuses références pou
ceux qui souhaiteraient approfondir le sujet.
l’exactitude des convertisseurs. Il existe deux types différents de suréchantillonnages :
1. Les CNA suréchantillonneurs multibits développés pour les lecteurs de disques compacts
début des années 1980 par les ingénieurs de la compagnie Philips (van de Plassche, 198
van de Plassche et Dijkmans, 1984).
2. Le suréchantillonnage 1 bit avec modulation delta-sigma ou une méthode proche utilis
dans les CAN et les CNA plus récents (Adams, 1990 ; Hauser, 1991).
La première méthode convertit un nombre de bits (par exemple 16) à chaque battement de l’horlo
d’échantillonnage, tandis que la seconde convertit un bit à la fois, mais à une très haute fréquen
d’échantillonnage. La distinction entre les systèmes multibits et les systèmes à 1 bit n’est pas toujou
claire, car certains convertisseurs utilisent une combinaison de ces deux approches. C’est-à-d
qu’ils effectuent tout d’abord un suréchantillonnage multibits, puis le transforment en un flux à 1
qui est de nouveau suréchantillonné.

1.6.1 Convertisseurs suréchantillonneurs à bits multiples


Au milieu des années 1980, de nombreux fabricants de disques compacts utilisaient un CNA con
par Philips, qui rendait accessibles aux particuliers les bénéfices de la technologie du su
échantillonnage. Ces convertisseurs tirent avantage du fait que les filtres numériques peuvent fourn
une réponse de phase bien plus linéaire que les filtres analogiques raides en mur de brique utilis
généralement dans les CNA. Des CAN basés sur ce concept ont également été produits, mais no
n’aborderons ici que le cas des CNA. Dans un lecteur de disques compacts, 44 100 échantillons
16 bits sont stockés chaque seconde sur chaque canal, mais lors de la relecture, ils peuvent êt
échantillonnés à quatre fois le taux (176,4 kHz), ou à huit fois (352,8 kHz), selon le système. Ce
est accompli en interpolant trois (ou sept) nouveaux échantillons 16 bits entre chaque échantill
d’origine. Au même moment, tous les échantillons sont filtrés par un filtre numérique de pha
linéaire, au lieu d’un filtre analogique en mur de brique qui introduirait de la distorsion de phas
Ce filtre numérique est un filtre à réponse impulsionnelle finie ; voir le chapitre 4.
En dehors de la linéarité de phase, l’un des bénéfices principaux du suréchantillonnage est la rédu
tion de bruit de quantification, et un accroissement du rapport signal/bruit sur toute la largeur
bande audio. Ceci vient du principe de base des convertisseurs qui établit que le pouvoir total
bruit de quantification correspond à la résolution de son convertisseur, indépendamment du ta
d’échantillonnage. Ce bruit est, en théorie, répandu uniformément sur toute la largeur de bande
système. Un taux d’échantillonnage plus élevé répand une quantité constante de bruit de quanti
cation sur une plus grande étendue de fréquences. Un filtrage passe-bas important élimine le bru
de quantification au-dessus de la bande de fréquences audio. Grâce à cela, un enregistrement su
échantillonné dans un rapport d’un à quatre, a 6 dB de moins de bruit de quantification (ce q
équivaut à rajouter un bit de résolution), et un enregistrement suréchantillonné dans un rapport d’u
à huit, a 12 dB de moins de bruit. L’étape finale de ces systèmes est un filtre passe-bas analogiq
en pente douce qui supprime les composants au-dessus de 30 kHz, avec un déphasage insignifia
dans la bande audio.

1.6.2 Convertisseurs suréchantillonneurs à 1 bit


Bien que la théorie des convertisseurs suréchantillonneurs à 1 bit remonte aux années 1950 (Cut
1960), il fallut attendre de nombreuses années avant que cette technologie soit intégrée à des syst
mes audionumériques. Les convertisseurs suréchantillonneurs à 1 bit constituent une famille
techniques successivement appelées convertisseurs sigma-delta, delta-sigma, noise-shaping, bitstrea
très hautes fréquences. Plutôt que d’essayer de représenter la forme d’onde entière sur un seul échan
tillon, ces convertisseurs mesurent les différences entre échantillons successifs.
Les convertisseurs 1 bit tirent parti d’une loi fondamentale de la théorie de l’information (Shannon
Weaver, 1949), qui dit que l’on peut échanger la largeur d’échantillonnage et le taux d’échantillonnag
et convertir pourtant à la même résolution. C’est-à-dire qu’un convertisseur 1 bit qui « suréchanti
lonne » à 16 fois le taux d’échantillonnage stocké est l’équivalent d’un convertisseur 16 bits san
suréchantillonnage. Ils traitent tous les deux le même nombre de bits. Les bénéfices du suréchanti
lonnage s’accroissent lorsque le nombre de bits traités est supérieur au nombre de bits d’entrée.
Le taux de suréchantillonnage d’un convertisseur 1 bit peut prêter à confusion, puisqu’il n’indiqu
pas combien de bits sont traités ou stockés. L’une des façons de déchiffrer les spécifications d
suréchantillonnage est de déterminer le nombre total de bits traités, selon la relation :
facteur de suréchantillonnage ∞ largeur du convertisseur
Par exemple, un système avec convertisseur 1 bit « suréchantillonnant 128 fois » traite 128 ∞ 1 b
à chaque période d’échantillonnage. Ceci doit être comparé à un convertisseur linéaire 16 bits qu
traite 1 × 16 bits, soit huit fois moins de données. En théorie, les convertisseurs 1 bit devraient sonne
de façon beaucoup plus propre. En pratique, quoi qu’il en soit, ce genre de pronostics est parfo
réduit à néant par des convertisseurs qui utilisent plusieurs étapes de suréchantillonnage et de
largeurs de bit interne variables.
Quoi qu’il en soit, tous les bénéfices du suréchantillonnage reviennent aux convertisseurs 1 bi
y compris une résolution améliorée et une linéarité de phase, compte tenu du filtrage numériqu
Des taux d’échantillonnage élevés qui sont difficiles à mettre au point avec la technologie des conve
tisseurs multibits sont beaucoup plus faciles à implémenter avec des convertisseurs 1 bit. Les tau
de suréchantillonnage dans le domaine des MHz permettent des quantifications de 20 bits pa
échantillon.
Une autre technique utilisée dans les convertisseurs suréchantillonneurs 1 bit est le noise-shapin
qui peut prendre de nombreuses formes (Hauser, 1991). L’idée de base est que l’erreur de « requan
tification » qui survient lors du procédé de suréchantillonnage est déplacée dans le domaine de
hautes fréquences — en dehors de la largeur de bande audio — par un filtre passe-haut bouclé e
rétroaction avec le signal d’entrée. La boucle de noise-shaping n’envoie que l’erreur de requantif
cation à travers le filtre passe-haut, pas le signal audio.
© Dunod. Toute reproduction non autorisée est un délit.

L’étape finale de n’importe quel convertisseur suréchantillonneur est un filtre diviseur qui réduit
taux d’échantillonnage du signal à celui convenant au stockage (pour un CAN) ou à la lecture (pou
un CNA), et filtre également le signal en passe-bas. Dans le convertisseur noise-shaping ce filtr
diviseur retire aussi le bruit de requantification, ce qui a pour effet de grandement améliorer
rapport signal/bruit. Avec le noise-shaping de second ordre (appelé ainsi en raison des filtres passe
haut de second ordre utilisés dans la boucle en rétroaction), le niveau de signal/bruit maximum d’u
convertisseur 1 bit est approximativement équivalent à 15 dB (2,5 bits) par octave de suréchanti
lonnage, moins une pénalité fixée de 12,9 dB (Hauser, 1991). Ainsi, un facteur de suréchanti
lonnage de 29 augmente le rapport signal/bruit d’un convertisseur 16 bits de l’équivalent de 10 bit
soit 60 dB.
Pour plus de détails sur les convertisseurs suréchantillonneurs noise-shaping, voir Adams (198
1990), Adams et coll. (1991), et Fourré, Schwarzenbach et Powers (1990). Hauser (1991) a rédig
un article qui explique l’histoire, la théorie, et la pratique des techniques de suréchantillonnage sou
forme pédagogique, et contenant également de nombreuses références supplémentaires.
Tableau 1.2 – Supports audionumériques.

Accès série
Support Notes
ou aléatoire

Tête stationnaire Série Utilisé pour l’enregistrement multipiste professionnel (24


(bande magnétique) 32, 48 pistes) ; plusieurs formats ; édition limitée.

Bande vidéo à tête rotative Série Formats professionnels et grand public ; cassettes gran
(bande magnétique) public peu chères ; plusieurs formats de bande (U-matic
Beta, VHS, 8 mm, etc.) et trois formats internationaux d
codage incompatibles (NTSC, PAL, SECAM).

Bande audio à tête rotative Série Format professionnel Nagra-D pour enregistrement quatr
(bande magnétique) pistes.

Bande audionumérique Série Cassettes et enregistreurs de petite taille et portatifs ; com


(DAT) (bande magnétique) patibilité mondiale ; certaines machines sont compatible
avec le codage SMPTE.

Cassettes numériques Série Format numérique compatible avec les enregistreurs ana
compactes (DCC) logiques traditionnels. Compression des données. Qualit
(bande magnétique) sonore inférieure au format CD.

Disques durs Aléatoire Disques durs intégrés rapides (quelques millisecondes d


(magnétiques et optiques) temps d’accès) ; les disques durs transportables convien
nent pour la sauvegarde et le transport d’échantillons
Disque optique transportable différent du format audio CD
bien que celui-ci ait la même apparence.

Disquettes (magnétiques) Aléatoire Petites, bon marché et pratiques, mais lentes et ne pouvan
stocker que de petits fichiers son. Peu sûres pour l’arch
vage.

Mini Disc Sony (MD) Aléatoire Format de disquette pour le son avec compression d
(magnétique) données. Qualité sonore inférieure au format CD.

Disque compact (CD) Aléatoire Disque petit et fin stockant jusqu’à 782 Mo ; les disque
(optique) d’archivage durent des décennies ; peut lire des images e
du son. Différentes qualités, du CD-ROM au forma
20 bits. Format lent comparé à d’autres supports à accè
aléatoire (Pohlmann, 1989b, d).

Mémoire à semiconducteur Aléatoire Temps d’accès très rapide (moins de 80 nanosecondes)


(électronique) excellent pour stockage temporaire, mais trop cher pour d
grandes bases de données.

Super Audio CD Aléatoire Stockage jusqu’à 8,5 Go avec encodage DSD (suréchan
tillonnage 1 bit à une fréquence de 2,8224 MHz). Contien
en général une version multicanal et une version stéréo e
DSD, et une version CD audio standard, optionnelle.

DVD-Audio Aléatoire Stockage jusqu’à 8,5 Go en 16, 20 ou 24 bits. Compatibl


avec des fréquences d’échantillonnage jusqu’à 192 kH
(stéréo) ou 96 kHz (systèmes multicanaux). Encodage e
LPCM avec ou sans compression MLP.
ou circuit intégré, utilisant n’importe quelle technologie d’enregistrement audionumérique, pa
exemple, magnétique, magnéto-optique ou optique. Sur le même support, les données peuvent êtr
écrites dans un grand nombre de formats. Un format est un genre de structure de données. Par exempl
des fabricants de stations de travail audionumériques implémentent, pour le stockage des échantillon
sur le disque dur, un format qui leur est propre. Pour des raisons aussi bien de technologie que d
marketing, de nouveaux supports et de nouveaux formats apparaissent régulièrement. Le tableau 1
liste certains supports et ce qui les distingue.
Certains supports sont capables de gérer plus de bits par seconde et ont ainsi un potentiel d’enre
gistrement de plus haute qualité. Par exemple, certains enregistreurs numériques à bandes peuven
coder 20 bits par échantillon avec les convertisseurs appropriés (Angus et Faulkner, 1990). Un disqu
dur peut gérer des échantillons 20 bits à des taux dépassant 10 kHz (avec un certain nombre de piste
simultanées), tandis que pour les supports à semi-conducteurs (barrettes mémoires) la largeur
le taux d’échantillonnage potentiels sont encore plus grands.
Une autre caractéristique des supports est la durée de vie. Des disques optiques destinés à l’arch
vage, fabriqués en verre trempé, gravés puis recouverts d’or peuvent durer des décennies et êtr
joués plusieurs milliers de fois (Digipress, 1991). Les supports magnétiques comme les DAT et le
disquettes sont bon marché et de petite taille, mais beaucoup moins robustes.
Un des avantages remarquables des supports de stockage numériques est que l’on peut transfére
les bits d’un support à l’autre sans aucune perte — ceci dans le cas bien entendu d’une compatibili
entre les machines et d’une absence de circuits de protection de copie. On peut cloner un enregis
trement autant de fois qu’on le souhaite, à partir de l’original ou à partir de n’importe laquelle de
copies. Cela signifie également que l’on peut transférer un enregistrement d’un support série pe
coûteux (tel qu’une DAT) vers un support à accès aléatoire (tel qu’un disque) qui est mieux appropr
à l’édition et au traitement. Après avoir terminé l’édition, on peut retransférer les échantillons su
la DAT. Ces transferts sont effectués à travers des connecteurs numériques entrée/sortie (des prise
sur les systèmes de lecture et d’enregistrement) et des formats standards de transmission audio
numérique (protocoles logiciels pour envoyer les données audio entre les machines).

1.8 Compression des données audio


La compression des données audio a été utilisée dès l’origine pour des besoins de gain de place, et el
© Dunod. Toute reproduction non autorisée est un délit.

est devenue omniprésente dans le monde d’aujourd’hui. Non seulement elle est utilisée dans toute
les formes de transmission téléphoniques, mais elle a également investi le domaine de la consom
mation culturelle, des médias et de l’Internet.
Il existe deux grandes familles de compression des données audio : la compression sans perte, dan
laquelle le signal peut être récupéré à l’identique, car il est simplement stocké de façon plus efficac
et la compression avec perte, dans laquelle une partie des données est irrémédiablement perdu
car éliminée du signal. Noux examinons tout d’abord ces deux types de traitement des données, e
expliquant brièvement les techniques qu’elles utilisent, puis fournissons ensuite une liste des fo
mats les plus couramment utilisés.

1.8.1 Compression sans perte


La compression est un domaine complexe qui prend racine dans les mathématiques et la théor
de l’information. Elle emprunte à cette dernière de nombreux concepts, et plus particulièremen
celui de la redondance. Celle-ci définit, au sein d’un message binaire, le rapport entre les élémen
d’éléments. Dans la forme la plus simple d’encodage (appelé codage des répétitions), éliminer
redondance consiste simplement à décrire l’événement et le nombre d’occurrences, plutôt que
suite entière des événements identiques.
Des formes plus évoluées intègrent le concept d’entropie de Shannon. Celui-ci tente de mesurer
caractère d’incertitude d’une série d’événements. Si tous les événements sont identiques, ils so
prévisibles, et l’entropie est donc égale à zéro. Si les événements sont parfaitement aléatoire
l’entropie est élevée. Dans le domaine de la transmission de données, le taux d’entropie est le nomb
moyen de bits par symbole nécessaire pour encoder celui-ci, et l’entropie définit la plus courte taille
message en bits capable de décrire la source d’information (Shannon, 1948). Par exemple, des év
nements apparaissant fréquemment se verront attribuer un code plus court que celui d’événemen
plus rares.
L’une des applications les plus courantes de ce type de traitement des données est le codage
Huffman. Celui-ci commence par une étude des éléments à encoder et attribue à chacun un poi
égal à son occurrence. Un arbre logique est ensuite construit selon le principe suivant : les deux é
ments de plus faible poids sont associés, leurs poids sont additionnés et constituent leur emplac
ment au niveau supérieur de l’arbre. Lorsque celui-ci est achevé, la branche la plus faible se voit att
buer un code égal à 0, et la plus forte un code égal à 1. De nombreuses autres techniques d’encoda
existent (Huffman adaptative, arithmétique, Golomb, etc.), avec des degrés divers de réussite da
l’approche de la valeur optimale définie par Shannon, au-delà de laquelle aucune compression n’e
possible sans une certaine perte. Voir Dumas et coll. (2007) pour des descriptions détaillées d
techniques utilisées en théorie de l’information et en compression de données. Dans le cas de l’aud
en particulier, les algorithmes de compression généraux ne sont pas très efficaces, et les implément
tions utilisent des astuces telles que du codage de répétitions et du codage prédictif linéaire po
optimiser le signal avant encodage.

1.8.2 Compression avec perte


La compression avec perte est utilisée dans de très nombreux domaines : téléphonie, diffusion s
internet, DVD, radio numérique, écoute sur baladeur ou sur ordinateur, etc. Comme elle supprim
des données, il n’est pas surprenant qu’elle permette une compression plus prononcée que les ve
sions sans perte. Elle a constitué un domaine de recherche important après les années 1980 en ra
son de la nécessité de parvenir à des gains de place lors du stockage sur un support, ou à des gai
de largeur de bande, lors de transmissions. Un grand nombre de formats coexistent, qui utilise
chacun des types différents de traitement du son, mais ont cependant pour trait commun de
baser sur des principes liés à la psychoacoustique.
L’une des premières applications de ces techniques était la compression de la parole pour les servic
de téléphonie. En raison de ses limites, tant dans le domaine fréquentiel que dans le domaine dyn
mique, il semble évident qu’un tel signal peut être réduit tout en conservant une certaine quali
Par exemple, la gamme de fréquence transmise peut être limitée au domaine situé entre 400
3 500 Hz, et la gamme dynamique peut être réduite grâce à une compression-extension : le coda
est alors optimisé et le rapport signal-bruit est meilleur que celui d’un encodage linéaire. Un alg
rithme courant de la compression avec perte est la prédiction linéaire excitée par code (CELP), u
forme particulière de CPL. Voir le chapitre 24 pour plus de détails sur le codage prédictif linéair
Une autre technique utilisée dans la compression de données est appelée le codage de sous-band
Celle-ci est basée sur le phénomène psychoacoustique des effets de masques. Voir le chapitre 16 po
une explication des effets de masques. Le signal est tout d’abord décomposé en plusieurs bandes grâ
déterminer les masques présents. Chaque sous-bande est ensuite quantifiée et encodée afin de con
server le bruit de quantification en dessous du seuil de masque. Les échantillons quantifiés sont fina
lement réunis sous forme d’images qui peuvent être lues par le décodeur. Ce type d’encodage e
celui utilisé dans les différents formats MPEG.
Le codage hiérarchique, quant à lui, tente de déterminer l’importance des divers éléments présen
dans un signal, afin d’appliquer une compression plus forte sur ceux qui participent le moins
l’intelligibilité. Il est particulièrement bien adapté à la transmission sur des réseaux, où les risque
de pertes et d’erreurs sont élevés, et permet la transmission avec une largeur de bande relativemen
faible, en filtrant les éléments jugés les moins nécessaires.
Citons enfin une technique appelée compression par ondelettes, qui fonctionne bien sur des signau
contenant des transitoires, mais est moins performante sur des signaux lisses et périodiques. Un
transformée en ondelettes est tout d’abord effectuée, suivie d’une compression et d’une quantifica
tion des coefficients résultants. Les valeurs obtenues sont alors encodées grâce une technique basé
sur l’entropie ou sur l’encodage de répétitions. Voir le chapitre 13 pour une explication de la théor
des ondelettes.
Le tableau 1.3 présente les formats (codecs) de compression audio les plus courants. Les codec
utilisés uniquement en téléphonie (G.711, G.721, etc.) et le format RealAudio, qui utilise des codec
de compression provenant d’autres sociétés, ne sont pas évoqués. Ce domaine de recherche conna
des modifications constantes. Voir Salomon (1998) et Sayood (2000) pour des présentations complète
de la compression de données appliquées à différents domaines, dont l’audio.

1.9 Synthèse et traitement du signal


Comme nous l’avons vu, l’échantillonnage transforme les signaux acoustiques en nombres binaire
rendant ainsi possible l’enregistrement audionumérique. Pour des utilisations musicales, les applica
tions de l’échantillonnage vont au-delà de l’enregistrement, jusqu’à la synthèse et au traitement d
signal. La synthèse est le procédé de génération de flux d’échantillons grâce à des outils algorith
miques. Les chapitres 17 à 32 énumèrent les nombreux sentiers possibles conduisant à la synthès
Le traitement du signal transforme les flux d’échantillons. En musique, nous utilisons les outils d
traitement du signal pour sculpter les ondes sonores en formes esthétiques. Les applications d
traitement du signal les plus typiques sont les suivantes :
© Dunod. Toute reproduction non autorisée est un délit.

• Manipulations dans le domaine dynamique (amplitude) : redessiner le profil d’amplitud


d’un son.
• Mixage : combinaison de multiples pistes audio, y compris les fondus enchaînés.
• Filtres et égaliseurs : changer le spectre fréquentiel d’un son.
• Effets de retards temporels : échos, effet chorus, flanger, phasing.
• Convolution : transformations temporelles et fréquentielles simultanées.
• Projection spatiale, y compris la réverbération.
• Réduction de bruit : nettoyage de mauvais enregistrements.
• Conversion de taux d’échantillonnage : avec ou sans déplacement des hauteurs.
• Analyse du son, transformation, et resynthèse.
• Compression/expansion temporelle : changer la durée sans toucher aux hauteurs, ou vice
versa.
Compression
Nom du codec Notes
avec ou sans perte

AAC Avec perte Divise le signal en 1 024 sous-bandes. Permet de stocker de


métadonnées et des schémas de protection anticopie. Utilis
dans un grand nombre d’applications.

ADX Avec perte Utilisé principalement dans les jeux vidéo.

Apple Lossless Sans perte Format propriétaire d’Apple Inc., uniquement utilisé à traver
iTunes et QuickTime.

ATRAC Avec ou sans perte Utilisé sur le MiniDisc, au cinéma (système SDDS), sur de
baladeurs et des consoles de jeu. La dernière mise à jour com
presse sans perte.

Direct Stream Sans perte Utilisé uniquement comme codec de compression audio pour le
Transfer flux DSD (Direct Stream Digital) utilisés sur le Super Audio CD

Dolby Digital Avec perte Utilisé principalement pour les films et la vidéo, sur suppor
(AC-3) DVD, HD-DVD et Blu-ray.

Dolby TrueHD Sans perte Basé sur le format MLP et utilisé sur les supports optiques
haute densité (obligatoire sur HD-DVD, optionnel sur Blu-ray).

DTS Coherent Avec ou sans perte Utilisé pour les films et la vidéo, sur support CD, DVD, HD-DV
Acoustics et Blu-ray. La version DTS-HD Audio compresse sans perte.

FLAC Sans perte Open Source et multi plate-forme, il est utilisé dans un gran
(Free Lossless nombre d’applications : écoute sur baladeurs ou ordinateurs
Audio Codec) jeux vidéo, etc.

HE-AAC Avec perte Amélioration du format AAC grâce à un meilleur traitement d


(aacPlus) la gamme de fréquences et des informations de stéréo.

MLP Sans perte Utilisé sur les supports optiques à haute densité (obligatoir
(Meridian Lossless sur HD-DVD et DVD-Audio, optionnel sur Blu-ray). Licencié
Packing) Dolby pour leur format TrueHD.

MPEG-1 Layer II Avec perte Divise le signal en 32 sous-bandes. Utilisé dans les format
(MP2) Video CD et Super Video CD.

MPEG-1 Layer III Avec perte Divise le signal en 576 sous-bandes. Permet de stocker de
(MP3) métadonnées. Utilisé dans un grand nombre d’applications.

Musepack (MPC) Avec perte Utilisé principalement dans les assistants personnels (PDA).

Vorbis Avec perte Utilisé dans les jeux vidéo, et pour l’écoute sur baladeur e
sur ordinateur. Permet de stocker des métadonnées.

WavPack Sans perte Permet un mode hybride dans lequel deux fichiers sont créés
un fichier compressé avec perte et un fichier de correction
Leur association permet une compression sans perte. Utilis
pour l’écoute sur ordinateur et sur certains baladeurs.

Windows Media Avec ou sans perte Utilisé dans un grand nombre d’applications. De nombreuse
Audio (WMA) versions existent, dont des versions multicanaux et sans perte
Signal Processing) s’est épanoui en une vaste science théorique et en un art appliqué. La deuxièm
partie de ce livre explique des concepts essentiels du DSP, pertinents d’un point de vue musical.

1.10 Conclusion
Ce chapitre a présenté les concepts fondamentaux de l’enregistrement et de la reproduction numé
riques. Cette technologie continue d’évoluer. Dans les domaines de la conversion AN et NA, du tra
tement du signal, et de la technologie de stockage — il y a toujours de la place pour l’amélioratio
— nous pouvons espérer de nouveaux développements pendant encore de nombreuses années.
Tandis que la technologie de l’enregistrement continue sa marche, l’esthétique de l’enregistremen
pousse cette technologie dans deux directions opposées. La première est l’école d’enregistremen
« naturaliste » ou « puriste », qui tente de recréer l’expérience idéale de concert, avec aussi pe
d’artifices que possible. À l’écoute de ces enregistrements, c’est comme si l’on était suspendu dans le
airs (où sont les microphones), dans la position idéale d’écoute, écoutant aux portes une interpré
tation virtuose. L’approche opposée, non moins valide, est souvent utilisée dans les musiques d
variété, électroniques, ou informatiques : la création d’une scène sonore artificielle dans laquelle le
sources peuvent se déplacer. Nous sommes en contact avec des illusions telles que des sons émanan
de plusieurs espaces simultanément. Ces illusions sont créées par les opérations de traitement d
signal décrites dans la deuxième partie.
© Dunod. Toute reproduction non autorisée est un délit.
Chapitre 2

Mixage

La nature mixe acoustiquement les sons dans l’air — par exemple dans la sonorité orchestra
« fusionnée » d’un concert symphonique, ou la cacophonie urbaine d’un coin de rue. Les circui
électroniques analogiques mixent également des signaux sonores, où chaque signal est représent
par une tension variant dans le temps. Un circuit additionne de nombreux signaux pour former u
signal composite.
Dans le domaine numérique, les signaux audio sont mixés selon les règles de simple addition. Pou
aider à visualiser ce processus, les figures 2.1, 2.2 et 2.3 montrent un mixage sur trois échelles tem

t1 t2
+32767

(a) +10000
© Dunod. Toute reproduction non autorisée est un délit.

+10000

(b)

-32767

+20000

(c)
0

Figure 2.1 – Les signaux (a) et (b), constitués de deux échantillons aux temps t1 et t2,
sont mixés, et donnent comme résultat le signal (c).
(a)

(b)

(c)

Figure 2.2 – Mixage de formes d’onde.


(a) Sinusoïde à 50 Hz. (b) Sinusoïde à 500 Hz. (c) Mixage de (a) + (b).

(a)

(b)

(c)

Temps

Figure 2.3 – Mixage de fichiers son.


(a) Son de saxophone alto. (b) Texture de synthèse granulaire. (c) Mixage de (a) + (b).
de 32 767 est ajouté à un autre échantillon de la source (b) au temps t1 avec une valeur de –32 76
et la valeur d’échantillon additionnée a pour résultat 0 (c). Lorsque deux signaux positifs de 10 00
chacun sont additionnés au temps t2, le résultat est 20 000.
La figure 2.2 montre un mixage au niveau de l’addition de forme d’onde, combinant une onde d
basse fréquence et une onde de haute fréquence.
Enfin, la figure 2.3 montre le résultat du mixage de deux fichiers son différents, chacun duran
environ 2,5 secondes.

2.1 Mixage et gamme dynamique


La gamme dynamique (GD) est l’étendue (exprimée en décibels) entre les sons les plus faibles et le
sons les plus forts qu’un système peut manipuler. Par exemple, la GD de l’oreille humaine est d’enviro
120 dB. Comme l’expliquait le chapitre 1, la GD d’un système audionumérique est proportionnel à
quantification du système, avec environ 6 dB pour chaque bit quantifié. Ainsi, la GD d’un systèm
16 bits est limité à 96 dB, tandis qu’un système audio pouvant manipuler 20 bits aura approximative
ment la même gamme dynamique que le mécanisme auditif humain.
Les limites de la gamme dynamique posent des problèmes aux systèmes de mixage numériques, ca
ceux-ci additionnent de nombreuses valeurs d’échantillons pour créer une somme. Si la somm
dépasse le domaine de quantification, le résultat est un craquement brutal provenant des converti
seurs numérique-analogique causé par la « coupure numérique » ou débordement.
La plupart des programmes de mixage numériques offrent des résolutions de quantification de 2
à 64 bits aux points d’addition dans le trajet du signal. Ces nombreux bits sont nécessaires, car il e
fréquent qu’une table de mixage combine plus de seize canaux simultanément. Ajouter seize nombre
16 bits de magnitude significative permet d’obtenir un nombre 20 bits. Une autre raison pour avo
une haute résolution dans une table de mixage est que de nombreuses opérations nécessitent au moin
24 bits (144 dB de gamme dynamique) pour maintenir une qualité audio de haut niveau. Différente
méthodes d’arrondissement peuvent échelonner les échantillons pour avoir moins de bits à la sort
de la table de mixage.
À l’intérieur de celle-ci (ou du programme de mixage), l’utilisation de nombres entiers pour le
échantillons audio est caractéristique d’une représentation à virgule fixe. Ceci est à différencier de
représentation à virgule flottante, où les échantillons sont représentés sous forme de deux nombres
une mantisse et un exposant. L’exposant agit comme facteur d’échelonnage, permettant la repré
© Dunod. Toute reproduction non autorisée est un délit.

sentation de nombres très grands et très petits — ce qui augmente la gamme dynamique. Ainsi, un
représentation par virgule flottante est l’une des façons grâce auxquelles les concepteurs de système
peuvent éviter les problèmes de gamme dynamique dans les systèmes numériques.

2.2 Tables de mixage


Une table de mixage (également appelée console de mixage) associe un certain nombre de canau
d’entrée à un certain nombre de canaux de sortie en temps réel. Les tables de mixage effectuent de
opérations auxiliaires comme du filtrage et de l’acheminement de signal. Pendant de nombreuse
années, les tables de mixage étaient construites exclusivement avec des circuits analogiques, parfo
selon des normes très exigeantes. Peu à peu, la technologie numérique fut ajoutée aux tables ana
logiques. Les tables hybrides, présentées plus loin, combinent des circuits audio analogiques et de
circuits d’automatisation et de contrôle numériques. Les tables de mixage entièrement numérique
sont de plus en plus utilisées.
lement le principal « tableau de bord » d’un studio ou d’un concert. Elle intègre ainsi des contrô
spécialisés et des éléments de coordination. Les éléments spécifiques disponibles dépendent du con
tructeur de la table de mixage et des options choisies par l’acheteur. Comme ce chapitre traite
principes généraux, nous n’essaierons pas de décrire toutes les options de contrôle que comporte
certaines tables.

2.2.1 Propriétés des tables de mixage


Les tables de mixage peuvent être caractérisées par le rapport entre le nombre de cana
d’entrée qu’elles manipulent et le nombre de canaux de sortie mixés qu’elles produisent. P
exemple, une table de mixage pouvant manipuler huit canaux en entrée et les mixer en de
canaux de sortie est appelée une table de mixage 8/2. De nombreuses tables de mixage possède
plusieurs bus de sortie auxquels les signaux peuvent être envoyés simultanément. Pour donn
un exemple, une table de mixage ayant huit entrées, un bus à quatre sorties et un bus à de
sorties peut être appelée une table 8/4/2. Grâce à une telle table, il est possible d’enregistr
simultanément en quatre pistes et en deux pistes, par le bus à quatre sorties et le bus à de
sorties.
Une table d’enregistrement de studio comporte en général six parties principales : une se
tion d’entrée, une section de sortie, une section de retours auxiliaires, une section d’env
d’ordres, une section de contrôle d’écoute, et une section de contrôle de niveau. Une simple table 8/4
est montrée à la figure 2.4. Les huit canaux d’entrée sont envoyés dans un ou plusieurs bus
sortie grâce à un ensemble de boutons d’assignation de bus de sortie (GD, 1/2, et 3/4) et à d
potentiomètres de panoramisation. En appuyant sur l’un des boutons d’assignation de bus
sortie, le signal est envoyé à deux bus de sortie ; en tournant le potentiomètre de panoramisati
vers la gauche ou vers la droite, on sélectionne l’un des deux bus de sortie. L’entrée peut égaleme
être envoyée à deux bus de départs auxiliaires (AUX) pour un traitement externe du signal. L
retours auxiliaires (RET) de l’unité d’effets peuvent être mixés dans les bus de sortie grâce
un petit potentiomètre rotatif situé au-dessus du fader de niveau de sortie. La sortie de l’uni
d’effets peut également être envoyée dans l’un des canaux d’entrée pour obtenir un contrô
supplémentaire du son. Les potentiomètres CM et SM en haut à droite établissent l’amplitu
des haut-parleurs d’écoute respectivement pour une cabine de contrôle (CM) et pour une écou
de studio (SM). Ils prennent leur entrée à partir des bus G/D. Un micro d’envoi d’ordres (à droit
permet à l’ingénieur de communiquer avec les musiciens ou de donner des indications sur
enregistrement. Le bandeau de Vumètres montre les niveaux d’amplitude des huit canaux d’entr
et des six bus de sortie.
Les paragraphes suivants présentent les différentes parties d’une table de mixage de façon pl
détaillée.

2.2.2 Section d’entrée


La section d’entrée est en général constituée d’un certain nombre de modules d’entrée identiqu
(figure 2.5). Le tableau 2.1 donne une explication des parties du module d’entrée.

2.2.3 Section de sortie


Faire fonctionner la section de sortie d’une table de mixage est en général très simple. Elle e
constituée d’un fader pour contrôler le niveau de sortie d’un signal envoyé au bus de sortie et d’u
affichage de niveau.
Bandeau de Vumètres

1 2 3 4 5 6 7 8 S1 S2 S3 S4 G D

Départs
Bus
AUX 4 bus de de sorti
8 canaux d’entrée Retours sortie G/D
AUX

Section SM
contrôle d’écoute
CM

AUX AUX AUX AUX AUX AUX AUX AUX Section


envoi d’ordres
GD GD GD GD GD GD GD GD
GD
1/2 1/2 1/2 1/2 1/2 1/2 1/2 1/2 Section
de retours AUX 1/2
3/4 3/4 3/4 3/4 3/4 3/4 3/4 3/4
3/4

RET RET RET RET RET RET


1 2 3 4 5 6 7 8 S1 S2 S3 S4 G D
© Dunod. Toute reproduction non autorisée est un délit.

Section d’entrée Section de sortie

Figure 2.4 – Flux du signal dans une table de mixage 8/4/2 simple,
montrant également les différentes parties de celle-ci. Les carrés représentent les boutons d
commutation, tandis que les cercles représentent les potentiomètres rotatifs. Les bus de sorti
sont indiqués de 01 à 04, ainsi que par G et D (gauche et droite). Les indicateurs CM et SM de l
section de contrôle d’écoute font référence aux niveaux d’écoute de la cabine de contrôle et d
studio.
alimentation fantôme,
L/M POW PH
inverseur de phase

GAIN
Atténuateur d’entrée

Egaliseur
paramétrique

EQ ON/OFF Marche/Arrêt EQ

Envoi AUX
Pre/Post

G D Potentiomètre
de panoramique

M S PFL Mute, Solo, PFL

0 Fader de canal

Figure 2.5 – Parties d’un simple module d’entrée d’une table de mixage.
Le tableau 2.1 explique chacune d’entre elles.

2.2.4 Section de retours auxiliaires


La section de retours auxiliaires peut également être appelée la section d’effets, d’insertion, ou
rabattement. Ces quatre termes sont utilisés par différents secteurs de l’industrie de l’enregistremen
Les départs auxiliaires permettent à l’ingénieur d’ajouter des sons traités par des unités d’effets
signal de sortie. Ils lui permettent également de créer des sous-mixages spéciaux pour chaq
musicien qui écoute avec un casque (dans un studio d’enregistrement) ou avec des haut-parleu
(sur scène).
Sélecteur d’entrée, Boutons de sélection. Le sélecteur d’entrée choisit un microphone, un niveau
alimentation fantôme, de ligne, ou une entrée de sous-groupe. Le bouton d’alimentation fantôme
boutons d’inversion envoie un signal de puissance DC à un microphone à condensateur. L’inver-
de phase seur de phase permet de déphaser le signal d’entrée (utile en configuration
de plusieurs microphones).

Atténuateur d’entrée Atténue le niveau du signal d’entrée pour que le canal ne soit pas saturé par
des signaux trop forts. Pour des signaux en niveau de ligne, l’atténuateur
d’entrée permet que la table soit alignée sur le niveau de la machine d’entrée
externe (par exemple magnétophone ou instrument).

Égaliseur paramétrique Altère le spectre du son en amplifiant ou en atténuant certaines bandes de


fréquence. La figure montre un égaliseur paramétrique trois bandes. Les trois
contrôles de chaque bande sont la largeur de bande, la fréquence centrale e
la quantité d’amplification ou d’atténuation. Un égaliseur semi-paramétrique
n’offre pas de contrôle de largeur de bande.

Marche/Arrêt EQ Permet d’utiliser ou non la section d’égalisation dans le circuit.

Envois auxiliaires Envoie le son à une unité d’effets (par exemple une unité de retard ou un
réverbérateur) ou à une sortie d’insertion. Celle-ci est en général envoyée aux
casques que portent les interprètes dans un studio d’enregistrement, ou à
des haut-parleurs sur scène. Ainsi, la sortie d’insertion constitue un sous-
mixage de la musique qui peut être équilibré afin que chaque musicien
entende son propre instrument au-dessus des autres. Le potentiomètre
d’envoi contrôle le niveau du son envoyé à l’unité d’effets ou à l’insertion. Le
potentiomètre de retour contrôle le niveau du son revenant de l’unité
d’effets (voir la section d’effets/retours auxiliaires). Lorsque le son est dirigé
vers l’envoi d’effet après le fader d’entrée (postfader), si le fader est coupé
le son l’est aussi. Sinon (préfader), le son d’entrée est toujours envoyé au
bus d’envoi d’effet.

Potentiomètre Contrôle la position spatiale du son entre deux ou plusieurs canaux.


de panoramisation

Mute, Solo et PFL Le bouton Mute coupe le canal. Le bouton Solo permet d’écouter un seu
canal. Dans ce cas, tous les autres canaux passent en position Mute. PFL
(pre-fader listen — écoute préfader) est utilisé lorsqu’un canal d’entrée doi
être vérifié sans ouvrir un fader. Par exemple, les ingénieurs radio appuien
© Dunod. Toute reproduction non autorisée est un délit.

sur le bouton PFL pour écouter le début d’un enregistrement avec le casque
mais comme le fader est descendu, le public ne pourra pas l’entendre. Le PFL
est un moyen de réglage des niveaux et d’égalisation à un moment où une
vérification normale du son serait impossible.

Assignation de canal La section d’assignation de canal est en général un ensemble de boutons, avec
(non montré) un bouton par bus de sortie. Le signal passant à travers le canal d’entrée
est envoyé à tous les canaux de sortie sélectionnés.

Fader de canal Curseur linéaire ou potentiomètre rotatif qui contrôle l’amplitude (ou gain)
(ou potentiomètre) du son.

2.2.5 Section d’envoi d’ordres


La section d’envoi d’ordres permet à l’ingénieur de communiquer avec les musiciens dans le stud
d’enregistrement. Une autre utilisation de l’envoi d’ordres dans un studio de musique informatiqu
est l’annotation d’un enregistrement avec des commentaires en vue d’une utilisation ultérieur
contrôle de niveau, et de plusieurs commutateurs pour déterminer où la voix de l’ingénieur se
envoyée.

2.2.6 Section de contrôle d’écoute


Cette section prend comme entrée le bus de sortie gauche/droite et l’envoie aux haut-parleurs
aux casques de la cabine de contrôle (là où se trouve la table de mixage) et du studio (là où sont l
musiciens).

2.2.7 Section de contrôle de niveau


Les indicateurs de niveau fournissent les niveaux sonores des canaux d’entrée et des bus de sort
Les crêtemètres montrent les valeurs crêtes de l’amplitude du signal. Leur temps de montée (le tem
nécessaire pour atteindre 99 pour cent de la valeur finale) est de quelques millisecondes, tand
que leur temps de descente est de plus d’une seconde. Il existe plusieurs types de crêtemètres aya
des spécifications différentes. Les Vumètres ont un temps de montée beaucoup plus lent, de l’ord
de 300 ms, et ils tendent donc à refléter l’amplitude moyenne du signal sur une brève période
temps. Certains indicateurs fournissent à la fois les caractéristiques crêtes et moyennes d’un signa

2.2.8 Possibilités de groupement


Certaines tables de mixage ont des possibilités de sous-groupes. Ceci permet à l’ingénieur d’assign
plusieurs canaux d’entrée à un seul fader, appelé le fader de sous-mixage ou de sous-groupe. L
mouvements ultérieurs du fader de sous-groupe contrôlent le niveau de tous les canaux assign
simultanément au sous-groupe.

2.3 Tables hybrides


La technologie matérielle numérique a été introduite dans les tables de mixage au début d
années 1970. Le premier bénéfice de la technologie numérique fut l’automatisation des faders —
capacité de restituer des réglages de coupures et de positions de faders pour recréer un mixa
particulier (voir plus loin la partie sur l’automatisation du mixage). Aujourd’hui, certaines tabl
sont des hybrides de la technologie numérique et de la technologie analogique, combinant les po
sibilités d’automatisation du numérique avec la largeur de bande plus grande du traitement anal
gique du signal (figure 2.6). La réponse fréquentielle des circuits analogiques dépasse fréquem
ment 100 kHz, ce qui est bien supérieur au domaine des tables numériques qui sont conçues po
travailler avec les fréquences d’échantillonnage standards de 44,1 et 48 kHz.
Les systèmes d’automatisation des tables hybrides permettent à l’ingénieur de sauvegarder l
données de contrôle du mixage puis de restituer le mixage stocké en mémoire pour le reprodui
Pour écrire des données de mixage, les positions des faders (représentées par des tensions anal
giques) sont échantillonnées par un convertisseur analogique-numérique et stockées dans l’ord
nateur de la table.

2.3.1 Relecture du mixage


Deux schémas différents peuvent être utilisés pour restituer ou « relire » le mixage sur la table. Da
le premier, les données numériques du mixage pour chaque canal sont envoyées à un convertisse
numérique-analogique, où, sous forme analogique, elles contrôlent le niveau d’un amplificate
contrôlé par tension (VCA) (figure 2.7).
Figure 2.6 – Une grande table de mixage hybride (construite par Solid State Logic)
avec un traitement du signal analogique contrôlé par un ordinateur de table intégré. L’automatisa
tion est nécessaire lorsque l’on travaille sur une table d’une telle taille (avec l’aimable autorisatio
du Capri Digital Studio, Capri).

Ch1 Ch2 Ch n
VCA VCA VCA

Rappel
de la mémoire CNA CNA ... CNA
vers la console

Stockage
© Dunod. Toute reproduction non autorisée est un délit.

Ordinateur pour les


console données de
mélange

...
Écriture
(sauvegarde)
CAN CAN CAN
de la console
vers la mémoire

Ch1 Ch2 Ch n
position position position
de fadeur de fadeur de fadeur

Figure 2.7 – Schéma global de l’écriture et du rappel des données de mixage


dans une table hybride (analogique-numérique) basée sur des amplificateurs contrôlés par tension.
teurs implémentent une automatisation pilotée par robotique. C’est-à-dire que les CNA contr
lent des moteurs déplaçant physiquement les faders (et donc modifient le niveau du canal)
suivant les mouvements enregistrés auparavant par l’ingénieur. Les faders motorisés peuve
être construits selon des standards élevés, effectuant des mouvements entre le niveau le pl
élevé et le niveau le plus faible en moins de 100 ms, couvrant une échelle de niveaux de plus
4 096 valeurs différentes par incrément de 0,1 dB. Il n’y a dans ce cas aucun VCA impliqué da
le traitement du son. Un autre avantage des faders motorisés est que l’ingénieur peut visualis
les changements de niveaux de mixage enregistrés au cours du temps en regardant les mouv
ments des faders. Pour modifier un mixage enregistré, l’ingénieur peut appuyer sur le fader
mouvement, outrepasser le contrôle de l’ordinateur et permettre au fader d’être ajusté manue
lement.

2.4 Éléments des tables de mixage numériques


Les tables de mixage numériques ont des possibilités qui n’existent pas sur les tables analogiqu
ou hybrides. Voici quelques-unes de ces possibilités (néanmoins, elles n’existent pas forcément s
toutes les tables numériques) :
1. Les opérations de traitement du signal sont effectuées dans le domaine numérique, et l
artefacts dus aux conversions répétées des CNA et des CAN sont évités.
2. Les tableaux de bord peuvent être redéfinis pour utiliser un moindre nombre de molettes
réglage. Au lieu d’avoir un bouton pour chaque circuit (jusqu’à 4 000 molettes, boutons
curseurs sur les tables de grande taille), des molettes de réglage assignables manipulent d
férents paramètres à différents moments. Une possibilité de contrôle centralisée est accessib
par n’importe quel canal (figure 2.8), ou bien un fader peut être assigné pour contrôl
n’importe quel nombre de canaux d’entrée.
3. Les tableaux de bord et le matériel de mixage peuvent être séparés, et donc un tableau de bo
numérique prend beaucoup moins de place que n’en prendrait une table analogique.
4. Les effets numériques tels que les retards, la réverbération et les traitements de la gamm
dynamique peuvent être intégrés à la table.
5. D’autres technologies numériques comme l’automatisation des faders, l’acheminement aut
matique du signal, les indicateurs graphiques, l’impression sur papier, les communicatio
en réseaux et les interfaces informatiques peuvent tous être facilement intégrés au systèm
puisque tous ces éléments « parlent en numérique ».
6. Au niveau où le système est basé sur un logiciel (c’est-à-dire utilise des programmes ou d
microcodes pour contrôler le matériel), celui-ci peut être mis à jour pour offrir des améli
rations ou de nouvelles fonctionnalités.
7. Si le matériel de mixage est flexible, il peut être reconfiguré grâce à un logiciel pour adapt
les différents nombres de canaux d’entrée et de sortie, les égaliseurs, etc., pour être en confo
mité avec les besoins des différentes séances. Un studio peut conserver une douzaine
« patchs » ayant différentes configurations pour chaque type de séance de studio.
8. Les sous-programmes de diagnostic du logiciel peuvent repérer et afficher les conditions et
exemples de comptes rendus d’erreurs afin qu’un technicien puisse ultérieurement effectu
son analyse.
des bus de sortie

1/2 7/8 13/14

3/4 9/10 15/16


PAN
5/6 11/12 G/D
Égaliseur
paramétrique
Processeur de
domaine dynamique
16000 -- 80
Attaque Seuil Rapport Extinction
Hz Hz Hz 2 30 1:1.5 40
+1 -- +2

ms dB X:Y ms
dB dB dB

.1 -- .2

Extension
Q Q Q Limitation Compression Extension
avec seuil

A A A A A A A A

Mic 1 Violons Perc 1 Perc 2 Cuivres Bois Voix 1 Voix 2


© Dunod. Toute reproduction non autorisée est un délit.

Faders de canaux

Figure 2.8 – Dans une table assignable, chaque canal d’entrée possède un fader,
mais la table ne possède qu’un seul élément de contrôle pour l’égalisation, la dynamique, l’assigna
tion de bus de sortie, etc. L’accès à un contrôle sur un canal se fait en appuyant un bouton d’ass
gnation (marqué A) au-dessus du fader désiré. Ceci commute le contrôle sur ce canal. Dans cett
figure, le canal 2 a accès à deux unités d’égalisation paramétrique et à un extenseur de gamm
dynamique, et dirige sa sortie vers plusieurs bus. Des potentiomètres rotatifs sans fin sont de
contrôles d’assignation idéaux.
et des stations de travail audio
Il existe deux architectures matérielles distinctes : celles possédant des fonctions fixes et cell
possédant des fonctions variables. Ces différences internes se reflètent en général dans l’emballa
extérieur et dans les opérations des systèmes de mixage numériques. Les systèmes à fonctions fix
sont souvent conçus comme des tables de mixage autonomes optimisées pour certaines fonctio
audio qu’elles effectuent d’une façon particulièrement efficace (figure 2.9a).
Les stations de travail à fonctions variables opèrent sous le contrôle d’un ordinateur hôte standa
(figure 2.9b). Ils peuvent ainsi faire tourner une bien plus grande quantité de logiciels et se co
nectent facilement à des périphériques. Contrairement à l’unité autonome, la table de mixa
matérielle peut être constitué d’une carte ou d’une boîte à circuits se connectant à l’ordinateur av
des faders pour contrôler les paramètres audio en temps réel. L’avantage d’avoir plusieurs logicie
peut cependant être illusoire, si ceux-ci ne fonctionnent pas bien ensemble.

2.5 Enregistrement et mixage multipiste


Les premiers enregistrements étaient monophoniques — c’est-à-dire enregistrés sur un seul can
La reproduction du son était donc également monophonique, en général avec un seul haut-parleu
L’enregistrement stéréophonique (deux canaux) fut expérimenté dans les années 1930 (Blumlei
1931 ; Keller, 1981), et pendant des années les enregistrements furent effectués sur un ou de
canaux. Les interprétations étaient enregistrées en direct, et les balances relatives des différent
sources sonores étaient fixées au moment de l’enregistrement.
Au contraire, les enregistreurs multipistes ont plusieurs canaux séparés ou pistes, et chacune d’ent
elles peut être enregistrée à un moment différent. Dans le reste de cette partie, nous examinero
brièvement l’histoire de l’enregistrement multipiste, nous décrirons ses avantages, et considérero
également les problèmes de remixage qu’il pose.

2.5.1 Enregistrement multipiste : origines


En collaboration avec la société californienne Ampex Corporation, le guitariste Les Paul fut un d
pionniers du concept de l’enregistrement avec lecture synchrone grâce à la technique multipis
dans les années 1950 (Bode, 1984). Les enregistreurs à bande multipistes furent introduits sur
marché en 1960. Cette année-là, Karlheinz Stockhausen utilisa un enregistreur quatre pistes Te
funken T9 dans les studios de la Westdeutschen Rundfunks (WDR) pour réaliser sa pièce de musiq
électronique Kontakte (Stockhausen, 1968 ; Morawska-Büngeler, 1988). En 1964, la compagn
suisse Studer produisit son premier enregistreur à bande quatre pistes, qui fut envoyé au produ
teur George Martin pour la réalisation du célèbre album des Beatles Sgt. Pepper’s Lonely Hearts Cl
Band.
Le chapitre 1 raconte l’histoire de l’enregistrement multipiste numérique. Les enregistreurs numé
ques professionnels à bande actuels peuvent enregistrer plus de 48 canaux audio. S’il y a besoin
plus de canaux, plusieurs machines peuvent être synchronisées. Bien que certains enregistreurs mu
tipistes professionnels soient très chers, l’enregistrement multipiste numérique dans un petit stud
est possible en utilisant des enregistreurs à vidéocassettes ou des stations de travail à disques durs

2.5.2 Avantages de l’enregistrement multipiste


Le support d’enregistrement multipiste offre une grande flexibilité à plusieurs étapes de l’enr
gistrement. Tout d’abord, les ingénieurs du son peuvent placer chaque source sonore sur une pis
(a)
© Dunod. Toute reproduction non autorisée est un délit.

(b)

Figure 2.9 – Comparaison des tables autonomes et des stations de travail


à fonctions variables. (a) Une table autonome, la Solid State Logic 01, conçue pour le masterin
de disques compacts. La partie gauche ressemble à une table de mixage analogique. (b) Une statio
de travail audio multipiste (Studer Dyaxis II), travaillant en collaboration avec un ordinateur person
nel (Apple Quadra sur la gauche) qui peut faire fonctionner une grande variété de logiciels. Parmi le
autres périphériques du studio numérique de mixage, nous trouvons un magnétophone numériqu
huit pistes (à la droite de l’écran). Au-dessus de celui-ci se trouve un enregistreur de disque com
pact. À leur droite se trouvent deux enregistreurs DAT professionnels (avec l’aimable autorisation d
Cornelia Colyer, Center for Computer Music and Music Technology, Kunitachi College of Music, Tokyo
remettre l’équilibrage des niveaux à l’étape de remixage.
Pour la musique synthétisée, l’approche multipiste de l’enregistrement et la possibilité de superpos
des pistes sont très attrayantes. L’enregistrement numérique permet la possibilité de « ping-pon
de pistes » (mixage de plusieurs pistes sur une seule, sur une même machine et en même temps)
l’enregistrement avec lecture synchrone sans perte de génération (c’est-à-dire le bruit ajouté
chaque copie — une contrainte sérieuse du support analogique).
Certains systèmes offrent des possibilités numériques son sur son. Dans un enregistrement son s
son, un nouveau signal sonore (par exemple un signal à deux canaux) est simplement ajouté à u
signal existant pour créer un nouveau signal à deux canaux. En ajustant avec précision l’équilib
entre l’ancien et le nouveau signal, des textures complexes peuvent être construites, ou un filigra
compliqué des filaments sonores peut être créé étape par étape.

2.5.3 Problèmes posés par le mixage multipiste


Bien qu’elle rende l’enregistrement plus flexible, la technologie multipiste n’est pas une panacé
Afin de tirer avantage de l’indépendance offerte par les multiples canaux, les sons sur un canal doive
être des sons étant enregistrés simultanément sur les autres canaux. Pour approcher cet idéal, l
ingénieurs du son utilisent des cabines isolées, des écrans, des microphones directionnels, et d
portées courtes de microphones pour obtenir une isolation maximale. Les signaux des instrumen
électriques et électroniques sont directement envoyés dans les pistes individuelles, sans utilisati
de microphones.
Lorsque ces sources isolées sont ajoutées, le résultat est une perspective sonore nettement artificiel
En particulier lorsqu’elle est écoutée avec un casque, chaque piste sonne comme si l’orei
était à quelques centimètres des différents instruments. Pour les musiques où le but est de créer u
scène sonore synthétique (comme dans les musiques populaires ou électroniques), cet
situation n’est pas nécessairement un problème. Pour fusionner les pistes individuelles en une scè
sonore unifiée, les ingénieurs du son ajoutent une réverbération globale et positionnent so
gneusement les panoramisations et les positions spatiales dans le plan stéréophonique. Si nous
souhaitons pas « unifier » ces diverses sources sonores, nous pouvons créer des espaces arti
ciels fantastiques et détachés de ce monde en appliquant des effets de spatialisation aux pi
tes individuelles.
Quoi qu’il en soit, lorsque le but est de recréer une image sonore que l’auditeur pourrait ente
dre dans une salle de concert, l’approche multipiste n’est pas idéale. Ceci est le cas avec la pl
part des musiques acoustiques (orchestres, ensembles, solistes, chanteurs). En réaction aux pra
ques multipistes, certains ingénieurs du son sont revenus à une approche plus « puriste »
l’enregistrement, en utilisant moins de microphones et moins de pistes (Streicher et Dool
1978). Le succès dans l’approche puriste nécessite que l’ingénieur positionne de façon appr
priée les musiciens et les microphones dans une salle ayant une bonne sonorité. Ceci donne pl
d’importance à la technique d’enregistrement originelle, car le mixage est essentiellement déte
miné au moment de l’enregistrement.

2.6 Écoute audio


L’écoute audio est importante lors de l’enregistrement et du mixage. Plusieurs philosophies de l’écou
coexistent. Il est possible d’avancer des arguments pour chacune, mais le choix se fait finaleme
en fonction des goûts et du budget.
Pour l’enregistrement sur site (en dehors du studio), où il n’existe pas de pièce séparée pour l’écout
le casque est la seule option. Mais l’usage du casque ne se limite pas à l’enregistrement sur site. L’écou
avec un bon casque revient à voir le son à travers des lunettes grossissantes. Le casque est la meilleur
façon de vérifier un enregistrement pour trouver des défauts subtils tels que points de coupur
clics, bruits, distorsion et problèmes de phase, qui ne seraient sans doute pas aussi nets avec un
écoute par haut-parleurs à niveau moyen.
2.6.2 Écoute par haut-parleurs
Les haut-parleurs et les salles travaillent ensemble. Dans cette partie, nous examinerons trois type
d’environnements d’écoute par haut-parleurs : l’écoute de proximité, l’écoute de cabine de contrôle
l’écoute de salle. En faisant la distinction entre ces trois environnements, nous ne voulons pas dir
qu’ils sont les seuls — il existe de nombreuses variations. En général, les sentiments sur les environ
nements d’écoute évoluent avec les modes audio du moment.

(a)

(b)

"Cône de vigilance"

x
© Dunod. Toute reproduction non autorisée est un délit.

(c)

x x

Figure 2.10 – Trois environnements d’écoute.


(a) Dans un environnement d’écoute « de proximité », de petits haut-parleurs sont placés à un o
deux mètres de l’auditeur. (b) Dans un environnement de cabine de contrôle, de gros haut-parleur
sont installés sur les murs à une distance de trois à cinq mètres de l’auditeur, situé pour sa part dan
un « cône de vigilance » au milieu de la table. (c) Dans un environnement d’écoute de salle, de grand
haut-parleurs placés sur le sol sont positionnés à une distance de deux à cinq mètres de l’auditeur
Dans les petits studios ou les appartements, les écoutes de proximité sont répandues (figure 2.10a
Les écoutes de proximité sont également utilisées dans les grands studios où l’ingénieur du s
souhaite écouter comment la musique sonnera sur des haut-parleurs similaires à ceux qui existe
dans les systèmes d’écoute des particuliers. Placées au-dessus ou à proximité de la table de mixa
au niveau de l’oreille, ces petits haut-parleurs dynamiques devraient être à une distance inférieu
à deux mètres de l’ingénieur du son. Dans cette configuration, le son direct des haut-parleurs e
prédominant par rapport aux sons indirects reflétés par la pièce. La petite taille des écoutes de prox
mité est importante, car l’auditeur est si près de l’unité que l’écoute doit projeter une image spatia
« fusionnée » ; cet effet ne peut être accompli à proximité d’un grand haut-parleur ayant plusieu
voies, où le tweeter (voie des fréquences aiguës) peut être situé à plus d’un mètre du boomer (voie d
fréquences graves).
Un des problèmes sérieux avec les écoutes de proximité est leur manque de réponse en fréquenc
graves en raison de leurs petites tailles. Deux ou trois octaves de son peuvent manquer ou être fort
ment atténuées dans la reproduction par des écoutes de proximité.

✦ Écoute en cabine de contrôle


Une autre approche de l’écoute audio provient de la conception des studios d’enregistrement tr
ditionnels, qui sont divisés en deux parties : le studio — où sont placés les musiciens, et la cabi
de contrôle — où sont placés l’ingénieur du son et la table de mixage. L’approche de l’écoute
cabine de contrôle implique l’installation des haut-parleurs sur le mur situé en avant d’un enviro
nement traité acoustiquement (figure 2.10b). Chaque voie du haut-parleur peut être amplifiée sép
rément ; ceci est appelé biamplification ou triamplification, selon le nombre de voies du système
haut-parleurs. Le système entier (y compris la cabine) est égalisé pour une obtenir une réponse pla
en un « cône de vigilance » centré sur la tête de l’ingénieur. L’approche par cabine de contrôle perm
une écoute à des niveaux de pression sonore élevés, ce qui est typique des grands studios de variét

✦ Écoute en salle
L’approche par salle place les haut-parleurs d’écoute sur le sol, ou juste au-dessus, dans un enviro
nement plus familier, comme cela est en général le cas dans les salles de séjour (figure 2.10c).
pièce peut être traitée acoustiquement, mais jamais aussi radicalement que dans les cabines d’écou
des studios de variété. Les haut-parleurs sont des modèles de grande taille ayant une courbe
réponse plate et une image spatiale précise. Des haut-parleurs dynamiques à trois voies (tweet
médium et boomer) ou électrostatiques très fins projettent le son. L’approche de la salle de séjo
est préférée par de nombreux ingénieurs du son et producteurs classiques pour l’écoute à des nivea
moyens. La figure 2.11 montre une variation de cette approche dans un studio de mastering
disques compacts. Le rectangle au centre du mur est un panneau de diffusion qui disperse les ond
sonores de façon irrégulière. Ceci aide à casser les résonances de la pièce.

2.6.3 Mixage et écoute en concert


Du point de vue du jugement de ce qui le public entend, la meilleure position pour le mixage d’u
concert diffusé par des haut-parleurs est située au milieu de la salle, parmi le public. La questi
de configuration des haut-parleurs reste ouverte, et elle est avant tout une décision artistique. U
autre question esthétique apparaît lors de la présentation d’instruments acoustiques en combinais
avec des sons électroniques. Doivent-ils être mélangés ou doivent-ils être séparés ? Voir Morr
(1981b) pour une présentation de ces questions par un compositeur ayant écrit de nombreus
Figure 2.11 – Exemple d’un environnement de « salle »
dans un studio de mastering de disques compacts
(avec l’aimable autorisation de John Newton au Soundmirror, Boston).

pièces pour instruments et sons générés par ordinateur. Voir le chapitre 7 pour davantage de détai
sur la projection du son dans l’espace.

2.7 Automatisation du mixage


© Dunod. Toute reproduction non autorisée est un délit.

Remixer un enregistrement multipiste peut être compliqué, dépassant très rapidement les capacité
physiques d’un seul être humain. Jusqu’au développement de l’automatisation du mixage, un mixag
multipiste compliqué (comme une bande-son de film) pouvait impliquer jusqu’à quatre personne
travaillant sur une seule table. Le bénéfice de l’automatisation du mixage est qu’un seul ingénieu
peut effectuer un mixage compliqué en un certain nombre d’étapes simples. Par exemple, l’ingénieu
peut commencer en mixant deux programmes stéréophoniques, sur les pistes 1-2 et 3-4. Le systèm
d’automatisation construit à l’intérieur de la table de mixage enregistre l’information de contrô
nécessaire à la restitution de ce mixage en temps réel. Lorsque la première étape est effectuée, u
autre programme stéréophonique (5-6) peut être ajouté au mixage. À chaque étape du mixage, le
données de mixage entrées précédemment sont restituées afin que le mixage soit construit pa
incréments. Le mixage audio en entier n’est enregistré que lors de l’étape finale.
L’étendue de l’automatisation varie selon les tables de mixage. « Automatisation » peut faire réfé
rence à des éléments aussi divers que la reconfiguration de la table par enfoncement d’un bouton
l’automatisation des faders (restituant le mouvement des faders de canaux dans le temps), ou
de mixage pour une séance entière.
Les systèmes d’automatisation à fonctions complètes lisent toutes les configurations de la table
nombreuses fois par seconde. Lors de cette lecture, la position courante d’un fader ou d’un bout
est comparée à la représentation stockée de la lecture précédente. Si la position a changé, un flot
données est envoyé, identifiant le contrôle et la nouvelle position. Lors de la lecture, l’ordinateur
la table met à jour les contrôles de la table à partir de la mémoire au même taux. L’ingénieur peu
à n’importe quel moment, outrepasser les configurations stockées en ajustant manuellement
molette de contrôle désirée.

2.7.1 Contrôle MIDI des tables de mixage audio :


raccordement et coupure de canal
Bien qu’elle n’ait pas été créée pour l’automatisation des tables de mixage, la spécification MIDI 1
a eu un impact sur la conception des tables de mixage, particulièrement sur celles équipant les pet
studios. Les fonctions de configuration de la table peuvent facilement être exportées grâce au contrô
MIDI. Par exemple, les messages de changement de programme MIDI peuvent reconfigurer l’as
gnation des entrées/sorties de la table, ou bien couper certains canaux à des temps donnés. Dans c
cas, un microprocesseur bon marché intégré à la table interprète les messages et modifie les com
mutations internes de la table pour effectuer les changements désirés.
La coupure de canal est une technique de production importante dans la musique de variété,
elle est utilisée en combinaison avec l’enregistrement multipiste sur bande. Imaginez par exemp
une piste de batterie enregistrée sur trois canaux différents, chacun ayant un effet différent appliq
à la batterie. En coupant les canaux de façon dynamique avec un séquenceur MIDI, on peut insér
des effets de batterie différents sur différentes parties du rythme. Une autre application répand
de la coupure est de faire plusieurs prises d’une interprétation vocale sur différentes pistes et d’utilis
la coupure pour sélectionner les meilleures parties de chacune.
Mais la configuration et la coupure ne sont que deux fonctions parmi les douzaines qui apparaisse
lors d’un mixage, y compris les variations continues des faders, l’égalisation, la panoramisation
les effets. Le taux de données limité du MIDI ne permet pas d’automatisation dynamique à fonctio
complètes du type de celles utilisées sur les grandes tables professionnelles (Cooper, 1989 ; Roge
1987 ; McGee, 1990). Le MIDI peut prendre en main les fonctions d’une petite table, mais il ne pe
ni les gérer toutes en même temps, ni de façon continue. Les tables contrôlées par MIDI nécessite
des compromis afin de réduire le taux de données dans le domaine accepté par le MIDI.
L’automatisation de table est en général pilotée par un séquenceur dédié exclusivement à ce
tâche. Puisqu’il n’existe pas de norme pour l’automatisation de table MIDI, trois schémas de ba
sont utilisés, chacun employant une catégorie différente de messages MIDI : changement de pr
gramme, note/vélocité et code temporel MIDI.
Un exemple de l’utilisation des messages de changement de programme MIDI est donné par les sy
tèmes MCA (MIDI-controlled attenuator — atténuateur contrôlé par MIDI) (figure 2.12). Les MC
représentent une solution bon marché au problème de l’automatisation des faders dans un pe
studio. Le système (en général de huit à seize canaux audio) se connecte sur les entrées d’une tab
analogique traditionnelle. Un séquenceur MIDI envoie les messages de changement de programm
aux canaux individuels du MCA, ce qui fait changer l’amplitude des canaux. La programmati
d’un mixage revient alors à créer et sauvegarder des clichés statiques ou « scènes » pour chaque poi
dans la musique où les changements de position des faders doivent apparaître. Dans certains sy
tèmes, il est possible de spécifier un temps de fondu enchaîné, durant lequel le système chan
(en général
d’un magnétophone) Logiciel
de séquence
Données
MIDI
MCAs Ordinateur
personnel

Sortie
analogique

Console analogique ordinaire

Figure 2.12 – Réglage pour une séance de remixage avec un système d’atténuateur
contrôlé par MIDI (MCA) pour une table analogique 6/2. Les niveaux de la table analogique resten
inchangés, tandis que l’ingénieur du son manipule les niveaux sur la table MCA. Alors même que l
mixage de chaque piste est retravaillé, les données de contrôle sont enregistrées sur une piste dan
le séquenceur MIDI, ce qui permet à un mixage complexe d’être construit étape par étape.

automatiquement de l’ancienne à la nouvelle configuration — simulant une sorte de contrôle qua


continu.
Une autre approche est d’assigner à chaque molette ou bouton de contrôle de la table un messag
de note MIDI. Lorsque l’ingénieur du son change une position de molette, la table envoie des évé
nements de note indiquant un changement de cette molette. Comme chaque événement de no
MIDI est associé à une « vélocité » 7 bits, cette valeur de vélocité est interprétée comme la nouvel
© Dunod. Toute reproduction non autorisée est un délit.

valeur de la molette. Sept bits signifient que 128 valeurs de fader peuvent être représentées, ce qu
peut donner des effets d’enchaînement « échelonnés » en raison de la faible résolution du fader.
La troisième approche de l’automatisation de table MIDI implique l’envoi de messages clés par
code temporel MIDI (voir la partie sur ce code plus loin dans le chapitre). Les messages clés son
envoyés à l’avance du temps d’action. Ils peuvent par exemple dire à la table de commencer u
enchaînement à un certain taux à un point particulier du code temporel.

2.8 Synchronisation du mixage audio et de la vidéo


Cette partie présente un sujet d’importance croissante dans les studios de mixage : la synchronisatio
de plusieurs machines. Dans ce cas, elle signifie que le fonctionnement d’un ou plusieurs apparei
est simultané et parallèle. Une application typique de la synchronisation survient lors de la pos
production vidéo (mixage de la bande-son et de la production vidéo). Ici, le but est de synchronise
un enregistreur multipiste audio (contenant les dialogues, les effets sonores, et les pistes de musiqu
vidéo pour que l’on puisse voir et écouter de façon synchronisée l’image et le son.
Plus loin, dans la partie sur le code temporel MIDI, nous présentons plusieurs autres applicatio
de la synchronisation, telles que le contrôle de séquenceurs, d’effets et de lecture de fichiers son p
MIDI. Cette partie ne présente pas un autre type de synchronisation, que l’on appelle synchronisati
par horloge d’échantillonnage pour l’audionumérique.

2.8.1 Synchronisation de plusieurs machines


La synchronisation de plusieurs machines les relie par des câbles à un synchroniseur — un ou
standard dans les configurations de postproduction audio/vidéo et devenant de plus en plus répan
dans les studios de musique. La tâche du synchroniseur est de lire le code temporel déjà enregist
sur les machines et de s’assurer qu’une machine suit les autres. Le code temporel étiquette une pis
spéciale sur chaque machine avec une adresse d’identification unique appelée une image. Chaq
image retient sa propre identité, rendant des opérations telles que le montage et la synchronisati
efficaces et précises jusqu’au niveau de l’image. Voir plus loin la partie sur le code temporel SMPTE
Le synchroniseur enchaîne le comportement d’une machine appelée le maître aux autres machin
appelées les esclaves, en suivant les positions de code temporel sur le maître. Dans le cas des enreg
treurs à bande, le synchroniseur effectue cela en contrôlant le transport de bande des machines esc
ves. Lorsque le maître se déplace à une position donnée du code temporel, la machine esclave le su
Dans les systèmes à disque dur, le synchroniseur accomplit la même tâche en disant au contrôle
de disque de l’esclave d’accéder aux adresses spécifiées. Par exemple, certains enregistreurs à disq
peuvent être programmés pour lire des fichiers son lorsqu’ils lisent certaines adresses de code tem
porel provenant de la machine maître.

Synchroniseur
Esclave Maître
Contrôle du code du code
du transport temporel temporel

Magnétophone Magnétoscope
multipistes professionnel

Audio ... Audio


non mélangé mélangé
Section d’entrée Section de sortie

Console de mélange

Figure 2.13 – Configuration de postproduction audio/vidéo pour le remixage


d’une bande-son située sur un enregistreur audio multipiste vers un magnétoscope professionne
Le multipiste audio et le magnétoscope sont tous deux raccordés à un synchroniseur. Dans ce ca
le magnétoscope est le maître et le multipiste audio l’esclave. C’est-à-dire qu’une bande lue sur
magnétoscope envoie un code temporel au synchroniseur, qui à son tour contrôle le transport d
l’enregistreur multipiste.
position en couches des effets sonores, du dialogue et de la musique sur une bande vidéo. Un enre
gistreur multipiste audio et un enregistreur à bande vidéo professionnel sont reliés au synchroniseu
Une piste du multipiste audio et une piste du magnétoscope contiennent chacune le code tempor
qui a été séparément écrit sur chaque bande par un générateur de code temporel. Les sons du mult
piste audio à un point donné correspondent aux images du magnétoscope.
Lorsque l’ingénieur avance la bande vidéo, le synchroniseur lit la nouvelle position de code tempor
et dit à l’enregistreur multipiste audio de le suivre aussi précisément que possible. Pour enregistre
de l’audio sur la bande vidéo, l’ingénieur appuie sur un bouton du magnétoscope lorsque le mult
piste audio commence à lire. L’ingénieur mixe les pistes provenant du multipiste et en fait une versio
stéréophonique pour le magnétoscope. Ce mixage peut également être automatisé lors d’une étap
séparée de la production.

2.8.2 Code temporel SMPTE


Les normes de formats de code temporel sont toutes regroupées sous le nom de code tempor
SMPTE. Le nom SMPTE provient de Society of Motion Picture and Television Engineers, l’orga
nisme ayant étudié et normalisé un signal pouvant décrire les images vidéo. Il existe deux variété
du code temporel SMPTE : le code longitudinal (LTC) enregistré horizontalement sur le côté de
bande, et le code vertical (VITC) enregistré sur une image d’une bande lue en spirale. La lecture e
spirale fait référence aux magnétoscopes usuels dans lesquels les têtes de lecture et d’enregistremen
sont en rotation verticale tandis que la bande passe horizontalement devant elles. Le code tempor
longitudinal peut lui-même être divisé en 24 images/seconde (film), 25 images/seconde (PAL
30 images/seconde (noir et blanc), et 30 images/seconde « drop frame » (NTSC). Le taux de donnée
du SMPTE est de 2 400 bits par seconde.
L’avantage du VITC est qu’il peut être lu sur une bande à l’arrêt. Un système à disque dur peut utilise
n’importe quel format SMPTE, mais dans les applications de synchronisation il est important d
spécifier le taux d’image correct, ou bien des problèmes audibles peuvent survenir en raison de chan
gements dynamiques dans la base temporelle.
Tous les formats SMPTE représentent le temps sous forme d’un nombre 80 bits ayant des champ
pour les heures, les minutes, les secondes et les images. Par exemple, le code SMPTE « 01:58:35:21
signifie 1 heure, 58 minutes, 35 secondes et 21 images. Comme le code en lui-même n’occupe pa
© Dunod. Toute reproduction non autorisée est un délit.

les 80 bits, il reste de la place pour coder d’autres informations, comme le temps écoulé, les nombre
d’index ou les étiquettes. Lorsqu’un événement est marqué avec un code temporel SMPTE, celui-
devient une adresse permanente pour cet événement. Pour plus de détails sur le code tempor
SMPTE, voir Hickman (1984).
Comme nous l’avons précédemment expliqué, dans une configuration standard, chaque machin
à synchroniser écrit une forme de code temporel SMPTE sur une piste. De nombreux enregistreur
possèdent une piste spéciale dédiée spécifiquement à l’enregistrement du code temporel SMPTE
Les machines esclaves suivent le code temporel lu à partir de la machine maître.

2.8.3 Code temporel MIDI


Le MIDI peut également être utilisé pour le mixage quasi synchrone. Les retards de transmissio
inhérents au MIDI empêchent toute synchronisation à la milliseconde près. Les applications typique
sont les suivantes :
de plusieurs synthétiseurs liés par MIDI puisse être mélangé lorsque le musicien utilise
clavier de contrôle.
2. Un séquenceur MIDI peut stocker une série de notes dont la lecture est déclenchée à un certa
point du mixage.
3. Un séquenceur peut également stocker une série précédemment codée de changements
programme pour une unité d’effets contrôlable par MIDI. De cette façon, des séquences d’effe
complexes peuvent être appliquées automatiquement aux sons qui sont mixés. Une aut
variation consiste à contrôler les coupures de canaux par MIDI.
4. Certains systèmes utilisant des fichiers son stockés sur ordinateur peuvent lire une série
fichiers son en réponse à un message de déclenchement envoyé par MIDI.
La principale question technique des applications (2), (3) et (4) est la suivante : comment déclench
t-on le départ des séquences MIDI pour obtenir une lecture quasi synchrone de la séquence avec
reste des signaux audio ? Une méthode directe est d’appuyer manuellement sur une touche du clav
de l’ordinateur pour initialiser la séquence. Une méthode plus homogène est effectuée grâce à u
connexion entre code temporel SMPTE et code temporel MIDI (MTC).
Dans ce dernier schéma, une piste de code temporel SMPTE est inscrite sur un enregistreur mul
piste audio, par exemple, et relue avec les données audio des autres pistes. La piste de code tempo
SMPTE est envoyée dans un convertisseur SMPTE-MIDI. Celui-ci convertit le tempo SMPTE
temps MTC, ce qui permet de déclencher le départ d’une séquence MIDI ou la lecture d’un fichi
son (figure 2.14). Les points de déclenchement sont appelés des commandes dans le jargon de
synchronisation. Plusieurs programmes de séquence peuvent utiliser ce schéma.

Source de code temporel SMPTE

Convertisseur SMPTE-MIDI

Code temporel MIDI

Séquenceur
Ordinateur ou lecteur
de fichier son

Messages MIDI

Vers les appareils MIDI

Figure 2.14 – Flux logique de données dans une conversion de code temporel SMPTE-MIDI.
Une source de code temporel SMPTE, par exemple la lecture d’une vidéo, envoie un code temporel a
convertisseur. Le code temporel MIDI est interprété par un séquenceur MIDI ou par un programm
de lecture de fichiers sons, qui contrôle à son tour d’autres matériels MIDI.

Des schémas de synchronisation de musique plus étranges peuvent être développés grâce a
logiciels d’interprétation MIDI interactifs.
Le mixage du son n’est qu’une étape dans le processus de production qui commence avec l’enregis
trement, l’édition et le traitement du signal. Mais le mixage est plus qu’un métier technique
il demande de l’intuition et du jugement musical. Dans le studio ou sur scène, l’ingénieur joue un rô
analogue à celui du chef d’orchestre dans une salle de concert, car il est responsable de l’équilibr
global des voix à l’intérieur d’une composition.
Le choix critique de l’environnement d’écoute se fait en grande partie en fonction du goût et de
conventions, tandis que dans l’automatisation de table ou dans la synchronisation, il existe un
relation plus linéaire entre prix, qualité et éléments. Cependant, la technologie du mixage continu
d’évoluer. Ceci est démontré par le grand nombre d’approches qui caractérisent ce milieu : table
analogiques ou hybrides, systèmes logiciels, tables numériques autonomes, stations de travail audi
Nous avons souhaité montrer qu’aucune de ces approches n’était idéale pour toutes les situation
de travail.
Les capacités de stockage croissantes du support numérique lui permettent de stocker des millier
de fichiers son dans un seul système. Plusieurs centaines de fichiers peuvent être inclus dans u
seul mixage. Reste la question de savoir comment organiser et accéder à de si nombreux fichiers d
façon efficace, ce qui risque également de poser un problème aux systèmes de gestion des bases d
données audio du futur.
© Dunod. Toute reproduction non autorisée est un délit.
Chapitre 3

Transformation
de la gamme dynamique

Les techniques de la gamme dynamique transforment l’amplitude des signaux. Elles servent d
fondation à des outils tels que les modeleurs d’enveloppe, les noise gates, les compresseurs, les lim
teurs, les extenseurs, les unités de réduction du bruit, et les compresseurs-extenseurs (McNally, 1984
Les applications de la transformation de la gamme dynamique s’étendent de tâches très pratique
comme le nettoyage de signaux bruiteux jusqu’à des tâches plus créatives comme le remodelage d
l’enveloppe d’un instrument ou d’une voix.

3.1 Remodeleurs d’enveloppes


La plupart des systèmes d’édition du son permettent aux musiciens de rééchelonner l’envelopp
d’amplitude globale d’un son échantillonné. Ce rééchelonnage peut mettre en jeu un simple chan
© Dunod. Toute reproduction non autorisée est un délit.

gement de gain (c’est-à-dire des valeurs de dB plus élevées ou plus faibles en amplitude), ou un
reconstruction de l’enveloppe globale du son. Le remodelage peut être appliqué à un objet sonor
individuel ou à une partie entière de musique.
La figure 3.1 montre comment l’attaque raide d’un son de clavecin a été arrondie par l’envelopp
de la figure 3.1b. La partie médiane du son devient une sorte de son entretenu avant de disparaîtr

3.2 Extensions avec seuil (noise gates)


L’extension avec seuil est une technique permettant de nettoyer les signaux musicaux obscurc
par un bruit constant, tel qu’un sifflement ou un ronflement. En général, le bruit est censé être e
dessous du niveau du signal musical. L’extension avec seuil fonctionne comme un commutateu
qui est ouvert lorsque le signal musical d’amplitude élevée passe à travers, et se referme lorsque
musique s’arrête, coupant ainsi tous les bruits résiduels du système. En particulier, lorsqu
l’amplitude pic d’un signal entrant dans un extenseur avec seuil devient inférieur au seuil spécifi
0

Amp.
Original

Temps

(b)

Amp.

Temps

(c)

Amp.

Temps

Figure 3.1 – Rééchelonnage de l’enveloppe d’amplitude d’un son de clavecin.


(a) Son originel. (b) Nouvelle enveloppe tracée à la main.
(c) Son de clavecin rééchelonné suivant le tracé de la nouvelle enveloppe.

l’extenseur atténue au maximum le signal d’entrée (il le coupe). La figure 3.2 montre ce processu
Dans la partie 3.2a, un signal bruiteux disparaît jusqu’à ce que le bruit soit le seul élément resta
audible. Dans la partie 3.2b, dès que le signal descend en dessous du seuil, l’extenseur avec seu
élimine à la fois le signal et le bruit.
Il semble évident qu’un simple extenseur avec seuil ne peut éliminer du bruit lorsque le sign
musical est encore joué, et cet outil ne fonctionne donc correctement que lorsque la musique ma
que le signal bruiteux.
Amplitude pic Le signal
du signal musical
se fond
dans le bruit

Bruit dans le signal

Temps

(b)
Amplitude pic Le signal
du signal musical
L‘extenseur
se fond
avec seuil
dans le silence
se déclenche

Seuil
de l’extenseur
Bruit dans le signal Plancher de bruit

Temps

Figure 3.2 – Opération de l’extenseur avec seuil (noise gate).


(a) Sans extenseur avec seuil, un signal musical contenant un bruit de bas niveau se fond dans l
bruit. (b) Avec un extenseur avec seuil, le signal descendant traverse le seuil de l’extenseur, ce qu
déclenche celui-ci. Ainsi, le signal se fond dans le silence au lieu de se fondre dans un mélange d
signal et de bruit.

3.3 Compresseurs
Un compresseur est un amplificateur dont le gain (c’est-à-dire la quantité d’amplification) est con
trôlé par le signal d’entrée. L’une des utilisations du compresseur est de conserver un signal de so
© Dunod. Toute reproduction non autorisée est un délit.

tie relativement constant. Lorsque le signal d’entrée s’élève au-dessus d’une limite supérieure spé
cifiée, le compresseur atténue celui-ci.
Une bonne façon de caractériser un compresseur est d’utiliser sa fonction de transfert, qui montr
comment une valeur d’amplitude donnée envoyée dans la machine est reliée à une valeur d’ampl
tude de sortie donnée. Cette représentation de la fonction de transfert est exactement la même qu
celle utilisée pour expliquer la synthèse par distorsion non linéaire dans le chapitre 9.
La figure 3.3 montre les fonctions de transfert de plusieurs systèmes de traitement de la gamm
dynamique. Nous pouvons imaginer que le signal entre dans la boîte par le bas et en ressort par
droite. La figure 3.3a montre une fonction de transfert parfaitement linéaire. Une valeur de –1 en ba
est liée à une valeur de –1 sur la droite ; une valeur de +1 en bas est liée à une de +1 sur la droit
et ainsi de suite.
La figure 3.3b montre une fonction de transfert et la forme d’onde traitée avec un effet de compre
sion relativement « doux ». Remarquez comme les pics de l’entrée sont liés à des valeurs inférieure
à la sortie de la fonction de transfert.
de transfert le domaine temporel
0
(a) +1

0 Sortie

Original
-1
-1 Entrée +1 Temps

(b)

Compression

(c)
S

S Limitation

(d)

Extension

Figure 3.3 – Traitement de la gamme dynamique.


La colonne de gauche montre les fonctions de transfert associées aux différentes méthodes de tra
tement. (a) Signal originel — un crash de cymbale avec une fonction de transfert linéaire. (b) Un
compression légère des pics abaisse ceux-ci de quelques dB. (c) Une limitation stricte aplatit les pi
pour garder ceux-ci à l’intérieur des limites de seuil indiquées par S. (d) L’extension exagère les pic
et en crée de nouveaux par la même occasion.

3.3.1 Comparaison des détecteurs de pics et des détecteurs de moyenne


À l’intérieur du compresseur, un circuit de détection surveille l’amplitude du signal d’entrée. L
circuits de détection des compresseurs peuvent répondre soit aux amplitudes pic, soit aux amplitud
moyennes du signal d’entrée. Un détecteur de pics réagit aux pics d’amplitude, même si ceux-
n’apparaissent que pendant un court instant. Les processeurs de gamme dynamique montrés à
figure 3.3 réagissent tous aux pics. Au contraire, un détecteur de moyenne répond plus lenteme
à l’amplitude globale d’un signal, en général sur une période d’une ou deux secondes. Les détecteu
pics réagissent rapidement, ce qui permet de s’assurer qu’il n’y a pas de débordement d’amplitud
D’un autre côté, les détecteurs de moyenne offrent des réponses plus douces aux changements
signal d’entrée.
Le rapport de compression ou rapport entrée/sortie est le rapport entre le changement du sign
d’entrée et le changement du signal de sortie. Un amplificateur ordinaire possède un rapport d
compression de 1:1. Un rapport de 4:1 signifie qu’un changement de 4 dB dans le signal d’entré
ne causera qu’un changement de 1 dB dans le signal de sortie. Les rapports de compression supé
rieurs à 8:1 tendent à « écraser » de façon audible le signal et à aplatir les transitoires, ce qui intro
duit des changements du timbre.
Une forte compression est un cliché répandu dans la production de musique populaire. Par exempl
des rapports d’environ 10:1 donnent un aspect « intime » aux voix de la musique populaire, e
raison d’une exagération des mouvements de la langue, du claquement des lèvres, du ruissellemen
de la salive, et des bruits de respiration, lorsque tous les vocalismes sont échelonnés sur la mêm
étendue d’amplitude. Avec des instruments à cordes pincées, comme les guitares électriques, un
compression extrême crée des effets de sostenuto. C’est-à-dire que la compression réduit les tran
sitoires de pincement tout en élevant le niveau global. Lorsque ce signal compressé est beaucou
amplifié, comme dans le cas des guitares électriques, il renforce l’oscillation soutenue de la corde

3.4 Extenseurs
Un extenseur est l’inverse d’un compresseur. Il transforme les petits changements du signal d’entré
en changements plus larges dans le signal de sortie. Le rapport d’extension détermine le degr
d’extension. Par exemple, un rapport d’extension de 1:5 signifie qu’un changement de 1 dB dans
signal d’entrée est converti en un changement de 5 dB dans le signal de sortie. L’une des principale
applications des extenseurs est la restauration de vieux enregistrements. Les systèmes de réduc
tion du bruit contiennent souvent une paire de compresseurs-extenseurs, comme nous l’explique
rons dans un moment. La figure 3.3d montre un effet d’extension de pics appliqué au sign
d’entrée de la figure 3.3a.

3.5 Limiteurs
La limitation est une compression extrême — où les rapports de compression sont bien supérieur
à 10:1. Comme le montre la figure 3.3c, la relation entre l’entrée et la sortie est linéaire au-delà d’u
certain niveau. Ce niveau est indiqué par les limites de seuil positif et négatif S. En pratique, on n
© Dunod. Toute reproduction non autorisée est un délit.

spécifie qu’une valeur absolue pour le seuil, plutôt que des limites supérieures et inférieures sépa
rées. Au-delà de ce seuil, la sortie reste constante quel que soit le niveau d’entrée.
Les limiteurs sont utilisés dans les enregistrements de concert où il est impératif de ne pas dépasse
la gamme dynamique absolue de quelque composant que ce soit dans la chaîne d’enregistremen
Par exemple, les enregistreurs numériques ont un seuil de niveau d’entrée absolu au-delà duqu
se produit une distorsion de coupure numérique stridente. Un ingénieur du son peut insérer u
limiteur avant l’enregistreur pour s’assurer que le seuil de celui-ci ne sera jamais dépassé.

3.6 Unités de réduction du bruit et compresseurs-extenseurs


Les unités de réduction du bruit (RB) utilisent en général un compresseur à l’étape d’entrée d’u
enregistreur et un extenseur à l’étape de sortie (figure 3.4). Pour cette raison, elles sont parfo
appelées compresseurs-extenseurs. L’étape de compression réduit les transitoires et amplifie
reste du signal d’entrée à un niveau artificiellement élevé. À la lecture, l’étape d’extension restaur
Unité de réduction du bruit

Enregistrement Compresseur
Enregistreur
Lecture
Extenseur

Signal de sortie

Figure 3.4 – Les unités de réduction du bruit compressent lors de l’enregistrement


et étendent lors de la lecture.

la gamme dynamique du signal originel. Comme l’enregistrement compressé contient peu de bru
(il est enregistré à un niveau modérément élevé au-dessus du seuil de bruit de l’enregistreu
le résultat est un enregistrement faiblement bruiteux ayant une large gamme dynamique.
La figure 3.5 montre le processus de compression-extension. La gamme dynamique de l’enreg
trement se resserre à l’intérieur du canal bruiteux, comme dans le cas d’un enregistreur à casse
analogique ou d’un enregistreur numérique ayant peu de bits. Le signal enregistré reste à un nive
suffisamment élevé pour éviter le bruit du canal bruiteux, mais suffisamment bas pour éviter d
coupures et de la distorsion de débordement.

Canal bruiteux avec


compression-extension

Entrée Sortie
Coupure

Bruit

Figure 3.5 – Une unité de réduction du bruit par compression-extension


réduit la gamme dynamique entrant dans le canal bruiteux. Elle tente de maintenir le signal a
dessus du niveau du bruit, et en dessous du niveau de coupure. L’étape finale de la compressio
extension étend de nouveau la gamme dynamique.

Certains schémas de réduction du bruit, comme ceux développés par Dolby Laboratories, effectue
une compression et une extension selon la fréquence. C’est-à-dire que le signal d’entrée est filt
appelé séparation de bandes. En séparant la compression-extension en bandes de fréquences ind
viduelles, chacune ayant sa propre courbe de compression et d’extension, les effets secondaires d
la compression-extension peuvent être rendus moins audibles. Seules certaines bandes, par exempl
ont besoin d’être compressées-étendues ; le reste peut être laissé tel quel.
Les sons qui traversent des bandes de fréquence, comme les glissandos continus, peuvent cepen
dant poser un problème à ces systèmes, car des artefacts audibles peuvent apparaître dans le ca
où les circuits de réduction du bruit de chaque bande déclenchent une opération. De plus, mêm
de petites irrégularités (< 1 dB) dans la réponse amplitude-fréquence des bandes peuvent conduire
des colorations audibles du son global (Lagadec et Pelloni, 1983). Voir le chapitre 8 pour une défin
tion de la réponse amplitude-fréquence.

3.7 Dangers de la transformation de la gamme dynamique


Il est en général difficile de toucher de façon variante dans le temps à l’amplitude d’un son san
introduire des distorsions sur les transitoires de forme d’onde — les sommets aigus des attaque
et certaines chutes qui servent de clefs principales pour la reconnaissance du timbre. Les transitoire
peuvent facilement être estompés par les transformations de la gamme dynamique ; ces technique
devraient ainsi être employées en gardant à l’esprit leurs effets secondaires.
Les processeurs de gamme dynamique imposent globalement des enveloppes d’attaque et de chut
ce qui influe sur tous les sons passant à travers eux, sans prise en compte du contexte musical. I
réagissent à l’amplitude du signal passant à travers eux. Le retard de réaction entre la « cause
(variation d’amplitude dans le signal) et « l’effet » (commutation en position de transformation
est un problème bien connu. Certains systèmes réduisent cet effet en retardant légèrement le sign
d’entrée et en « regardant en avant » pour voir s’il va y avoir des formes d’onde qui vont déclenche
la transformation de la gamme dynamique. Si cela est le cas, ils peuvent se commuter vers l’effet d
façon plus ou moins synchrone avec les formes d’onde. D’autres processeurs n’emploient pas de telle
prévisions. On peut changer le « seuil de déclenchement » pour le faire réagir plus rapidemen
mais alors l’effet se déclenche trop souvent, ce qui entraîne un « appauvrissement » notable du son.
Il n’existe pas de réglage optimal du seuil de déclenchement, de l’enveloppe, et du retard pour plu
sieurs sons. Ainsi, l’ajustement de ces paramètres est en général un compromis entre une absenc
de transformation d’un côté, et une distorsion audible de l’autre. Dans le cas de la compression, c’e
justement cette qualité de distorsion que de nombreux producteurs de musique populaire reche
© Dunod. Toute reproduction non autorisée est un délit.

chent. Finalement, la compression, comme n’importe quel effet, est facilement utilisée avec abus
Chapitre 4

Les filtres numériques

Un comité d’ingénieurs spécialisés en traitement du signal a défini un filtre de la façon suivante


Un filtre numérique est un processus ou un algorithme de calcul grâce auquel un signal numérique o
une séquence de nombres (agissant comme entrée) est transformé en une seconde séquence de nombr
appelée le signal numérique de sortie. (Rabiner et coll., 1972)
Ainsi, n’importe quel matériel ayant une entrée et une sortie est un filtre ! L’utilisation la plu
répandue de ce terme décrit des outils qui amplifient ou atténuent des régions du spectre sonor
Les réverbérateurs ou les lignes à retard numériques sont également des filtres. Ceci doit suggére
qu’en fait un filtre ne change pas seulement le spectre d’un signal d’entrée, mais également sa struc
ture temporelle — soit sur une échelle fine (retardement de certaines régions fréquentielles d
quelques millisecondes), soit sur une échelle plus grande (retardement du signal entier de plusieu
centaines de millisecondes).
© Dunod. Toute reproduction non autorisée est un délit.

4.1 Présentation de la théorie des filtres aux musiciens


La théorie du filtrage numérique est une spécialité se situant principalement dans un milieu mathé
matique, éloigné de l’expérience humaine. L’équation d’un filtre numérique, par exemple, ne révè
pas nécessairement ses qualités audio. Ceci est malheureux, car la perception et l’émotion s’attachen
attentivement aux effets des filtres. Le sujet profond de l’esthétique du filtrage est rarement évoqu
dans la littérature du traitement du signal (Gerzon, 1990, Rossum, 1992, et Massie et Stonick, 199
sont des exceptions), même si l’impact des filtres sur le son musical peut être soit sublime soit ho
rible. Les musiciens parlent des filtres comme étant « durs », « chauds » ou « musicaux » en tentan
de décrire ces différents effets. Une terminologie peut être plus précise évoluera lorsque cet a
parviendra à maturité.
Entre notre expérience subjective des filtres et leur implémentation pratique se tient la forêt de
théorie. Des myriades de représentations expliquent l’opération des filtres. Les textes d’ingénier
électrique décrivent inévitablement les filtres par la transformée z. La transformée z trace les effe
complexe z. Les pôles au dessus de ce plan représentent les pics de résonance, tandis que les zér
représentent les points d’amplitude nulle. Un filtre bipôle, par exemple, possède deux pics de rés
nance. La transformée z est un concept essentiel pour les concepteurs professionnels de filtre
car elle fournit un lien mathématique entre les caractéristiques désirées du filtre et ses paramètr
d’implémentation. Mais le processus de raisonnement nécessaire pour expliquer la transformée
et ses applications est long et abstrait, et n’est lié qu’indirectement aux paramètres ayant une sign
fication physique.
Notre présentation de la théorie des filtres adoptera donc une approche plus simple et plus mu
cale. Nous caractérisons les composants internes des filtres en termes de retards et d’opératio
arithmétiques simples sur les échantillons, ce qui correspond à la façon dont un filtre est repr
senté dans un logiciel. Nous présentons des images du flux du signal, de la réponse impulsionne
et de la réponse fréquentielle pour apporter un complément aux explications. Lorsque l’on y ajou
l’explication des concepts de base des filtres du chapitre 24, cette présentation couvre toute la conna
sance essentielle nécessaire aux musiciens utilisant les filtres dans la composition ou en concert
Les lecteurs souhaitant faire un trajet dans la forêt de la théorie des filtres pourront trouver d
centaines d’articles où s’aventurer. Les articles les plus orientés vers un aspect musical de la que
tion sont Moore (1978b, 1990), Cann (1979-1980), Smith (1985a, b) et Moorer (1981b, 1983a
Voir également les guides sur la conception des filtres par Hutchins (1982-1988), très complets
comportant des listes de codes. Des douzaines de livres d’ingénierie traitent des filtres, soit en totali
soit en partie.
Après une brève note historique, le reste de ce chapitre présente la notion fondamentale de répon
impulsionnelle d’un filtre, et explique l’implémentation de filtres passe-bas et passe-haut simple
Il met en contraste les deux structures de base des filtres, aborde la conception des filtres, et présen
les sections des filtres, les filtres en peigne et les filtres passe-tout.

4.2 Filtres : origines


Les premiers matériels de musique électronique utilisaient des filtres analogiques pour modeler
formes d’onde brutes émises par leurs générateurs de son, un processus nommé formation sou
tractive du son par Douglas (1968). Parmi les instruments les plus notables qui contenaient des filtr
il y avait le Mixtur-Trautonium, le Solovox, le Clavioline, le Warbo Formant Organ, le Hammon
Novachord, le RCA Synthesizer et l’Ondioline (Jenny, 1958 ; Rhea, 1972 ; Bode, 1984).
Les filtres autonomes analogiques comme le filtre Albis Tonfrequenz (figure 4.1) étaient des com
posants standards des studios de musique électronique comme celui de la Westdeutschen Rundfun
(WDR) dans lequel Karlheinz Stockhausen, Gottfried Michael Koenig, Jean-Claude Eloy, et d’autr
compositeurs ont travaillé dans les années 1950 et 1960. Plus tard, les filtres contrôlés par tensi
ont été typiques de l’époque dorée des synthétiseurs analogiques modulaires (Chamberlin, 198
Rossum, 1992).
Les expériences avec les circuits de filtrage numérique commencèrent dans les années 1950.
théorie du filtrage numérique fit un bond en avant dans les années 1960 avec l’adoption générale
calcul de la transformée z (Kaiser, 1963 ; Rabiner et Gold, 1975). Des filtres numériques simpl
apparurent dans les langages de synthèse sonore tels que Music IV et Music 4B (Mathews et Mill
1963 ; Winham, 1966). Les synthétiseurs de grande taille et très onéreux comme le Systems Concep
Digital Synthesizer (Samson, 1980, 1985) et la 4X de Giuseppe Di Giugno (Asta et coll., 1980) po
vaient réaliser des douzaines de filtres numériques en temps réel. Mais ce ne fut pas avant la fin d
© Dunod. Toute reproduction non autorisée est un délit.

Figure 4.1 – Le filtre Albis « voix-fréquence » (Tonfrequenz),


un égaliseur graphique énormément utilisé dans les studios de musique électronique
de la Westdeutschen Rundfunks (WDR), Cologne.
réel sur des synthétiseurs bon marché, sur des cartes de traitement du signal, sur des unit
d’effets, et sur des consoles de mélange numériques.

4.3 Réponse impulsionnelle, fréquentielle et de phase


d’un filtre
On peut voir les effets d’un filtre dans le domaine temporel ou dans le domaine fréquentiel. L
images « précédentes » et « ultérieures » du signal montrent les effets du filtrage (figure 4.2).
Bien sûr, certaines entrées révèlent mieux que d’autres les effets du filtre. Existe-t-il un signal d’entr
idéal qui puisse clairement caractériser la réponse de tous les filtres ? Afin de tester parfaitement u

(a)

Amp.
Temps

7500 Hz

Amp.
Fréquence

(b)

0
Amp.

Temps

4600 Hz

Amp.
Fréquence

Figure 4.2 – L’effet d’un filtre passe-bas atténuateur,


montré à la fois dans les domaines temporels et fréquentiels. (a) Segment d’un signal originel ém
par un Dulcitone (instrument à clavier anglais du dix-neuvième siècle). (b) Le même son, filtré e
passe-bas de –12 dB à 3 000 Hz. Remarquez la réduction de largeur de bande.
toutes les fréquences, nous dira comment le filtre répond dans le domaine fréquentiel. Mais un
mesure d’égale importance d’un filtre est de savoir comment celui-ci répond aux transitoires. Pou
cela, nous avons besoin d’une mesure de sa réponse dans le domaine temporel.
Comme Fourier l’a montré au dix-neuvième siècle, une relation inverse existe entre la durée d’u
signal et son contenu fréquentiel. Une sinusoïde de durée infinie est l’expression d’une seule fré
quence. Si l’on raccourcit la durée de la sinusoïde, son spectre de Fourier devient de plus en plu
compliqué. C’est-à-dire qu’il nous faut ajouter toujours plus de sinusoïdes, qui finalement s’annu
lent les unes les autres, pour créer un signal de courte durée. Ainsi, plus le signal est court, plus
spectre est large.
Dans un système numérique, le signal le plus bref possible ne dure qu’un seul échantillon. C
signal contient de l’énergie à toutes les fréquences qui peuvent être représentées à une fréquenc
d’échantillonnage donnée. Ainsi, une façon générale de caractériser un filtre est de voir sa répons
pour une impulsion d’un échantillon, ce qui est une approximation de l’impulsion élémentaire o
symbole de Kronecker abstrait et infiniment bref. Le signal de sortie généré par un filtre dans lequ
on envoie une impulsion élémentaire est appelé la réponse impulsionnelle (IR) de ce filtre. L’IR co
respond exactement à la réponse amplitude-fréquence du système. Le chapitre 24 explique c
terme, appelé couramment « réponse fréquentielle ». L’IR et la réponse fréquentielle contiennen
la même information — la réponse du filtre à l’impulsion élémentaire —, mais sont tracées dan
des domaines différents. C’est-à-dire que l’IR est une représentation dans le domaine temporel
la réponse fréquentielle est une représentation dans le domaine fréquentiel. Le lien entre ces deu
domaines est la convolution, expliquée au chapitre suivant.
La figure 4.3a montre comment un filtre amplificateur étroit élargit l’énergie d’une impulsion. E
général, une longue IR correspond à une réponse fréquentielle étroite, puisqu’un filtre étroit cré
un effet sur une période de temps significative après l’impulsion originelle. Comme nous le voyon
au chapitre 11, le « temps de retard » long des filtres étroits devient problématique dans l’analys
spectrale. D’un autre côté, une IR courte correspond à une réponse fréquentielle large. La figure 4.3
montre l’effet d’un filtre passe-bas de lissage.
Une autre caractéristique des filtres est leur effet sur la phase des sinusoïdes qui passent à trave
eux. La réponse de phase d’un filtre trace le déphasage (en radians) appliqué à chaque composan
sinusoïdal du signal d’entrée (Smith, 1985a). Une mesure peut-être plus intuitive est le retard d
phase, qui trace le déphasage sous forme de retard temporel (en secondes) appliqué à chaque com
© Dunod. Toute reproduction non autorisée est un délit.

posant sinusoïdal envoyé dans le filtre.

4.4 Les filtres sous forme d’équations


En dehors des images des réponses impulsionnelles, nous pouvons également décrire un filtre numé
rique avec une équation qui relie un signal d’entrée à un signal de sortie. La sortie de l’équation e
décrite sous forme de résultats d’additions, de soustractions, et de multiplications des échantillon
d’entrée courants et passés. Le terme technique pour ce type d’équation est l’équation différentiel
linéaire. Linéaire signifie que si l’entrée d’un filtre est la somme de deux fonctions échelonnées,
sortie est équivalente à la somme de chacune de ces fonctions envoyées séparément dans le filtr
Voir Rabiner et Gold (1975) ou tout autre texte sur le traitement du signal pour plus de détails su
les équations différentielles linéaires.
Dans la littérature de traitement du signal, le signal d’entrée introduit dans le filtre est par conventio
appelé x, et la sortie est appelée y. Les échantillons d’entrée et de sortie sont indexés (par exemp
Impulsion Impulsion filtrée
par passe-bande
amplificateur

76 ms

Amp. Amp.
Temps Temps

Impulsion
Impulsion filtrée
en passe-bas

Amp. Amp.
Temps Temps

Figure 4.3 – Effets des filtres sur les impulsions.


(a) Filtre passe-bande amplificateur. Sur la gauche se trouve une ligne indiquant une impulsio
Sur la droite se trouve la même impulsion filtrée de +24 dB à 200 Hz, avec un filtre de bande étroi
(20 Hz de largeur de bande). Remarquez l’ondulation de faible niveau qui étend la réponse jusqu
76 ms. (b) Filtre passe-bas. Coupure de –15 dB à 1 kHz.

l’échantillon au temps n, l’échantillon suivant au temps n + 1, etc.), et l’index d’échantillon est so


vent mis entre crochets. Ainsi x[0] est le « zéroième » échantillon de l’entrée, x [1] est l’échantill
d’entrée suivant, et ainsi de suite.

4.5 Filtre passe-bas simple


Un filtre passe-bas simple fait la moyenne entre les valeurs de l’échantillon d’entrée courant et
valeur de l’échantillon d’entrée précédent. C’est-à-dire qu’il additionne l’échantillon courant
l’échantillon précédent et divise le résultat par deux. Un filtre faisant une moyenne a tendance à liss
les éléments saillants du signal d’entrée. De telles saillies sont des changements soudains et repr
sentent donc des composants de haute fréquence. L’équation pour un filtre à moyenne simple e
la suivante :
y [ n ] = ( 0,5 × x [ n ] ) + ( 0,5 × x [ n – 1 ] )
ou : sortie courante = moitié de l’entrée courante + moitié de l’entrée précédente
Les constantes d’échelonnage (0,5) dans l’équation sont appelées les coefficients de filtrage.
La figure 4.4 montre un circuit réalisant cette équation.
∆ ×

Entrée × + Sortie

0.5

Figure 4.4 – Un simple filtre à moyenne atténue les hautes fréquences


jusqu’à la moitié de la fréquence d’échantillonnage. Voir le texte pour une explication de la nota
tion utilisée dans cette figure et dans les suivantes.

Remarquez que dans cette figure et celles qui la suivent, la notation suivante est appliquée : les flèche
indiquent le flux du signal, les lignes sans flèches indiquent des entrées de coefficients (pour les mu
tiplicateurs ou les additionneurs), le point noir indique un embranchement où le signal est envoy
dans deux directions différentes, le signe × indique une multiplication, le signe + une addition, et
signe ∆ indique un retard d’une période d’échantillonnage.
La figure 4.5 montre la réponse fréquentielle de ce filtre, qui ressemble au premier quadrant d’un
onde cosinus. Faire la moyenne non plus sur deux échantillons, mais sur trois, quatre ou plus aug
mente l’effet d’atténuation des hautes fréquences du filtre. Cette moyenne sur plusieurs échantillon
revient à connecter plus de deux filtres similaires en série.

1.0
© Dunod. Toute reproduction non autorisée est un délit.

Amp.
0
0 Fréquence FE/2

Figure 4.5 – Réponse fréquentielle du filtre passe-bas simple à moyenne


montré à la figure 4.4.
Nous présentons maintenant un filtre passe-haut qui atténue les fréquences graves. Ce filtre soustr
les échantillons au lieu de les additionner, c’est-à-dire qu’il calcule les différences entre des pair
successives d’échantillons :
y [ n ] = ( 0,5 × x [ n ] ) – ( 0,5 × x [ n – 1 ] )
ou sortie courante = moitié de l’entrée courante – moitié de l’entrée précédente
Maintenant, l’échantillon de sortie y[n] est l’échantillon d’entrée courant moins l’échantillon d’entr
précédent, divisé par deux. Un filtre passe-haut supprime les fréquences graves — là où les diff
rences entre les échantillons sont faibles — et il exagère les fréquences élevées, car les différenc
entre les échantillons successifs sont grandes. La figure 4.6 montre le circuit réalisant cette équ
tion. La figure 4.7 trace la réponse fréquentielle du filtre.

0.5

∆ ×

Entrée × − Sortie

0.5

Figure 4.6 – Circuit d’un filtre passe-haut simple


qui soustrait les échantillons d’entrée successifs.

1.0

Amp.

0
0 Fréquence FE/2

Figure 4.7 – Réponse fréquentielle du filtre passe-haut simple


montré à la figure 4.6.
constants de valeur 0,5 en variables a0 et a1 comme dans cette équation :
y [ n ] = ( a0 × x [ n ] ) + ( a1 × x [ n – 1 ] )
Le coefficient d’indice 0 indique un signal non retardé, tandis que l’indice 1 indique un retard d’u
échantillon. En changeant la valeur des coefficients, on modifie la réponse de fréquence du filtre

4.7 Filtres à réponse impulsionnelle finie généraux


L’équation générique d’un tel filtre est la suivante :
y [ n ] = ( a0 × x [ n ] ) ± ( a1 × x [ n – 1 ] ) ± … ( ai × x [ n – i ] )
où ai est le dernier coefficient et x[i] est le dernier échantillon stocké. Les coefficients peuvent êtr
positifs ou négatifs, pour obtenir respectivement un filtrage passe-bas ou passe-haut.
Un filtre générique de ce type peut être assimilé à une ligne à retard — une unité à mémoire bouclé
qui retarde les signaux entrants de i échantillons. La mémoire de cette ligne à retard ne revient qu
sur une distance finie dans le temps — i échantillons —, ce qui correspond à la longueur de la lign
à retard. Ainsi, la réponse du filtre à un bref signal d’entrée (par exemple une impulsion) dispara
au bout d’une période finie de temps. Pour cette raison, de tels filtres sont appelés des filtres
réponse impulsionnelle finie (FIR).
La figure 4.8 montre la structure d’un tel filtre, qui est également appelé filtre transversal. En effe
le signal d’entrée pénètre dans une ligne à retard de n échantillons de longueur. Le filtre multipl

x[n]

∆ ... ∆
a0 a1 ai

× × ... ×
© Dunod. Toute reproduction non autorisée est un délit.

y[n]

Figure 4.8 – Structure d’un filtre FIR général, constitué d’une série de retards
d’un échantillon, pour que dans la dernière unité de retard, le signal d’entrée soit retardé de i échan
tillons. Chacun de ces signaux retardés est échelonné par un coefficient correspondant a. La sorti
est la somme de tous ces échantillons retardés et échelonnés.
obtenir la sortie. En ajustant les coefficients, la réponse du filtre peut être contrôlée vers une fr
quence limite inférieure équivalente à environ le taux d’échantillonnage divisé par le nombre d’étap
de retard. Par exemple, pour une fréquence d’échantillonnage de 44,1 kHz, un filtre passe-bas F
à dix étapes expulse les fréquences situées à peu près au-dessus de 4 400 Hz.

+10
0

Amp. en dB -30

-60

-90
0 .10 .20 .30 .40 .50
Fréquence en unités arbitraires

+10
0

-30
Amp. en dB

-60

-90
0 .10 .20 .30 .40 .50
Fréquence en unités arbitraires

Figure 4.9 – Tracé de la réponse fréquentielle comparant les lobes de coupure du filtrage
pour des filtres FIR de différentes longueurs. L’axe des fréquences est mesuré en unités arbitra
res. (a) Filtre à 15 étapes. (b) Filtre à 31 étapes. La ligne verticale indique la fréquence de coupu
(0,125). Ajouter davantage d’étapes de retards à un filtre a pour effet de resserrer son lobe d
Il n’est donc pas surprenant qu’un filtre plus long nécessite plus de calculs. Dans la pratique, il exis
une longueur au-dessus de laquelle on atteint une petite raideur perceptible, bien que les pics su
les côtés du lobe principal du filtre (c’est-à-dire les pics d’ondulation) deviennent plus nombreu
et se resserrent (figure 4.9).

4.8 Filtres à réponse impulsionnelle infinie simples


Si nous envoyons la sortie du filtre dans sa propre entrée, celui-ci mélange plus de l’histoire passé
du signal que ne le peut un filtre FIR, et cela, avec moins de coefficients. Moins de coefficien
signifient moins de multiplications, et donc moins de calculs. On dit d’un filtre utilisant les échan
tillons de sortie passés qu’il opère par réinsertion ou récursion. Puisque cette histoire est potentie
lement infinie, un tel filtre est appelé filtre à réponse impulsionnelle infinie (IIR) ou filtre récursif
Un exemple de filtre IIR simple est un filtre à moyenne de temps exponentielle (ETA). Un filtre ET
ajoute sa dernière sortie y[n – 1] à l’entrée courante x[n], puis divise le résultat par deux pou
générer le nouvel échantillon de sortie :
y [ n ] = ( 0,5 × x [ n ] ) + ( 0,5 × x [ n – 1 ] )
La figure 4.10 montre un graphique de flux du signal pour ce filtre, comportant le trajet de réinse
tion. La figure 4.11 trace la réponse fréquentielle du filtre ETA. L’analyse de ce filtre montre qu’il e
équivalent à un filtre FIR « infiniment long » :
y [ n ] = ( 1 ⁄ 2 × x [ n ] ) + ( 1 ⁄ 4 × x [ n – 1 ] ) + ( 1 ⁄ 8 × x [ n – 2 ] )…
Comme avec les filtres FIR, on peut substituer aux constantes des coefficients variables :
y[n] = (a × x[n]) + (b × y[n – 1])

0.5

× ∆
0.5
© Dunod. Toute reproduction non autorisée est un délit.

x[n] × + y[n]

Figure 4.10 – Schéma du flux de signal pour un filtre ETA IIR


— remarquez le trajet de réinjection.

Ici, nous utilisons la convention de notation qui veut que les coefficients b modifient le trajet d
réinsertion. Lorsque b augmente, la fréquence de coupure du filtre s’abaisse. Le terme fréquenc
de coupure est expliqué au chapitre 24. La valeur absolue du coefficient b doit rester inférieure à
ou bien le filtre devient instable. Dans un filtre instable, les valeurs de sortie y[n] deviennent de plu
en plus grandes, ce qui résulte en un débordement numérique (nombres supérieurs aux capacité
des convertisseurs audio) et en un son distordu.
Amp.

0
0 Fréquence FE/2

Figure 4.11 – Tracé de la réponse fréquentielle du filtre ETA IIR


montré à la figure 4.10.

Un filtre récursif passe-haut simple soustrait l’échantillon d’entrée courant de l’échantillon de sor
précédent, puis divise par deux. La figure 4.12 trace sa réponse de fréquence. L’équation du filt
est la suivante :
y[n] = (a × x[n]) – (b × y[n – 1])
où a = b = 0,5. Dans ce cas, augmenter b revient à remonter la fréquence de coupure passe-hau
ce qui atténue de plus en plus les fréquences graves.

1.0

Amp.

0
0 Fréquence FE/2

Figure 4.12 – Tracé de la réponse fréquentielle d’un filtre passe-haut IIR.


Des filtres IIR plus complexes peuvent être conçus en incorporant des échantillons d’entrée précé
dents (multipliés par des coefficients non nuls) et de la réinsertion d’échantillons de sortie précé
dents. La forme générale d’un filtre IIR est la suivante :
y [ n ] = ( a0 × x [ n ] ) + … ( aM × x [ n – M ] ) – ( b1 × y [ n ] ) – … ( bN × y [ n – N ] )
ce qui peut s’écrire :
M N
y[n] = ∑ ai × x [ n – i ] – ∑ bj × y [ n – j ]
i=0 j=1

4.10 Comparaison des filtres FIR et des filtres IIR


L’existence de deux types basiques de filtres (FIR et IIR) pose la question : pourquoi utiliser des filtre
FIR dans certaines applications et des filtres IIR dans d’autres ? Chacun possède ses avantages et se
désavantages. Il est facile de concevoir un filtre FIR ayant une réponse de phase linéaire. On cons
dère en général que cela est meilleur pour les signaux audio, car cela évite la distorsion de phas
— une dégradation de la qualité sonore due aux retards dépendants de la fréquence qui tendent
estomper les transitoires et à rendre confuses les images stéréo. De plus, en raison du fait que le
filtres FIR n’ont pas de réinsertion, ils sont toujours stables et ne commencent jamais à osciller. U
désavantage des filtres FIR est qu’ils demandent plus d’opérations arithmétiques et de mémoire qu’u
filtre IIR ayant des caractéristiques fréquentielles similaires. Certains filtres FIR possèdent des millie
d’étapes de retard, comme le montrera clairement le chapitre sur la convolution. Ainsi, un filtre FI
donné peut être plus coûteux en terme de matériel qu’un filtre IIR ayant un effet similaire.
Les filtres IIR peuvent produire des coupures et des amplifications raides, de formes exponentielle
en utilisant beaucoup moins de calcul qu’un filtre FIR. Ceci est dû au fait que la réinsertion de
échantillons précédents dans les filtres IIR élimine un grand nombre des étapes arithmétiques
des accès à la mémoire qui seraient nécessaires dans un filtre FIR pour obtenir le même effet. Le
filtres IIR souffrent, quoi qu’il en soit, de distorsion de phase et de résonance (Preis, 1982). La réso
nance signifie que les transitoires tendent à exciter le filtre, ce qui fait osciller (résonner) celui-
pendant un moment, après le passage du transitoire dans le système. En d’autres termes, les filtre
© Dunod. Toute reproduction non autorisée est un délit.

IIR estompent les transitoires dans le temps, en rendant moins discernables les fréquences élevée
et en donnant au son un aspect dur. De plus, en raison de la nature récursive du calcul, les filtres II
sont plus sensibles à l’accumulation des erreurs d’approximation de l’arithmétique du filtre que le
filtres FIR correspondants.

4.11 Conception d’un filtre à partir d’une spécification arbitraire


Jusqu’à présent, nous avons présenté des exemples de plusieurs types de filtres de base, chacu
ayant ses propres caractéristiques. Quoi qu’il en soit, la tâche effectuée par les ingénieurs concepteu
de filtres se dirige vers une autre direction. Ils se doivent de concevoir un filtre réalisable — compre
nant des paramètres pour ses coefficients — en partant d’un ensemble de caractéristiques désirée
Celles-ci peuvent inclure des spécifications audio telles que la réponse amplitude-fréquence,
réponse phase-fréquence, la réponse impulsionnelle, le retard de groupe, la fréquence de coupur
et ainsi de suite, ainsi que des contraintes pratiques telles que la longueur de mot, la vitesse de calcu
économiques.
En général, la réalisation d’un filtre à partir d’un ensemble arbitraire de spécifications est u
tâche peu banale. Même lorsque les spécifications ne sont pas en conflit, une dérivation algébriq
et numérique plus ou moins complexe doit être effectuée. Le résultat est souvent une approximati
de la spécification désirée, ce qui oblige à faire des choix qui équilibrent les caractéristiques ent
elles.
Comme nous l’avons dit plus tôt, la théorie de la conception des filtres est une vaste discipline
elle-même, dont les stratégies sont variées et en concurrence. De nombreux textes d’ingénier
traitent de la théorie de la conception des filtres de façon rigoureuse et détaillée, ce qui dépasse
cadre d’un livre comme celui-ci ; ainsi, nous recommandons ces ouvrages aux lecteurs attirés p
la technique. Le texte de Rabiner et Gold (1975), que nous avons cité à de nombreuses reprises, e
un classique.
Heureusement, les détails contrariants de la conception de filtres ont été codés en systèmes de co
ceptions de filtres automatiques (McClellan, Parks et Rabiner, 1973). Ils sont disponibles sous form
de bibliothèques de codes (Smith, 1981) et sous forme de programmes interactifs tournants s
des ordinateurs personnels (Hebel, 1987, 1989 ; Zola Technologies, 1991 ; Hyperception, 1992). L
programmes interactifs permettent à l’utilisateur de spécifier la stratégie de conception et les cara
téristiques d’un filtre tout en cachant la plupart des manipulations algébriques et numériqu
nécessaires à l’implémentation. Beaucoup de ces systèmes permettent à l’utilisateur de tester le filt
simulé sur des signaux audio.

4.12 Blocs de construction des filtres complexes


Dans tout filtre, la période de temps utilisée pour créer chaque échantillon de sortie est appel
l’ordre du filtre. Un filtre de premier ordre, par exemple, n’a que des retards d’un échantillon, tand
qu’un filtre de second ordre contient des retards de deux échantillons. C’est une pratique couran
de concevoir des filtres compliqués à partir d’un réseau de filtres de premier et de second ord
chacun d’entre eux étant relativement stable et robuste, plutôt que d’implémenter une structure pl
grande et plus délicate. Voir Rabiner et Gold (1975) pour une présentation de ce sujet.
Une section de second ordre est une structure IIR particulièrement populaire dans les systèm
audionumériques (Shpak, 1992). En tant que filtre IIR de second ordre, il lit deux échantillons
arrière par rapport à sa sortie y. Le terme « section » signifie que ce filtre peut être combiné av
d’autres filtres du même type, pour former un filtre plus compliqué. Il effectue une réponse fr
quentielle passe-bande, et il est donc souvent utilisé comme bloc de construction pour des égaliseu
paramétriques et graphiques. En réglant certains de ses coefficients à zéro, il peut également effe
tuer des filtrages passe-bas et passe-haut, d’où ses applications nombreuses.
La littérature spécialisée présente plusieurs formes de sections de second ordre. Nous présento
ici la forme « la plus générale », d’après Rabiner et Gold (1975, pp. 19-20). L’équation est la suivant
y [ n ] = ( a0 × x [ n ] ) + ( a1 × x [ n – 1 ] ) + ( a2 × x [ n – 2 ] ) – ( b1 × y [ n – 1 ] ) – ( b2 × y [ n – 2 ]
Ici, les coefficients a échelonnent les trajets d’injection directe, et les coefficients b échelonnent l
trajets de réinsertion. Ceux-ci contribuent en général aux pics de la réponse, tandis que les traje
d’injection directe causent les entailles.
Un autre terme pour la section de second ordre est un filtre biquadratique, en référence aux de
formules quadratiques de son équation (une pour a et une pour b). La figure 4.13 présente un di
∆ ∆
b2
× ×
a0 b1

x[n] × + y[n]

a1 a2

× ×
∆ x[n-1]
∆ x[n-2]

Figure 4.13 – Forme globale d’une section de filtre de second ordre.


Le trajet d’injection directe est situé sous le centre, et contrôlé par les coefficients a. Le trajet d
réinjection est au-dessus du centre, et contrôlé par les coefficients b.

gramme du circuit correspondant à l’équation présentée ci-dessus. Une telle conception est si com
mune que la puissance de traitement du signal d’un système est souvent présentée grâce au nombr
de sections de second ordre que celui-ci peut réaliser en temps réel (Moorer, 1983b).

4.13 Filtres en peigne


Un filtre en peigne crée une série régulière de pics et de creux — espacés de façon égale en fré
quence — dans le spectre du signal d’entrée. Il est appelé ainsi, car les pics et les creux évoquen
les dents d’un peigne. Les filtres en peigne FIR traitent leurs entrées précédentes, tandis que les filtre
en peigne IIR traitent leurs sorties précédentes. Nous allons maintenant expliquer les deux type
de filtres en peigne.
© Dunod. Toute reproduction non autorisée est un délit.

4.13.1 Filtres en peigne FIR


Un filtre en peigne FIR simple sépare le signal audio entrant en deux trajets et insère un retar
temporel de plusieurs échantillons D dans l’un d’entre eux, avant de les additionner (figure 4.14
L’équation d’un filtre en peigne FIR simple est la suivante :
y[n] = x[n] + x[n – D]
La structure d’un filtre en peigne FIR est similaire à celle d’un filtre passe-bas FIR. Quoi qu’il en soi
ni le signal originel ni le signal retardé ne sont échelonnés dans ce filtre en peigne (bien qu’ils pou
raient l’être) ; mais le plus important est que le temps de retard D est plus grand dans un filtre en pe
gne. À un taux d’échantillonnage de 48 kHz, un retard d’un échantillon dans le circuit crée un effet d
filtre passe-bas moyen. Ceci parce que le retard n’est que d’environ 0,02 ms. Ce n’est que lorsque
D

Entrée + Sortie

Figure 4.14 – Circuit d’un filtre en peigne simple à injection directe.

retard dépasse 0,1 ms que le filtre commence à créer de multiples points nuls (points d’amplitude zér
dans le spectre, en raison des effets d’annulation de phase, ce qui donne un effet de filtrage en peign
L’effet de peigne provient de l’annulation et du renforcement de phase entre les signaux retardés
non retardés. Si le signal originel et le signal retardé s’ajoutent — comme dans le filtre en peig
à somme positive — le filtre résultant possède un premier pic à la fréquence ƒ = 1/D × ƒs, où D est
retard en échantillons et fs est la fréquence d’échantillonnage. Les pics successifs apparaissent à 2f,
4f, etc. Ainsi, ce filtre peut être utilisé pour renforcer une fondamentale f et tous ses harmoniques.
Par exemple, si le taux d’échantillonnage est de 48 kHz, le retard est de 12 échantillons (0,25 ms), et
le signal originel et le signal retardé sont additionnés positivement, le premier pic audible apparaî
1/12 × 48 000 = 4 kHz, avec des pics consécutifs à 8 kHz, 12 kHz, et ainsi de suite, jusqu’à la fr
quence de Nyquist (24 kHz). Ce même filtre en peigne possède des creux à 2 kHz, 6 kHz, et ainsi
suite par intervalles de 4 kHz jusqu’à la fréquence de Nyquist (figure 4.15).

1.0

Amp.
0
0 Fréquence FE/2

Figure 4.15 – Tracé d’un spectre de filtre en peigne FIR


pour ƒ = 4 kHz et un retard de 0,25 ms.

L’effet d’annulation et de renforcement de phase peut être expliqué comme suit. Aux basses fr
quences, le retard n’a virtuellement aucun effet sur la phase du signal, et les deux signaux (originel
retardé) s’ajoutent, ce qui amplifie le signal de sortie. Lorsque les retards influent sur les fréquenc
plus élevées, elles s’approchent de plus en plus d’un déphasage de 180 degrés. À 2 kHz, un reta
de 0,25 ms crée précisément un déphasage de 180 degrés. Lors de l’addition avec le signal originel,
deux signaux s’annulent à cette fréquence (figure 4.16). Au-delà de 180 degrés, les signaux s’ajoute
4 kHz 2 kHz

4 kHz, déphasage 0 degrés 2 kHz, déphasage 180 degrés

Somme Somme

Figure 4.16 – Effets des renforcements et des annulations de phase.


(a) est la colonne de gauche et (b) est la colonne de droite. (a) En haut : son de 4 kHz. Au milieu
son de 4 kHz sans déphasage. En bas : somme des signaux du haut et du milieu, provoquant un ren
forcement. (b) En haut : son de 2 kHz. Au milieu : son de 2 kHz avec un déphasage de 180 degrés
En bas : Somme des signaux du haut et du milieu, provoquant une annulation.

de nouveau, jusqu’à ce que le retard de déphasage atteigne 0 ou 360 degrés, ce qui produit un pic d
© Dunod. Toute reproduction non autorisée est un délit.

renforcement à 4 kHz. À 6 kHz, les signaux sont de nouveau en déphasage de 180 degrés, produisan
un creux, et ainsi de suite.
Comme l’indique le tableau 4.1, les retards plus longs créent des dents plus proches dans le peign
Par exemple, lorsque le retard est de 50 ms, le premier creux apparaît à 10 Hz puis consécutivement
30, 50, 70 Hz, et ainsi de suite. Les délais inférieurs à 5 ms produisent les effets de filtrage en peign
les plus riches, car l’espacement entre les pics et les creux augmente, donc les dents du peign
deviennent plus larges en fréquence et apparaissent de façon plus frappante à l’oreille.
Que se passe-t-il lorsque deux signaux (originel et retardé) sont soustraits plutôt qu’additionnés
Ceci est le cas d’addition négative, car cela revient à additionner deux signaux dont l’un est en dépha
sage de 180 degrés. L’équation pour ce filtre en peigne FIR soustractif est la suivante :
y[n] = x[n] – x[n – D]
mier creux apparaît à 0 Hz, avec des creux successifs à f, 2f, 4f, et ainsi de suite. Dans ce cas, le filt
en peigne élimine la fondamentale et ses harmoniques. Le signal est renforcé à f/2, 3f/2, 5f/2,
ainsi de suite.
Tableau 4.1 – Pics des filtres en peigne FIR.

Temps de retard Premier pic


(en ms) et espacement des pics

20 50 Hz

10 100 Hz

2 500 Hz

1 1 kHz

0,5 2 kHz

0,25 4 kHz

0,125 8 kHz

0,1 10 kHz

4.13.2 Filtres en peigne IIR


Un filtre en peigne récursif (IIR) réinjecte une partie de sa sortie dans sa propre entrée. L’équati
d’un filtre en peigne récursif simple est la suivante :
y[n] = (a × x[n]) + (b × y[n – D])
Les coefficients a et b sont des facteurs qui échelonnent entre 0 et 1. La figure 4.17 trace la répon
fréquentielle de ce filtre. Selon la valeur du coefficient b en particulier, ce filtre en peigne IIR produ

1.0

Amp.
0
0 Fréquence FE/2

Figure 4.17 – Tracé du spectre d’un filtre en peigne IIR.


filtre effectue une réinsertion excessive, ce qui cause un débordement numérique et de la distorsion

4.14 Filtres passe-tout


Un filtre passe-tout est un processeur du signal particulier. Lorsqu’on lui injecte des sons statiques,
filtre passe-tout fait passer toutes les fréquences avec une égale qualité sans changement d’amplitud
— d’où son nom. On dit ainsi qu’un filtre passe-tout a une réponse fréquentielle plate sur toute la la
geur de bande audio. Quoi qu’il en soit, le passe-tout impose également un déphasage dépendant d
la fréquence sur le signal entrant. C’est-à-dire qu’il retarde diverses régions fréquentielles dans dive
ses proportions. Ce type de retard dépendant de la fréquence est également appelé dispersion.
La figure 4.18 montre une courbe du retard en fonction de la fréquence pour un filtre passe-tou
Remarquez comme les fréquences graves sont retardées. Les effets audibles d’un filtre passe-tou
apparaissent lors des attaques et des chutes raides, lorsqu’il « colore » le signal par un déphasag
dépendant de la fréquence (Preis, 1982 ; Deer, Bloom et Preis, 1985 ; Chamberlin, 1985). Moorer
décrit le filtre passe-tout de la façon suivante :
Nous devons nous rappeler que la nature passe-tout est une nature plus théorique que perceptuell
Nous ne devons pas supposer, simplement parce que la réponse fréquentielle est absolument uniform
que le filtre est transparent pour notre perception. En fait, la réponse de phase d’un passe-tout peut êt
très complexe. La nature passe-tout implique simplement que sur des périodes de temps suffisam
ment longues, avec des sons statiques, la balance spectrale ne sera pas modifiée. Ceci n’implique rie
de tel pour le court terme et pour les régions transitoires. En fait, les filtres en peigne et les filtr
passe-tout ont des « sons » très distincts et définis, immédiatement reconnaissable pour une oreil
expérimentée. (J.A. Moorer, 1979)

10
© Dunod. Toute reproduction non autorisée est un délit.

Retard
(ms)

0
0 1 kHz
Fréquence

Figure 4.18 – La réponse retard en fonction de la fréquence d’un filtre passe-tout dispersif
(d’après Chamberlin, 1983).

La prochaine équation décrit un filtre passe-tout simple ayant une réponse fréquentielle plate
long terme (de zéro à la moitié de la fréquence d’échantillonnage) qui retarde diverses régions fré
quentielles dans diverses proportions. Lorsque le retard en échantillons D est grand, le passe-tou
passe-tout (voir le chapitre 8).
y [ n ] = ( –g × x [ n ] ) + x [ n – D ] + ( g × y [ n – D ] )
La figure 4.19 montre la structure d’un tel filtre passe-tout, équivalent à celui présenté par Schroed
(1961, 1962 ; voir également Moorer, 1977). Ce passe-tout est constitué d’un filtre en peigne I
avec une réinsertion (contrôlée par g), intercalé dans un circuit qui injecte également directeme
une partie du signal d’entrée direct avec un gain de –g. Cette soustraction élimine les effets spectra
du filtre en peigne, tout en préservant les caractéristiques d’écho et de retard.

x[n] + D + y[n]

×
-g

Figure 4.19 – Structure d’un filtre passe-tout simple.

En général, le déphasage (en degrés) d’un filtre passe-tout est une fonction logarithmique du retar
C’est-à-dire qu’un retard de 100 ms n’est qu’une petite fraction d’un cycle basse fréquence — seu
ment quelques degrés de déphasage. Mais à 10 kHz, ce même retard de 100 ms constitue un déph
sage complet de 360 degrés en raison de la période de cette fréquence.
Deux propriétés caractérisent les filtres passe-tout. La fréquence de renversement est la fréquen
à laquelle le déphasage atteint 180 degrés. La largeur de transition d’un filtre passe-tout est la raide
de la transition d’un déphasage de 0 à 360 degrés. La largeur de transition d’un filtre passe-tout e
analogue au Q (coefficient de qualité) d’un filtre passe-bande (voir le chapitre 24 pour une exp
cation du coefficient Q).
Les applications musicales des filtres passe-tout sont de toutes sortes. Une utilisation immédia
d’un filtre passe-tout est de l’employer pour compenser le déphasage introduit par un autre filt
(Meyer, 1984). Par exemple, plusieurs fabricants ont fabriqué des filtres passe-tout comme rétr
ajusteurs d’anciens enregistreurs audionumériques, pour compenser la distorsion de phase inh
rente dans les enregistreurs non modifiés. Une autre application est trouvée dans certains synth
tiseurs. Dans ce cas, le filtre passe-tout crée un déphasage en fonction de la fréquence et varia
dans le temps, qui peut apporter de la richesse à des sons qui seraient sans cela restés statiques. Ce
est un moyen utilisé pour créer une sorte d’effet chorus — une combinaison de retard et de déphasag
L’application sans doute la plus importante des filtres passe-tout se trouve dans les réverbérateu
comme nous le verrons au chapitre 8.
Chapitre 5

La convolution

La convolution est une opération fondamentale du traitement audionumérique du signal (Rabine


et Gold, 1975 ; Dolson, 1985 ; Oppenheim et Schafer, 1975 ; Oppenheim et Willsky, 1983). Tout
monde est familiarisé avec ses effets, même s’il n’a jamais entendu parler de la convolution. N’impor
quel filtre, par exemple, convolve sa réponse impulsionnelle avec le signal d’entrée pour produire u
signal de sortie filtré. Rappelez-vous la définition de la réponse impulsionnelle donnée au chapitre
La convolution est souvent déguisée sous des termes plus familiers comme filtrage, modulation
réverbération ou synthèse croisée. Mais l’utilisation explicite de la convolution devient de plus e
plus répandue — d’où ce chapitre.
La convolution d’un son donné avec une IR arbitraire peut produire une énorme variété d’effe
musicaux. Par exemple, on peut créer un réverbérateur, qui est un type complexe de filtre, en obtenan
l’IR d’une salle, puis en convolvant cette IR avec un son d’entrée arbitraire. Lorsque le son convolv
est mélangé avec le son originel, le résultat sonne comme si le son originel avait été joué dans
salle.
© Dunod. Toute reproduction non autorisée est un délit.

En dehors des effets de réverbération, l’IR de n’importe quel processeur audio (microphone, enceint
filtre, distorsion, effet, etc.) peut être convolvée avec un signal audio pour que celui-ci prenne le
caractéristiques du système.
Ceci conduit à une application musicale puissante de la convolution : la synthèse croisée par convo
lution de deux sons arbitraires. La descendance de la synthèse croisée porte des caractéristique
des sons parents, mais peut ne ressembler à aucun des deux. Si les sons d’entrée sont instrumen
taux, le résultat peut sonner comme si un instrument « jouait » de l’autre (par exemple une sér
de cloches jouant du gong). À la fin de ce chapitre, nous examinerons plus en détail l’intérêt music
de la convolution, et nous donnerons des méthodes empiriques pour l’utiliser.

5.1 L’opération de convolution


Pour comprendre la convolution, examinons ce cas simple : la convolution d’un signal a avec un
impulsion élémentaire, que nous appelons élém[n]. Une impulsion élémentaire a été présenté
1

∗ ⇒
0 0 0
RI

(b)

0.5
∗ ⇒
0 0 0
RI

(c)

0.5
∗ ⇒
0 01 2 01 2
RI

Figure 5.1 – Exemples prototypes de la convolution d’échantillons.


(a) La convolution d’un signal d’entrée avec une impulsion élémentaire est une opération d’identit
(b) La convolution avec une impulsion élémentaire d’une valeur de 0,5 échelonne le signal d’un fa
teur de 0,5. (c) La convolution avec une unité élémentaire retardée déplace la séquence d’entrée da
le temps de façon correspondante.

plus haut comme une séquence numérique définie sur n points temporels. Au temps n =
élém[n] = 1, mais pour toutes les autres valeurs de n, élém[n] = 0. La convolution de a[n] av
élém[n] peut être exprimée comme suit :
sortie [ n ] = a [ n ] ∗ élém [ n ] = a [ n ]
Ici, « ∗ » signifie convolution. Ceci donne comme résultat un ensemble de valeurs pour la sortie q
est identique au signal originel a[n] (figure 5.1a). Ainsi, la convolution avec une impulsion é
mentaire est appelée une opération d’identité par rapport à la convolution, car n’importe que
fonction convolvée avec élém[n] laisse cette fonction inchangée.
et retardées
Deux autres cas simples de la convolution nous en disent assez pour prédire ce qui va arriver a
niveau de l’échantillon avec n’importe quelle convolution. Si nous échelonnons élém [n] par un
constante c, l’opération peut être écrite comme suit :
sortie [ n ] = a [ n ] ∗ ( c × élém [ n ] )
Le résultat est simplement :
sortie [ n ] = ( c × a [ n ] )
En d’autres termes, nous obtenons l’identité de a, échelonnée par la constante c (figure 5.1b).
Si nous convolvons le signal a avec une impulsion élémentaire qui a été déplacée dans le temps d
t échantillons, l’impulsion apparaît à l’échantillon n – t, au lieu d’apparaître à n = 0. Ceci peut êtr
exprimé de la façon suivante :
sortie [ n ] = a [ n ] ∗ élém [ n – t ]
dont le résultat est :
sortie [ n ] = a [ n – t ]
C’est-à-dire que la sortie est identique à a sauf qu’il est déplacé dans le temps de la différence entr
n et t (figure 5.1c).
En mettant ensemble ces deux faits, on peut considérer n’importe quelle fonction échantillonné
comme étant une séquence de fonctions d’impulsions élémentaires échelonnées et retardées. Pa
exemple, la convolution d’un signal a contenant deux impulsions séparées par une grande distanc
avec n’importe quelle fonction b donne pour résultat deux apparitions de b, échelonnées et reta
dées par les impulsions de a (figure 5.2a). La convolution peut ainsi créer des effets d’écho. Lor
que les impulsions de a sont proches, les répétitions échelonnées de b se superposent (figure 5.2b

(a)
© Dunod. Toute reproduction non autorisée est un délit.

∗ ⇒

(b)

∗ ⇒

Figure 5.2 – Effets temporels de la convolution.


(a) La convolution avec deux impulsions très espacées produit un effet d’écho.
(b) La convolution avec deux impulsions proches produit un effet de brouillage temporel.
taines d’impulsions par seconde) et distribué aléatoirement, il prend un caractère réverbérant.
Ainsi, convolver une séquence d’entrée a[n] avec une fonction arbitraire b[n], place une copie
b[n] à chaque point de a[n], échelonnée par la valeur de a[n] à ce point. La convolution de a e
est la somme de ces fonctions échelonnées et retardées (figure 5.3).

Réponse impulsionnelle a
0.5 0 1.0 0.5

Copies de b échelonnées
et retardées
Mise à b4 × 0.5 0.5 0.37 0.25 0.12
l’échelle
et retard b3 × 1.0 1.0 0.75 0.5 0.25

b2 × 0 0 0 0 0

b1 × 0.5 0.5 0.37 0.25 0.12

Copies
0.5 0.37 1.25 1.37 0.87 0.5 0.12
de somme
Convolution a ∗ b

Figure 5.3 – La convolution directe de deux signaux a et b,


de quatre échantillons de longueur, signifie que chaque échantillon de a échelonne une copie retard
de b. La séquence de convolution c est la somme de ces copies de b échelonnées et retardées. L
longueur de la séquence est de sept échantillons.

5.3 Définition mathématique de la convolution


Une définition mathématique de la convolution de deux séquences finies d’échantillons est la suivant
N–1
a [ n ] ∗ b [ n ] = sortie [ k ] = ∑ a [n] × b [k – n]
0=n

où N est la longueur de la séquence a en échantillons et k parcourant la longueur entière de b. Chaq


échantillon de a[n] sert de fonction de pondération pour une copie retardée de b[n]. Ces copi
pondérées et retardées sont toutes additionnées. La méthode classique pour calculer cette équati
est d’évaluer la somme pour chaque valeur de k. Cette méthode est appelée convolution directe. A
point médian de la convolution, n copies sont additionnées, et donc le résultat de cette méthode
convolution est en général rééchelonné (normalisé) ensuite.
La longueur d’une séquence de sortie générée par convolution directe est la suivante :
longueur (sortie) = longueur (a) + longueur (b) – 1
Dans un cas typique de filtrages, a est une IR courte comparée à la longueur du signal b. Par exemp
pour un filtre de lissage large, l’IR dure moins d’une milliseconde.
La convolution implique de la multiplication, mais la convolution de deux signaux est différente d
la multiplication de deux signaux. La multiplication d’un signal a par un autre signal b signifie qu
chaque échantillon de a est multiplié par l’échantillon correspondant de b. Ainsi :
sortie [ 1 ] = a [ 1 ] × b [ 1 ] ,
sortie [ 2 ] = a [ 2 ] × b [ 2 ] ,
etc.
La convolution, au contraire, signifie que chaque échantillon de a est multiplié par tous les échan
tillons de b, créant ainsi une rangée d’échantillons de longueur b pour chaque échantillon de a. L
convolution est la somme de ces rangées. Comparez la convolution avec une impulsion élémentair
et la multiplication avec une impulsion élémentaire. Contrairement à la convolution, la multiplicatio
de a[n] avec l’impulsion élémentaire élém[n] a comme résultat que toutes les valeurs de sortie[n
sont égales à zéro, sauf pour sortie[0], où élém[n] est égal à 1.

5.5 La loi de la convolution


Une affirmation souvent exprimée dans le traitement du signal dit que la convolution de deux forme
d’onde est équivalente à la multiplication de leur spectre. L’inverse est également vrai. C’est-à-dir
que la multiplication de deux formes d’onde est l’équivalent de la convolution de leur spectre. Un
autre expression de loi peut être exprimée de la façon suivante :
La convolution dans le domaine temporel est équivalente à la multiplication dans le domaine fr
quentiel, et vice-versa.
La loi de la convolution a des implications très profondes. En particulier, la convolution de deu
signaux audio est équivalente au filtrage du spectre de l’un d’eux par le spectre de l’autre. Inverse
ment, la multiplication de deux signaux audio (c’est-à-dire effectuer une modulation d’amplitude o
une modulation en anneau ; voir le chapitre 25) est équivalente à la multiplication de leurs spectre
La convolution de spectres signifie que chaque point du spectre de fréquence discret de a est con
volvé avec chaque point du spectre de b. La convolution ne distingue pas si les séquences d’entré
représentent des échantillons ou des spectres. Pour l’algorithme de convolution, ils ne sont tous le
© Dunod. Toute reproduction non autorisée est un délit.

deux que des séquences discrètes.


La loi de convolution signifie que chaque fois que l’on remodèle l’enveloppe d’un son, on convolv
le spectre de l’enveloppe avec le spectre du son remodelé. En d’autres termes, toute transformatio
dans le domaine temporel a pour résultat une transformation correspondante dans le domaine fré
quentiel, et vice-versa.

5.6 Relation entre convolution et filtrage


La convolution est directement liée au filtrage. Rappelez-vous l’équation d’un filtre FIR général :
y [n] = (a × x [n]) ± (b × x [n – 1]) ± …(i × x [n – j])
Nous pouvons concevoir les coefficients a, b, … i comme des éléments d’une rangée h(i), où chaqu
élément est multiplié fois l’élément correspondant dans la rangée x[j]. En gardant cela à l’espri
l’équation générale d’un filtre FIR présenté auparavant peut être exprimée comme une convolution
y [n] = ∑ h [m] × x [n – m]
m=0
où N est la longueur de la séquence h en échantillons et n parcourant la longueur entière de
Remarquez que le coefficient h joue le rôle de réponse impulsionnelle dans l’équation de convol
tion. Et en fait, la réponse impulsionnelle de tout filtre FIR peut être prise directement à partir
la valeur de ses coefficients. Ainsi, tout filtre FIR peut être exprimé sous forme de convolution,
vice-versa.
Comme un filtre FIR convolve également, il est raisonnable de se demander s’il existe une relati
directe entre ses coefficients et sa réponse impulsionnelle. En un mot, la réponse est non. Il exis
cependant des techniques mathématiques concevant un filtre FIR qui fait une approximati
d’une réponse impulsionnelle donnée. Voir Rabiner et Gold (1975, p. 265).

5.7 Convolution rapide


La convolution directe est connue pour être très gourmande en calcul, nécessitant de l’ordre de
opérations, où N est la longueur de la plus longue séquence d’entrée. La convolution directe est ain
rarement utilisée pour implémenter des filtres ou des réverbérateurs à bande étroite (qui ont to
les deux des réponses impulsionnelles longues) lorsque des méthodes plus simples existent. Voir u
présentation de la réverbération par convolution au chapitre 8.
De nombreuses applications pratiques de la convolution utilisent une méthode appelée convoluti
rapide (Stockham, 1969). La convolution rapide pour de longues séquences tire avantage du fait q
le produit de deux transformées de Fourier discrètes à N points (DFT — discrete Fourier transform
est équivalent à la DFT de la convolution de deux séquences à N points. Comme la DFT peut calcu
très rapidement en utilisant l’algorithme de transformée de Fourier rapide (FFT — fast Four
transform), cela conduit à une accélération énorme de la convolution. Le chapitre 11 présente
DFT et la FFT. Avant que la FFT soit effectuée, les deux séquences sont allongées en ajoutant d
zéros jusqu’à ce qu’elles soient égales à la longueur de sortie de la convolution. Ce processus e
appelé remplissage de zéro et est également présenté au chapitre 11. Les résultats de la convoluti
peuvent être resynthétisés en appliquant une FFT inverse. La figure 5.4 montre le schéma global
la convolution rapide.
Ceci signifie que l’on peut remplacer la convolution directe par des FFT, qui sont de façon spect
culaire plus rapides pour de grandes valeurs de N. En particulier, la convolution rapide deman
de l’ordre de N × log2 (N) opérations. Pour citer un exemple, considérez la convolution directe
deux sons de deux secondes échantillonnés à 48 kHz. Elle nécessitera de l’ordre 96 0002
9 216 000 000 opérations. Une convolution rapide des deux mêmes sons nécessite moins
1 500 000 opérations, soit une accélération par un facteur de 6 100. Pour exprimer cela autremen
on peut dire qu’une convolution rapide demandant une seconde de calcul sur un microprocesse
donné demanderait 101 minutes pour un calcul avec une convolution directe.
Pour les applications en temps réel où des sorties plus ou moins immédiates sont nécessaires, il e
également possible d’implémenter la convolution sectionnée, c’est-à-dire ne traitant que quelqu
échantillons à la fois. Les convolutions sectionnées et non sectionnées génèrent des résultats équ
valents. Voir Rabiner et Gold (1975) et Kunt (1981) pour une explication des techniques standar
de la convolution sectionnée. Rabiner et Gold présentent également l’implémentation d’un convolve
en temps réel.
Remplissage Remplissage
de zéro de zéro

FFT FFT

IFFT

Signal convolvé
A *B

Figure 5.4 – Schéma de la convolution rapide.

5.8 Signification musicale de la convolution


Différentes transformations sonores peuvent être assimilées à des convolutions, dont le filtrage, le
effets temporels et la modulation, que nous présentons dans les trois prochaines parties.
5.8.1 Le filtrage comme convolution
© Dunod. Toute reproduction non autorisée est un délit.

Le filtrage est un bon exemple de multiplication des spectres, car l’on peut implémenter n’impor
quel filtre en convolvant un signal d’entrée avec la réponse impulsionnelle du filtre désiré. Mais
convolution s’étend au-delà de ce qui sépare le filtrage simple de la synthèse croisée — le filtrage d’u
son par un autre. Appelons deux sources a et b et leurs spectres analysés correspondants spectre_a
spectre_b. Si nous multiplions chaque point de spectre_a avec chaque point correspondant d
spectre_b, puis que nous resynthétisons le spectre résultant, nous obtenons une forme d’onde dan
le domaine temporel qui est la convolution de a avec b. Par exemple, la convolution de deux sons d
saxophone, chacun ayant une attaque douce, mélange leurs hauteurs, sonnant comme si les deux son
avaient été joués simultanément. Contrairement au simple mélange, cependant, l’effet de filtrag
de la convolution accentue les résonances métalliques présentes dans les deux sons. Un autre effe
subtil dans ce cas, mais pas dans d’autres, est le brouillage temporel, que nous présentons plus loin
La convolution introduit également des effets dans le domaine temporel tels que l’écho, le brouilla
temporel et la réverbération (Dolson et Boulanger, 1985 ; Roads, 1993a). Ces effets peuvent êt
subtils ou évidents, selon la nature des signaux convolvés.
Une impulsion élémentaire dans une des entrées de la convolution donne comme résultat u
copie de l’autre signal. Ainsi, si nous convolvons n’importe quel son avec une IR constituée de de
impulsions élémentaires espacées de 500 ms, le résultat est un écho clair du premier signal.
L’IR d’une salle peut contenir de nombreuses impulsions, correspondantes aux réflexions sur l
diverses parois de la salle — son modèle d’écho. Lorsqu’une telle IR est convolvée avec un son arb
traire, le résultat est comme si le son avait été joué dans la salle, car celui-ci a été relié au modè
d’écho de la pièce.
Si les pics de l’IR sont cependant proches, les répétitions sont brouillées dans le temps (reporte
vous à la figure 5.2b). Le brouillage temporel atténue les transitoires raides et trouble le temps
départ précis des événements. La figure 5.5 montre comment la convolution d’un son de cloche av
lui-même provoquera une version brouillée temporellement.
La combinaison du brouillage temporel et de l’écho explique pourquoi les signaux bruiteux, q
contiennent des milliers de pics raides, créent des effets de réverbération lorsqu’ils sont convolvé
Si l’enveloppe d’amplitude d’un signal bruiteux possède une attaque raide et une chute exponentiel
le résultat de la convolution sera une sorte d’enveloppe de réverbération naturaliste. Pour color
cette réverbération, on peut filtrer le bruit avant ou après de le convolver. Si le bruit possède une chu

(a)

Amp.

Temps

(b)

Amp.

Temps

Figure 5.5 – Exemple de brouillage temporel.


(a) Source originelle, une frappe de cloche avec une attaque très raide. (b) Résultat de la convolutio
de la cloche avec elle-même. Remarquez le brouillage temporel dans l’attaque.
de la chute.
5.8.3 La modulation comme convolution
Les modulations d’amplitude et en anneau (voir le chapitre 25) utilisent toutes deux la multiplicatio
de formes d’onde dans le domaine temporel. La loi de la convolution établit que la multiplicatio
de deux formes d’onde convolve leurs spectres. La convolution prend en compte les bandes latérale
qui résultent de ces multiplications. Considérez les exemples de la figure 5.2, et imaginez qu’au lie
d’impulsions dans le domaine temporel, la convolution travaille sur des lignes dans le domaine fré
quentiel. Les mêmes règles s’appliquent — avec la différence importante que l’arithmétique de
nombres complexes s’applique. La FFT, par exemple, génère un nombre complexe pour chaque com
posant spectral. Le point principal ici est que cette représentation est symétrique autour de 0 H
avec une réplique exacte de chaque composant spectral (d’amplitude divisée par deux) dans
domaine fréquentiel négatif. Ce spectre négatif est rarement tracé, puisqu’il n’est significatif qu
l’intérieur de la FFT.

(a)
-100 100

Amp.

0
Fréquence

(b)
-1000 1000

Amp.

0
© Dunod. Toute reproduction non autorisée est un délit.

Fréquence
(c)

-1100 -900 900 1100


Amp.

0
Fréquence

Figure 5.6 – La modulation en anneau comme convolution.


Ces images montrent la représentation des spectres à l’intérieur de la FFT, où une représentatio
symétrique s’applique. (a) Sinusoïde à 100 Hz. (b) Sinusoïde à 1 kHz. (c) Convolution de (a) et (b)
modulation en anneau (voir le chapitre 25). La figure 5.6a montre le spectre émis par une FFT po
une seule sinusoïde à 100 Hz. La figure 5.6b montre une sinusoïde à 1 kHz. La figure 5.6c mont
leur convolution. Les deux impulsions à –100 et +100 sont retardées et échelonnées à la régi
autour de 1 et –1 kHz. Les fréquences de 900 et 1 100 Hz représentent les fréquences de somme
de différence des deux signaux d’entrée, ce qui est typique de la modulation en anneau.

5.9 Convolution avec des grains et des pulsars


Une classe unique de transformations sonores met en jeu des convolutions de sons avec des nuag
de grains sonores. Voir la description de la synthèse granulaire asynchrone présentée au chapitre 2
Dans cette application, les grains ne sont pas entendus en eux-mêmes ; ils peuvent plutôt être conç
comme la « réponse impulsionnelle virtuelle » d’un filtre inhabituel ou d’un espace synthétiq
(Roads, 1992b).

(a)

(b)

(c)

Figure 5.7 – Convolution avec des grains.


(a) Nuage épars de grains brefs durant chacun 0,5 ms. (b) Frappe de tambourin. (c) La convolutio
de (a) et (b) donne pour résultat de nombreuses frappes de tambourin, correspondant au compo
tement temporel du nuage. Remarquez le déplacement momentané vers l’énergie négative en raiso
du second grain de (a).
nuage granulaire et du signal d’entrée. Pour un signal d’entrée ayant une attaque raide, la convolutio
avec un nuage épars contenant quelques douzaines de grains courts crée une distribution statistiqu
d’échos du signal d’entrée (figure 5.7). Plus le nuage est dense, plus les échos fusionnent en un eff
de réverbération irrégulier. Les grains plus longs accentuent le brouillage temporel et arrondissen
les attaques raides. Lorsque le signal d’entrée possède une attaque douce — comme un son legat
de saxophone —, le résultat est comme un effet de filtrage variant dans le temps sur le son, eff
qui dépend du spectre de la forme d’onde à l’intérieur des grains. Voir Roads (1993a) pour plus d
détails sur cette technique.
Une autre classe de sons synthétisés provient de la convolution de sons échantillonnés avec de
trains d’impulsions variables de formes d’onde appelées pulsars. Les trains pulsar se situent dan
le continuum entre les infrasons et les fréquences audio, ce qui permet à la fois des effets rythmique
ou timbraux. Voir le chapitre 23 et Roads (1994) pour plus de détails sur cette technique.

5.10 Comparaison de la convolution linéaire


et de la convolution circulaire
La convolution directe est une convolution linéaire. Comme nous l’avons mentionné plus hau
la convolution directe allonge ses entrées comme suit :
longueur (sortie) = longueur (a) + longueur (b) – 1
Pour un signal d’entrée donné a de 1 024 échantillons de long et une réponse impulsionnelle b d
512 échantillons de long, la longueur de sortie de la convolution directe sera
longueur (a) + longueur (b) – 1 = 1 535 échantillons
Ceci en raison du fait que tous les échantillons de a convolvent tous les échantillons de b, y compr
le 1 024e élément de a, qui est la réponse impulsionnelle à laquelle on a ajouté 511 échantillons.
La convolution circulaire est une anomalie qui apparaît lorsque la convolution est implémentée ave
une FFT. Chaque FFT prend N échantillons comme entrée (où N est la plus longue des deux séquence
d’entrée). La convolution rapide émet N échantillons comme sortie. Qu’est-il arrivé à l’extensio
qui apparaît avec la convolution linéaire ?
Dans la convolution rapide, les points d’extension sont « réenroulés » au début de la série d
© Dunod. Toute reproduction non autorisée est un délit.

1 024 points, comme s’il s’agissait d’une liste circulaire dont la fin était raccordée au début. Le résult
de cela est que le début et la fin de la convolution contiennent des données invalides. Heureusemen
il est facile d’éviter la distorsion de la convolution circulaire en spécifiant des tailles de fenêtre d
FFT supérieures ou égales à la longueur de la séquence de sortie prévue. Voir le chapitre 11 pou
une présentation des tailles de fenêtre. Ceci peut être effectué en réglant la taille de la fenêtre FF
sur la plus proche puissance de deux supérieure aux N échantillons de la plus longue séquenc
d’entrée. Les points d’échantillonnage additionnels sont remplis de zéro.

5.11 Déconvolution
Malheureusement, dès que deux signaux sont convolvés, il n’existe pas de méthode connue pour le
séparer ou les déconvolver parfaitement. En supposant que l’on connaisse le spectre de l’un de
signaux, on peut filtrer le signal convolvé pour supprimer ce spectre, mais d’autres artefacts de
convolution dus au barbouillage temporel (tels qu’échos et transformations d’enveloppes) resteront
lution ont effectué une séparation approximative de l’excitation (impulsions glottales) et de
résonance (formants du conduit vocal) des sons de la voix. Il s’agit de déconvolution autorégressi
ou homomorphique (Rabiner et Gold, 1975). Le chapitre 13 présente l’analyse autorégressive, q
est liée de près au codage prédictif linéaire présenté au chapitre 24. Une méthode de déconvoluti
homomorphique est la technique d’analyse cepstrale décrite au chapitre 9 (voir également Galas
Rodet, 1990).
Chapitre 6

Les effets de retard

6.1 Les effets de retard temporel fixe


Le retard temporel est une technique de traitement du signal polyvalente. Une unité de retard num
rique ou ligne à retard numérique (LRN) prend un flux d’échantillons en entrée et le stocke dans s
mémoire pendant une période brève avant de le renvoyer. Mélanger un signal retardé avec le signal no
retardé originel peut créer une grande variété d’effets, que nous décrirons dans un moment.
6.1.1 Comparaison de la LRN et des filtres passe-bas et en peigne FIR
La figure 6.1 montre un circuit de ligne à retard numérique (LRN) simple. Remarquez les similarité
entre ce circuit, le filtre passe-bas FIR simple de la figure 4.4, et le filtre en peigne FIR de la figure 4.1

Amplitude
Temps retardée
© Dunod. Toute reproduction non autorisée est un délit.

de retard du signal

D ×

Entrée × + Sortie

Amplitude
originelle
du signal

Figure 6.1 – Circuit d’une ligne à retard numérique.


Remarquez la similitude entre cette structure et celles des figures 4.4 et 4.14.
jeu. Pour un filtre passe-bas, le retard est d’un échantillon, donc le circuit a comme effet de faire
moyenne des échantillons successifs. Pour un filtre en peigne, les temps de retards effectifs se situe
entre 0,1 et 1 ms. Pour une LRN, les retards sont supérieurs à 1 ms.

6.1.2 Implémentation d’une ligne à retard


À l’intérieur d’un processeur de signal, une structure de données appelée queue circulaire représen
une méthode efficace d’implémentation de ligne à retard (figure 6.2). Une telle queue est simp
ment une liste de positions de mémoire séquentielle contenant des échantillons audio. À chaq
période d’échantillonnage, le programme de retard lit l’échantillon le plus ancien et le remplace

8 1

7 2
N

A
6 3

5 4

8 1

7 2

N
6 3
A

5 4

Figure 6.2 – Opération d’une queue circulaire pour implémenter une ligne à retard.
N est l’échantillon le plus récent dans la queue, tandis qu’A est le plus ancien. (a) « Avant ». Pointeu
dans la queue circulaire au temps t. (b) « Après ». Pointeurs dans la queue au temps t + 1, indiqua
que l’espace occupé par l’échantillon le plus ancien au temps t a été lu et remplacé par un nouv
échantillon entrant.
ensuite à la position suivante dans la queue, qui contient maintenant à son tour l’échantillon le plu
ancien. Lorsque le pointeur atteint la « fin » de la queue, il « se retourne » jusqu’à la « première
position, d’où le terme de circulaire.
Pour l’instant, nous avons décrit un retard ayant une durée fixe, proportionnelle à la longueur de
queue. Ce retard possède un pointeur de lecture — ou bascule dans le langage du traitement d
signal, et la bascule précède toujours une écriture à la même position. En permettant au pointeu
de lecture de basculer n’importe quel point de la queue, nous pouvons implémenter des retards qu
sont plus courts que la longueur de la queue, y compris des retards changeants dans le temp
Ces possibilités conduisent aux effets de retard temporel variable décrits plus loin.
De façon logique, une ligne à retard multibascules possède plus d’une bascule. La figure 6.3 montr
une ligne à retard multibascules implémentée sous forme de queue circulaire. À chaque périod
d’échantillonnage, un nouvel échantillon est écrit dans la queue à la position N. Simultanément, deu
échantillons sont lus aux positions Bascule1 (retard d’un échantillon) et Bascule2 (retard de tro
échantillons). Puis tous les pointeurs sont incrémentés à la position suivante pour se préparer à
période d’échantillonnage suivante.

8 1

Bascule 1
7
Bascule 2
2

N
6
3
A

5 4
© Dunod. Toute reproduction non autorisée est un délit.

Figure 6.3 – Une ligne à retard à deux bascules implémentée dans une queue circulaire.
Les deux bascules de lecture, Bascule1 et Bascule2, circulent autour de la queue en compagnie de
pointeurs A (ancien) et N (nouveau). Les échantillons entrants sont écrits à la position occupée pa
N à chaque période d’échantillonnage.

6.1.3 Effets de retard fixe


Par esprit de simplicité, il est souvent pratique de faire la distinction entre effets de retard fixe
variable. Dans une unité de retard fixe, le temps de retard ne change pas lorsque le son passe. Dan
une unité de retard variable, le temps de retard change constamment ; ceci est implémenté en varian
les points de bascule à chaque période d’échantillonnage. Nous nous attachons ici au cas du retar
fixe ; la prochaine partie traitera du cas du retard variable.
Les retards audio fixes peuvent être groupés en trois catégories d’étendues temporelles, selon le
différents effets perceptuels qu’ils créent :
• moyen (de 10 à 50 ms environ) ;
• long (supérieur à environ 50 ms).
Les retards courts sont perceptibles tout d’abord par les anomalies dans le domaine fréquentiel qu’
introduisent. Par exemple, un retard d’un à plusieurs échantillons, mélangé avec le signal origin
est l’équivalent d’un filtre passe-bas FIR. Lorsque le retard devient supérieur au domaine [0,1 m
10 ms], des effets de filtrage en peigne apparaissent.
Les retards moyens peuvent rehausser un signal « mince ». Par exemple, les retards moyens so
beaucoup utilisés en musique de variétés pour relever les pistes de voix, de batterie et de synthétiseu
Un retard moyen crée une « ambiance » autour du signal, donnant l’illusion d’une sonie accentu
sans accentuation correspondante de l’amplitude mesurée. La « sonie » est un terme décrivant u
sensation de force sonore tandis qu’« amplitude » décrit une mesure physique. Un retard entre
et 50 ms « fusionne » avec le son originel pour créer un effet de « doublage ». L’effet de doublage pe
être rehaussé en appliquant au signal des déplacements de hauteur subtils variants dans le tem
et des retards, avant de le mélanger au signal originel.
Les retards longs (supérieurs à 50 ms) créent des échos discrets — des sons entendus comme d
répétitions du son originel. Dans la nature, les échos apparaissent lorsque les ondes sonores
déplacent en partant de leur source, frappent une surface réfléchissante, puis retournent à l’audite
suffisamment tard pour qu’elles puissent être entendues comme une répétition discrète. Comm
le son se déplace à environ 334 m par seconde dans l’air à 20 °C, un retard d’une milliseconde co
respondant à un trajet total du son de la source jusqu’à l’auditeur d’environ 30 cm. Créer un éc
discret nécessite un retard temporel d’au moins 50 ms. Ceci implique une distance d’environ 16
de distance totale de la source jusqu’à la surface réflective puis jusqu’à l’auditeur (figure 6.4).

Réflexion
d’écho

Source Direct
Auditeur
sonore

Réflexion
d’écho

Figure 6.4 – Effet d’écho causé par le mélange de son direct et de son reflété.
La localisation fait référence à la capacité de l’oreille de détecter la position d’une source sonor
Les retards constituent une des clés de la localisation dans un système sonore multicanal. Pou
donner un exemple, si le son est envoyé à amplitude égale à deux enceintes et que l’auditeur s’asso
au milieu de la zone d’écoute, « l’image sonore » se concentre au centre de la scène d’audition. Si u
court retard temporel (0,2 à 10 ms) est appliqué au son provenant de l’enceinte de droite, la sourc
apparente du son se déplace vers l’enceinte gauche (Blauert, 1983). Ceci montre que nos oreilles util
sent le retard comme clé pour la localisation. Utilisés judicieusement, des échos multiples peuven
créer l’illusion d’un son émanant d’un espace spécifique. Le chapitre 7 couvre en détail le sujet d
la spatialisation.

6.2 Les effets de retard temporel variable


Les effets de retard temporel variable sont obtenus avec des lignes à retard dont les temps d
retard varient lorsque le signal passe. Deux de ces effets les plus connus sont le flanger et le pha
sing (ou déphasage), qui sont devenus communs dans la musique populaire des années 1960
1970. Les techniques sont similaires, mais offrent des effets possibles différents.

6.2.1 Le flanger
L’effet de flanger électronique provient d’un phénomène acoustique naturel qui apparaît lorsqu’u
bruit de large bande est entendu dans un mélange de son direct et de son retardé. Bilsen et Ritsm
(1969) donnent un historique de cet effet, en commençant avec sa découverte par Christian Huygen
en 1693. Le guitariste et pionnier de l’enregistrement Les Paul fut le premier à utiliser le flange
comme effet sonore dans un studio d’enregistrement. Son système de flanger de 1945 utilisait deu
enregistreurs à disque, dont un était équipé d’un contrôle variable de la vitesse (Bode, 1984). Dan
les années 1960, le flanger était obtenu en studio grâce à deux enregistreurs à bande analogiques
une console de mélange. Les enregistreurs à bande étaient alimentés avec le même signal. L’ingénieu
écoutait les sorties combinées, tout en pressant occasionnellement sur le rebord (flange) de l’un
des bobines pour la ralentir (figure 6.5). Deux enregistreurs étaient nécessaires afin de synchron
ser le retard global introduit par l’écoute à partir de la tête de lecture de l’enregistreur ralenti. À un
vitesse de bande de 38 cm/s, la distance entre les têtes de lecture et d’enregistrement d’un enregis
treur à bande analogique typique introduit un retard fixe d’environ 35 ms. Le retard précis dépen
© Dunod. Toute reproduction non autorisée est un délit.

de la configuration des têtes d’enregistrement et de lecture. Ainsi, on pourrait également subst


tuer une ligne à retard fixe à l’enregistreur à bande de gauche dans la figure 6.5.
Le principe général du flanger est le suivant :
flanger = signal + signal retardé
où le temps de retard change constamment.
Le flanger électronique utilise une ligne à retard variant de façon continue pour arriver au mêm
effet (Factor et Katz, 1972). Pour remplacer la pression manuelle effectuée sur la bobine de band
le temps de retard d’un flanger électronique est varié par un oscillateur basse fréquence (émettan
en général une sinusoïde ou une onde triangulaire) opérant dans le domaine situé entre 0,1 et 20 H
Le flanger peut également être appelé effet de filtrage en peigne balayant. Dans le flanger, plusieur
creux sont balayés de haut en bas dans le spectre. Les pics du filtre sont placés aux fréquences mu
tiples de 1/D, où D est le temps de retard. La profondeur du flanger est au maximum si les amplitude
du signal originel et du signal retardé sont égales.
Enregistrement

Enregistrement

Lecture Lecture
avec retard variable

Mélangeur

Signal audio avec effet de flanging

Figure 6.5 – Flanger de bande utilisant deux magnétophones à bande analogiques.


La vitesse de lecture du second magnétophone varie lorsque l’opérateur applique une pression d
doigt sur le rebord (flange) de la bobine.

Quantité Fréquence
de variation de variation

LFO

Temps de retard « central »

+
Variation
du temps
de retard

D
Trajet
de réintroduction

Entrée +
du retard
+ Sortie

Trajet du signal originel

Figure 6.6 – Circuit de flanger avec réinjection,


mélangeant un signal retardé et un signal d’origine. Un oscillateur basse fréquence (LFO) fourn
la variation de temps de retard autour d’un temps de retard « central ». Le circuit pourrait êt
encore amélioré en insérant des multiplicateurs dans le trajet de réinjection du retard et dans
trajet du signal d’origine, afin de pouvoir ajuster le rapport entre les deux signaux ou inverser
phase de la réinjection.
ayant un retard variant dans le temps. En pratique, les implémentations les plus modernes du flan
ger utilisent une structure en peigne IIR ou à réinsertion récursive ayant un retard variant dans
temps, comme montré à la figure 6.6. On peut en général commuter entre une réinsertion positiv
et une réinsertion négative, pour comparer laquelle est la plus efficace pour une application du flange
sur un son particulier.

6.2.2 Le phasing
Le phasing a le même effet que le flanger, mais le son « brassé » produit par le filtre en peigne balayan
est en général moins prononcé. Dans le phasing, un signal spectralement riche est envoyé à traver
une série de filtres passe-tout (Hartman, 1978 ; Beigel, 1979 ; Smith, 1984). Les filtres passe-tou
possèdent une courbe de réponse plate (c’est-à-dire qu’ils n’atténuent aucune fréquence), ma
déphasent le signal originel. Un oscillateur basse fréquence peut être utilisé pour balayer la quanti
de déphasage introduite par chaque filtre passe-tout. Les sorties des filtres sont mélangées à gain ég
avec le signal originel. Comme dans le flanger, il en résulte une sorte d’effet de filtrage en peign
balayant.
Quelle est la différence entre flanger et phasing ? Le flanger crée des pics et des creux complets dan
le spectre, et ceux-ci sont espacés à des intervalles uniformes en fréquence. Au contraire, le nombr
de pics et de creux dans la réponse du déphaseur correspond au nombre d’étapes de filtrage. L’espa
cement, la profondeur et la largeur peuvent être modifiés.
Le phasing conduit à une grande variété d’effets sonores. Chamberlin (1985) donne un exemple d
quatre filtres passe-tout en série ayant la même fréquence de renversement et une largeur de tran
sition large. Une sinusoïde de 1 kHz est envoyée dans ces filtres. Si la fréquence de renversemen
est balayée de 10 à 100 Hz, le son subit un déphasage en accroissement constant. Ceci a pour effe
d’abaisser momentanément la fréquence de la sinusoïde. Si le balayage de renversement est invers
la sinusoïde s’élèvera momentanément en fréquence. Si la sinusoïde est remplacée par un sign
contenant de nombreux harmoniques, les déplacements temporaires de fréquence créent un
« ondulation » audible dans les harmoniques au moment où la fréquence de renversement chang

6.2.3 Les effets chorus


La recherche des effets chorus a longtemps fasciné les musiciens et les ingénieurs du son. Pour u
instrument ayant une voix (qui peut être un timbre électronique), existe-t-il une façon de traiter c
© Dunod. Toute reproduction non autorisée est un délit.

signal pour qu’il devienne aussi plein qu’un chœur de voix semblables ? Un tel effet nécessite qu’
y ait de petites différences entre les différentes voix de l’ensemble simulé, y compris de petits retard
des altérations de la fréquence fondamentale (ce qui crée des effets de battement), et un vibrat
asynchrone. Il n’existe pas d’algorithme universel de l’effet chorus ; les différentes implémentation
utilisent diverses méthodes pour y arriver.
Les efforts pour construire des générateurs d’effets chorus remontent aux années 1940, lorsque Joh
Hanert construisit des lignes à retard électromécaniques pour la musique électronique (Haner
1944, 1945, 1946). Elles étaient construites dans les orgues Hammond pour obtenir un effet de so
choral (Bode, 1984). Dans les années 1950, W.C. Wayne, Jr. avait construit un modulateur de so
choral purement électronique pour l’orgue électrique Baldwin (Wayne, 1961).
Dans les systèmes numériques, un type d’effet chorus peut être réalisé en envoyant un son à trave
une ligne à retard multibascule, où les temps de retard varient constamment sur une grande échell
Cette variation introduit un faussage de hauteur et des effets de doublage variants dans le temp
le flanger soient en général plus courts que ceux utilisés pour l’effet chorus.
Ces types de techniques peuvent être enrichis en utilisant de la réinsertion négative (renvoyer u
version en inversion de phase du signal retardé), comme dans le flanger. Ceci signifie inverser
phase le trajet de réinsertion du flanger de la figure 6.6. Une réinsertion négative, plutôt que positiv
minimise le risque de résonances et de dépassement du système.
Une autre technique d’effet chorus sépare le signal d’entrée en plusieurs bandes de largeurs d’u
octave et applique à chacune un déplacement de spectre ou de fréquence. Le déplaceur de fréquen
peut être conçu comme si l’on ajoutait une constante à la fréquence de chaque composant du spect
Avec un déplacement de fréquence de 10 Hz, 220 Hz deviennent 230, 440 Hz deviennent 450, 880 H
deviennent 890, et ainsi de suite. Il est clair que le déplaceur de fréquence détruit les relations ha
moniques entre les composants. Après le déplaceur de fréquence se trouve une ligne à retard varia
dans le temps. Selon Chamberlin (1985), ce type de conception est meilleur pour simuler les effe
de grands ensembles.
En utilisant plusieurs filtres passe-tout en parallèle, un type d’effet chorus peut être atteint en pilota
les fréquences de renversement du filtre grâce à des signaux de basse fréquence quasi aléatoir
(Chamberlin, 1985).

6.3 Changement temps/hauteur


Certaines transformations sonores sont des combinaisons de manipulations temporelles et fréque
tielles. Ceci inclut une paire de techniques proches appelées compression/expansion temporelle
pitch-shifting (« transposition de hauteur »). Comme ces techniques sont en général utilisé
ensemble, cette partie les réunit sous le terme de changement temps/hauteur. Cette technique possè
deux facettes. D’un côté, la durée d’un son peut être allongée ou raccourcie tout en conservant l
hauteurs. D’un autre côté, la hauteur d’un son peut être déplacée vers le haut ou vers le bas tout
gardant la durée constante.
Le changement temps/hauteur le plus efficace apparaît lorsque celui-ci est appliqué de façon séle
tive, dépendante du contexte. Afin de préserver l’identité d’un son originel, il est important de pr
server la structure fine des attaques et des autres transitoires, en ne traitant que les parties fixes
signal. Pour allonger de la parole, par exemple, on peut améliorer l’intelligibilité et le « naturel »
allongeant davantage les voyelles que les consonnes.
Le changement temps/hauteur peut être réalisé à divers degrés de succès, grâce à plusieurs méthode
les techniques temporelles granulaires, les harmoniseurs en temps réel, le vocodeur de phase, l
ondelettes, et le codage prédictif linéaire. Le reste de cette partie fait un résumé de chacune d’ent
elles. Pour éviter une certaine redondance avec d’autres parties de ce livre, la présentation de chaq
méthode présentée ici est nécessairement brève.
6.3.1 Changement temps/hauteur par granulation temporelle
La granulation temporelle implique la segmentation d’un flux d’échantillons sonores en unités
courtes durées appelées grains. Ceci est équivalent au processus de fenêtrage qui apparaît dans
nombreux algorithmes d’analyse du son (voir le chapitre 11). Les grains peuvent être simpleme
des segments coupés à des intervalles successifs espacés régulièrement et enveloppés pour que le
somme reconstitue la forme d’onde originelle. En granulation temporelle, la durée de chaque gra
peut varier de 1 ms à plus de 200 ms. Le chapitre 22 décrit les représentations granulaires plus
détail.
Le physicien britannique Dennis Gabor (1946) construisit l’un des premiers changeurs temps/hauteu
électromécaniques. Une compagnie allemande, Springer, construisit un outil semblable basé su
une bande magnétique, et utilisé dans les studios de musique électronique analogique (Springe
1955 ; Morawaska-Büngler, 1988). Cet outil, appelé le Tempophon, traitait les sons parlés dans
pièce de musique électronique de 1963 de Herbert Eimert Epitaph für Aikichi Kuboyama (disqu
Wergo 60014). Voir également Fairbanks, Everitt et Jaeger (1954) pour une description d’un out
similaire. Le principe de base de ces machines est la granulation temporelle de sons enregistré
Les méthodes numériques contemporaines peuvent être expliquées en faisant référence à l’opératio
de ces outils précurseurs.
Dans un changeur temps/hauteur électromécanique, une tête rotative (tête d’échantillonnage
tournoie le long d’un enregistrement (sur film ou sur bande) d’un son. La tête d’échantillonnag
tournoie dans la même direction que le déplacement de la bande. Comme la tête ne rentre en conta
avec la bande que pendant une courte période, l’effet est celui d’un « échantillonnage » du son su
la bande à des intervalles réguliers. Chacun de ces segments échantillonnés est un grain de son.
Dans le système de Gabor, les grains étaient rassemblés en un flux continu sur un autre enregistreu
Lorsque ce second enregistrement était relu, le résultat était un signal plus ou moins continu, ma
avec une base temporelle différente. Par exemple, la contraction du signal originelle était obtenu
en ralentissant la vitesse de rotation de la tête d’échantillonnage. Ceci signifiait que l’enregistremen
© Dunod. Toute reproduction non autorisée est un délit.

Figure 6.7 – Granulation temporelle.


(a) Compression temporelle par extraction de grains séparés. (b) Expansion temporelle par clonag
de deux copies de chaque grain. Dans les deux cas, le contenu fréquentiel local du signal est préservé
Pour l’expansion temporelle, la tête rotative tournoyait rapidement, échantillonnant plusieurs cop
(clones) du signal originel. Lorsque ces échantillons étaient relus sous forme de signal continu, l’ef
des multiples copies était d’allonger la durée de la version rééchantillonnée (figure 6.7b). Le conte
fréquentiel local du signal originel, et en particulier la hauteur, était préservé dans la version ré
chantillonnée.
Pour effectuer un changement de hauteur sans influer sur la durée d’un son, il suffit de changer
taux de lecture et d’utiliser la modification d’échelonnage temporel décrite ci-dessus pour ajust
sa durée. Par exemple, pour déplacer d’une octave vers le haut, il faut lire le son originel à vites
double puis utiliser la granulation temporelle pour doubler la durée de la version rééchantillonné
Ceci restaure la durée à la longueur originelle.

✦ Granulation temporelle numérique

La recherche pionnière effectuée à l’Experimental Music Studio de l’université de l’Illinois conduisi


une implémentation numérique de la granulation temporelle (Otis, Grossman et Cuomo, 1968
Cette implémentation simulait l’effet d’un échantillonnage par tête rotative ; elle montrait égaleme
les défauts de cette méthode dans sa forme la plus basique. Le problème principal est que les form
d’onde au début et à la fin d’un grain échantillonné peuvent ne pas correspondre en niveau avec l
grains rééchantillonnés précédents et suivants. Ceci crée un transitoire à la jonction des deux grain
un effet montré à la figure 6.8. Les granulateurs temporels électromécaniques et certaines impl
mentations numériques font ressortir des clics périodiques dans le son, dus à ces transitoires
coupure.

Clic à la jonction du grain

Figure 6.8 – Lorsque deux grains sont arbitrairement raccordés,


la fin d’un grain peut ne pas épouser correctement le début du grain suivant.
Ceci crée un transitoire (clic) au point de jonction.

Lee (1972) développa le système Lexicon Varispeech sous forme d’un compresseur/expanseur tem
porel relié à un enregistreur à cassette analogique. L’appareil de Lee comprenait un circuit électr
nique pour la vérification du niveau au point de coupure, pour réduire les clics du son. L’étude pl
récente de Jones et Parks (1988) a montré comment une reconstruction plus lisse du signal peut ê
accomplie en utilisant des enveloppes de grain à pente douce qui se superposent légèrement, ce q
crée des fondus enchaînés sans raccords apparents entre les grains.
Tout comme dans le changeur temps/hauteur électromécanique, doubler la durée d’un son signi
que chaque grain est cloné. Pour diviser la durée par deux, un grain sur deux est effacé avant rele
en clonant (pour allonger la durée) ou en effaçant (pour compresser la durée) des grains.
Pour déplacer la hauteur d’un signal échantillonné d’une octave vers le haut sans changer sa duré
le taux d’échantillonnage de lecture est doublé, et chaque grain est cloné pour restaurer la durée d
signal originel. Pour déplacer la hauteur d’une octave vers le bas sans changer la durée, le tau
d’échantillonnage de lecture est divisé par deux et un grain sur deux est effacé pour restaurer la duré
du signal originel.
Pour l’instant, nous avons décrit des opérations qui doublent ou divisent par deux la hauteur ou
temps, mais ces opérations ne sont pas limitées au facteur deux. Les échelles de fréquence et d
temps peuvent être altérées dans des rapports arbitraires en changeant le taux d’échantillonnag
avec le clonage ou l’effacement de grains dans les rapports correspondants.

6.3.2 Changement temps/hauteur avec un harmoniseur


Un harmoniseur est un outil de transposition en temps réel qui déplace la hauteur d’un signal entran
sans altérer sa durée. Basé purement sur des techniques dans le domaine temporel, l’Eventide H91
Harmonizer, construit dans le milieu des années 1970, fut le premier outil numérique de ce typ
disponible commercialement (Bode, 1984). La description suivante concerne le Publison, un pro
cesseur d’effets par échantillonnage développé en France au début des années 1980, et est adapté
d’après Bloom (1985).
La notion de base d’un harmoniseur est de charger une mémoire vive avec un signal entrant à un tau
de TEent et de lire les échantillons à un taux de TEsor. Le rapport TEent/TEsor détermine le changemen
de hauteur.
Pour maintenir un signal de sortie continu, les échantillons doivent être répétés (pour les déplace
ments de hauteur vers le haut) ou sautés (pour les déplacements de hauteur vers le bas). Comme
pointeur d’adresse de sortie dépasse constamment le pointeur d’adresse d’entrée (pour l’augmen
tation de hauteur), ou est dépassé par le pointeur d’adresse d’entrée recirculant (pour l’abaissemen
de hauteur), l’adresse de sortie doit occasionnellement se déplacer à un nouveau point de la mémoir
Afin de rendre cette « coupure » inaudible, le saut précis est calculé d’après une estimation de
périodicité (hauteur) du signal entrant. Lorsque la décision de sauter est prise, une enveloppe lis
sante de fermeture en fondu effectue une dénivellation de l’amplitude du signal précoupé jusqu
zéro, et une enveloppe correspondante d’ouverture en fondu fait une dénivellation du signal à coupe
jusqu’à l’amplitude maximale.
© Dunod. Toute reproduction non autorisée est un délit.

On peut ajouter des raffinements à ce schéma de base pour améliorer son efficacité. L’un d’entre eu
consiste à connecter un noise-gate à l’entrée du système pour que le déplacement de hauteur n
tente pas de déplacer le bruit ambiant associé au signal entrant.
La qualité sonore d’un simple harmoniseur est basé sur la nature du signal entrant et sur le rappo
de changement de hauteur qu’on lui demande d’effectuer. De petits changements de hauteur tenden
à générer des effets secondaires moins audibles. Certains appareils commerciaux produisent de
effets secondaires non désirés (tels qu’un bourdonnement à la fréquence de coupure) lorsqu’ils son
utilisés sur un matériau critique, tel que les sons vocaux.

6.3.3 Changement temps/hauteur avec le vocodeur de phase


Le vocodeur de phase (VP), expliqué en détail aux chapitres 11 et 24, applique des transformées d
Fourier rapides (FFT) à des segments courts — généralement superposés — du son entrant. Le
FFT fournissent une série de trames du spectre qui capturent l’évolution dans le domaine fréquen
tiel du son dans le temps. En se basant sur ces données, le son originel peut être resynthétisé grâc
fréquentiel analysé. La sortie de la resynthèse est en général un simulacre du signal originel.

✦ Transformations par superposition-addition


L’intérêt compositionnel du VP réside dans le fait de transformer les données d’analyse avant
resynthèse, pour produire des variations du son originel. L’une des transformations les plus répa
dues est la compression/expansion temporelle. On peut accomplir celle-ci de deux façons, selon
version du VP utilisé. Dans la version qui utilise la resynthèse par superposition-addition (expliqu
au chapitre 11), l’expansion temporelle est effectuée en déplaçant les moments de départ des tram
superposées pour les éloigner lors de la resynthèse. La compression temporelle déplace les momen
de départ pour les rapprocher. Comme l’a fait remarquer Dolson (1986), le vocodeur de phase préfè
les rapports de transposition entiers, que cela soit pour des changements de temps ou de haute
Pour des transpositions douces, le VP devrait multiplier les valeurs de phase par la constante utilis
dans le changement de base temporelle (Arfib, 1991).
La transposition de hauteur est simplement une question d’échelonnage des fréquences des com
posants de la resynthèse. Pour les signaux parlés en particulier, cependant, un facteur d’échelonna
constant change non seulement la hauteur, mais également les fréquences formantiques. Pour d
déplacements vers le haut d’une octave ou plus, ceci réduit l’intelligibilité de la parole. Ainsi, Dols
(1986) suggère une correction à l’échelonnage fréquentiel qui réimpose l’enveloppe spectrale o
ginelle au spectre fréquentiel transposé. Si le spectre originel ne s’élevait que jusqu’à 5 kHz, p
exemple, la version transposée sera également coupée à ce point, sans se soucier de savoir si les fr
quences des composants se trouvent à l’intérieur de cette enveloppe globale.

✦ Transformations avec le vocodeur de phase pisteur


Une autre technique d’altération de la base temporelle des sons analysés nécessite un vocodeur
phase pisteur ou VPP (voir chapitre 11). Le VPP convertit une série de trames spectrales en u
ensemble de fonctions d’enveloppe d’amplitude et de fréquence pour chaque composant fréquent
analysé. Ces fonctions sont en général représentées sous forme de rangées dans la mémoire
l’ordinateur. En éditant ces fonctions d’amplitude et de fréquence, on peut déplacer la hauteur

(a)

(b)

(c)

Figure 6.9 – Modification de l’échelle temporelle d’enveloppes de vocodeur de phase pisteur.


Tous les tracés montrent l’amplitude sur l’axe vertical, et le temps sur l’axe horizontal.
(a) Original. (b) Étendu dans le temps. (c) Compressé dans le temps.
et Strawn, 1985). Par exemple, pour allonger la durée, des points sont interpolés entre les poin
existants dans les rangées d’amplitude et de fréquence. Pour rétrécir la durée d’un facteur de n
seulement toutes les énièmes valeurs sont utilisées en lecture dans les rangées d’amplitude et d
fréquence. En fait, ceci modifie le taux d’échantillonnage (figure 6.9). Maher (1990) présente certaine
distorsions que ces interpolations simples peuvent entraîner, et fournit des remèdes pour de mei
leures « déformations d’enveloppe ».
Pour déplacer la hauteur d’un son sans changer sa durée, on multiplie les valeurs fréquentielle
assignées à chaque fonction fréquentielle par un facteur désiré. Par exemple, pour déplacer un so
vers le haut d’un intervalle d’une seconde majeure, chaque composant fréquentiel est multiplié pa
11,892 pour cent ; une sinusoïde de 1 kHz aura comme fréquence 1 118,92 Hz. On peut égalemen
déplacer la hauteur de façon sélective, en altérant seulement la fréquence fondamentale, et en laissan
identiques les autres partiels.

6.3.4 Changement temps/hauteur avec la transformée en ondelettes


Comme dans le vocodeur de phase, la première étape dans un changement temps/hauteur avec onde
lettes est une sorte d’analyse spectrale (Kronland-Martinet, 1988 ; Kronland-Martinet et Grossmann
1991 ; Vetterli, 1992). Le chapitre 11 explique le concept de base des ondelettes. Elles sont similaire
aux segments fenêtrés utilisés avec la FFT, mais la durée de chaque ondelette dépend de son conten
fréquentiel : plus la fréquence est élevée, plus l’ondelette est courte. Ceci signifie que la résolutio
temporelle de la transformée en ondelettes (c’est-à-dire sa capacité à localiser avec exactitude
moment de départ des événements) est plus grande pour les hautes fréquences.
Comme dans les méthodes de transformées de Fourier, la transformée en ondelettes coupe un so
échantillonné en une collection de composants individuels, localisés dans le temps. Ces composan
sont caractérisés par des valeurs d’amplitude et de phase, glanées lors de l’analyse. Afin de modifie
la base temporelle ou de hauteur, on doit altérer les données d’analyse avant resynthèse.
Pour déplacer la hauteur d’un facteur constant, on multiplie les valeurs de phase des ondelette
analysées par ce facteur (Kronland-Martinet et Grossmann, 1991). Pour allonger ou rétrécir la bas
temporelle tout en gardant la même hauteur, on allonge ou on rétrécit le point de superposition de
ondelettes lors de la resynthèse.

6.3.5 Changement temps/hauteur avec le codage prédictif linéaire


© Dunod. Toute reproduction non autorisée est un délit.

Le chapitre 24 présente le codage prédictif linéaire (CPL) — une méthode d’analyse/resynthès


soustractive qui peut générer de la parole, du chant, des timbres instrumentaux, et des sons synthé
tiques résonants (Cann, 1979-1980 ; Moorer, 1979a ; Dodge et Jerse, 1985 ; Dodge, 1989 ; Lansk
1989 ; Lansky et Steiglitz, 1981). L’analyse CPL modèle un signal d’entrée sous forme d’une fonctio
excitatrice (telle que celle produite par les cordes vocales humaines ou les vibrations d’une anch
ou d’une corde frottée) et d’un ensemble de résonances variantes dans le temps (telles que celles d
conduit vocal humain ou du corps d’un saxophone ou d’un violon). Les résonances sont implé
mentées sous forme de filtre variant dans le temps qui simule une réponse à l’excitation. Pour plu
de détails sur l’analyse spectrale CPL, voir le chapitre 11.
Le CPL n’est pas une méthode d’analyse/resynthèse parfaite. Il fut à l’origine conçu pour être u
codage efficace de la parole, afin de permettre des communications de faible largeur de bande. So
usage a été étendu à la musique, mais les sons resynthétisés ont en général un côté artificiel, en raiso
de la perte de détails lors de l’analyse (Moorer, 1979a). Cependant, si cette limitation est accepté
le CPL est et continuera à être utilisé dans des applications de composition efficaces.
que trame capture les coefficients de filtrage, la hauteur, et les données voisées/dévoisées pour u
tranche temporelle donnée de son. Voir le chapitre 24 pour une explication des données de tram
Pour des besoins musicaux, les compositeurs éditent les trames, et transforment le son originel.
figure 24.18 du chapitre 24 montre une séquence de données dans les trames CPL.
Pour réaliser un changement temps/hauteur, on édite les trames, puis on utilise les trames édité
pour piloter la resynthèse. Les trames d’analyse CPL sont en général calculées à des intervall
réguliers, entre 50 et 120 par seconde. En lançant une commande d’édition, la durée des trames pe
par exemple être changée, pour allonger une seule trame de 10 à 100 ms. La colonne de haute
peut être éditée séparément pour ne changer que la hauteur de la version resynthétisée. Ainsi,
durée et la hauteur peuvent être transformées indépendamment l’une de l’autre. En dehors
changement temps/hauteur, les données CPL peuvent être éditées d’autres façons pour créer d
variations radicales du son analysé originel. Voir Cann (1979-1980) et Dodge (1985) pour trouver d
exemples d’édition de données CPL. Les applications musicales du changement temps/hauteur p
CPL peuvent être trouvées par exemple dans les compositions de Paul Lansky et de Charles Dodg
Chapitre 7

La spatialisation
Curtis Roads et Jean de Reydelle

L’art de la spatialisation du son occupe aujourd’hui une position similaire à celle que l’art de l’orches
tration occupait au dix-neuvième siècle. Déployer l’espace revient à chorégraphier le son : pos
tionner les sources sonores et animer le mouvement. En immergeant le son dans la réverbération
on baigne l’auditeur dans son atmosphère luxuriante.
La spatialisation du son possède deux aspects : le virtuel et le physique. Dans la réalité virtuelle d
studio, les compositeurs spatialisent les sons en imposant des retards, des filtres, des panoramisa
tions et de la réverbération — ce qui conduit à l’illusion de sons émergeant d’environnemen
imaginaires. Parfois, ces espaces virtuels prennent des caractéristiques qui seraient impossibles
réaliser architecturalement, telles qu’un modèle d’écho changeant de façon continue. Dans le mond
physique des salles de concert, les sons peuvent être projetés par un système sonore multicanal
partir de plusieurs positions : autour, au-dessus, en dessous, ou à l’intérieur du public.
L’architecture sonore ou spatialisation est devenue peu à peu un aspect important de la composition
Une tendance vers l’utilisation « cinématique » de l’espace se voit dans des compositions qui con
© Dunod. Toute reproduction non autorisée est un délit.

tiennent des appositions spectaculaires entre les sons proches et les sons réverbérés distants. Certain
compositeurs utilisent des techniques de microphone et du traitement de spatialisation d’un
façon similaire à l’utilisation cinématique de l’angle de la caméra, de la perspective (largeur), et d
la profondeur de champ. L’œuvre Sud de Jean-Claude Risset (1985, Wergo, 2013-50) vient tout d
suite à l’esprit.

7.1 Spatialisation du son


Le mouvement du son à travers l’espace crée des effets spectaculaires et peut servir d’élémen
structurel important dans la composition. Les compositeurs peuvent articuler les voix dans un
texture contrapuntique en donnant à chacune une position spatiale unique. La scène sonore virtuel
et physique autour du public peut être traitée comme un paysage, avec son arrière-plan et son pre
mier plan, et des sources fixes et en mouvements. Cette scène sonore peut être fixée en lecture, o
contrôlée par des gestes en concert (Harada et coll., 1992).
Dans de nombreux concerts, le public est entouré par un certain nombre de haut-parleurs. Comme
crée-t-on l’illusion d’un son voyageant dans la salle, s’éloignant ou se rapprochant de l’auditeur
fur et à mesure de son évolution ? Dans les situations d’écoute avec seulement deux haut-parleu
ou avec un casque, l’illusion de sons se déplaçant librement dans l’espace est encore plus difficil
Les illusions de spatialisation les plus populaires sont la panoramisation horizontale — déplaceme
latéral d’un son d’un haut-parleur à l’autre — et la réverbération — ajout d’un modèle dense et diff
d’échos à un son pour le situer dans un espace plus large. La panoramisation verticale (de haut en b
et au-dessus de la tête) peut également créer des effets saisissants dans la musique électroniqu
Voir Gerzon (1973) pour une présentation de l’enregistrement et de la lecture du « son avec hauteur
7.1.1 Spatialisation dans la musique : origines
Von welcher Seite, mit wievielen Lautspechern zugleich, ob mit Links - oder Rechtsdrehung, teilwe
beweglich die Klänge und Klanggruppen in den Raum gestrahlt werden : das alles ist für das Verstän
nis dieses Werkes massgeblich. (De quel côté, avec combien de haut-parleurs, avec une rotation ve
la gauche ou vers la droite, avec du mouvement ou non, de quelle façon les sons et les groupes de so
devraient être projetés dans l’espace : toutes ces données sont décisives pour la compréhension
l’œuvre.) (Karlheinz Stockhausen 1958, décrivant sa composition Gesang der Jünglinge [Le cha
des adolescents dans la fournaise])
Les techniques spatiales dans la musique ne sont pas nouvelles. Au seizième siècle, les compo
teurs associés à la Basilique Saint-Marc de Venise (notamment Adrian Willaert et son élève Andr
Gabrieli) ont employé l’antiphonaire spatial dans leurs compositions pour deux ou trois chœu
Dans ces œuvres, un vers initial était entendu d’un côté de la salle, et un vers de réponse proven
de l’autre côté. Cet arrangement était facilité par deux orgues se faisant face dans la basiliqu
Wolfgang Amadeus Mozart a écrit des compositions pour deux orchestres séparés spatialeme
(K. 239 et K. 286), et Hector Berlioz et Gustav Malher ont écrit des compositions pour de multipl
orchestres et chœurs, certains d’entre eux n’étant pas sur scène. Après ces expériences, cependan
il existe peu de documents concernant les techniques spatiales en composition jusqu’à l’arrivée
l’électronique.
L’invention du haut-parleur peut être comparée à l’invention de l’ampoule électrique. Soudaineme
il était possible de projeter l’énergie sonore dans de petits et grands espaces, sous n’importe qu
angle, avec n’importe quelle intensité. Mais l’utilisation des haut-parleurs — dans les salles
cinéma, les stades, les gares, ou dans les radios personnelles — est restée en grande majorité pla
et fonctionnelle. C’est seulement après la Deuxième Guerre mondiale que les possibilités esthétiqu
de la projection du son par des haut-parleurs furent exploitées dans la musique électronique.
7.1.2 Exemples de traitement de spatialisation en musique électronique
Un certain nombre d’exemples célèbres de projection spatiale en musique électronique ou info
matique doit être mentionné ici :
• Gesang der Jünglinge de Karlheinz Stockhausen fut projeté en 1956 par cinq groupes de hau
parleurs dans l’auditorium de la Westdeutschen Rundfunks (WDR) (Stockhausen, 1961). S
œuvre Kontakte, réalisée en 1960, fut la première composition de musique électroniq
interprétée par une bande quatre pistes, en utilisant l’enregistreur à bande Telefunken T
(Stockhausen, 1968).
• En 1958, la composition classique de musique pour bande Poème électronique d’Edgar Varè
et Concret PH d’Iannis Xenakis furent projetés à travers un système sonore onze canaux p
Le Corbusier pour l’Exposition universelle de Bruxelles.
• Stockhausen joua sa musique électronique sur des haut-parleurs distribués sur la surfac
interne du dôme géodésique du Pavillon allemand à l’Expo 70 à Osaka (Stockhausen, 1971a
• Lors de la même exposition, Iannis Xenakis interpréta sa composition électroacoustique douz
canaux Hibiki Hana Ma au Pavillon d’acier japonais sur un système de 800 haut-parleur
distribués autour du public, au-dessus de leurs têtes, et sous leurs sièges (Matossian, 1986
Un système de projection sonore douze canaux animait son spectacle son et lumière le Polytop
de Cluny projeté à l’intérieur de l’ancien Musée de Cluny à Paris (Xenakis, 1992).
• Le compositeur Salvatore Martirano construisit un appareil numérique complexe appelé
Construction Sal-Mar pour contrôler un synthétiseur analogique « fait maison » et pour dis
tribuer le son parmi 250 haut-parleurs minces suspendus à différentes hauteurs depuis le
plafonds des salles de concert (Martirano, 1971).
• L’idée de projection du son par un orchestre de douzaines de haut-parleurs sur scène fu
réalisée dans le Gmebaphone, conçu par le Groupe de Musique Expérimentale de Bourge
et fut pour la première fois entendue en concert en 1973 (Clozier, 1973).
• Le premier concert de l’Acousmonium — un assemblage de douzaines de « projecteur
sonores » conçu par le Groupe de Recherches Musicales (figure 7.1) — eut lieu à l’Espac
Cardin à Paris, en 1974 (Bayle, 1989, 1993).
© Dunod. Toute reproduction non autorisée est un délit.

Figure 7.1 – L’Acousmonium — un spatialisateur multicanal


conçu par le Groupe de Recherches Musicales (GRM) — installé dans l’auditorium Olivier Messiaen
Maison de Radio France, Paris, en 1980. Projetant, grâce à 80 haut-parleurs, le son lu sur une consol
48 pistes, l’Acousmonium parvient à atteindre la complexité d’une image sonore semblable à cell
d’un orchestre. Il permet au compositeur de « réorchestrer » une composition électronique pou
une interprétation spatialisée sur l’Acousmonium. (Photographie de L. Ruska fournie avec l’aimabl
autorisation de François Bayle et du Groupe de Recherches Musicales.)
Répons de Pierre Boulez tenait des haut-parleurs suspendus au-dessus des têtes du public.
contrôle spatial fut implémenté en utilisant le synthétiseur 4X de Di Giugno (Asta et co
1980 ; Boulez et Gerzso, 1988).
• En 1987, les chercheurs du Tempo Reale Studio de Luciano Berio à Florence développère
un système de distribution du son appelé Trails et basé sur un ordinateur, qui pouvait distribu
le son jusqu’à 32 canaux audio, en combinant des modèles préprogrammés et des modèl
en temps réel de spatialisation (Bernardini et Otto, 1989).
De nombreux autres systèmes de spatialisation du son ont été développés, y compris le systèm
HYBRID IV seize canaux d’Edward Kobrin (Kobrin, 1977) (figure 7.2), le système de distributi
sonore SSSP (Federkow, Buwton et Smith, 1978), l’installation AUDIUM (Loy, 1985b), le Halaph
de Hans Peter Haller utilisé par P. Boulez et L. Nono (Haller, 1980), le système Sinfonie contrôlé p
ordinateur développé au studio GRAME de Lyon, et le spatialisateur entièrement numérique imp
menté par Marina Bosi (1990) à l’université de Stanford.

Figure 7.2 – Installation du studio HYBRID IV d’Edward Kobrin à Berlin, 1977,


comprenant un système de spatialisation 16 canaux contrôlé par ordinateur.
Les haut-parleurs sont placés sur les murs.

7.1.3 Amélioration de la projection spatiale en concert


Même des concerts ad hoc de musique électroacoustique sans système de projection du son élabo
peuvent faire un pas en avant vers l’amélioration des qualités spatiales de l’interprétation. La figure 7
illustre quelques configurations standards.
LF RF LF RF

LR RR

(a) (b)

O
RF

LF LR LF RF

RR LR RR

(c) (d)

Figure 7.3 – Configurations sélectionnées de haut-parleurs


pour la spatialisation de musique électronique et informatique. (a) Stéréophonie de base, LF = avan
gauche, RF = avant droite. (b) Quadriphonie, RR = arrière droite, LR = arrière gauche. (c) Périphoni
quadriphonique. Les haut-parleurs avant droite et arrière gauche sont placés au-dessus du nivea
de l’oreille, afin que lorsque le son se déplace horizontalement, il se produise également un dépla
cement vertical. (d) Configuration à cinq haut-parleurs avec un haut-parleur vertical projetant ver
le bas.

• Si possible, utilisez au moins un système de projection du son quadriphonique (quatre canau


d’amplification avec des systèmes à quatre haut-parleurs), placé autour du public (figure 7.3b
© Dunod. Toute reproduction non autorisée est un délit.

• Lorsque les enregistrements deux pistes sont joués sur un système quadriphonique, envoye
deux canaux vers l’avant et deux canaux vers l’arrière avec la configuration gauche-droite de
canaux arrière inversée. De cette façon, lorsqu’un son se déplace de gauche à droite à l’avan
il se déplace également de droite à gauche à l’arrière, ce qui accroît la sensation d’animatio
spatiale.
• Pour ajouter davantage d’articulation spatiale, placez les haut-parleurs aux coins opposés dan
une position surélevée. Ceci est appelé périphonie ou lecture du « son avec hauteur » (Gerzon
1973). Dans ce schéma, lorsqu’un son se déplace de gauche à droite, il se déplace égalemen
verticalement (figure 7.3c).
• Lorsque des instruments ou des chanteurs amplifiés sont utilisés, donnez à chacun un ampl
ficateur et un haut-parleur individuels, accompagnés d’effets (tels que de l’égalisation) pou
articuler cet instrument en particulier. Pour enraciner chaque instrument sur la scène sonor
et atténuer le syndrome de « l’interprète désincarné », le haut-parleur devrait être placé prè
de l’interprète (Morril 1981b). Dans le syndrome de l’interprète désincarné, le son d’un in
prète. Comme l’image de la source d’un son, du point de vue des auditeurs, est dominée p
le premier son qui atteint leurs oreilles (ceci est appelé l’effet de précédence ; Durlach et Co
burn, 1978), toute amplification globale d’un interprète jouant d’un instrument acoustiq
devrait être retardé de 5 à 40 ms pour permettre à l’amplificateur local de faire la premiè
impression en tant que source (Vidolin, 1993). Parfois, bien sûr, le compositeur souhaite projet
le son d’un instrument autour d’une salle, ou la mélanger avec une source préenregistré
ceci est un autre cas.
• Une approche différente consiste à assembler un « orchestre » de plusieurs haut-parleurs s
scène (l’approche Gmebaphone/Acousmonium). Ceci crée une multiplicité et une divers
sonore de la source spatiale généralement associée à un orchestre d’instruments acoustique
Le contrôle précis des illusions spatiales nécessite la connaissance de la théorie de localisati
— c’est-à-dire comment les êtres humains perçoivent la direction du son, ce qui constitue le su
de la prochaine partie.

7.2 Indications de localisation


Avant de fouiller les techniques de spatialisation du son, il est important de comprendre les princip
de base selon lesquels les auditeurs localisent la position d’émission d’un son. Ce sujet, un d
domaines les plus étudiés de la psychoacoustique, est appelé localisation du son. La localisati
dépend des indications pour trois dimensions :
• l’azimut ou angle horizontal ;
• la distance (pour les sons statiques) ou la vélocité (pour les sons en mouvement) ;
• le zénith (altitude) ou angle vertical.

Hauteur (zénith)

Distance
H H

Angle (azimut)

Figure 7.4 – L’auditeur attentif peut localiser une source à partir de son angle horizontal,
de sa hauteur et de sa distance. H = haut-parleur.
• les temps différents d’arrivée d’un son aux deux oreilles lorsque celui-ci vient d’un côté ;
• la différence d’amplitude des sons de hautes fréquences entendus par les deux oreille
ce qui produit « l’effet d’ombre » de la tête ;
• les indications spectrales fournies par les réflexions asymétriques du son sur les oreille
externes (pavillons), les épaules et le torse supérieur.
Les indications de distance sont de trois sortes :
• le rapport entre signal direct et signal réverbéré, lorsque le signal décroît en intensité selo
le carré de la distance ;
• la perte des composants de haute fréquence lorsque la distance augmente ;
• la perte des détails (absence de sons plus doux) lorsque la distance augmente.
Lorsque la distance entre le son et l’auditeur change, l’indication de la vélocité du son est un chan
gement de hauteur appelé effet Doppler (expliqué plus loin).
La principale indication pour l’azimut est un changement dans le spectre causé par des réflexion
du son sur les pavillons et les épaules
7.2.1 Simulation de l’indication d’azimut
Les auditeurs peuvent localiser un son haute fréquence intense provenant d’une direction particulièr
au niveau de l’oreille. De façon logique, si une source sonore est positionnée directement à la positio
d’un haut-parleur, le signal en entier devrait provenir de ce haut-parleur. Lorsque la source se déplac
d’un haut-parleur à l’autre, l’amplitude en direction du haut-parleur cible augmente, et l’amplitud
en direction du haut-parleur originel diminue.
Dans les interprétations où un certain nombre de haut-parleurs sont placés à équidistance dans u
cercle autour du public, un algorithme pour la position spatiale n’a besoin que de calculer le
amplitudes de deux haut-parleurs adjacents, sans tenir compte du nombre total de haut-parleur
Pour positionner une source sonore à un point P précis entre deux haut-parleurs A et B, on doit tou
d’abord déterminer l’angle (θ) de la source mesuré à partir du point médian entre A et B (figure 7.5
De nombreuses courbes de panoramisation différentes sont possibles, chacune rendant une impre
sion spatiale légèrement différente du mouvement sonore. Nous présenterons deux courbes de pano
ramisation : linéaire et à puissance constante. Pour une panoramisation symétrique, ces courbe
supposent qu’un auditeur est assis exactement au centre entre les deux haut-parleurs. Lorsqu
© Dunod. Toute reproduction non autorisée est un délit.

l’auditeur n’est plus assis au centre, il y a un décalage d’azimut dans l’image sonore. Pour des besoin
d’efficacité, les courbes peuvent être calculées à l’avance, ne demandant plus qu’une opération d
lecture de table en utilisant l’index θ.
✦ Panoramisation linéaire
La formule la plus simple pour le positionnement est une relation linéaire simple :
A amp = θ ⁄ θ max
B amp = 1 – ( θ – θ max )
Le problème avec ce type de panoramisation est qu’il crée un effet de « trou au milieu », car le
oreilles ont tendance à considérer que le signal est plus fort aux points limites (aux haut-parleurs
qu’au milieu (figure 7.6). Ceci en raison de la loi d’intensité sonore, qui établit que la sonie perçu
d’un son est proportionnelle à son intensité. L’intensité d’un son peut être donnée comme suit :
P
A B
θ

θmax

Auditeur

Figure 7.5 – Pour positionner une source sonore à un point P


entre deux haut-parleurs A et B, vérifier l’angle (θ) de la source mesuré à partir du point média
entre A et B. Au milieu, θ est égal à 0 degré. L’angle θmax est l’angle maximal, en général plus o
moins 45 degrés. Utilisez les formules données dans le texte pour trouver l’amplitude des signau
envoyés aux deux haut-parleurs.

2 2
I = A amp + B amp
Au milieu de la panoramisation (c’est-à-dire là où θ = 0), Aamp = Bamp = 0,5, d’où :

0,5 2 + 0,5 2 = 0,25 + 0,25 = 5 = 0,707


Ainsi, l’intensité chute à 0,707 au milieu, en commençant avec une valeur de 1 sur le côté. Ce
constitue une différence de 3 dB. Pour l’oreille, dont la sensibilité est davantage liée à l’intensité plut
qu’à l’amplitude, le son semble être plus faible au centre, comme s’il s’était éloigné de l’auditeur

✦ Panoramisation à puissance constante

Une panoramisation à puissance constante utilise des courbes sinusoïdales pour contrôler l’amp
tude émise par les deux haut-parleurs (Reveillon 1984). Ceci crée l’impression d’une panoramisati
ayant une sonie plus stable :

2
A amp = ------ × [ cos ( θ ) + sin ( θ ) ]
2

2
B amp = ------ × [ cos ( θ ) – sin ( θ ) ]
2
Au milieu de la panoramisation, Aamp = Bamp = 0,707, d’où :

I = 0,707 2 + 0,707 2 = 0,5 + 0,5 = 1 = 1


et ainsi une intensité constante est préservée.
1.0

0.5 0.5

Amp.

0
+45 0 -45 +45 0 -45
θ θ
Canal gauche Canal droite

Perçu

A B

Auditeur

Figure 7.6 – Une courbe de panoramisation linéaire est entendue avec un éloignement
dans le milieu en raison d’une diminution d’intensité. Les courbes d’amplitude de chaque canal
sont montrées en haut ; la trajectoire perçue est montrée en dessous.

La figure 7.7 montre la panoramisation d’intensité constante. La panoramisation est perçue comm
© Dunod. Toute reproduction non autorisée est un délit.

étant en rotation entre les deux haut-parleurs à une distance constante de l’auditeur.
✦ Réflexions
Lorsque le son se déplace d’un haut-parleur à l’autre dans une salle de concert, les réflexions de
salle fournissent d’autres indications pour la localisation du son. À certaines positions dans certaine
salles, elles peuvent rendre confuse la sensation de direction, mais ceci est un cas spécial. Ains
pour améliorer l’effet de localisation, le compositeur peut ajouter de petits retards au signal prove
nant des canaux « indirects » (c’est-à-dire les canaux à partir desquels la source principale n’e
pas projetée). Ces retards simulent les réflexions de la salle ; ils disent à l’oreille que la direction d
la source est ailleurs. Dans l’idéal, le modèle de réflexion doit changer lorsque le son se déplace.
Note : la longueur d’onde correspondante est également montrée. Pour calculer le temps de retar
d’une réflexion, utiliser la distance totale de la source à la surface réfléchissante puis à l’auditeu
La vitesse du son est fixée à 340 m/s.
1.0
0.707 0.707

0
+45 0 -45 +45 0 -45
θ θ
Canal gauche Canal droite

Perçu

A B

Auditeur

Figure 7.7 – Une courbe de panoramisation à puissance constante


maintient la distance perçue et l’intensité au milieu. Les courbes d’amplitude pour chaque canal so
montrées en haut ; la trajectoire perçue est montrée en dessous.

Tableau 7.1 – Distance parcourue par les ondes sonores par unité de temps.

Temps Distance totale Fréquence (en Hz)


(en ms) (en m) de la longueur d’onde

1,0 0,34 1 000

3,4 1 340

6,8 2 168

34 10 34

68 20 16,8

100 34 10

340 100 3,4

680 200 1,68

1000 340 1
examinez le tableau 7.1. Il montre la distance qu’un son traverse pendant certaines quantités d
temps. La troisième colonne du tableau 7.1 a été ajoutée pour satisfaire l’appétit du lecteur curieu
montrant la longueur d’onde correspondante à une distance donnée. Comme le montre par exemp
la troisième ligne, un son acoustique de 168 Hz (approximativement un Mi) prend forme dan
deux mètres d’air.

7.2.2 Simulation des indications de distance


Pour faire s’éloigner un son dans la distance, on peut baisser son amplitude, appliquer un filtre passe
bas, ajouter de l’écho, ou mélanger de la réverbération. Les deux premières indications modèlent c
qui se passe en extérieur dans un grand espace ouvert, où nous ressentons la distance d’un son pa
son intensité et par l’effet de filtrage de l’absorption de l’air sur les hautes fréquences.
Les indications d’écho et de réverbération modèlent ce qui se passe dans un espace clos tel qu’un
salle de concert. Pour simuler une distance spécifique à l’intérieur d’une pièce, la méthode la plu
simple est de garder le même niveau de réverbération et d’échelonner le signal direct afin qu’il so
inversement proportionnel à la distance désirée (figure 7.8). Une extension de cette technique e
d’échelonner également le signal réverbérant, selon une fonction qui décroît moins rapidement qu
le signal direct. Lorsque la source s’éloigne, le son total émanant de la source diminue.

D R D R
-10

-30 -30
Amp. -35
en dB

(a) (b)

Figure 7.8 – Indicateurs de niveau pour simuler un son s’éloignant de l’auditeur.


D = direct, R = réverbéré. (a) Son proche dans lequel le son direct a une amplitude bien plus élevé
© Dunod. Toute reproduction non autorisée est un délit.

que le son réverbéré. (b) Son distant. L’amplitude globale est plus faible, et le rapport entre son direc
et son réverbéré est plus petit.

✦ Réverbération locale et globale


Une autre indication de distance est la relation entre réverbération locale et réverbération global
ce qui peut être démontré grâce à un système à multiples haut-parleurs. La réverbération globa
est distribuée de façon égale parmi tous les haut-parleurs, tandis que la réverbération locale appara
dans les paires adjacentes de haut-parleurs. Ainsi, un son peut avoir une réverbération globa
courte et faible, mais aussi une réverbération locale forte provenant d’une des paires de haut-parleu
d’un système à haut-parleurs multiples. Ceci peut simuler le cas d’une ouverture vers un espac
large entre deux haut-parleurs.
Une distinction entre les réverbérations locales et globales aide à venir à bout d’un effet de masqu
qui apparaît à des distances où les amplitudes des signaux directs et réverbérants globaux son
égales. Ce masque élimine l’indication d’azimut. L’une des façons d’annuler cet effet est de sépare
de la distance selon la relation :
réverbération_locale ≅ 1 – ( 1 ⁄ distance )
Lorsque la distance augmente, cette relation tend vers 1. Ainsi, lorsque la source est proche
l’auditeur, la réverbération est distribuée de façon égale dans tous les canaux. Lorsqu’elle s’éloign
le signal réverbérant se concentre dans la direction de la source.
7.2.3 L’indication de vélocité ou effet Doppler
Les indications de localisation de base pour les sons statiques peuvent être étendues aux sourc
sonores en mouvements. Ceci est accompli grâce à une indication de la vélocité de la source sono
appelée effet Doppler, et décrite pour la première fois par le physicien C. Doppler (1842). Les pr
mières simulations de l’effet Doppler en informatique musicale furent effectuées par John Chowni
(1971).
L’effet Doppler est un changement dans la hauteur qui apparaît lorsque la source et l’auditeur
déplacent l’un par rapport à l’autre. Un exemple bien connu est entendu lorsque l’on se tient pr
d’une voie ferrée et que le train s’approche à grande vitesse puis s’éloigne. Lorsqu’il se rapproche,
fronts d’onde du son nous atteignent plus rapidement, ce qui élève la hauteur. Lorsque le train e
passé, nous entendons la hauteur redescendre.
Un effet Doppler est une indication de la vélocité radiale d’une source par rapport à l’auditeur. U
mouvement radial est un mouvement en fonction d’un centre — dans ce cas, l’auditeur (figure 7.9a

(a) Source
mouvante
P 0˚ N

Distance
variable

Auditeur

(b) Source
mouvante

Distance
constante

Auditeur

Figure 7.9 – (a) Un son s’approchant de l’auditeur possède une vélocité radiale positive (P).
Le son s’éloignant possède une vélocité radiale négative (N). (b) Un son se déplaçant sur un cerc
est toujours à la même distance de l’auditeur et possède donc une vélocité radiale égale à zéro
il doit se déplacer dans un cercle autour de l’auditeur (figure 7.9b). Dans ce cas, la distance entre
source et l’auditeur est constante (c’est-à-dire que la vélocité radiale est nulle), et il n’y a donc pa
d’effet Doppler. Si la position de l’auditeur reste fixe, l’effet Doppler peut être exprimé de la faço
suivante :
nouvelle_hauteur = hauteur_originelle × [ v son ⁄ ( v son – v source ) ]
où hauteur_originelle est la hauteur originelle de la source sonore, vson est la vélocité du so
(≈ 344 m/s), et vsource est la vélocité de la source par rapport à l’auditeur. Si vsource est positive, le so
s’approche de l’auditeur, et la hauteur s’élève. Si elle est négative, la hauteur descend.
Le changement de hauteur qui apparaît dans l’effet Doppler peut être expliqué par la compressio
de l’intervalle entre les fronts d’onde lorsque la source s’approche de l’auditeur. La figure 7.10
montre un son statique émettant des fronts d’onde à un taux ou hauteur constants. La figure 7.10
montre une source sonore se déplaçant vers l’auditeur. Les points S1, S2 et S3 représentent les pos

(a)

Source
Auditeur

(b)
© Dunod. Toute reproduction non autorisée est un délit.

Auditeur
S1 S2 S3

Figure 7.10 – Modèles de déplacements Doppler de fronts d’onde.


(a) Son statique, les fronts d’onde arrivent par intervalles constants, ce qui ne provoque pas d
changement de hauteur. (b) S1, S2 et S3 représentent les positions successives d’une source sonor
en mouvement. Déplacement de hauteur vers le haut.
Figure 7.11 – Spectres HRTF pour des sons entendus à 90 degrés
(directement dans l’oreille gauche) à différentes hauteurs. (En haut) 15 degrés au-dessus du nivea
de l’oreille. (Au milieu) Niveau de l’oreille. (En bas) En dessous du niveau de l’oreille (d’après Rodger
1981, publié avec l’aimable autorisation de l’Audio Engineering Society).
se resserrent, ce qui produit un déplacement vers le haut de la hauteur.
À un instant donné, l’effet Doppler déplace toutes les fréquences du même intervalle logarithmiqu
Par exemple, un son approchant se déplaçant à 20 m/s s’élève d’environ une seconde mineur
(3,15 pour cent). Un déplacement de 6,15 pour cent pour un composant à 10 kHz est 615 Hz, tand
que pour un composant à 100 Hz ce ne sera que 6,15 Hz. Ainsi, l’effet Doppler préserve les relation
interharmoniques échelonnées logarithmiquement dans un son. Ceci est différent d’un déplacemen
linéaire de fréquences apparaissant dans la modulation. Un exemple de déplacement linéaire d
fréquences est l’addition de 50 Hz à tous les composants. Déplacer une hauteur de 100 à 150 H
constitue un intervalle de quinte juste, tandis qu’à 10 kHz, un déplacement de 50 Hz est tout jus
perceptible. Le déplacement linéaire de fréquences détruit les relations interharmoniques existante
dans un son (voir le chapitre 9).

7.2.4 Simulation des indications d’altitude (zénith)


L’effet de sources sonores descendantes du haut peut être spectaculaire. Depuis les années 1970, il
été démontré que les illusions sonores verticales peuvent être atteintes grâce à un système sonor
normal positionné au niveau de l’oreille. Cette recherche a inspiré le développement de systèmes d
spatialisation verticale diffusés dans le commerce, dont les effets peuvent être entendus dans d
nombreux enregistrements.
En général, les systèmes « sons 3D » sont basés sur la recherche qui montre que les sons hautes fré
quences (supérieurs à 6 kHz) se reflétant sur les pavillons et les épaules fournissent une indicatio
critique de la position verticale. Les surfaces des pavillons et des épaules agissent comme réflecteur
créant des retards temporels courts qui se manifestent dans le spectre sous forme d’un filtre e
peigne (Bloom, 1977 ; Rodgers, 1981 ; Kendall et Martens, 1984 ; Kendall, Martens et Decker, 1989
Les indications de zénith peuvent être simulées électroniquement, donnant l’impression qu’un so
émane d’emplacements élevés. Ceci est effectué en filtrant le signal d’entrée, imposant le change
ment dans le spectre causé par les réflexions sur la tête et les épaules. Les filtres sont réglés selo
la position de la source que l’on tente de simuler. La réponse fréquentielle du filtrage est appelée
fonction de transfert relative à la tête (HRTF pour Head-Related Transfer Function) (Begault, 1991
La figure 7.11 trace des HRTF typiques pour des sons au-dessus, en dessous, et au niveau de l’oreill
En pratique, les effets de spatialisation verticale sont très nettement améliorés si le son est projet
© Dunod. Toute reproduction non autorisée est un délit.

dans un environnement ayant à la fois des haut-parleurs à l’avant et l’arrière. En déplaçant le so


d’avant en arrière ou inversement et en appliquant l’effet HRTF, le son semble passer au-dessus d
la tête lors de la panoramisation. Comme tous les effets de spatialisation, la panoramisation vertica
est plus efficace sur des sons impulsifs de large bande plutôt que sur des sons de basse fréquenc
ayant des enveloppes douces.

✦ Problèmes avec les illusions sonores verticales

Comme le montre la figure 7.12, un problème de la projection sonore dans un plan vertical simu
est la variation des HRTF pour chaque personne (Begault, 1991 ; Kendall, Martens et Decker, 1989
Lorsqu’une fausse HRTF est utilisée pour une personne particulière, l’effet de panoramisation ve
ticale est affaibli. Dans une situation d’écoute privée, lorsque le filtrage est effectué en temps ré
lors de la lecture, une solution à ce problème est de fournir plusieurs HRTF et de tester les signau
pour que chaque personne puisse régler son système afin d’épouser la réponse de ses oreilles avan
l’écoute.
Figure 7.12 – Spectre HRTF pour deux personnes différentes.
Oreille gauche, source au niveau de l’oreille. Le tracé fréquentiel s’étend de 1 à 18 kHz. La lign
verticale indique la marque de 8 kHz. La différence entre les deux HRTF au-dessus de cette ma
que est évidente. Les lignes horizontales indiquent des différences de 20 dB.

La robustesse des illusions verticales dépend de la qualité des haut-parleurs utilisés et de la prox
mité de l’auditeur par rapport aux haut-parleurs. Pour écouter avec de petits haut-parleurs de prox
mité, par exemple, on doit se tenir dans le trajet du son direct, ou l’illusion verticale s’écroule. Ain
dans une situation de concert, il est plus pratique de suspendre les haut-parleurs au-dessus d
têtes du public (voir la figure 7.3d) que de s’appuyer sur l’illusion plus fragile des sources virtuelles
7.2.5 Son binaural
Dans la recherche psychoacoustique, binaural faisait à l’origine référence à une situation d’écou
unique, dans laquelle les sujets sont placés dans une chambre anéchoïque avec leurs têtes main
nues mécaniquement et des sondes insérées dans leurs canaux auditifs. Ces conditions sont conçu
pour analyser une variété de mécanismes de l’audition dans un environnement contrôlé (Durla
et Colburn, 1978 ; Colburn et Durlach, 1978 ; Buser et Imbert, 1992). En raison de la difficulté
telles expériences, de nombreuses investigations utilisent simplement le casque d’écoute. Da
d’autres expériences, une tête factice ayant des microphones insérés dans ses oreilles se substit
au sujet humain.
Un résultat de cette recherche est les enregistrements binauraux, effectués grâce à deux microphon
placés dans la tête factice, ou dans une construction similaire, et censés être écoutés avec un casqu
Ce genre a été particulièrement populaire dans les productions radio et a conduit à la disponibilité
systèmes d’enregistrement binaural, comprenant des consoles de mélange basées sur un ordinate
ayant des contrôles de panoramisations horizontales et verticales.
L’un des résultats de la recherche binaurale a été la prise de conscience qu’il est possible de cré
une illusion d’une source sonore à une position spécifique dans un espace binaural par simp
filtrage. Par « espace binaural » nous faisons référence à l’espace perçu à travers le casque, y comp
au-dessus et derrière la tête. Ces techniques emploient les HRTF présentées plus haut. Voir Blaue
(1983), Durlach et Colburn (1978) et Begault (1991) pour plus de détails.
Nous terminons la présentation de la localisation avec une note sur la radiation sonore. Chaqu
mécanisme producteur de son possède une caractéristique de modèle de radiation. Ce modèle e
trois dimensions décrit l’amplitude du son projeté par le dispositif dans toutes les directions. Dan
les instruments acoustiques traditionnels, le modèle de radiation dépend de la fréquence (Fletche
et Rossing, 1991). C’est-à-dire qu’il change selon la fréquence rayonnée. Le modèle de radiation e
une indication de l’identité et de la localité de la source.
Les systèmes à haut-parleurs montrent leurs propres modèles de radiation, caractérisés par la spéc
fication technique appelée modèle de dispersion. Le modèle de dispersion d’un haut-parleur à projec
tion vers l’avant indique la largeur et la hauteur de la région dans laquelle le haut-parleur maintien
une réponse fréquentielle linéaire.
Le fait que les auditeurs peuvent détecter la différence entre un violon réel et la lecture d’un enregi
trement de violon a été expliqué par leurs modèles différents de radiations. Ainsi, l’une des direc
tions prises par la recherche en acoustique au cours des années a été de se concentrer sur la modé
lisation des modèles de radiation des instruments, puis de les projeter sur des ensembles à hau
parleurs multiples sphériques (Bloch et coll., 1992). De tels systèmes, contrôlés par ordinateu
pourraient également être utilisés pour des besoins compositionnels, pour donner par exemple
chaque voix d’une œuvre son propre modèle de radiation.

7.3 Haut-parleurs rotatifs


La radiation d’un son émis par un haut-parleur rotatif crée un effet saisissant de spatialisation. L
rotation physique d’un haut-parleur rend vivant même les sons sourds et stables, en les animan
de qualités variantes dans le temps.

7.3.1 Haut-parleurs rotatifs : origines


Le mécanisme originel de haut-parleur rotatif fut la Cabine Leslie, qui envoyait un signal entran
dans deux mécanismes rotatifs séparés : un pavillon rotatif pour les hautes fréquences et un écra
rotatif (bloquant et débloquant un boomer stationnaire) pour les basses fréquences. Une télécom
mande pour la vitesse du moteur permettait au musicien d’ajuster la vitesse de rotation. Le pavillo
résonant de la Cabine Leslie le rend immédiatement identifiable.
La Cabine Leslie fut conçue pour enrichir le son statique émis par les orgues électriques tels que
© Dunod. Toute reproduction non autorisée est un délit.

fameux Hammond B3, avec lequel elle était souvent couplée. Mais les musiciens et les ingénieur
du son découvrirent que n’importe quel son pouvait être enrichi de cette façon, y compris la vo
et la guitare électrique.
Dans les années 1950, des ingénieurs travaillant au Studio expérimental Gravesano de Herman
Scherchen en Suisse développèrent un haut-parleur sphérique (figure 7.13) qui effectuait des rota
tions horizontales et verticales (Loescher, 1959, 1960). Leur but était de réduire les caractéristique
de « faisceau sonore directionnel » des haut-parleurs normaux. Voici ce qu’en dit l’un d’entre eux
Une rotation double dans le plan horizontal et vertical résulte en des plans rotationnels inclinés de
haut-parleurs seuls et donne de meilleurs résultats. Le champ sonore devient pratiquement homogèn
la reproduction prend un caractère étonnant de plénitude et de douceur, et la dureté de la reproductio
normale a complètement disparu. (Loescher, 1959)
K. Stockhausen faisait manuellement tourner un haut-parleur fixé sur une plaque tournante pou
créer les sons rotatifs de ses compositions Kontakte (1960) et Hymnen (1967) (figure 7.14). Plus tard
Figure 7.13 – Un haut-parleur sphérique rotatif
construit en 1959 au Studio expérimental Gravesano.

Figure 7.14 – K. Stockhausen avec un mécanisme de haut-parleur rotatif (1960).


Quatre microphones sont positionnés autour de la table tournante du haut-parleur, qui était man
pulée à la main. Une version ultérieure était contrôlée par un mécanisme motorisé. (Photograph
copyright WDR, Cologne.)
motorisé pour l’interprétation en concert des œuvres de Stockhausen (Morawska-Büngler, 1988
7.3.2 Simulation de haut-parleurs rotatifs
Les effets de la rotation sont innombrables, mettant en jeu le vibrato de l’effet Doppler, du filtrag
variant dans le temps, des déphasages, des distorsions causées par la turbulence de l’air, et de
réflexions d’échos des surfaces adjacentes — sans même mentionner les caractéristiques de transfe
des amplificateurs et des haut-parleurs utilisés. La Cabine Leslie, par exemple, employait des lam
pes électroniques avec distorsion « surmultipliée » si désirée. Ces effets acoustiques et électron
ques complexes et interactifs sont difficiles à simuler de façon convaincante en utilisant le traite
ment numérique du signal. Quoi qu’il en soit, un certain nombre de synthétiseurs et d’unités d’eff
offrent des programmes simulant les haut-parleurs rotatifs. De tels programmes devraient s’amé
liorer au fur et à mesure du développement d’algorithmes plus sophistiqués.

7.4 Son surround


La diffusion du son par de multiples haut-parleurs a depuis longtemps constitué un des domaine
d’expériences favoris des compositeurs de musique électroacoustique et électronique. Pour le gran
public, celles-ci sont restées relativement anecdotiques, et beaucoup d’audiophiles sont plus familie
avec les formats sonores généralement regroupés sous le terme générique de « son surround ». C
terme, qui peut être donné à tout système émettant le son par plus de deux haut-parleurs — plu
particulièrement grâce à des sources placées à l’arrière de l’auditeur — fait maintenant partie de
produits de grande consommation. Il convient de noter que les développements de ces systèmes d
diffusion multicanaux ont pour la plupart eu lieu dans le domaine des applications destinées au
salles de cinéma, et par la suite, dans celui de l’utilisation personnelle de systèmes vidéo à domicile
7.4.1 Son surround : origines
Pendant de nombreuses années, le son a été enregistré et lu exclusivement en mono (un micro
phone et un haut-parleur). L’enregistrement et la lecture stéréo ont été inventés dès 1931 par Ala
Blumlein chez EMI (Blumlein, 1931). À l’époque, le terme « binaural » était utilisé, et le term
« stéréophonique » ne s’est imposé que par la suite. Binaural possède de nos jours un sens complè
tement différent, puisqu’il fait référence aux enregistrements effectués grâce à une tête factice
utilisant des HRTF. Voir plus haut dans ce chapitre la partie sur cette technique. Blumlein avait e
© Dunod. Toute reproduction non autorisée est un délit.

l’idée d’inventer un système binaural, car il lui semblait que lors de la projection d’un film, il éta
préférable par souci de réalisme que le son « suive » l’image, et qu’un acteur situé d’un côté de l’écra
soit entendu sur le même côté.
La même année, le chef d’orchestre Leopold Stokowski, à la tête du Philadelphia Symphon
Orchestra, s’associa avec Harvey Fletcher et Arthur C. Keller des Bell Telephone Laboratories afin d
déterminer jusqu’à quel point il était possible de s’approcher d’une reproduction fidèle de l’orchestr
au moyen d’une diffusion à travers un équipement électrique, qu’il s’agisse de haut-parleurs ou d
casques d’écoute binaurale (McGinn, 1983). Le premier disque stéréo fut enregistré par cette équip
en 1932, et une transmission eut lieu l’année suivante par le biais de lignes téléphoniques entr
l’orchestre situé à Philadelphie et le Constitution Hall de Washington, où des invités avaient été placé
en face de trois groupes de haut-parleurs situés sur la gauche, le centre et la droite. Les recherche
continuèrent activement durant les années 1930 pour tenter d’améliorer la qualité d’enregistremen
et de transmission, particulièrement en ce qui concernait la gamme dynamique (étendue entre le
sons les plus doux et les sons les plus forts) et la gamme de fréquences (étendue entre les sons le
se développèrent cependant pas avant le milieu des années 1950, et ce format ne connut une uti
sation commerciale généralisée qu’à partir de la décennie suivante.

✦ Applications dans le cinéma

C’est d’abord dans le domaine du cinéma que les recherches en matière de diffusion multicanal
son eurent lieu. Les améliorations apportées par Fletcher permettaient, outre une manipulation
temps réel du son dans les domaines dynamiques et fréquentiels grâce à des amplificateurs et d
filtres, l’enregistrement d’un signal stéréo sur quatre pistes optiques d’un film, offrant dès lors
possibilité de reproduire la musique à n’importe quel moment (Fletcher, 1940b). De son côté, St
kowski, dans un souci constant d’explorer les nouvelles possibilités offertes par les innovatio
technologiques, participa au célèbre film Fantasia de Walt Disney. Pour cette occasion, un form
de diffusion sonore fut inventé et baptisé Fantasound. L’enregistrement de la musique avait com
mencé dès 1938 avec L’apprenti sorcier de Paul Dukas. L’orchestre, sur proposition de Stokows
était divisé en cinq parties, et capté sur trois pistes : une pour la gauche de l’orchestre, une pour
droite, et la dernière pour une prise d’ensemble. En raison du coût engendré par ces innovatio
techniques et par les différentes mises au point nécessaires, il fut décidé qu’un simple court métra
ne permettrait pas un retour sur investissements suffisant, et le projet fut donc modifié afin
réaliser un long métrage, seul capable de susciter un intérêt suffisamment important. La métho
d’enregistrement fut portée à huit pistes (violons/altos, violoncelles, contrebasses, bois, cuivres
percussions, plus un mélange des six pistes de parties et une prise à distance de l’orchestre entie
Le tout était ensuite mixé sur support optique (film cinéma) en quatre pistes : trois pistes de son
une piste de contrôle. Cette dernière était utilisée pour aider l’opérateur lors des réglages de volum
entre les différentes pistes, un problème crucial de la diffusion sonore par de multiples haut-parleu
(selon les salles, le système permettait la diffusion de la bande-son sur un nombre de haut-parleu
situé entre trente et quatre-vingts !). Voir Garity et Hawkins (1941) pour plus de détails sur les sp
cifications techniques du système et Plumb (1942) pour une proposition d’améliorations techniqu
par rapport au format originel. Bien que les avancées technologiques aient été remarquables,
système rencontra certains problèmes qui stoppèrent sa généralisation : nouveauté du matériel
coût de l’installation et de l’utilisation, arrivée de la Seconde Guerre mondiale et taille imposan
des différentes machines, qui dépassait largement celle nécessaire à l’époque pour la diffusion mon
Par exemple, le système Mark VIII, utilisé au Broadway Theater de New York pour la première mo
diale le 13 novembre 1940 faisait près de dix mètres de long et contenait plus de quatre cents lamp
Voir Garity et Jones (1942) pour un résumé des avantages et des inconvénients liés au form
Fantasound.
Les années 1950 virent l’apparition de multiples nouveaux formats de film cinéma, en grande pa
tie en raison de la concurrence engendrée par la popularité croissante de la télévision. Pour lutter co
tre celle-ci, et continuer à attirer les foules dans les salles, les studios décidèrent de produire d
films ambitieux et coûteux, qui, outre des sujets « spectaculaires » (péplums, films historiques
de guerre, etc.) et l’utilisation systématique de la couleur, proposaient une image élargie par rappo
au format standard 1,33:1 et une diffusion de la bande-son sur plusieurs haut-parleurs. Le premi
des nouveaux formats à apparaître fut en 1952 le Cinerama, qui utilisait trois films projetés l’un
côté de l’autre sur un écran incurvé et un quatrième film contenant les sept pistes magnétiques
son stéréo. Il est à noter que l’enregistrement s’effectuait grâce un ensemble de cinq microphon
directement sur le lieu de tournage. L’ingénieur du son Hazard Reeves avait conçu ce système af
que la position du son (dialogues, effets, etc.) corresponde avec l’image. Pour augmenter l’impressi
de submersion, il développa un système de diffusion comprenant sept groupes de haut-parleur
compatibles et seule une petite dizaine de films furent réalisés dans ce format, qui disparut au débu
des années 1960. Le format CinemaScope, lancé en 1953, connut un plus grand succès. Il utilisait u
procédé d’anamorphose optique basé à l’origine sur une lentille mise au point par l’astronome
inventeur Henri Chrétien. Ce procédé permettait de fixer sur la pellicule une image deux fois plu
large que la normale en la « compressant » dans sa largeur lors du tournage, puis en l’étirant pou
lui redonner un aspect normal lors de la projection. Voir American Cinematographer (1953) pou
plus de détails sur le principe de ce procédé. Même s’il fut prévu à l’origine de placer les pistes son
sur un film magnétique séparé, les quatre pistes furent finalement intégrées sur le film principa
après réduction de la taille de l’image, ce qui évitait aux exploitants de devoir s’équiper d’une machin
supplémentaire. Le format était stéréo, avec trois pistes pour des groupes de haut-parleurs situé
au centre, à gauche et à droite derrière l’écran, à la moitié et à un tiers de la largeur totale de celui-c
Un quatrième groupe de haut-parleurs, alimenté par une piste magnétique de dimensions réduite
était placé dans la salle, pour les effets « surround ». Cette piste contenait, au moment où des effe
devaient être diffusés, une fréquence de 12 kHz, qui servait de contrôle et indiquait aux amplifica
teurs d’appliquer du gain lorsque la tension d’entrée dépassait 0,025 V. Bien entendu, ce signal d
contrôle était retiré du signal envoyé vers les haut-parleurs d’effets grâce à un système de filtrag
passe-bas. Certaines installations fonctionnaient selon un principe inverse (la présence de la fré
quence de contrôle indiquant de couper le gain des amplificateurs), mais le principe restait le même
il s’agissait d’un interrupteur automatique qui permettait de se débarrasser de la quantité de souff
produite par la bande magnétique de petite taille et jugée inacceptable (Sponable et coll., 1953).
En plus du Cinerama et du CinemaScope, les studios de productions ou des inventeurs indépen
dants conçurent de nombreux autres formats pour tenter de les concurrencer : VistaVision
SuperScope, Todd-AO, Dimension 150, Technirama, Ultra Panavision, Super Panavision 70, et
Leur étude détaillée dépasse le cadre de ce livre. Dans certains cas, pour limiter le coût et permettr
aux exploitants de salles de ne pas avoir à trop investir, les films étaient distribués accompagnés d
la technique traditionnelle utilisée pour la bande-son (enregistrement mono directement sur
film optique), et dans d’autres cas avec un format de pseudo stéréo appelé Perspecta. N’utilisan
qu’une seule piste sur support optique, cette technique contenait — en plus de la bande-son norma
— trois sons de contrôle basses fréquences à 30, 35 et 40 Hz. Ceux-ci permettaient de déclenche
des effets envoyés vers trois groupes de haut-parleurs placés derrière l’écran (Fine, 1954). Il n
s’agissait bien sûr pas de stéréo, mais d’une sorte d’automatisation de la diffusion sonore entre le
voies. Une telle technique ne fonctionnait correctement qu’aux moments où les effets sonores étaien
© Dunod. Toute reproduction non autorisée est un délit.

seuls sur la bande-son. Avec de la musique ou des dialogues, les résultats n’étaient pas satisfaisant
car les sons étaient tous envoyés en même temps dans le même groupe de haut-parleurs, ce qu
n’est pas perçu comme étant naturel. Quoi qu’il en soit, les développements du cinéma permiren
d’habituer une grande partie du public au son stéréo et surround : un domaine de recherche qui n
cessera de provoquer des améliorations et qui, en plus de constituer une partie importante de l’équ
pement des salles de cinéma et des particuliers, permit de développer un intérêt pour la spatialisa
tion dans le domaine de la musique à proprement parler.

✦ Quadriphonie

Les ondes sonores reflétées qui surviennent lors de l’enregistrement seront reproduites avec une sensatio
de direction et sonneront de façon plus naturelle qu’avec un système de reproduction non directionne
Si des difficultés surviennent dans la reproduction, celles-ci peuvent être surmontées en employant un
seconde paire de haut-parleurs espacés différemment et possédant un réseau de modification différen
de celui de la première paire. (Blumlein, 1931)
premières tentatives de commercialisation d’un équipement destiné aux particuliers et permetta
la reproduction du son à travers de multiples haut-parleurs. Pourquoi y a-t-il eu à cette époque u
intérêt pour aller au-delà de la stéréo, au moment où celle-ci commençait à peine à se répandr
Si les experts s’accordaient pour considérer que la stéréo ne constituait pas un système de diffusi
sonore parfait, quels étaient précisément les griefs retenus contre elle ? Pour comprendre cela, exp
quons rapidement comment fonctionne le principe de localisation de l’azimut, et les raisons po
lesquelles la stéréo ne permet pas de recréer une illusion spatiale idéale.
La localisation d’azimut est complexe, mais fonctionne principalement grâce à deux mécanism
auditifs permettant au cerveau de reconstituer un espace sonore horizontal : les différences de pha
survenant aux fréquences basses, et les différences d’intensité survenant aux fréquences aiguës, av
une bande de transition située généralement aux alentours de 1 500 Hz (Rayleigh, 1907). Cependan
lors d’une reproduction d’enregistrement par des haut-parleurs, il s’avère qu’utiliser uniqueme
des différences de phase sur les fréquences basses pour fournir des informations d’azimut n’e
pas suffisant, et des différences d’intensité doivent donc être utilisées entre les deux canaux. Ma
heureusement, une telle solution brouille à son tour la précision de localisation, car les différenc
d’intensités appliquées sur les fréquences aiguës ne correspondent plus à leur état naturel. La stér
doit donc adopter un compromis afin de minimiser cette décorrélation entre l’image spatiale cré
par les fréquences basses et celle créée par les fréquences aiguës. Un autre problème majeur re
contré avec la stéréo est son incapacité à reproduire une image spatiale au-delà des haut-parleu
Bien qu’il soit possible de déphaser un des canaux pendant un court moment afin de créer l’illusi
que la source provient effectivement d’un angle supérieur à celui des haut-parleurs, cette techniq
ne peut pas être appliquée de façon très pratique pour une application courante.
La diffusion de musique par quatre haut-parleurs discrets fut imaginée dès le début d
années 1950 aux studios de la RTF. Pierre Schaeffer, assisté de Jacques Poullin, y conçut un systèm
de contrôle de la diffusion du son pour quatre haut-parleurs disposés en forme de tétraèdre, bapti
Potentiomètre d’espace et constitué de quatre grands cerceaux entourant l’interprète qui utilisaie
des bobines à induction et réagissaient aux gestes. La transition vers une utilisation grand pub
de la diffusion sonore par quatre canaux discrets ne fut cependant rendue possible qu’au début d
années 1970. La quasi-totalité des supports de l’époque étant au maximum stéréo, un matriçage d
données était obligatoire, car il fallait parvenir à stocker quatre canaux sur des supports conçus
l’origine pour deux. La technique la plus couramment utilisée était connue sous le nom
« 4:2:4 », ce qui signifie que quatre canaux sont encodés en deux canaux sur le support, puis déc
dés en quatre canaux au moment de la lecture. Bien entendu, un tel processus de matriçage, br
veté dès la fin des années 1960 (Scheiber, 1969) et réutilisé par la suite dans de nombreux systèm
entraînait une perte de qualité inévitable par rapport aux quatre canaux d’origine. Plusieurs soci
tés s’intéressèrent à ce procédé et développèrent chacune des formats propriétaires. Ces dernie
n’étaient malheureusement pas compatibles et souffraient d’une offre trop diversifiée (les enreg
trements étaient vendus sous la forme de disques vinyles, de cartouches huit pistes, de band
magnétiques, etc.) et de défauts qui ne furent résolus qu’après que le grand public eut fini par
désintéresser de ce format. De plus, la technologie Quad, utilisant le même principe que la stéré
à savoir les différences d’intensité, en possédait également les faiblesses. Il est bien connu que
deux haut-parleurs sont éloignés d’un angle supérieur à 60 degrés, l’auditeur entend un « trou
dans le milieu, et l’image située entre eux devient presque inexistante. Comme dans un système Qu
les haut-parleurs étaient placés autour de l’auditeur à des angles égaux de 90 degrés chacun, l’ima
était extrêmement difficile à obtenir, à moins d’être placé dans un « cône de vigilance » très étr
raisons, le format Quad disparut rapidement au milieu des années 1970.

7.4.2 Formats de son surround


Le principal acteur de la « démocratisation » du son surround fut la société Dolby, qui s’était fa
connaître grâce à ses systèmes de réduction du bruit dès les années 1960. Elle commença à déve
lopper des formats de son surround au milieu des années 1970, en commençant par le Dolby Ste
reo, un procédé utilisant le système de matriçage de Peter Scheiber. La figure 7.15 montre
schéma de fonctionnement de base d’un système de matriçage. Le principe de matriçage est a
cœur d’un grand nombre de formats de diffusion sonore multicanaux. Si les déphasages resten
toujours de 90° et –90°, les facteurs d’atténuation connaissent une multitude de possibilités.
Un autre facteur important de ces formats est qu’ils sont pour la plupart accompagnés d’un systèm
de réduction du bruit par compression-extension (Dolby A puis Dolby SR) lorsqu’il s’agit de forma
analogiques ou qu’ils sont encodés pour réduire la quantité de données sur le support, lorsqu’
s’agit de formats numériques. Voir le chapitre 3 pour une présentation du fonctionnement d’u
compresseur-extenseur. Les codecs numériques les plus courants sont AC-3 (Dolby Digital), DT
Coherent Acouctics (DTS), ATRAC (SDDS) et MLP ou Meridian Lossless Packing (Meridian Audio
Ce dernier est utilisé sur les DVD-Audio, et est appelé « sans perte », car s’il compresse les donnée
audio, il n’en supprime aucune, et permet de retrouver le signal originel à tout moment. Les autre
codecs numériques sont dits « avec perte », car ils suppriment des données en se basant sur de
principes psychoacoustiques. Signalons enfin le format Delta Modulation (Kodak CDS), aujourd’hu

Canal Canal
gauche gauche

Signaux identiques
Canal Canal Canal
central gauche
Déphasage 90° central
-3dB total
© Dunod. Toute reproduction non autorisée est un délit.

Canal Canal Canal


surround droite surround
-3 dB total Signaux identiques
Déphasage -90°
déphasés de 180°

Canal Canal
droite droite

Figure 7.15 – Principe de fonctionnement d’un système de matriçage « 4:2:4 »


utilisé dans le format Dolby Stereo. Les canaux gauche et droite sont transmis sans modifications
Les canaux central et surround sont atténués, en général de –3 dB, mais cette valeur peut varier
Ce dernier est de plus déphasé de 90° pour le canal gauche total et de –90 dB pour le canal droit
total. Lors du décodage, les canaux gauche et droite sont transmis sans modifications, les signau
identiques sur les deux canaux sont transmis sur le canal central, et les signaux identiques, mai
déphasés de 180° sont transmis vers le canal surround.
gistrer les valeurs de chacun d’entre eux. Voir le chapitre 1 pour une présentation de la compressi
des données audio et des formats les plus courants.
Le tableau 7.2 montre les formats surround les plus courants, en particulier ceux développés po
la diffusion sonore en salles de cinéma ou pour l’utilisation chez des particuliers. Voir Hull (199
pour un historique du développement des technologies au sein de la société Dolby. Ces formats
diffusion n’étant pas directement liés à la musique, les expliquer en détail dépasserait le cadre
ce livre. Il existe quand même, en raison de l’existence de ces formats, des applications plus spéci
quement musicales, en particulier dans les domaines de l’enregistrement, du mixage et de l’écou
Bien entendu, l’une des clés pour obtenir un signal multicanal de haute qualité est d’être capab
d’effectuer un enregistrement exploitant réellement ce format, et différant donc d’un enregistreme
stéréo traditionnel par couple. En effet, il importe de tenir compte de la captation du canal centr
qui ne saurait être uniquement un mélange des canaux gauche et droite avant, mais également
l’ambiance de la salle pour les canaux surround. Si les pistes ne sont pas suffisamment différente
l’avantage de posséder un format multicanal sera en quelque sorte perdu. En plus de la prise de s
avec plusieurs microphones (en général 6 micros répartis entre l’avant et l’arrière de la salle)
existe maintenant des microphones contenant plusieurs capsules et accompagnés d’un processe
d’effets qui permettent à eux seuls de reproduire l’ambiance d’une salle. Lors de l’étape de mixag
de nombreux choix artistiques doivent être pris en ce qui concerne le placement des voix et des in
truments dans tel ou tel canal, l’équilibre à respecter entre eux et les effets à appliquer. Certains ing
nieurs du son apprécient de pouvoir jouer avec de la réverbération pour modifier l’espace sono
tandis que d’autre préfèrent ne pas trop modifier le mixage, en considérant que le format surroun
est en lui-même suffisamment spectaculaire pour qu’il ne faille pas trop alourdir la musique p
un excès d’effets. Voir Holman (1997, 2000), Haidant (2001, 2002), Gandolfi (2002) et Dolby (200
pour plus de renseignements sur l’enregistrement, le mixage et le traitement du son dans les forma
surround.
En ce qui concerne l’écoute de musique, il existe de plus en plus d’enregistrements disponibles
format « surround » (généralement sur support Super Audio CD ou DVD-Audio). Si certains ont ré
lement été enregistrés dans ce format lors d’un concert (musique classique ou jazz, par exempl
la plus grande partie résulte d’un travail de remasterisation effectuée en studio grâce à des machin
dédiées, à partir d’une musique mono ou stéréo. Il existe également sur le marché des récepteu
équipés de fonctions DSP du type Dolby Pro Logic II ou DTS Neo : 6 qui effectuent des calculs po
« exploser » un signal stéréo en format 5.1, afin de permettre l’écoute d’un support analogique
numérique deux canaux en situation de diffusion par plusieurs haut-parleurs. Il est probable q
des modifications seront apportées dans les années qui viennent aux formats de diffusion multican
adressés au grand public. Certains ont proposé d’augmenter encore le nombre de haut-parleu
par souci de réalisme : système 10.2 de Tomlinson Holman ou système 22.2 pour la vidéo et la té
vision à ultra haute définition (UHD) de la NHK (Japan Broadcasting Corporation), mais ces pr
positions restent pour l’instant à l’état de prototype et il est difficile de savoir si les audiophiles
les amateurs de cinéma seront prêts à investir de nouveau dans des équipements coûteux.
7.4.3 Ambisonie et synthèse par champ d’onde
Au-delà de la diffusion par haut-parleurs traditionnelle, jouant sur l’intensité et éventuellement s
des effets de filtrage et de réverbération, comme cela est le cas pour la stéréo ou les systèmes su
round, il convient de signaler un ensemble de techniques basées sur un même postulat : le princi
de Huygens. Appliqué à l’origine à l’optique et permettant entre autres d’expliquer la diffractio
celui-ci propose une analyse de la propagation d’onde qui est la suivante : chaque point d’une on
© Dunod. Toute reproduction non autorisée est un délit.

Tableau 7.2 – Principaux formats de son surround.

Nom Support Année Canaux support/diffusion Notes

Fantasound Analogique (film optique) 1940 3/5.0 (LF, CF ; RF, LS, RS) Applications : cinéma. Système discret
(canaux surround obtenus par variations
d’amplitude).

Cinerama Analogique (film magnétique) 1952 7/7.0 (LF, MLF, CF, MRF, RF, LS, RS) Applications : cinéma. Système discret.

CinemaScope Analogique (film magnétique) 1953 4/4.0 (LF, CF, RF, MS) Applications : cinéma. Système discret.

Todd-AO Analogique (film magnétique) 1955 6/6.0 (LF, MLF, CF, MRF, RF, MS) Applications : cinéma. Système discret.

Quadriphonie Analogique (bande magnétique 1970 2/4.0 (LF, RF, LS, RS) Applications : particuliers. Système matr
et disque vinyle)

Dolby Stereo Analogique (film optique) 1976 2/4.0 (LF, CF, RF, MS) Applications : cinéma. Système matricé.

Dolby « Baby Boom » Analogique (film magnétique) 1977 6/4.2 (LF, CF, RF, MS, 2 LFE) Applications : cinéma. Système discret.

Dolby « Split Surround » Analogique (film magnétique) 1979 6/5.1 (LF, CF, RF, LS, RS, LFE) Applications : cinéma. Système discret.

Dolby Surround Analogique (cassette audio, VHS) 1982 2/3.0 (LF, RF, MS) Applications : particuliers. Système matr

Dolby Surround Pro Logic Analogique (cassette audio, VHS) 1987 2/4.0 (LF, CF, RF, MS) Applications : particuliers. Système matr

LC Concept Numérique (disque magnéto-optique 1990 6/5.1 (LF, CF, RF, LS, RS, LFE) Applications : cinéma. Système discret.
puis CD-Rom)

Kodak CDS Numérique (film optique) 1990 6/5.1 (LF, CF, RF, LS, RS, LFE) Applications : cinéma. Système discret.

Dolby Digital Numérique (film optique pour le cinéma 1992 6/5.1 (LF, CF, RF, LS, RS, LFE) Applications : cinéma et particuliers.
ou DVD pour les particuliers) Système discret.

DTS Numérique (CD-Rom pour le cinéma 1993 6/5.1 (LF, CF, RF, LS, RS, LFE). Applications : cinéma et particuliers.
ou DVD pour les particuliers) Certaines variantes permettent Système discret. Certaines variantes
du 6.1 ou 7.1 sont matricées.

SDDS Numérique (film optique) 1993 8/7.1 (LF, MLF, CF, MRF, RF, LS, RS, LFE). Applications : cinéma. Système discret.
Peut également lire en 5.1 ou en 4.0
Tableau 7.2 (suite)– Principaux formats de son surround.

Nom Support Année Canaux support/diffusion Notes

Dolby Digital Surround EX Numérique (film optique pour le cinéma 1999 6/6.1 (LF, CF, RF, LS, CS, RS, LFE) Applications : cinéma et particuliers.
ou DVD pour les particuliers) Système matricé.

Dolby Surround Pro Logic II Analogique (cassette audio, VHS) 2000 2/5.1 (LF, CF, RF, LS, RS, LFE) Applications : particuliers. Système matr
et numérique (CD, DVD)

Dolby Surround Pro Logic IIx Analogique (cassette audio, VHS) 2003 2 ou 5.1/7.1 (LF, CF, RF, LS, RS, LB, RB, Applications : particuliers. Système matr
et numérique (CD, DVD) LFE)

Note : les canaux correspondent aux abréviations suivantes : LF (avant gauche), MLF (avant gauche médian), CF (avant central), MRF (avant droite médian), RF (avant droite)
(surrond mono), LS (surround gauche), CS (surround central), RS (surround droite), LB (arrière gauche), RB (arrière droite), LFE (effets basses fréquences). Un système dis
possède autant de pistes que nécessaire à la diffusion du son, tandis qu’un système matricé comprend une étape d’encodage (afin de réduire le nombre de pistes sur le sup
et de décodage (pour reconstituer le nombre de pistes originel).
être conçue comme la somme de toutes les ondes provenant des points déjà traversés.
Le système Ambisonics fut formalisé par Michael Gerzon et Peter Fellgett au milieu de
années 1970, en s’appuyant sur le postulat qu’un système de diffusion utilisant l’intensité du son pou
définir un champ sonore (comme la stéréo, la quadriphonie, et même les systèmes 5.1 d’aujourd’hu
n’est pas capable de recréer une image fantôme correctement et ne peut donc fonctionner qu’à un
seule position appelée « cône de vigilance ». Une image fantôme est le son apparaissant au milie
de deux haut-parleurs lorsqu’il est diffusé par ceux-ci avec une intensité égale. Le cône de vigilanc
est le point où le système de diffusion est calibré de façon optimale et permet donc la meilleur
reconstitution de l’espace sonore (le sommet bien connu du triangle dans le cas de la stéréo). A
contraire, l’ambisonie permet d’encoder et de décoder n’importe quel type de son avec certaine
caractéristiques :
• Son surround total, y compris avec la hauteur (périphonie) sur quatre canaux.
• Absence de cône de vigilance (l’auditeur peut se déplacer sans que son écoute soit trop dis
tordue).
• Les images peuvent apparaître à d’autres endroits que les haut-parleurs.
• Absence de disposition spécifique pour les haut-parleurs (ceux-ci peuvent être déplacés san
modifier la qualité de diffusion et chacun d’entre eux est utilisé pour créer le champ acou
tique).
Voir Gerzon (1975) et Fellgett (1975) pour une présentation du format Ambisonics d’origine.
Celui-ci, appelé Ambisonics de premier ordre ou B-format, définit l’information sonore grâce à quatr
canaux : la coordonnée d’amplitude instantanée W, et les trois coordonnées spatiales X, Y et Z
Les équations qui définissent ces canaux — simulant une captation d’espace acoustique grâce
trois microphones bidirectionnels et à un microphone omnidirectionnel — sont les suivantes :
X = cos ( A ) × cos ( B ) ( avant – arrière )
Y = sin ( A ) × sin ( B ) ( gauche – droite )
Z = sin ( B ) ( haut – bas )
W = 0,707 ( avant + arrière + gauche + droite + haut + bas )
© Dunod. Toute reproduction non autorisée est un délit.

où A est l’angle dans le sens contraire des aiguilles d’une montre depuis la position avant centra
et B est l’élévation.
Ainsi, tout son peut être placé à l’intérieur d’une sphère imaginaire, simplement en multipliant so
signal par les coordonnées fournies ci-dessus. Lorsqu’il s’agit de définir une source en mouvemen
d’autres équations fournissent les coefficients d’échelonnage nécessaires (Malham, 1998).
Afin de rendre cette description compatible avec les supports stéréo, un format fut créé, appelé UH
Celui-ci matrice les canaux X, Y et W au sein de deux canaux, grâce à des coefficients et à d
déphasage obtenu au moyen de filtres passe-tout sur toute la largeur de bande audio. On obtient alo
une description d’un champ acoustique horizontal qui peut être enregistré sur disque, band
magnétique, CD ou bien transmis par voie radiophonique. Il est également possible d’ajouter u
troisième canal favorisant la précision de la reproduction horizontale, ainsi qu’un quatrième perme
tant d’intégrer les informations de hauteur du plan Z. La plupart des enregistrements Ambisonic
disponibles dans le commerce sont bien évidemment encodés au format UHJ. Voir Gerzon (1985
pour une description détaillée de ce format, ainsi que pour des explications sur sa mise en œuvr
tionnels, il est également possible d’utiliser une source multipiste afin de lui appliquer un mixa
ambisonique. Dans la plupart des cas, le résultat était historiquement encodé en UHJ afin d’assure
la musique une possible exploitation commerciale, mais certaines productions furent encodées
B-format complet, c’est-à-dire comprenant les informations de hauteur. Si du matériel analogiq
de mixage au format Ambisonics a existé dès la fin des années 1970, il semble maintenant que le su
port privilégié pour les outils d’encodage prenne la forme de modules d’extension dédiés, acces
bles depuis un programme d’édition logiciel multipiste. L’avantage de cette solution est que la st
tion de travail peut également inclure des décodeurs afin de permettre une écoute de contrô
instantanée.
En raison de la faible distribution des décodeurs sur le marché et avec l’avènement des nouvea
supports autorisant le stockage de plusieurs pistes, une réflexion s’engagea pour trouver un moy
de transmettre un enregistrement Ambisonics par le biais d’un système 5.1, et le G-format fut cr
(Gerzon et Barton, 1992). Pour sa mise en œuvre, un nouveau type de décodeur est utilisé en st
dio qui encode le signal sur tout support compatible 5.1 (DVD-Video avec AC-3, film cinéma, C
multicanal avec encodage DTS ou MLP, DVD-Audio ou SACD), ce qui élimine totalement la nécess
de posséder un décodeur sur le lieu d’écoute. De plus, il peut être envisagé d’utiliser des cana
d’un système 5.1 (effets basses fréquences et/ou central avant) afin de diffuser un champ acoustiq
avec informations de hauteur dans un environnement ou les haut-parleurs correspondants auraie
préalablement été surélevés. Signalons qu’il est tout à fait possible d’ajouter une version UHJ en pl
de la version G-format, et de reconstituer (en retirant le filtrage effectué par le décodeur et en mod
fiant légèrement le contenu des canaux) un mixage B-format à partir d’un mixage G-format (Ele
1998).
Si la théorie et la pratique liées à l’ambisonie jusqu’à récemment se limitaient à des calculs de pr
mier ordre, une partie de la recherche actuelle en matière de diffusion sonore ambisonique por
sur le développement et l’utilisation de calculs d’ordre plus élevés, comportant davantage de canau
En effet, la précision de la reconstruction d’un espace acoustique augmente considérablement av
ce type de calculs, et permettrait d’améliorer sensiblement la qualité de la diffusion ambisoniqu
en particulier dans des espaces de grande taille. Voir Bamford (1995) et Daniel (2000) pour d
explications sur la théorie et les possibilités de ces techniques.
Signalons enfin une technique basée elle aussi sur le principe de propagation de front d’onde
Huygens et qui utilise comme solutions la fonction de Green : la synthèse par champ d’onde. E
repose sur deux postulats de base. Tout d’abord, un nombre infini de haut-parleurs (une « ligne
acoustique linéaire) peut recréer un front d’onde acoustique en pondérant et en retardant les signa
qu’ils émettent de façon appropriée. Ensuite, un champ de pression acoustique émis par une source
l’extérieur d’un volume peut être reconstitué à l’intérieur de celui-ci si la pression et le gradient
direction du champ de pression à sa surface sont connus. Pour des applications pratiques, le volum
est simplifié en une forme circulaire, et la ligne acoustique est remplacée par un grand nombre
haut-parleurs placés les uns à côté des autres sur un plan horizontal, en général à une distance
10 à 20 cm chacun. Les haut-parleurs pondérés et retardés peuvent effectuer deux types de rend
acoustiques : rendu de modèle par calculs de dérivées à partir de sources ponctuelles ou d’ond
planes, et rendu de données par l’utilisation de réponses impulsionnelles contenant les vélocités d
sources en plus des valeurs de pression sonore. Voir Rabenstein et Spors (2005) pour une explicati
de cette technique. Les implémentations existantes connaissent cependant quelques défauts : auc
haut-parleur ne peut être considéré comme une source monopole parfaite, et l’acoustique propre
lieu d’écoute comporte nécessairement ses propres réactions acoustiques. Ces deux facteurs entra
Rabenstein (2005) proposent des solutions pour tenter de remédier à ces défauts.
Cette technique a fait l’objet de recherches menées par un consortium européen formé par de
entreprises, des instituts de recherche et des universités, en vue d’applications dans le domaine d
multimédia. En associant la synthèse par champ d’onde au format MPEG-4, le but souhaité est d
pouvoir « transporter » un espace virtuel ou réel en un autre lieu, en l’accompagnant de donnée
visuelles. Voir Carrouso (2001) pour une présentation de ce système.
© Dunod. Toute reproduction non autorisée est un délit.
Chapitre 8

La réverbération

8.1 Réverbération
La réverbération est effet acoustique apparaissant naturellement. Nous l’entendons dans les grande
églises, les salles de concert, et dans d’autres espaces ayant des plafonds élevés et des surface
réfléchissantes. Les sons émis dans ces espaces sont renforcés par des milliers d’échos très proche
se réfléchissant sur le plafond, les murs et le sol. La plupart de ces échos arrivent jusqu’à nos oreille
après s’être reflétés sur plusieurs surfaces, et nous les entendons donc après que le signal origin
a atteint nos oreilles. L’oreille fait la distinction entre son direct (originel) et son reflété, car celui-ci e
en général plus faible en amplitude, légèrement retardé, et filtré en passe-bas en raison de l’absorp
tion des hautes fréquences par l’air et par les surfaces réfléchissantes (figure 8.1). La myriad
d’échos fusionne dans notre oreille en un « halo » acoustique prolongé qui suit le son originel.
Un enregistrement par microphone d’un instrument dans une salle de concert est entouré par un
enveloppe de réverbération de la salle. Ceci est en particulier le cas lorsque le microphone e
© Dunod. Toute reproduction non autorisée est un délit.

omnidirectionnel. Pour les enregistrements effectués dans de petits espaces de studio, on peu
désirer ajouter de la réverbération, car sans elle une voix ou un ensemble sonnent de façon « sèche
et manquent « d’espace » ou de « profondeur ».
Certains sons synthétisés ont peu ou presque pas d’espace intrinsèque. Ces signaux « morts
acoustiquement peuvent être améliorés par la panoramisation spatiale, de l’écho et de la réverbé
ration.
Mais l’espace n’est pas seulement un truc de cosmétique pour les sons. La profondeur spatiale peu
être utilisée pour isoler des éléments de premier plan et d’arrière-plan dans une architecture com
positionnelle. Plus encore, la réverbération n’est pas un effet monolithique ; il existe de nombreuse
couleurs et qualités de réverbération — autant en fait qu’il existe d’espaces naturels et de réverbéra
teurs synthétiques. Aucun type de réverbération (naturel ou synthétique) n’est idéal en musiqu
La plupart des unités de réverbération électronique simulent plusieurs types de réverbération
Source sonore

Son direct

Sons
Auditeur réfléchis

Figure 8.1 – La réverbération est causée par les réflexions du son


sur les surfaces d’un espace. La ligne foncée est le trajet du son direct ; toutes les autres lign
représentent des réflexions sonores qui parviennent plus tard à l’auditeur en raison de leurs traje
plus longs.

Certaines tentent (souvent grossièrement) de simuler des salles de concert connues, tandis q
d’autres créent des images spatiales bizarres qui seraient impossibles à dupliquer dans une vra
salle.
8.1.1 Propriétés de la réverbération
Des salons et des salles de concert sonnant de façon resplendissante ont été construits depuis l’An
quité, mais leurs propriétés acoustiques de base n’ont pas été comprises d’un point de vue scien
fique avant le dix-neuvième siècle. Les travaux pionniers sur l’analyse des espaces réverbérants fure
effectués par Wallace Sabine (1868-1919), qui donna des conseils pour la construction (sur u
structure préexistante) du Symphony Hall de Boston en 1900. Celui-ci était le premier espace d’inte
prétation conçu selon des principes acoustiques rigoureux et scientifiques. Sabine observa que
réverbération d’une salle dépend de son volume, de sa géométrie, et de la réflectivité de ses surfac
(Sabine, 1922). Il n’est pas surprenant que les grandes salles ayant des surfaces réfléchissantes aie
des temps de réverbération longs, et que les petites salles ayant des surfaces absorbantes aient d
temps de réverbération courts. Les surfaces lisses et dures comme le verre, le chrome et le marb
tendent à réfléchir toutes les fréquences de façon uniforme, tandis que les surfaces absorbant
comme les rideaux épais, la mousse et les tapis épais tendent à absorber les hautes fréquences.
lèles dispersent les fronts d’onde suivant des modèles complexes de dispersion, et les petites irré
gularités telles que les garnissages plastiques, les échancrures, les colonnes et les statues tendent
diffuser les réflexions, créant un effet de réverbération plus riche et plus dense.
Sabine a également observé que l’humidité influe sur le temps de réverbération dans les grande
salles, l’air humide tendant à absorber les hautes fréquences.
✦ Réponse impulsionnelle d’une salle
L’une des façons de mesurer la réverbération d’une salle est de déclencher une explosion très cour
(une impulsion) et de tracer la réponse de la salle dans le temps. Ce tracé, lorsqu’il est corrigé pou
le spectre de l’explosion, montre la réponse impulsionnelle de la salle. Comme nous l’avions men
tionné au chapitre 4, les circuits ont également une réponse impulsionnelle, ce qui fait de la mesur
de la réponse impulsionnelle un outil très fréquemment utilisé, à la fois dans la conception d’u
circuit et d’une salle de concert. La réverbération naturelle possède en général une enveloppe d
réponse impulsionnelle similaire à celle montrée à la figure 8.2. La construction de la réverbératio
suit une courbe quasi exponentielle qui atteint un pic en moins d’une demi-seconde et chute plu
ou moins lentement.

2.
Le son direct
1. atteint l'auditeur
Impulsion
originelle 4.
3. Réverbération
Premières fusionnée
réflexions

Amp.

0 25 50 - 100 1600
Temps en millisecondes
© Dunod. Toute reproduction non autorisée est un délit.

Figure 8.2 – Enveloppe de la réponse impulsionnelle d’une salle réverbérante.


Les composants de la réverbération sont constitués du préretard (montré sous la forme du retard d
25 ms avant que le son atteigne l’auditeur), les premières réflexions, et la réverbération fusion

En général, un intervalle de temps irrégulier entre les pics est souhaitable dans une salle de concer
Des pics espacés régulièrement indiquent du « tintement » — fréquences résonantes dans la sal
— qui peut être dérangeant.
✦ Temps de réverbération
Une autre mesure importante de la réverbération est le temps de réverbération ou RT60. Le term
RT60 fait référence au temps nécessaire à la réverbération pour chuter de 60 dB par rapport à so
amplitude pic (1/1 000 de son énergie pic). Les durées typiques de RT60 pour les salles de conce
s’étendent de 1,5 à 3 s. Le point RT60 du tracé de la figure 8.3 est à 2,5 s.
-10
Point
-20
RT60
-30
-40
-50
Amp.
-60
0 0.5 1.0 1.5 2.0 2.5
Fréquence

Figure 8.3 – Le temps de réverbération correspond au point


où celle-ci descend en dessous de –60 dB par rapport à son niveau maximal.

8.1.2 Réverbération artificielle : origines


Les premières tentatives de réverbération artificielle pour les enregistrements transmettaient
son à travers une chambre d’écho acoustique, puis mélangeaient le signal réverbéré avec le sign
originel. De grands studios d’enregistrement utilisent encore une salle séparée comme chamb
d’écho. Ils placent une enceinte d’un côté de la pièce réfléchissante et un microphone de haute qual
de l’autre côté. Le son devant être réverbéré est projeté par l’enceinte et capté par le micropho
(figure 8.4). Une chambre d’écho offre une ambiance acoustique unique, créée par une pièce, u
enceinte et un microphone spécifiques. Lorsque toutes ces conditions sont en sympathie, la qual
de la réverbération peut être excellente. Un défaut de l’approche par chambre d’écho (en deho
des caractères pratiques de la construction d’un tel espace) est que la réverbération ne peut p
être démesurément variée.
La façon la plus habituelle pour ajouter de la réverbération est d’utiliser une unité de réverbérati
ou réverbérateur. Avant que les réverbérateurs numériques ne soient introduits au milieu d
années 1970, les réverbérateurs étaient des dispositifs électromécaniques contenant deux tran
ducteurs (entrée et sortie) et un support réverbérant comme un long ressort ou une plaque
métal. Le son à réverbérer était transmis du transducteur vers le support. Le support transmett
le son vers le transducteur de sortie mélangé avec des myriades d’échos causées par les vibratio
/réflexions du signal à l’intérieur du support. Le résultat était amplifié et mélangé avec le signal o
ginel pour créer un effet de réverbération artificielle assez « colorée ». Les meilleurs réverbérateu
à plaque produisaient des réverbérations relativement propres et diffuses, mais ils étaient limit
par un RT60 de seulement quelques secondes et par un modèle de réverbération fixe.

8.1.3 Algorithmes de réverbération numérique


Les réverbérateurs numériques utilisent des retards temporels, des filtres et du mixage pour obten
l’illusion d’un son dispersé à l’intérieur d’une salle. D’un point de vue du traitement du signal, u
réverbérateur est un filtre dont la réponse impulsionnelle ressemble à celle d’une salle. Manfr
Schroeder des Bell Telephone Laboratories (1961, 1962, 1970) fut le premier à implémenter un alg
rithme de réverbération artificielle sur un ordinateur numérique. Ses programmes de réverbérati
absorbaient des heures de calculs sur les ordinateurs les plus puissants de l’époque. Les unités
réverbération modernes sont compactes et fonctionnent en temps réel. Des molettes et des bouto
de contrôle sur leurs façades permettent aux musiciens d’appeler une grande variété d’effets.
plupart des réverbérateurs peuvent être contrôlés par MIDI.
Panneau de diffusion sonore

Haut-parleur Microphone

Source
sonore
Bus Bus de
d'envois retours
d'effets d'effets
Mélangeur

Somme des signaux "humide" et "sec"

Figure 8.4 – Pour créer un effet d’ambiance acoustique, le son peut être envoyé
dans une chambre d’écho par un haut-parleur. Le son reflété indirect est capté par un microphon
à l’autre bout de la chambre. Dans l’idéal, la chambre est de forme irrégulière. Pour augmenter e
rendre aléatoires les réflexions, la chambre doit être équipée de panneaux de diffusion sonore
Ceux-ci contiennent de nombreuses anfractuosités disposées à intervalles inégaux. Lorsque les onde
sonores les atteignent, elles sont reflétées à différents temps de retard, selon l’anfractuosité qu’elle
frappent. L’effet de diffusion tend à éliminer les ondes stationnaires (fréquences résonantes dan
la salle) qui apparaissent avec des murs parallèles.

✦ Parties de la réverbération
L’effet de réverbération peut être divisé en trois parties, montrées plus haut dans la figure 8.2 :
• Le son direct (non réfléchi) voyage en ligne droite et arrive en premier aux oreilles de l’aud
teur.
© Dunod. Toute reproduction non autorisée est un délit.

• Les premières réflexions discrètes frappent l’auditeur juste après le son direct.
• Les réverbérations fusionnées contiennent des milliers d’échos proches, mais demandent d
temps pour se construire puis pour disparaître.
Les unités de réverbération du commerce fournissent en général des contrôles qui permettent d
manipuler ces différentes parties de façon plus ou moins indépendante. Sur ces unités, l’équilibr
entre son réverbéré et son direct est parfois appelé le rapport humide/sec — le son réverbéré e
appelé « humide » — et le retard juste avant les premières réflexions est appelé le préretard.
Une simulation efficace de la réverbération naturelle nécessite une haute densité d’échos. Certain
des premiers réverbérateurs numériques ne produisaient pas plus de 30 échos par seconde, tand
que dans les vraies salles de concert, une densité de plus de 1 000 échos par seconde n’est pas rar
De nombreux réverbérateurs actuels offrent un contrôle permettant aux utilisateurs d’ajuster
densité d’échos pour atteindre l’effet désiré, depuis des échos discrets jusqu’à un modèle de réverbé
ration dense et fusionnée.
à retard à bascules. Il s’agit simplement d’une unité de retard qui peut être « basculée » en plusieu
points pour sortir plusieurs versions du signal d’entrée, chacune ayant des retards différents. Vo
le chapitre 6 pour une explication des lignes à retard à bascules.
Le son luxuriant de la réverbération fusionnée nécessite une densité d’échos supérieure à ce qu’u
ligne à retard à bascules est capable de fournir efficacement. De nombreux algorithmes différen
pour la réverbération fusionnée existent, mais ils mettent en général tous en jeu une variation d
algorithmes originels de Schroeder, présentés maintenant.
8.1.4 Réverbérateurs élémentaires
Schroeder appelait les blocs de construction des réverbérateurs élémentaires, dont il existe de
formes : les filtres en peigne récursifs et les filtres passe-tout, qui ont été présentés tous les deux
chapitre 4.
✦ Filtres en peigne récursifs
Comme cela est expliqué au chapitre 4, un filtre en peigne récursif ou à réponse impulsionnelle infin
(IIR) contient une boucle de réinsertion dans laquelle un signal d’entrée est retardé de R écha
tillons et multiplié par une amplitude ou un facteur de gain g, puis renvoyé pour être ajouté au dern
signal d’entrée (figure 8.5a).
Lorsque le retard R est petit (moins de 10 ms environ), l’effet du filtrage en peigne est avant to
spectral. C’est-à-dire qu’il crée des pics et des creux dans la réponse fréquentielle du signal d’entré
Lorsque R est supérieur à 10 ms, il crée une série d’échos retardés, comme montré à la figure 8.5

(a) g

× D

Signal
d'entrée + Signal
de sortie

(b)

Amp.
D 3D 5D . . .
Temps

Figure 8.5 – Un filtre en peigne récursif pour la réverbération.


(a) Circuit d’un filtre en peigne avec les coefficients D (nombre d’échantillons à retarder) et g (qua
tité de réinjection). (b) Réponse impulsionnelle, sous forme d’une série d’échos.
le plus long), g est presque réglé sur 1. Le temps nécessaire pour que la sortie du filtre en peign
chute de 60 dB est spécifié par la formule suivante (Moore, 1990) :
temps_de_chute = ( 60 ⁄ – Gainboucle ) × Retardboucle
où Gainboucle est le gain g exprimé en décibels = 20 × log10 (g), et Retardboucle est le retard R exprim
en secondes = R/T, où T est le taux d’échantillonnage. Ainsi, si g = 0,7, Gainboucle = –3 dB.

✦ Filtres passe-tout

Les filtres passe-tout transmettent toutes les fréquences des signaux stables de façon égale (voir
chapitre 4). Mais ils « colorent » les signaux transitoires raides en introduisant des retards dépen
dants de la fréquence. Lorsque le temps de retard est suffisamment long (entre 5 et 100 ms), le filtr
passe-tout montré à la figure 8.6a possède une réponse impulsionnelle comme celle montrée à
figure 8.6b : une série d’impulsions d’écho en chute exponentielle, comme un filtre en peigne ayan

(a) g

× 1-g
2

x[n] + D × + y[n]

×
-g

(b) g
2
g
© Dunod. Toute reproduction non autorisée est un délit.

3
g

4
g

g5
g6 g 7
Amp.
D 2D 3D . . .
Temps

Figure 8.6 – Un réseau passe-tout de premier ordre.


(a) En ajoutant –g fois l’entrée dans la sortie du retard, un filtre en peigne est transformé en filtr
passe-tout. (b) La réponse impulsionnelle d’un filtre passe-tout possède une série d’impulsion
d’échos en chute exponentielle. Ceci fait du filtre d’impulsion un élément de base des réverbérateurs
court est appliqué, le filtre résonne avec une période égale au temps de retard du filtre. Ceci expliq
pourquoi les filtres passe-tout ne sont pas « incolores » lorsqu’ils traitent des sons ayant des attaqu
raides et des transitoires en chute.

✦ Patchs de réverbération

Nous avons établi que les filtres en peigne récursifs et les filtres passe-tout peuvent générer une sér
d’échos en chute. Pour une réverbération luxuriante, il est nécessaire d’interconnecter un certa
nombre de réverbérateurs élémentaires pour créer une densité d’écho suffisante pour que les éch
fusionnent. Lorsque les réverbérateurs élémentaires sont connectés en parallèle, leurs échos s’ajo
tent. Lorsqu’ils sont connectés en série, chaque écho généré par une unité déclenche une sér
d’échos dans l’unité suivante, ce qui crée une densité d’échos bien plus grande. Le nombre d’éch
en série est le produit du nombre d’échos de chaque unité.
Dans les conceptions de Schroeder, les filtres en peigne sont interconnectés en parallèle pour min
miser les anomalies spectrales. Par exemple, une fréquence qui passe à travers un filtre en peig
peut être atténuée par un autre. Les filtres passe-tout sont généralement connectés en série. En rais
de la distorsion de phase qu’ils introduisent, connecter les filtres passe-tout en parallèle peut abou
à une réponse d’amplitude non uniforme en raison des effets d’annulations de phases.
La figure 8.7 montre deux réverbérateurs proposés par Schroeder. Dans la figure 8.7a, les filtres
peigne en parallèle initient un train d’échos qui sont additionnés et envoyés dans deux filtres pass
tout en série. Dans la figure 8.7b, cinq filtres passe-tout font que la densité d’échos est multipli
par chaque unité. Si chaque passe-tout ne génère que quatre échos audibles, le résultat final sera
1 024 échos à la sortie du passe-tout numéro 5.
Le son caractéristique d’un système de réverbération numérique de ce type dépend du choix d
temps de retard R (ceux-ci déterminent l’espacement des échos) et des facteurs d’amplitude
(ceux-ci déterminent la chute ou le temps de réverbération) pour chacun des réverbérateurs éléme
taires que ce système comprend. Le temps de retard est également appelé temps de bouclage.
Pour les réverbérations sonnant naturellement, il est important de choisir des temps de retard q
soient relativement premiers entre eux (c’est-à-dire n’ayant pas de diviseur commun) (Moor
1977, 1979c). Pourquoi cela ? Considérez deux filtres en peigne, où le temps de retard du premi
est de 10 ms et celui du second est de 12,5 ms. La longueur de leurs lignes à retard est respectiveme
de 800 et de 1 000 échantillons, à un taux d’échantillonnage de 40 kHz. Comme les longueurs
ces lignes à retard sont divisibles toutes les deux par 200, un réverbérateur construit à partir de c
deux unités n’aura pas de chute douce. Aux multiples de 200 ms, les échos coïncident pour au
menter l’amplitude à ce point, causant une sensation d’échos discrets ou de « secousses » régulièr
dans la chute. Lorsque les temps de retard sont ajustés à 10,025 et 24,925 ms, la longueur de leu
lignes à retard est respectivement de 799 et 997. Maintenant, la première coïncidence d’échos n’app
raît pas avant (799 × 997)/40 000 kHz = 19,91 s. Voir Moorer (1979c) pour une présentation montra
comment régler ces paramètres.
Comme on peut le supposer, des temps de retard plus courts sont en corrélation avec le son d’espac
plus petits. Pour une grande salle de concert, le réverbérateur de la figure 8.7a utilise des temps
retard du filtre en peigne de l’ordre de 50 ms avec un rapport de retard « le plus long : le plus cour
de 1,7:1. Pour un effet de petite pièce carrelée, les temps de retard du filtre en peigne peuvent êt
établis aux environs de 10 ms. Les filtres passe-tout ont des temps de bouclage relativement cour
de 5 ms ou moins. Le temps de réverbération des filtres passe-tout doit être court (moins de 100 m
car leur fonction est d’augmenter la densité de la réverbération globale, et non pas sa durée.
Signal
d'entrée Signal d'entrée

Passe-tout
1

Peigne Peigne Peigne Peigne Passe-tout


1 2 3 4 2

Passe-tout

+
3

Passe-tout
Passe-tout 4
1

Passe-tout Signal
2 de sortie
réverbéré

Signal de sortie
réverbéré

Figure 8.7 – Conceptions originelles des réverbérateurs de Schroeder.


(a) Filtres en peigne parallèles dirigés vers deux étapes de filtrage passe-tout.
(b) Quatre étapes de filtrage passe-tout en série.
© Dunod. Toute reproduction non autorisée est un délit.

✦ Simulation des premières réflexions

Les algorithmes de réverbération de Schroeder peuvent être caractérisés comme des modèles d
retard recirculant à bascules (RRB). Comme nous l’avons expliqué plus haut, le réverbérateur est e
général divisé en plusieurs parties de filtres en peigne et passe-tout, qui génèrent des densité
d’échos suffisantes pour créer une simulation raisonnable de réverbération globale. Le modèle RR
est efficace, mais il ne simule que des réverbérations globales génériques, et non pas les propriété
acoustiques spécifiques d’un espace de concert réel.
En 1970, Schroeder étendit ses algorithmes de réverbérateur originels pour incorporer une ligne
retard multibascules pour simuler les premières réflexions qui sont entendues dans une salle avan
le départ du son réverbérant fusionné. Voir le chapitre 6 pour plus de détails sur les lignes à retard
multibascules. Cette conception, qui a été adoptée dans la plupart des réverbérateurs du com
merce, est montrée à la figure 8.8. Ainsi, pour simuler une salle de concert particulière, une faço
a1

a2
× Réverbérateur
global
Ligne à retard
multibascules ×
an

+
Signal de sortie
réverbéré

Figure 8.8 – Dans les dernières conceptions de Schroeder,


une ligne à retard multibascules simulait les premières réflexions du son dans une salle de concer

directe d’améliorer le modèle RRB de base est de greffer la réponse mesurée des premières réflexio
de la salle sur le réverbérateur global générique (Moorer, 1979c). Une extension supplémenta
consiste à filtrer en passe-bas la réverbération globale selon les caractéristiques mesurées d’absor
tion sonore de la salle.
Une autre considération importante dans la conception de réverbération est que le son se présenta
à chaque oreille peut être mutuellement incohérent. C’est-à-dire que l’algorithme de réverbérati
devrait être légèrement différent (sans corrélation) pour chaque canal de traitement.
8.1.5 Effets de réverbération fictive
Les buts du compositeur de musique électronique s’étendent bien au-delà de la simulation d’espac
réverbérants naturels. Un réverbérateur peut évoquer de nombreux effets spatiaux « fictifs » inh
bituels qui ne sont pas censés être réalistes. Un exemple bien connu est la réverbération « à seui
qui explose rapidement du point de vue de la densité d’échos, puis se coupe de façon soudaine.
réverbération à seuil était utilisée sur les caisses claires dans les années 1980 et devint rapideme
un cliché de la musique de variété. D’autres effets incluent une réverbération « grésillante » obten
en appliquant un filtre passe-haut au son réverbéré, et son opposé, une réverbération assourdie, ob
nue en appliquant un filtre passe-bas raide. En manipulant les paramètres d’un réverbérateur, on pe
créer des combinaisons étranges telles que des salles minuscules ayant des temps de réverbérati
longs. Le tableau 8.1 fait la liste des paramètres disponibles sur de nombreux réverbérateurs
commerce.
Paramètre Description

Type de réverbération Choix entre « Hall », « Chambre », « Plaque » ou « À seuil »

Taille Établit les temps de retard à l’intérieur des réverbérateurs élémentaires

Préretard Contrôle le moment de départ de l’effet

Retard d’entrée Fait que l’effet précède la cause (le son humide précède le son sec)

Temps de réverbération Établit la longueur d’extinction

Diffusion Détermine la densité d’écho

Mixage Rapport entre le son d’entrée et le son réverbéré en sortie

Filtre passe-haut Ne réverbère que les octaves supérieures du son, créant un effet de réverbéra-
tion « grésillante »

Filtre passe-bas Ne réverbère que les octaves inférieures du son, créant un effet de réverbération
« assourdie »

La partie sur la réverbération avec la convolution, expliquée plus loin dans ce chapitre, présente u
autre type de réverbération non réaliste utilisant la technique de synthèse granulaire asynchron
présentée au chapitre 22.

8.2 Modelage d’espaces sonores


L’étude de la réverbération continue d’évoluer. Les algorithmes décrits dans la partie précédente su
la réverbération sont un point de départ pour les conceptions présentées ici. Cette partie expliqu
plusieurs approches d’une réverbération plus réaliste qui a été développée ces dernières année
Parmi celles-ci, il y a des extensions des algorithmes de base de Schroeder, des modèles géométr
ques, de la réverbération par la convolution, de la réverbération par guides d’onde, et de la réve
bération multiflux.
Plusieurs de ces techniques représentent une approche par modèles physiques de la réverbération
© Dunod. Toute reproduction non autorisée est un délit.

Voir le chapitre 26 pour une introduction à la théorie des modèles physiques dans le contexte de
synthèse du son. Ces méthodes très gourmandes en calculs modèlent la diffusion des ondes acou
tiques dans des espaces réels. En dehors de la création de modèles plus réalistes, ils offrent la pos
sibilité de simuler des espaces imaginaires. Dans cette catégorie, nous incluons des salles dont le
caractéristiques et la géométrie changent dans le temps — telles qu’une salle de concert élastiqu
qui « s’étire » et « se rétrécit » au cours d’une phrase — ou des espaces impossibles tels qu’un cabin
avec un temps de réverbération long. Ainsi, le but de ces techniques n’est pas toujours une réve
bération réaliste, mais plutôt une transformation spatiale spectaculaire.

8.2.1 Extensions des algorithmes de réverbération de Schroeder


Dans les algorithmes de réverbération de Schroeder standards, les filtres passe-tout génèrent un
série d’échos ayant une chute exponentielle. Une extension du modèle de Schroeder est de substitue
au filtre passe-tout normal un filtre passe-tout oscillant dans la conception de Schroeder. Dans ce ca
la réponse impulsionnelle du filtre passe-tout est un train d’impulsions ayant une amplitude e
Figure 8.9 – La réponse impulsionnelle d’un réverbérateur élémentaire passe-tout oscillant.

forme de sinusoïde amortie (figure 8.9). Ceci modèle le cas d’une salle « sonnant bien » ayant u
modèle de réverbération légèrement ondulant (Chowning et coll., 1974 ; Moorer, 1979c).

8.2.2 Modelage géométrique d’espaces sonores


Une autre option de l’approche RRB est de construire un modèle physique de la géométrie d’une sa
en utilisant un système de conception assistée par ordinateur (CAO). Les enceintes qui projette
le son constituent une « fenêtre acoustique » dans la pièce simulée qui les entoure.
Dans la conception de F.R. Moore (1983), chaque source sonore devient un vecteur ayant une po
tion, une direction, une magnitude et une dispersion ajustables. En commençant par la projecti
d’un vecteur sonore dans une pièce, l’ordinateur trace les trajets de réflexions sonores (Moore, 1983
Dans un modèle géométrique complet, l’algorithme de réverbération devrait modeler les modèl
de réflexion de centaines de rayons sonores simulés. Selon le détail du modèle, cette approche pe
être extrêmement gourmande en calcul. Par besoin d’efficacité, Moore utilisa une approche gé
métrique pour ne modeler que les premières réflexions d’une salle simulée. Il utilisa le modèle RR
standard de Schroeder pour la réverbération globale.
Un problème d’une approche géométrique trop simple de la réverbération a été montré par Moor
(1979). Une telle approche ne parvient pas à prendre en compte la diffusion des rayons sonores q
apparaît dans les salles réelles. La diffusion apparaît, car aucune surface n’est à 100 pour cent lis
ou réflective, ce qui signifie que les ondes sonores se dispersent et que leur énergie est partielleme
absorbée à chaque point de réflexion. Ainsi, un certain nombre de méthodes tentent d’améliorer
modèle par traçage de rayons en modelant explicitement la diffusion sonore. Elles peuvent insér
une fonction de dispersion stochastique à chaque point de réflexion. La réverbération par rése
de guides d’onde, présentée plus loin, est une autre tentative pour modeler explicitement la diffusi
sonore.

8.2.3 Réverbération par la convolution


Un moyen précis, mais gourmand en calculs pour simuler la réverbération d’un espace donné, e
de convolver la réponse impulsionnelle d’un espace avec le signal à réverbérer. Voir le chapitre 5
Smith (1985a) pour plus de détails sur la convolution. On peut concevoir la réverbération sous form
d’un type de filtre, où la longueur (en échantillons) de la réponse impulsionnelle correspond
temps de réverbération (en échantillons) de la salle simulée. La réponse impulsionnelle d’une sa
est obtenue en enregistrant la réponse de la salle à un son explosif extrêmement bref. Cet ensemb
d’échantillons est ensuite convolvé avec le signal à réverbérer.
directe n’est pas pratique pour la réverbération, car elle entraîne une quantité de calculs énorm
Par exemple, à un taux d’échantillonnage de 48 kHz et pour une longueur de réponse impulsionnel
de trois secondes, chaque échantillon de chaque canal du signal d’entrée doit être multiplié et add
tionné 48 000 × 3 fois. Pour une seconde de son d’entrée, ceci se traduit de la façon suivante :
144 000 × 48 000 = 6 912 000 000
Multiplications/additions Échantillons Multiplications/additions
par échantillon par seconde par seconde et par canal
(réponse impulsionnelle)
Ainsi, réverbérer une seconde de son stéréophonique par convolution demanderait 13,824 milliard
de multiplications/additions. Calculer cela en temps réel demande un niveau de capacité n’existan
que dans les superordinateurs très coûteux. Sur un support de traitement du signal ajusté à 100 mi
lions de multiplications/additions par seconde dans une application usuelle, par exemple une car
insérable dans un ordinateur personnel, ce calcul demanderait environ deux minutes et huit seconde
soit un facteur de 138:1 comparé au temps réel.
Ainsi, la seule réverbération par convolution pratique utilise la convolution rapide, en tirant avantag
des accélérations offertes par la transformée de Fourier rapide (FFT). Voir le chapitre 5 pour de
détails sur la convolution rapide.

✦ Réverbération granulaire

Le roulement du tonnerre a été attribué aux échos parmi les nuages ; et si l’on considère qu’un nuag
est une collection de particules d’eau… et que chacune est capable de refléter le son, il n’existe pa
de raison pour laquelle les sons très [forts] ne devraient pas être réverbérés… à partir d’un nuag
(Sir John Herschel, cité dans Tyndall, 1875)
Cette partie décrit un effet de réverbération qui peut être accompli en convolvant un son d’entré
arbitraire avec un nuage de grains sonores.
Il est bien connu que les nuages dans l’atmosphère effectuent un effet de réverbération. Les scien
tifiques acoustiques français du dix-neuvième siècle Arago, Mathieu et Prony, dans leurs expérience
sur la vélocité du son, ont observé que dans un ciel parfaitement clair les explosions de canons étaien
toujours uniques et courtes. Au contraire, lorsque le ciel était couvert ou lorsqu’un grand nuag
occupait une partie du ciel, les coups de canon étaient fréquemment accompagnés de « roulements
© Dunod. Toute reproduction non autorisée est un délit.

longs et continus similaires au tonnerre (Tyndall, 1875). Voir Uman (1984) pour une analyse d
l’acoustique du tonnerre.
En supposant que le processus de fonctionnement de la convolution est compris, il n’est pas surpre
nant d’apprendre que la convolution d’un son avec un nuage de particules sonores crée un effet d
coup dispersé, « éclaboussé dans le temps », similaire à la réverbération atmosphérique. L’éclabou
sure temporelle commence avec un nuage de grains sonores plus ou moins dense généré par
technique de synthèse granulaire asynchrone (AGS), décrite au chapitre 22. L’AGS disperse les grain
statistiquement à l’intérieur d’une région définie dans le plan temps/fréquence. Dans la convolution
cette masse de grains peut être imaginée comme étant la réponse impulsionnelle d’une zone définis
sant un nuage cumulus. La « réflexion » virtuelle effectuée par chaque grain disperse le son d’entré
dans le temps ; c’est-à-dire qu’il ajoute des retards multiples espacés irrégulièrement. Si chaqu
grain était une impulsion d’un seul échantillon, les échos seraient des copies conformes de l’entré
originelle. Comme chaque grain peut contenir des centaines d’échantillons, cependant, chaqu
écho est localement éclaboussé temporellement.
0

5.4

(b)

2.09
(c)

7.4
(d)

Temps 7.4

Figure 8.10 – Réverbération par convolution granulaire.


(a) Entrée : « Moi, Alpha Soixante ». (b) Réponse impulsionnelle granulaire, constituée de 1 00
grains sinusoïdaux de 9 ms centrés à 14 000 Hz avec une largeur de bande de 5 000 Hz. (c) Conv
lution de (a) et (b). (d) Mélange de (a) et de (c) dans une proportion de 5:1, ce qui crée une réve
bération autour de la parole.

Les effets d’éclaboussure temporelle peuvent être divisés en deux catégories de base, qui dépende
principalement de l’attaque du son d’entrée. Si l’entrée commence par une attaque raide, chaq
grain génère un écho de cette attaque. Si le nuage de grains n’est pas continu, ces échos sont irr
gulièrement espacés dans le temps. Si l’entrée possède une attaque douce, cependant, l’éclabou
sure temporelle elle-même est adoucie en une sorte de réverbération colorée étrange (figure 8.10
La « couleur » de la réverbération et des échos est déterminée par le spectre des grains, qui est u
facteur de durée, d’enveloppe, et de forme d’onde de chaque grain. Voir le chapitre 22 pour plus
détails sur les paramètres des grains.
Un guide d’onde est un modèle de calcul d’un support dans lequel les ondes voyagent. Les physicien
ont longtemps utilisé les réseaux de guides d’onde pour décrire le comportement des ondes dans le
espaces résonants (Crawford, 1968). L’approche par réseau de guides d’onde à la réverbération e
construite avec un ensemble de lignes à retard bidirectionnelles (Smith, 1985c, 1984a, b ; Garnett
Mont-Reynaud, 1988 ; le chapitre 26 présente plus en détail les guides d’onde dans le contexte de
synthèse du son). Chaque ligne à retard contient une onde se propageant dans une direction e
retournant à la jonction centrale lorsqu’elle atteint la fin de la ligne. En connectant plusieurs guide
d’onde en réseau, on peut construire un modèle d’un milieu acoustique, tel que le modèle d
réflexion d’une salle de concert.

= Jonction

Sortie1

Signal
d'entrée

Sortie2

Figure 8.11 – Un réseau par guides d’onde avec trois ports et six nœuds.
Ce guide d’onde propage l’énergie vers ses sorties, ce qui signifie qu’il est un réseau ouvert finissan
par perdre son énergie, comme cela est le cas dans une salle de concert réverbérante.

Dans la réverbération par guides d’onde, les longueurs des lignes à retard individuelles des guide
d’onde sont différentes les unes des autres pour simuler les différents temps d’écho à l’intérieur d’un
salle. À la jonction des guides d’onde multiples, l’énergie est dispersée entre elles, causant un effe
de diffusion typique des sons réverbérants fusionnés (figure 8.11). Dans un réseau fermé, une fo
que le signal est introduit, il recircule librement dans tout le réseau sans perte d’énergie. Pour obten
un effet de réverbération, on doit introduire de petites pertes d’énergie d’amplitude à l’intérieur d
réseau pour obtenir le temps de réverbération désiré. Les entrées et les sorties du signal peuven
être placées n’importe où dans le réseau.
© Dunod. Toute reproduction non autorisée est un délit.

Les réseaux par guides d’onde sont des modèles de réverbération efficaces. Un réseau à N jonction
nécessite N multiplications et 2N–1 additions pour générer un échantillon de sortie. Le nombre d
jonctions N dépend du système à modeler. Un modèle de boîte résonante peut nécessiter huit inte
sections, tandis qu’un modèle d’une réponse de réverbération d’une salle complexe peut nécessite
des centaines de jonctions, puisque tout endroit où le signal peut se disperser nécessite une jonction
La structure d’un réseau en guides d’onde permet d’être sûr qu’il n’y aura aucun débordemen
numérique ou aucune oscillation à l’intérieur du réseau. De plus, la propriété importante de dis
persion diffuse des rayons sonores (Moorer, 1979), qui n’est presque pas prise en compte par u
modèle géométrique simple, est bien simulée par un réseau par guides d’onde. Un effet de « mur
en mouvement » peut être obtenu en variant doucement les longueurs des lignes à retard.
La réverbération multiflux peut être appréhendée comme étant un compromis entre les approch
détaillées, mais gourmandes en calcul (telles que le modelage géométrique ou la réverbération p
convolution), et le modèle RRB efficace, mais global. La réverbération multiflux sépare le sign
réverbéré en plusieurs flux, chacun modelant la réverbération locale émanant d’une petite par
spatiale de la pièce virtuelle. Chaque flux est implémenté avec un réseau RRB (filtres en peigne
filtres passe-tout) réglé pour cette partie de la pièce.
Le système de « réverbérateur spatial » développé à la Northwestern University dans l
années 1980, utilise l’approche de multiflux et la combine avec deux autres processus : (1) un modè

Signal
d'entrée

Traitement
F des réflexions

M
flux
réverbérants

R R R

D D D D

+ +
N
canaux
de sortie

Figure 8.12 – Vue simplifiée d’un « réverbérateur spatial »


d’après Kendall, Martens et Decker (1989). Ce système modèle un espace en additionnant les cont
butions de M réverbérateurs locaux, qui génèrent finalement N canaux de sortie. F est un « préfiltre
qui impose au spectre des changements en raison de la distance et de l’absorption de l’air. R est u
flux réverbérant local, qui modèle la réverbération d’un sous-espace de la pièce totale. D est un di
geur qui filtre le son selon sa position dans l’espace virtuel. Le système implémenté possède deu
processeurs de réflexion indépendants, et des alimentations croisées dans les flux réverbérants
pavillons, les épaules et le torse supérieur (Kendall et Martens, 1984 ; Kendall et coll., 1986 ; Kenda
Martens et Decker, 1989). Les réflexions de premier et de second ordre déterminent les temps d
retard de chaque flux de réverbération indépendant. Ensuite, après avoir réverbéré chaque flu
séparément, un « dirigeur » filtre chaque flux pour imposer des indications supplémentaires comm
sa position dans un espace virtuel tridimensionnel (figure 8.12).
L’utilisateur du système peut spécifier les caractéristiques d’un espace virtuel en termes acoustique
comme les dimensions de la salle, la position du son, la position de l’auditeur, l’absorption sonor
des murs, et ainsi de suite. Pour simuler un modèle de réverbération d’une salle, chacune des direc
tions principales de la réverbération est traitée sous forme d’un flux séparé, avec jusqu’à dix-hu
flux dans une implémentation (Kendall, Martens et Decker, 1989). Comme le montre la figure 8.1
le nombre des flux de réverbération est indépendant du nombre de canaux de sortie utilisés fina
lement pour projeter le son.
Le concept des flux de réverbération séparés était également présent dans la recherche de réverbéra
tion quadriphonique effectuée par le MIT au début des années 1980 (Stautner et Puckette, 1982
Dans ce travail, les sorties de l’enceinte répondaient spatialement au canal d’entrée de la sourc
Par exemple, un son direct émanant de l’enceinte avant gauche était entendu comme se réverbé
rant dans deux enceintes adjacentes puis finalement dans l’enceinte arrière droite opposée.
© Dunod. Toute reproduction non autorisée est un délit.
Chapitre 9

Reconnaissance de la hauteur

9.1 Analyse de hauteur, de rythme et de forme d’onde :


origines
Les efforts pour décrire et mesurer les propriétés du son musical datent de l’Antiquité. Les ancien
textes védantiques reconnaissent la notion d’équivalence d’octave et divisent celle-ci en 22 intervalle
appelés shrutis (Framjee, 1958 ; Daniélou, 1958). Cette échelle, que les Grecs appelaient Enarmo
nikos, était considérée par les peuples helléniques comme la base de toutes les échelles musicale
Pythagore (~ 580-500) établit une correspondance entre les hauteurs musicales et les divisions d
la longueur d’une corde, ce qui le conduisit à décrire les intervalles et les échelles musicales en terme
de rapports arithmétiques. Les Grecs développèrent également un ensemble de modèles rythmique
ou « modes » qui servirent de base rythmique à la majeure partie de la musique européenne d
Moyen Âge. Bien que la notation musicale évolua lentement par la suite, elle ne constituait pas un
base de mesures acoustiques précises.
© Dunod. Toute reproduction non autorisée est un délit.

Avant l’invention des outils électroniques tels que les amplificateurs audio, les oscillateurs et le
oscilloscopes, les mesures acoustiques étaient limitées aux propriétés les plus basiques du son. E
1636, Galilée (1564-1642) et Marin Mersenne (1588-1648) attribuèrent expérimentalement
hauteur à la fréquence d’une forme d’onde. Mersenne et Pierre Gassendi (1592-1655) effectuèren
la première tentative visant à déterminer la vitesse à laquelle les ondes sonores se déplacent. Au
alentours de 1700, Joseph Sauveur (1653-1716) inventa une méthode pour compter les vibration
acoustiques. Il fabriqua le terme les harmoniques pour décrire les sons plus élevés qui accompagnen
un son fondamental.
Le diapason, qui vibre à une hauteur constante, fut inventé en 1711 par l’Anglais John Shore, u
trompettiste et luthiste. En 1830, Félix Savart développa une technique de mesure de la hauteur qu
utilisait des roues dentelées rotatives. Savart appuyait une anche contre différentes roues pour déte
miner les fréquences précises des sons en se basant sur le nombre de dents et la vitesse de rotatio
(Beranek, 1949). Travaillant dans un laboratoire calme de l’île Saint-Louis à Paris, l’acousticie
d’origine allemande Rudolf Koenig (1832-1901) construisit un tonomètre de précision, couvran
154 diapasons (Miller, 1916 ; Wood, 1940).
Les premiers instruments de précision pour mesurer l’intensité des ondes sonores étaient la ro
phonique de La Cour (1878) et le disque Raleigh (1882), appelé ainsi par référence au grand acou
ticien britannique lord J. W. S. Rayleigh (1842-1919). Le premier appareil de mesure électroniq
du niveau sonore n’apparut que lorsque George W. Pierce en construisit un en 1908, deux ans apr
l’invention de la lampe à triode par Lee De Forest (1873-1961).

9.1.1 Premières images du son


L’un des problèmes auxquels les premiers acousticiens durent faire face dans leur étude du son f
que les formes d’onde peuvent être entendues et non vues. Ils imaginèrent des méthodes ingénieus
pour parvenir à voir le son. L’une d’entre elles mettait en jeu la modulation d’un bec Bunsen av
du son et l’observation de l’effet sur la flamme. Les premières tentatives recensées de l’analyse d
flammes sonores furent sans doute celles effectuées par le Dr Higgens en 1777 (Tyndall, 1875
Rudolf Koenig construisit des instruments de précision pour générer des images sonores qu’il appe
des flammes manométriques (figure 9.1). Pour plus de détails, voir Mayer (1878) ; Poynting
Thomson (1900) ; Beranek (1949).
En plaçant un tube résonant autour d’un bec Bunsen, John Tyndall (1820-1893) fit « chanter » l
flammes. Il décrivit également des expériences avec ce qu’il appelait des flammes nues sensib
— non entourées par des tubes. Tyndall analysa les modèles des flammes sonores selon leu
« queues », leurs « ailes » et leurs « fourches ». D’autres supports pour représenter les formes d’on
sonores incluaient une fumée modulée par le son et des jets d’eau haute pression.
Des images plus directes des formes d’onde sonores apparurent à la moitié du dix-neuvième sièc
Le Kaleidophone Wheatstone (1827) projetait les mouvements vibratoires sur un écran. Ceci co
duisit Jules Lissajous (1857) à développer ses courbes de Lissajous, qui indiquaient à la fois l’inte
valle de fréquence et la différence de phase entre deux signaux vibrants. Le Phonautograph Sco
Koenig (1857) était un diaphragme placé à l’extrémité d’un cornet acoustique. Attaché au d
phragme, il y avait un stylet qui traçait sa vibration sur un papier fumé fixé sur un cylindre en rot
tion (figure 21.2). Le Phonodeik (1916) de D.C. Miller était en grande avance dans le traçage
formes d’onde dans le domaine temporel, car il écrivait sur un film optique se déplaçant à u
vitesse de 13,3 m/s.

9.1.2 Premiers enregistreurs de son


Les premiers enregistreurs de son provenaient des efforts pour capturer graphiquement le so
Inspiré du Phonautograph, le Phonograph de Thomas Edison (1878) inscrivait les formes d’on
sonores sur des cylindres à feuilles d’étain qui permettaient des lectures ultérieures des sons. U
année plus tard, Edison les remplaça par des cylindres de cire. Un certain nombre de chercheurs co
çurent des méthodes pour photographier les formes d’onde sonore inscrites sur les cylindres
phonographe (Miller 1916). Un autre appareil d’enregistrement, le système Gramophone d’Ém
Berliner (1887), utilisait des disques rotatifs laqués, qui devinrent finalement le support choisi.
Telegraphone de Valdemar Poulsen (1900) fut le premier système d’enregistrement audio à utilis
les signaux magnétiques. Dans le Telegraphone, un fil métallique tournait d’une bobine rotative
une autre bobine tout en passant devant une tête d’enregistrement. En 1924, Kurt Stille dévelop
un système d’enregistrement qui fut amélioré dans les années suivantes et conduisit à la fabricati
du Magnetophon par la société AEG à partir de 1935. La transition vers le support magnétique f
bien sûr au centre du développement de la technologie des ordinateurs numériques. Et c’est ce
(b)
© Dunod. Toute reproduction non autorisée est un délit.

Figure 9.1 – Flammes manométriques pour l’analyse de formes d’onde.


(a) Appareillage. Les sons captés par le cornet modulent la flamme du bec Bunsen à l’intérieur d
la boîte. Lorsque celle-ci est tournée, les miroirs situés à l’extérieur projettent la flamme sous form
d’une bande continue comportant des arêtes vives ou dents, correspondant à la hauteur et au spectr
du son d’entrée. (b) Images de flamme des voyelles [OU], [O] et [A] par Rudolf Koenig, chantées su
les hauteurs Do 1 (en bas de chaque groupe), Sol 1 (au milieu de chaque groupe) et Do 2 (en hau
de chaque groupe) (d’après Tyndall, 1875).
(b)

Figure 9.2 – La version de Rudolph Koenig du Phonoautograph


pour l’enregistrement d’images des formes d’onde sonores. (a) Appareillage. (b) Enregistrement

capacité à stocker les données acoustiques — même momentanément en mémoire vive — qu


conduit au véritable progrès de l’analyse du son.

9.2 Reconnaissance de la hauteur et du rythme


dans les systèmes MIDI
La reconnaissance de hauteur et de rythme commence de l’un de ces deux points de départ possible
analyse de formes d’onde sonore brutes ou analyse des flux de messages MIDI. Évidemment, ce
dernière est l’approche la plus facile. Lorsqu’un musicien joue d’un outil d’entrée tel qu’un clavi
ou un contrôleur de cuivre, les détections de hauteur et d’événement sont effectuées électromécan
quement par l’outil d’entrée lui-même. Un microprocesseur à l’intérieur de l’outil d’entrée contrô
constamment l’état des touches, des boutons, et des autres surfaces de contrôle de l’instrumen
Lorsqu’un musicien joue, l’état de ces contrôles change, et le microprocesseur détecte ces évén
ments. Il génère un message de note MIDI contenant le temps de départ et de fin de chaque évén
ment et la hauteur MIDI associée au contrôle modifié. Ces messages peuvent être dirigés par u
grammes n’ont qu’à analyser les messages MIDI pour obtenir l’information de hauteur et de minu
tage. À partir de là, ils peuvent procéder directement aux formes supérieures d’analyse.
Cela dit, il reste des contrôleurs pour lesquels le problème de la détection de hauteur reste importan
Les instruments à cordes posent de sérieux problèmes aux détecteurs de hauteur, nécessitants u
schéma combinant plusieurs stratégies à la fois (une combinaison de capteurs acoustiques et électro
mécaniques). Et comment déduit-on la « hauteur » de signaux émis par un transducteur cérébral
Seul un schéma plutôt indirect semble possible.
L’analyse commençant par des formes d’onde est le noyau central de ce chapitre sur la reconnais
sance de la hauteur. Les systèmes MIDI ne font face à ce problème que lorsque le flux de donnée
provient d’un convertisseur hauteur-MIDI (PMC). Un PMC tente d’émettre des valeurs de hauteu
MIDI qui correspondent à la hauteur des sons qui y entrent (Fry, 1992). Le chapitre sur la reconnai
sance du rythme commence aussi avec l’analyse de formes d’onde sonores, mais aborde ensuit
des problèmes tels que le suivi du tempo et la transcription de partition qui peuvent également êtr
appliqués aux systèmes MIDI.

9.3 Le problème de la détection de hauteur


La largeur de perception de l’oreille est bien supérieure à celle de l’œil ; alors que la première s’éten
sur onze octaves, la seconde ne couvre qu’un peu plus d’une octave. (John Tyndall, 1875)
Nous pouvons définir un détecteur de hauteur (DH) ou estimateur de hauteur comme un algorithm
logiciel ou un appareil qui prend un signal sonore en entrée et essaie de déterminer la période d
hauteur fondamentale de ce signal. C’est-à-dire qu’il tente de trouver la fréquence qu’un auditeu
humain accepterait comme étant de même hauteur que le signal d’entrée (en supposant qu’il exis
une telle fréquence). En raison du fait que le concept de hauteur est ambigu dans de nombreux son
et que la perception humaine de hauteur n’est pas complètement comprise, les DH ne peuven
réussir qu’avec un nombre limité de sons. Cela n’a aucun sens de tenter de trouver la « hauteur
d’un son percussif bruiteux tel qu’un crash de cymbale, des impulsions brèves, des grondemen
sourds ou des masses sonores complexes. En fait, si nous examinons attentivement les traces fré
quentielles des sons d’instruments traditionnels, nous nous apercevons que leur hauteur n’e
jamais parfaitement fixe et comporte de nombreuses microvariations. Dans de nombreuses appl
cations musicales, par exemple en concert, la tâche des DH est d’ignorer ces microvariations et d
© Dunod. Toute reproduction non autorisée est un délit.

localiser la fréquence centrale. Ainsi, ce que l’on demande à un DH comporte une difficulté inhé
rente. Il doit être précis, mais pas trop, tout comme l’auditeur humain.
Au-delà de la détection de hauteur se tient le vaste univers de l’interprétation de hauteur dans u
contexte musical, ou analyse compositionnelle. Ce niveau d’analyse sort du cadre de ce chapitre, ma
nous discuterons de quelques problèmes dans la partie sur l’analyse du contexte musical.

9.3.1 Applications de détection de hauteur


Les applications musicales de détection de hauteur sont extrêmement nombreuses. Une des pre
mières applications provenait des besoins des ethnomusicologues de capturer les mélodies ornée
des cultures musicales du monde entier, comme les chants indiens. Ces mélodies microtonales éla
borées ne peuvent pas correctement être représentées par la notation musicale traditionnelle. U
outil d’un tel genre, appelé le Melograph Seeger, lisait la sortie de 100 filtres passe-bande à tier
d’octave toutes les quatre millisecondes et cherchait le maximum. Le premier maximum est cens
contenir le fondamental. Après traitement, le Melograph produisait un graphique en deux partie
(a)

(b)

Temps

Figure 9.3 – Tracé mélodique de deux secondes par un chanteur indien


similaire à celui d’un Melograph. Le temps se déplace horizontalement.
(a) Tracé de la hauteur fondamentale. (b) Tracé de l’amplitude (d’après Gjerdingen, 1988).

ou mélogramme (figure 9.3) montrant la fréquence fondamentale et l’amplitude en fonction d


temps (Seeger, 1951 ; Moorer, 1975). La technique du Melograph Seeger continue à être mise à jo
en utilisant la technologie informatique pour fournir différentes vues du mouvement mélodiq
(Gjerdingen, 1988).
Une autre application de l’estimation de hauteur appartient au domaine de la transformation du so
Les programmes d’édition du son incluent souvent des routines d’estimation de hauteur utilisé
comme guides pour les opérations de déplacement de hauteur et d’échelonnage temporel. U
autre application de studio est de transcrire un solo joué sur un instrument acoustique tel qu’u
saxophone, par exemple, dans un programme de notation musicale. Des processus avancés comm
la séparation de deux voix simultanées commencent par une détection de hauteur (Maher, 1990
En concert, les DH peuvent aider un synthétiseur à suivre l’interprétation d’un instrumentiste
d’un chanteur. Lorsque l’instrumentiste joue dans un microphone, le signal est envoyé à un détecte
de hauteur qui génère des messages de note MIDI correspondants aux hauteurs jouées. Ces me
sages peuvent commander au synthétiseur de faire écho aux hauteurs que l’instrumentiste est
train de jouer. Des scénarios d’interprétation plus sophistiqués sont possibles si l’on interpose u
ordinateur entre le détecteur de hauteur et le synthétiseur. Dans ce cas, le logiciel tournant sur l’ord
nateur peut commander au synthétiseur d’harmoniser ou de créer des variations des hauteurs
l’instrumentiste. L’ordinateur peut commander au synthétiseur de rester silencieux sauf s’il e
déclenché par des indications spécifiques jouées par l’interprète.

9.3.2 Difficultés de la détection de hauteur


La perception humaine de hauteur est un phénomène complexe (Goldstein, 1973 ; Moorer, 197
Hermes, 1992). Nos oreilles perçoivent les hauteurs musicales même en présence de signaux bru
teux. Nous pouvons suivre plusieurs hauteurs simultanément (sinon l’harmonie et le contrepoi
seraient indéchiffrables) et également détecter des déviations de hauteur légères, mais expressiv
qui ne sont pas là (c’est-à-dire des fréquences fondamentales rendues implicites par la présence d
leur série harmonique — un effet entendu avec n’importe quel petit haut-parleur), et des trajectoire
de hauteur illusoires (par exemple les sons Shepard — des sons qui semblent monter et descendr
de façon continue). De nombreux sons ne fournissent pas de sensation particulière de hauteur. Le
mécanismes grâce auxquels nous détectons la hauteur ne sont pas complètement compris, car i
impliquent du traitement cognitif et des facteurs subjectifs tels qu’entraînement et familiarité, ain
que des mécanismes de l’oreille interne.
Certains DH tentent d’émuler un modèle théorique des mécanismes humains de détection de hau
teur, mais la majorité des appareils mettent en jeu des techniques plus simples choisies principa
lement pour leur efficacité de calcul. L’efficacité est particulièrement importante dans les DH, ca
ils doivent travailler en temps réel pour identifier la hauteur jouée. De toute façon, aucun détecteu
de hauteur n’est précis à 100 pour cent, bien que certaines méthodes très gourmandes en calcu
(souvent en temps différé) soient dignes de confiance lorsque le signal d’entrée est contraint d
diverses manières.
✦ Transitoires d’attaque
Le premier problème auquel les DH doivent faire face est de trier les transitoires d’attaque d’un son
L’analyse détaillée de l’attaque de nombreux instruments révèle des formes d’onde chaotiques
instables. Si une fréquence fondamentale est présente dans l’attaque, elle est probablement obscurc
par du bruit et des partiels inharmoniques. Certains instruments peuvent avoir besoin de 100 ms o
plus pour s’établir sur une hauteur stable ; cette période d’instabilité embrouille les DH (Fry, 1992).
✦ Fréquences basses
Les détecteurs de hauteur commençant par une analyse spectrale ont en général des difficulté
avec les sons graves, nécessitant l’utilisation de DH dans le domaine temporel (Lyon et Dyer, 1986
N’importe quel DH a des problèmes à identifier les hauteurs basses en temps réel. Afin de déte
miner la période de la hauteur fondamentale, au moins trois cycles de la forme d’onde fixe doiven
être échantillonnés avant que l’analyse puisse commencer. Pour une hauteur basse fréquence, pa
exemple un La à 55 Hz, trois cycles nécessitent 54 ms pour être échantillonnés. Si l’on ajoute à ce
la durée du transitoire d’attaque et de l’algorithme de détection de hauteur lui-même, un retar
perceptible est alors inévitable.

© Dunod. Toute reproduction non autorisée est un délit.

Fréquences hautes
Les hautes fréquences peuvent également poser des problèmes à certains DH en temps réel. Lorsqu
la fréquence s’élève, une période de hauteur est représentée par moins d’échantillons. La résolutio
avec laquelle la hauteur peut être déterminée dans le domaine temporel est directement influencé
par la longueur de la période de hauteur ou le nombre d’échantillons de retard utilisés pour la com
paraison d’un signal avec le précédent (Amuedo, 1984).
✦ Pistage myope de hauteur
Tous les DH commencent avec une analyse d’un grain temporel durant entre 20 et 50 ms ; ainsi, leu
analyse est basée sur un segment temporel étroit. Au contraire, la perception humaine de hauteu
n’est pas localisée dans le temps. Les prévisions modèlent la perception de hauteur ; c’est-à-dire qu
nous estimons la hauteur en nous basant sur le contexte musical. Comme les DH ne se basent que su
des détails locaux, ils peuvent suivre avec myopie des détails non pertinents produits non intention
nellement, tels que l’instabilité au commencement d’une note ou d’un vibrato excessif.
L’ambiance acoustique dans laquelle un instrument ou une voix sont entendus influe sur la précisi
de la détection de hauteur. Un enregistrement de studio effectué près du microphone et compres
peut exagérer les incidents de jeu ou les bruits du chant, tels que les grattements de l’archet, les cli
de clés, ou les sons soufflés, qui encombrent le signal entendu par le DH. Au contraire, les sons baign
dans la réverbération et dans l’écho brouillent les premières notes sur le commencement des not
suivantes. Si l’analyse est effectuée en temps différé, toute tentative pour supprimer de l’ambian
peut aider le DH. Voir Beauchamp, Maher et Brown (1993) et la description dans la partie sur
détection de hauteur dans le domaine fréquentiel.

9.4 Méthodes de détection de hauteur


La majorité des algorithmes DH proviennent de la recherche sur la reconnaissance et la synthè
de la parole. L’importance du problème est reflétée dans le nombre de méthodes complexes qui ont é
développées (Gold, 1962 ; Noll, 1967 ; Schafer et Rabiner, 1970 ; Moorer, 1973 ; Rabiner et co
1976 ; Hess, 1983 ; Amuedo, 1984 ; Fry, 1992 ; Hermes, 1992 ; Hutchins et Ku, 1982 ; Hutchin
Parola et Ludwig, 1982 ; Beauchamp, Maher et Brown 1993). Nous pouvons classifier la plupart d
méthodes de détection de hauteur en cinq catégories générales : domaine temporel, autocorrélatio
filtre adaptatif, domaine fréquentiel et modèles de l’oreille humaine, présentées dans les prochain
parties.

9.4.1 Détection de la période fondamentale d’une hauteur


dans le domaine temporel
Les méthodes de période fondamentale considèrent le signal d’entrée comme une amplitude flu
tuante dans le domaine temporel, comme le signal qui apparaît sur l’écran d’un oscilloscope.
tentent de trouver des éléments répétitifs dans la forme d’onde qui peuvent donner des indicatio
sur sa périodicité. Un terme peut-être plus adéquat pour ces types de détecteurs de hauteur pourr
être « détecteurs de périodicité » (Moorer, 1975).
Un type de détecteur de hauteur tente de trouver des périodicités dans la forme d’onde en regarda
les passages par zéro répétitifs. Un passage par zéro est un point où l’amplitude de la forme d’on
passe du positif au négatif, ou vice-versa. Par exemple, une sinusoïde traverse le seuil d’amplitu
zéro au milieu et à la fin de son cycle. En mesurant l’intervalle entre les passages par zéro et
comparant les intervalles successifs, le DH en déduit une fréquence fondamentale (figure 9.4). U
variation de la détection par passage par zéro est de mesurer les distances entre les pics (Herme
1992). En général, les DH par passages par zéro et par pics sont relativement simples et peu coûteu
mais ils sont également moins précis que les méthodes plus élaborées (Voelkel, 1985 ; Hutchins et K
1982). Ceci en raison du fait que d’autres fréquences, bien que n’étant pas la fréquence de hauteu
peuvent générer des formes d’onde qui passent par zéro ou présentent des pics. Dans la figure 9.4
par exemple, pour suivre la fréquence fondamentale visuellement évidente, le DH doit ignorer l
trois ou quatre passages par zéro rapides et de faible amplitude causés par le composant de hau
fréquence à chaque passage par zéro principal.
Des prétraitements par des filtres peuvent améliorer la précision des DH dans le domaine tempor
Kuhn (1990) a proposé une amélioration de la méthode par passage par zéro de base qui fait tr
verser le signal d’entrée dans une banque de filtres. Ensuite, l’algorithme vérifie l’amplitude des sort
des filtres et n’effectue une détection par passage par zéro que sur la sortie des deux filtres les pl
bas ayant une amplitude significative après filtrage.
× × × × × × ×

Temps

(b)

× × × × × × ×

Figure 9.4 – Détecteur de hauteur par passage par zéro.


(a) En mesurant l’intervalle entre les passages par zéro (marqués ⊗), nous obtenons une indica
tion sur la plus petite période du signal. (b) Pour les signaux ayant une fondamentale forte, cett
méthode est efficace si l’on ne tient pas compte de la présence de composants de hautes fréquences
pour peu que le DH ignore les variations de faible amplitude rapides au point zéro causées par le
composants de hautes fréquences.

Finalement, en ce qui concerne exclusivement les signaux parlés et chantés, un électroglottograph


© Dunod. Toute reproduction non autorisée est un délit.

ou laryngographe a été utilisé avec succès. Ces méthodes obligent un chanteur à porter un tour d
cou sensible aux impulsions émises par les cordes vocales. Cette méthode n’est cependant pas sen
sible à la parole dévoisée (murmurée) et peut générer des erreurs avec certaines voyelles nasale
(Hermes, 1992). Elle a également les mêmes problèmes que n’importe quel DH en temps réel pou
traiter les attaques de note (Fry, 1992).

9.4.2 Détection de hauteur par autocorrélation


Les fonctions de corrélation comparent deux signaux. Le but des routines de corrélation est de trouve
des « similitudes » (dans son sens mathématique précis) entre deux signaux. Les fonctions de co
rélation comparent les signaux point par point ; ainsi, la sortie de la fonction de corrélation est elle
même un signal. Si la fonction de corrélation est de 1, les deux signaux sont exactement corrélé
en ce point. Si elle est de 0, alors les deux signaux sont non corrélés.
Les méthodes d’autocorrélation comparent un signal avec des versions de lui-même retardées pa
des intervalles successifs, tandis que les méthodes de corrélation croisée comparent deux signau
plusieurs versions retardées d’un signal est de trouver des modèles répétitifs — des indicateurs
périodicité dans le signal. C’est cette détection de périodicité qui nous intéresse ici.
Les détecteurs de hauteur par autocorrélation emmagasinent une partie du signal d’entrée da
une mémoire tampon (Moorer, 1975 ; Rabiner, 1977 ; Brown et Puckette, 1987). Lorsque davanta
du signal d’entrée pénètre, le détecteur tente de faire correspondre une partie de la forme d’on
entrante avec une partie de la forme d’onde stockée. Si le détecteur trouve une correspondance
l’intérieur d’un critère donné d’erreur, cela indique une périodicité, et le détecteur mesure l’inte
valle temporel entre les deux parties pour estimer la périodicité. La figure 9.5 montre le schéma d’u
détecteur de hauteur par autocorrélation.

Signal y[n] Somme Algorithme


Fenêtrage des Hauteur
d'entrée de décision estimée
x[n] produits de hauteur

Retard de
m échantillons y[n-m]

Figure 9.5 – Schéma d’autocorrélation.


Le signal d’entrée est fenêtré, et le segment fenêtré est comparé avec des versions de lui-mêm
retardées d’un échantillon, de deux échantillons, et ainsi de suite jusqu’à m échantillons. La corrél
tion la plus forte est estimée comme étant dominante, c’est-à-dire comme étant la hauteur fond
mentale.

Différents algorithmes par autocorrélation existent (Moorer, 1975). Pour un retard donné ou tem
de décalage, une fonction typique par autocorrélation est la suivante :
N
autocorrélation [ décalage ] = ∑ signal [ n ] × signal [ n + décalage ]
n=0

où n est l’index d’échantillon d’entrée, et 0 < décalage = N. Le degré auquel les valeurs de signal a
différents temps n sont identiques aux valeurs du même signal retardé par échantillons de décala
détermine la magnitude d’autocorrélation [décalage]. La sortie d’une autocorrélation montre
magnitude pour différents temps de décalage.
L’autocorrélation d’une sinusoïde illustre ce principe. Dans la figure 9.6, cas (a), le décalage = 0,
les deux fonctions sont identiques. Ainsi, la fonction d’autocorrélation normalisée par la puissan
de la sinusoïde est 1. La fonction d’autocorrélation est tracée au bas de la figure 9.6. Supposo
maintenant que la sinusoïde est retardée d’un quart de période. Comme le montre le cas (b
la somme des produits de signal [n] et signal [n + décalage] sur une période est 0. Dans le cas (
le retard est d’une demi-période, et la corrélation est –1. Dans le cas (d), le retard est de trois quar
de période, et la corrélation est 0. Finalement, dans le cas (e) le retard est une période complète,
la corrélation est donc de 1. Nous voyons ainsi que l’autocorrélation d’une sinusoïde est elle-mêm
une sinusoïde avec des maxima aux multiples entiers de la période de la sinusoïde d’entrée.
Pour des signaux plus complexes, les routines de DH cherchent les pics récurrents dans l’autoco
rélation, indiquant des périodicités (pouvant être cachées) dans la forme d’onde d’entrée (figure 9.
O

(a) (e)

(b) (d)

(c)

Fonction
d'autocorrélation

Figure 9.6 – L’autocorrélation d’une sinusoïde est elle-même une sinusoïde.


O indique le signal d’origine et R le signal retardé. Le texte explique les cas (a) à (e). La fonctio
d’autocorrélation est tracée dans la partie inférieure.

La détection de hauteur par autocorrélation est plus efficace entre les moyennes fréquences et le
basses fréquences. Elle a donc été très utilisée dans les applications de reconnaissance de la paro
où l’étendue de hauteur est limitée. Dans les applications musicales, où l’étendue de hauteur est plu
large, le calcul direct de l’autocorrélation nécessite plusieurs millions d’opérations de multiplica
tions/additions par seconde de son en entrée. Une façon de calculer l’autocorrélation d’un sign
est de le segmenter d’une façon particulière et d’appliquer une transformée de Fourier rapide à chaqu
segment ; ceci permet une accélération significative du calcul direct. Voir par exemple Rabiner e
Gold (1975) pour des détails sur cet algorithme.

9.4.3 Détecteurs de hauteur à filtre adaptatif


Un filtre adaptatif opère, comme son nom l’indique, par autoréglage, selon le signal d’entrée. Un
stratégie de détection de hauteur basée sur un filtre adaptatif envoie le signal d’entrée dans un fi
© Dunod. Toute reproduction non autorisée est un délit.

tre passe-bande étroit. Le signal non filtré et le signal filtré sont ensuite envoyés dans un circuit d
détecteur de différence. La sortie du circuit de détecteur de différence est réinjectée pour contrôle
la fréquence centrale du filtre passe-bande (figure 9.8). Ce contrôle force le filtre passe-bande
converger vers la fréquence du signal d’entrée. Le test de convergence mesure la différence entre
sortie du filtre y(n) et l’entrée du filtre x(n). Lorsque la différence est proche de zéro, le systèm
prend une décision de hauteur.
Une autre technique à filtre adaptatif est la méthode en peigne optimum (Moorer, 1973). Cet
méthode cherche à déterminer un filtre en peigne qui minimise son signal d’entrée. Le chapitre
présente les filtres en peigne. Afin de minimiser le signal d’entrée, les creux du filtre en peigne doiven
être accordés sur la fréquence dominante de l’entrée. Ainsi, on a trouvé la hauteur dominante e
cherchant le filtre en peigne optimum. Cette méthode est principalement applicable aux sons ayan
une forte fondamentale et des harmoniques espacés régulièrement.
Voir Lane (1990), Hush et coll. (1986) et Hutchins (1982-1988) pour plus de détails sur les détecteu
de hauteur à filtre adaptatif.
(b)

Figure 9.7 – Les fonctions d’autocorrélation des signaux périodiques


sont elles-mêmes des fonctions périodiques du temps. (a) Autocorrélation d’un signal avec cinq ha
moniques, y compris le fondamental avec une période de 6,7 ms, soit 149 Hz (proche d’un Ré 3
L’autocorrélation est périodique, mais ses amplitudes d’harmoniques sont différentes de l’entré
Remarquez le pic correspondant au fondamental. (b) Autocorrélation d’un signal n’ayant que tro
harmoniques : le cinquième, le sixième et le septième. L’autocorrélation est périodique avec un
période de 6,7 ms, égale à la fondamentale manquante (hauteur implicite) de la forme d’ond
(d’après Moorer, 1975).

Fréquence centrale estimée courante

Signal Filtre y [n ] Test


d'entrée passe-bande de convergence Estimation
x [n ] de hauteur

Figure 9.8 – Détecteur de hauteur basé sur un schéma de filtre adaptatif.


Remarquez la boucle de réinjection entre l’estimation et le filtre.
Les méthodes de détection de hauteur dans le domaine fréquentiel (DF) dissèquent le signal d’entré
en fréquences qui constituent le spectre global. Le spectre montre la force des divers composan
fréquentiels contenus dans le signal. Le but est d’isoler la fréquence ou « hauteur » dominante d
spectre.
Une approche DF typique analyse des segments successifs du signal d’entrée en utilisant une trans
formée de Fourier à court terme (STFT). Voir le chapitre 11 pour plus de détails sur l’analyse d
Fourier. Les détecteurs de hauteur DF cherchent des pics dans le spectre correspondants aux fré
quences proéminentes. Après avoir trouvé les pics, le détecteur de hauteur doit décider quelles fré
quences sont fondamentales (en général perçues comme des hauteurs) et quelles fréquences son
plus ou moins des harmoniques ou des partiels étrangers (Kay et Marple, 1981). Un détecteur d
hauteur DF rapide en temps réel peut simplement sélectionner la fréquence la plus forte comm
hauteur. Un détecteur plus sophistiqué examinera les relations harmoniques impliquant une fré
quence fondamentale. Cette fondamentale peut ne pas être le composant le plus fort, mais il peut êtr
la hauteur perçue de façon proéminente en raison du « renforcement » des multiples harmonique
Un des problèmes avec les détecteurs de hauteur basés sur une STFT est que celle-ci divise la largeu
de bande audio en un ensemble de canaux ou casiers fréquentiels espacés de façon égale où chaqu
canal est à n Hz de ses voisins. Comme la perception humaine de la hauteur est principalemen
logarithmique, ceci signifie que les hauteurs basses peuvent être suivies de façon moins précise qu
les hauteurs élevées. Par exemple, un analyseur ayant une résolution fréquentielle de 20 Hz peu
résoudre des microtons dans le registre situé entre 10 et 20 kHz, mais offre une résolution de moin
d’un demi-ton en dessous du Do moyen. Une résolution précise de hauteur à l’extrémité inférieur
du spectre demande davantage de canaux d’analyse. Comme le montre le chapitre 13, le prix pay
pour augmenter le nombre des canaux d’analyse est une perte de la résolution temporelle. De
méthodes alternatives peuvent être mieux adaptées au suivi de la hauteur dans les basses fréquence
Voir le chapitre 13 pour une présentation de ces problèmes.

✦ Analyse par vocodeur de phase pisteur


Le vocodeur de phase pisteur (VPP) est à l’opposé des canaux de fréquence fixe de la STFT, car il off
la possibilité de fréquences changeantes (McAulay et Quatieri, 1986 ; voir également le chapitre 11
Le VPP commence avec des données générées par la STFT puis génère un ensemble de pistes, don
chacune représente un partiel proéminent du spectre. Les pistes peuvent changer de fréquenc
© Dunod. Toute reproduction non autorisée est un délit.

dans le temps, par interpolation entre les bandes d’analyse fixes. Une réduction de données est impl
cite dans le processus de pistage ; comme seuls les partiels proéminents sont pistés, le VPP génè
une version « assainie » de l’entrée qui atténue les bruits étrangers et l’ambiance.
Maher (1990) et Beauchamp, Maher et Brown (1993) ont développé un détecteur de hauteur DF qu
commence par la sortie d’un VPP. Leur système lit les fréquences pistées et les compare de plusieu
manières aux fréquences harmoniques d’une fondamentale hypothétique. L’hypothèse ayant la plu
petite différence globale devient la hauteur fondamentale estimée.
La figure 9.9 montre trois tracés générés par ce système. Dans la figure 9.9a, le système piste de faço
précise une version synthétisée par ordinateur de la Partita III de J. S. Bach. La figure 9.9b montr
comment l’interprétation se dégrade lorsqu’elle est effectuée sur un enregistrement du violon e
studio. Les pics entre les notes indiquent des points où le système est embrouillé par les bruits d
l’archet. La figure 9.9c montre une dégradation supplémentaire causée par « l’effet d’accord » (dan
lequel les notes précédentes continuent de sonner en présence des nouvelles notes) lors de l’analys
de l’enregistrement de violon dans un espace réverbérant.
(b)

(c)

Figure 9.9 – Tracés générés par pistage de la hauteur dans le domaine fréquentiel
des hauteurs estimées des huit premières mesures de la Partita III de J.-S. Bach. L’axe vertical e
divisé en demi-tons de l’échelle tempérée, de Do 4 à Do 7. L’axe horizontal est le temps. (a) Hauteu
synthétisées par ordinateur. (b) Enregistrement de studio. (c) Enregistrement réverbéra
(d’après Beauchamp, Maher et Brown, 1993).

Lors d’une étape supplémentaire pour améliorer l’efficacité d’un tel système, les auteurs appliquère
le même algorithme à une version des enregistrements de violon qui avaient été assainis par le VP
Au cours de sa réduction de données, le VPP élimine certains bruits et crépitements, dont le bru
de grattement de l’archet et de la réverbération. Lorsque le DH est utilisé sur des versions resynth
tisées, son efficacité devient plus précise.
Une méthode de détection de hauteur dans le domaine fréquentiel couramment utilisé dans
recherche sur la parole est la technique cepstrale, qui a d’abord été utilisée dans l’analyse de la paro
(Noll, 1967 ; Schafer et Rabiner, 1970). L’analyse cepstrale a souvent été appliquée en conjonctio
avec la technique de codage prédictif linéaire (CPL), décrite au chapitre 24. Le terme « cepstre »
été formé en inversant les quatre premières lettres de « spectre ». Une façon simple de décrire
cepstre est de dire qu’il tend à séparer un composant harmonique fort du reste du spectre. C’est u
modèle raisonnable de nombreux sons vocaux et instrumentaux dont les spectres peuvent êtr
considérés comme la somme d’une excitation (les impulsions vibratoires originelles, en général
la hauteur du son) et de résonances (la partie filtrée d’un son créé par le corps d’un instrument o
par le conduit vocal). Le chapitre 26 sur la synthèse par modèles physiques explique le concep
d’excitation/résonance.
Techniquement, le cepstre est la transformée de Fourier inverse du spectre de Fourier de magnitud
logarithmique (figure 9.10). Il s’agit de la valeur absolue du logarithme (décimal) de la sortie de
transformée de Fourier discrète.

Signal d'entrée
Échantillons
FFT
Spectre
abs()

Spectre de magnitude

log()
Spectre de magnitude
logarithmique
IFT

Échantillons
© Dunod. Toute reproduction non autorisée est un délit.

Cepstre

Figure 9.10 – Schéma du calcul cepstral.

Le résultat du calcul cepstral est une séquence temporelle, comme le signal d’entrée lui-même.
le signal d’entrée possède une période de hauteur fondamentale forte, elle apparaît dans le cepstr
sous forme de pic. En mesurant la distance temporelle entre le temps 0 et le temps du pic, on trouv
la période fondamentale de cette hauteur (figure 9.11).
Comment fonctionne l’analyse cepstrale pour la parole ? Le cepstre sert à séparer deux spectre
superposés : l’excitation d’impulsion glottale (cordes vocales) et la résonance du conduit voca
L’excitation peut être conçue comme une séquence d’impulsions quasi périodiques. La transformé
de Fourier de ces impulsions est un spectre en lignes où les lignes sont espacées aux harmonique
de la fréquence originelle (voir les lignes étroites entortillées de la figure 9.12). Le fait de prendr
la magnitude logarithmique n’influe pas sur la forme générale de ce spectre. La transformée d
Figure 9.11 – Tracé cepstral d’une note de trompette solo
enregistrée dans une grande salle réverbérante. La note est 396 Hz. Le pic marqué par un astérisqu
indique la période du signal, environ 2,52 ms, ce qui correspond à la hauteur détectée. Remarqu
comme le pic cepstral apparaît clairement, même en présence de réverbération (d’après Moore
1975).

Magnitude
logarithmique
2 kHz 3 kHz
Fréquence

Figure 9.12 – Séparation cepstrale de la réponse impulsionnelle d’une corde vocale


et de la réponse impulsionnelle du conduit vocal. L’application de la fonction logarithmique sépa
le trait ondulé étroit (correspondant à l’excitation) du spectre représenté par la ligne grasse ond
lante (correspondant à la réponse impulsionnelle ou résonance).

Fourier inverse produit une autre forme d’onde quasi périodique d’impulsions. Au contraire,
spectre de la réponse du conduit vocal (agissant comme un filtre) est une fonction de fréquen
variant lentement, représentée par la ligne grasse ondulante de la figure 9.12. Le fait d’appliquer
magnitude logarithmique et la transformée de Fourier inverse produit une forme d’onde ayant u
amplitude significative pendant seulement quelques échantillons, en général moins que la pério
de la hauteur fondamentale. On peut voir que la réponse impulsionnelle chute en fonction de 1/
puis que son cepstre chute en fonction de 1/n2. Ainsi, le cepstre agglomère la réponse impulsionne
en une explosion courte au commencement de l’onde cepstrale, et il agglomère la hauteur en u
série de pics à la période de la fréquence fondamentale (voir la figure 9.11).
Le calcul cepstral possède de nombreuses applications, car il tend à éliminer la réponse impulsio
nelle de l’excitation. En d’autres termes, le cepstre tend à déconvolver les deux spectres convolv
(Smith, 1981). Voir le chapitre 5 pour une explication de la convolution. Nous disons bien « tend à
car pour des signaux musicaux, la déconvolution est rarement parfaite. Les opérations de magn
tude logarithmique dans le processus cepstral tendent à agglomérer ces deux composants presq
séparés du spectre. Grâce à des opérations élaborées que nous n’aborderons pas ici, chacun de c
éléments peut être filtré afin que le cepstre contienne une information spectrale associée soit
et Gold (1975) ; Rabiner et coll. (1976).
Une autre application du cepstre se trouve dans l’analyse/resynthèse de la parole. L’absence de p
dans le cepstre indique que le son analysé est dévoisé — c’est-à-dire que c’est une consonne ave
du souffle sans hauteur, comme « f » ou « s », contrairement à une voyelle voisée comme « a ».

9.4.5 Détecteurs de hauteur basés sur les modèles de l’oreille


Après des décennies d’études systématiques, la science de l’audition converge vers une compré
hension détaillée des mécanismes du système auditif humain. Une direction dans l’analyse du so
est d’attacher cette connaissance au train de la technologie des superordinateurs en ayant comme bu
d’obtenir de nouveaux aperçus de la microstructure du son (Hermes, 1992 ; Slaney et Lyon, 1992
Une des applications de ces modèles est la détection de hauteur. Les DH récents combinent de
algorithmes basés sur les théories de la perception avec des modèles de mécanismes connus d
système auditif humain. Les théories de Licklider sur la perception de hauteur ont anticipé le
implémentations modernes de cette approche (Licklider, 1951, 1959).
La figure 9.13 montre la structure globale d’un tel DH, qui se divise en trois sous-modèles : oreil
externe et moyenne, cochlée et système nerveux central. La première étape consiste en un filtrag
basé sur les réponses des oreilles externes et moyennes. L’étape suivante transforme le signal d’entré
en une représentation dans le domaine fréquentiel grâce à une banque de filtres passe-bande. Vien
ensuite une étape de transduction dans laquelle l’énergie de la membrane basilaire est transformé
en une série de probabilités de déclenchements de nerfs et donc, par conséquent, en un train d

Signal d'entrée

Filtrage préliminaire Modèle de l'oreille


du spectre externe et moyenne

Décomposition en bande
de fréquences
© Dunod. Toute reproduction non autorisée est un délit.

Transduction neurale Modèle de la cochlée

Génération de pointes

Modèle du système
Détection d'intervalles
nerveux central

Estimation de hauteur

Figure 9.13 – Schéma d’un détecteur de hauteur


basé sur un modèle du système auditif humain.
processus est basé sur des données scientifiques bien connues. L’étape suivante est la partie la pl
spéculative : elle modèle le traitement des pointes entrantes par le système nerveux central. Le b
est de mesurer la période entre les pointes et d’estimer leur intervalle de fréquence maximum
hauteur. Ces étapes finales sont une sorte de DH à autocorrélation ou de DH dans le domaine tem
porel. L’avantage de combiner les méthodes DF et DT de cette façon est que la « contamination
inharmonique est éliminée lorsque les canaux du domaine fréquentiel sont convertis en point
dans le domaine temporel.
9.4.6 Détection de hauteur polyphonique
Toutes les difficultés de la détection de hauteur sont encore augmentées avec un son harmoniq
en présence de bruit ou de plusieurs autres sons harmoniques. Voilà la tâche difficile rencontr
dans la transcription polyphonique, c’est-à-dire la génération d’une partition écrite à partir d’u
signal acoustique. La plupart des théories sur la perception humaine de la hauteur ne s’attache
qu’à l’écoute d’une seule hauteur. On en sait beaucoup moins sur les mécanismes permettant a
gens d’entendre en polyphonie.
Les tentatives pour la détection de hauteur polyphonique s’appliquent en général aux techniqu
d’analyse dans le domaine fréquentiel à l’intérieur d’un mécanisme de recherche et de décision.
tâche principale est de séparer les lignes mélodiques individuelles d’un spectre contenant de nom
breux pics d’amplitude, où ceux-ci peuvent être soit des hauteurs fondamentales, soit des harm
niques forts. Afin de déterminer quels pics sont probablement des hauteurs fondamentales, l’analy
doit examiner les données à partir de différentes perspectives et pondérer les différents facteurs
estimant les résultats (Moorer, 1975 ; Maher, 1990). Les techniques dérivées de la recherche s
l’intelligence artificielle sont fréquemment employées, telles que la recherche pilotée par prévisi
à travers des listes de fréquences proéminentes. On dit des systèmes qu’ils sont pilotés par prévisi
lorsqu’ils utilisent de la connaissance sur le domaine analysé pour piloter la stratégie de recherc
(Moorer, 1975 ; Terhardt, 1982 ; Chafe et coll., 1982, 1985 ; Foster et coll., 1982 ; Strawn, 198
1985a, b ; Maher, 1990). Voir la partie sur les systèmes comprenant le signal au chapitre 13. En rais
des algorithmes supplémentaires pour le regroupement de données, pour la recherche, et pour
prise de décision, le temps de calcul de la détection de hauteur polyphonique est bien supérieur
celui nécessaire dans le cas de la détection monophonique.
9.4.7 Analyse du contexte musical
Dans de nombreuses situations d’interprétation, il est nécessaire d’aller au-delà de la détecti
moyenne de hauteur vers l’analyse de hauteur — l’examen de la mélodie et de l’harmonie dans
sens le plus large du terme. C’est-à-dire qu’après avoir isolé les hauteurs apparues, que peut-
dire sur leur signification musicale, qu’implique celle-ci ? Un autre nom de cette tâche est l’analy
du contexte musical. Un exemple d’analyse du contexte musical est l’identification de la tonalité
de la clef d’une pièce de musique tonale (Chafe et coll., 1982 ; Holtzman, 1977). À partir de cette an
lyse, le but suivant pourrait être d’assigner les noms de notes corrects (Fa dièse ou Sol bémol, p
exemple) pour des besoins de transcription de partition.
Dans les systèmes d’interprétation interactifs, l’ordinateur est censé répondre de façon appropri
à l’interprète humain. Il doit donc discerner très rapidement le contexte musical. Différents alg
rithmes pour l’analyse rapide des accords et de la mélodie ont été développés. Ils sont en génér
adaptés aux besoins stylistiques des compositeurs qui utilisent le système (Chabot, Dannenberg
Bloch, 1986 ; Roads, 1985b ; Rowe, 1992a, b). Au-delà de ces algorithmes rapides se tient le vas
domaine de l’analyse du style musical assistée par ordinateur, un sujet qui dépasse le cadre de ce livr
Chapitre 10

Reconnaissance du rythme

L’une des pratiques de base acquises dans les conservatoires de musique est de pouvoir jouer de
rythmes écrits en notation musicale traditionnelle. Une pratique apparentée consiste à reconnaîtr
des rythmes joués, et de les transcrire en notation. Il existe une longue période de pratique entre u
débutant et une personne maîtrisant parfaitement ces pratiques. Transcrire des rythmes de musiqu
semble être une tâche mécanique de comptage, quelque chose qui serait facile à apprendre à un
machine. Lorsque l’on s’y attache, le problème est beaucoup plus difficile qu’il ne pourrait en avo
l’air à première vue. De plus, la pratique des dictées rythmiques est en elle-même simplifiée, ca
celles-ci sont basées sur la reconnaissance de rythmes liés métriquement. De nombreux rythme
existent sans une métrique régulière, et n’importe quel type de groupement rythmique (y compr
ceux n’ayant pas de relation métrique simple) peut apparaître à l’intérieur d’une structure métriqu
Le problème global de la reconnaissance du rythme reste donc ouvert. Une bonne introduction
la théorie du rythme musical se trouve dans Yeston (1976), qui cite des théories plus anciennes, e
commençant par l’Antiquité.
© Dunod. Toute reproduction non autorisée est un délit.

La reconnaissance du rythme d’un signal acoustique par une machine transforme des échantillon
d’entrée en une liste d’événements sonores individuels. Elle assigne à ces événements des valeur
de durée de note (blanche, noire, etc.), puis groupent les notes en unités musicales plus larges
groupements de notes, triolets, mesures, et peut-être phrases, tout en déterminant également
métrique. Ces tâches sont de façon inhérente problématiques, en partie parce que l’interprétatio
humaine de partitions musicales n’est jamais parfaitement précise, et également parce que la nota
tion musicale est ambiguë. C’est-à-dire que des rythmes identiques ou presque similaires peuven
être écrits de façons différentes. Comme dans la détection de hauteur, un reconnaisseur de rythm
doit ignorer les variations « insignifiantes » afin d’extraire le rythme « essentiel ». Par exemple, il do
réaliser qu’un léger staccato sur une ronde n’est pas une liaison de blanche-noire-croche-double
triple-quadruple. Ceci est lié au problème de la quantification dans les séquenceurs, mais ce pro
blème est bien plus aigu lorsque l’on commence par un signal acoustique, car dans ce cas, le systèm
doit trouver la liste de notes, alors même que le tempo n’est pas au départ connu.
par le fait que le concept de « phrase » dépend du contexte et du style. De plus, les musicologu
experts ne sont pas toujours d’accord sur la structure de phrase d’une pièce de musique donnée
La diversité des méthodes pour la reconnaissance du rythme fait penser à la situation de la détecti
de hauteur, avec cependant une différence importante. La recherche en détection de hauteur bénéfic
d’années de mise au point dans le domaine plus large de la parole et du traitement du signal, tand
que la recherche en reconnaissance de rythme est propre à la communauté musicale. Une excepti
est la recherche effectuée par Selfridge et Neisser (1960) pour analyser le code Morse par ordinateu
Il y a donc eu dans ce domaine moins de recherches et de standardisations. Pour résumer, différent
tâches et styles de musique nécessitent différentes approches ; et il n’y a donc pas un problème
la reconnaissance du rythme, mais plusieurs.

10.1 Applications de reconnaissance du rythme


La reconnaissance du rythme à partir de sources acoustiques possède un intérêt dans des applic
tions telles que le pistage de tempo en situation de concert, l’estimation de la métrique, et comm
composant de la transcription automatique de musique. Elle a également des applications dans
musicologie et dans les études d’interprétation musicale.
Les algorithmes de pistage de tempo tentent de « taper du pied » sur la pulsation d’un signal acou
tique, qui peut varier en fonction du rubato ou de changements abrupts de tempo. Ceci est utile da
une situation de concert lorsque l’accompagnement de l’ordinateur essaie de suivre l’interprétati
d’un instrumentiste ou d’un chanteur humain.
L’analyse de la liste de notes en unités rythmiques individuelles peut s’adapter à volonté selon l
besoins spécifiques d’une application musicale. Un système d’improvisation interactif peut ne l
que quelques formules ou indications rythmiques pour déclencher sa réponse. Sa mémoire es
court terme, et lorsqu’il ne trouve pas le modèle qu’il recherche, il se déplace et jette son entrée pr
cédente. Un programme d’accompagnement cherche continuellement à faire concorder les modè
rythmiques entrants avec ceux de la partition stockée dans sa mémoire. Il tente de s’accrocher ferm
ment à la pulsation afin de rester « en rythme ». Un système de transcription en partition imprim
doit arranger toutes ses données d’entrée. Il tente de trouver la métrique, d’établir les limites d
mesures, et d’assigner les valeurs de durée correctes à toutes les notes. La transcription automatiq
complète de musique à partir d’une source acoustique en partition imprimée est un problème d’int
ligence artificielle, car le système doit employer une batterie de méthodes d’analyse, puis effectu
des sélections de différentes hypothèses à chaque étape. Non seulement, les durées et les silenc
doivent être précisément représentés, mais des cas spécifiques comme les triolets, les ornemen
les appoggiatures, et les notes pointées doivent être rendus dans un style naturel de notation. U
analyse de hauteur et d’amplitude simultanée peut aider l’analyseur de rythme à effectuer l’assign
tion correcte de note. De nombreux problèmes de recherche subsistent dans ce domaine, particul
rement pour la transcription de la polyphonie.

10.2 Niveaux de reconnaissance du rythme


L’analyse du rythme peut avoir lieu sur trois niveaux :
• Niveau inférieur : détection d’événement.
• Niveau médian : transcription en notation.
• Niveau supérieur : analyse du style.
numérique puis segmenté en une liste de départs et de fins pour des événements musicaux discret
Dans le cas du niveau médian, le flux d’entrée est déjà segmenté et codé, comme dans le cas de
données MIDI provenant d’un clavier. La tâche ici est de convertir la liste de notes en une partitio
musicale à partir des données segmentées. L’assignation de notes et le groupement de notes son
les principales sous-tâches de ce niveau. L’analyse du rythme au niveau supérieur tombe dans
domaine de la théorie compositionnelle ou de l’analyse de style, selon l’application. Comme
musique peut être analysée en structures de niveau supérieur de façons innombrables (Road
1985d, e), nous ne présenterons ici que les deux premiers niveaux.

10.3 Détection d’événement


L’analyse du rythme au niveau inférieur est centrée sur la détection d’événement — l’isolatio
d’événements individuels dans un flux d’échantillons et la détermination de leurs durées.
10.3.1 Mise au seuil de l’amplitude
Pour une musique monophonique simple enregistrée dans une pièce non réverbérante, la détectio
d’événements peut être résolue grâce aux techniques dans le domaine temporel comme la mise a
seuil de l’amplitude (Foster et coll., 1982 ; Schloss, 1985). Dans cette méthode, le système lit la form
d’onde entrante en regardant les enveloppes d’amplitude des événements, et en particulier les courbe
d’attaque et de chute les plus évidentes. Si elle trouve une enveloppe d’attaque dépassant un seu
d’amplitude donné, cela indique le départ d’un événement. Cette méthode peut être améliorée e
prétraitant le son avec des filtres passe-haut pour faire ressortir les transitoires (points où les dépar
et les chutes raides apparaissent).
Quoi qu’il en soit, les tracés d’amplitude peuvent être trompeurs en tant qu’indications de dépa
et de durée d’événements. Certains signaux musicaux sont de façon inhérente difficiles à segmente
grâce aux seules techniques dans le domaine temporel. Ceci inclut par exemple les attaques liées d
cordes frottées ; les nouvelles notes brouillées par les notes précédentes prolongées ou par la réverbé
ration, ou des signaux polyphoniques tels que des accords. Dans ces cas, une enveloppe d’amplitud
continue peut appréhender plusieurs événements simultanément, et même obscurcir des événemen
accentués jouant un rôle rythmique significatif (Foster et coll., 1982). Par exemple, lorsqu’un vibra
phone est joué avec la pédale sostenuto enfoncée, le tracé d’amplitude n’est plus un guide pour le
temps d’attaque des notes (figure 10.1). Dans de tels cas, les changements de hauteur et de spectr
© Dunod. Toute reproduction non autorisée est un délit.

constituent d’excellentes indications pour les nouveaux événements.


Ainsi, une combinaison de techniques dans le domaine temporel et dans le domaine fréquenti
peut être plus efficace (Chafe et coll., 1985 ; Piszczalski et Galler, 1977 ; Piszczalski et coll., 1981
Foster et coll., 1982). Par exemple, un segmenteur dans le domaine fréquentiel basé sur un modè
adaptatif à autorégression (AR) réussit là où une simple mise au seuil d’amplitude échoue (Makhou
1975 ; Foster et coll., 1982). L’autorégression détecte les changements dans la périodicité du signa
ce qui la rend sensible aux changements de hauteur. Les attaques répétées de la même note ne son
cependant pas reconnues par le modèle AR. L’AR et la mise au seuil d’amplitude fonctionnent bie
ensemble, car l’AR est sensible à la fréquence et la mise au seuil est sensible à l’amplitude. Voir un
explication des techniques AR au chapitre 13.
(b)

Figure 10.1 – Un cas problématique pour la détection d’un événement


dans le domaine temporel. (a) Séquence de notes. (b) Signal dans le domaine temporel généré p
un vibraphone jouant ces notes avec la pédale de sostenuto enfoncée.

10.3.2 Séparation des voix dans la musique polyphonique


Séparer les temps de départ des sources ou des voix individuelles dans la musique polyphoniq
est difficile. Au-delà d’un certain niveau de complexité, c’est tout simplement impossible. Person
n’a encore essayé de segmenter chaque note de chaque instrument dans une partie de tutti jou
par un ensemble de chambre. Pour un petit nombre d’instruments distincts, le problème est envis
geable, à la condition d’une puissance de traitement suffisante (Moorer, 1975 ; Foster et coll., 198
Wold, 1987). En dehors des méthodes déjà mentionnées, les stratégies suivantes ont été employé
pour la séparation de sources polyphoniques :
• Isolation par filtrage des instruments sonnant à des registres différents (comme un picco
et un tuba).
• Utilisation de la position spatiale comme indication, si les sources sont nettement séparé
dans un enregistrement multipiste.
• Comparaison du signal d’entrée avec des spectres de référence (modèle spectral connu d’u
instrument) pour séparer certains sons joués des autres ; cette référence peut être basée s
le modèle physique d’un instrument (Wold, 1987).
• Découverte de modèles de vibrato et de trémolo communs (modulations d’amplitude et
fréquence) dans un spectre, indiquant quels partiels ont été joués par un instrument en pa
ticulier. Ces modèles sont appelés critères de cohérence de source dans la recherche psych
acoustique (Chafe et Jaffe, 1986).
• Identification du modèle caractéristique d’attaque des instruments individuels ; même
départ d’un accord, car les instruments partent rarement exactement de façon synchrone
Comme les systèmes employés peuvent appliquer plusieurs stratégies dans la détection d’événeme
la question devient de savoir quand essayer une approche particulière. Lorsque plusieurs techniqu
sont employées en combinaison, le système a besoin d’un moyen pour pondérer les résultats obten
sujet, voir la partie sur les systèmes de compréhension du signal au chapitre 13.

10.4 Transcription
Toute séquence donnée de valeurs de note est par principe infiniment ambiguë, mais cette ambiguï
est rarement apparente pour l’auditeur. (H.C. Longuet-Higgins, 1976)
La transcription — le niveau médian de la reconnaissance du rythme — débute à partir du momen
où une liste d’événements discrets est assemblée. Les reconnaisseurs de rythme basés sur le MID
commencent de ce point. La transcription comprend des sous-tâches de pistage du tempo, d’ass
gnation de valeur de rythme, de regroupement de note, de détermination de la métrique, d’établi
sement des limites de mesure, et probablement de tri de la structure de phrase de base. Nous traiton
chacune de ces sous-tâches séparément, mais en pratique elles peuvent très bien interagir.
Le but ultime de la transcription n’est pas nécessairement la préparation d’une partition en vue d’un
impression. Elle peut être effectuée pour analyser des données pour alimenter un programme d
composition interactif, un système d’accompagnement, un programme d’analyse musicologiqu
ou un modèle d’écoute musicale. Comme ces buts diffèrent, les méthodes d’analyse de la partitio
peuvent être différentes dans chaque cas.

10.4.1 Pistage du tempo


Le pistage du tempo essaie de trouver la « pulsation » — une impulsion perçue qui marque de
intervalles de temps de durées égales. Dans un programme de notation musicale du commerce, c
problème est résolu en faisant jouer le musicien avec un son de métronome généré par le pro
gramme. Bien que ce soit une méthode d’entrée de données convenable, nous considérerons ici
problème plus complexe du pistage du tempo sans référence de métronome, qui correspond à
tâche de pistage d’interprétations musicales réelles (Rowe, 1975 ; Pressing et Lawrence, 1993).
La première étape du pistage du tempo est de mesurer les distances temporelles entre les événement
Cette mesure peut être utilisée pour établir une grille métrique hiérarchique. La pulsation est e
général un dénominateur commun des durées mesurées. Ceci traite les sons de façon directe, ma
les variations de tempo faussent la grille et rendent difficile l’estimation initiale de la pulsation d
base. S’il existe des syncopes dans le modèle rythmique, le pisteur de tempo doit également se rendr
compte que la pulsation ne change pas en présence des notes en contretemps. L’une des façons d
© Dunod. Toute reproduction non autorisée est un délit.

réduire la complexité de cette tâche est de lire une fenêtre de durée finie, par exemple cinq seconde
(Miller, Scarborough et Jones, 1992). Un mécanisme historique ayant une mémoire de forme décl
nante des pulsations passées suit la même idée (Dannenberg et Mont-Reynaud, 1987 ; Allen
Dannenberg, 1990). Une mémoire courte ignore les événements passés, permettant des fluctuation
rapides de tempo, mais tend à être instable. Une mémoire longue fixe le tempo, mais ignore le
changements rapides de tempo.
La figure 10.2 montre un pisteur de tempo poursuivant deux stratégies en parallèle. La partie supé
rieure gauche de la figure 10.2 montre les procédures qui extraient les « événements importants
Ceux-ci servent d’ancrages structurels dans la musique. L’heuristique appliquée ici est que le
rythmes ou les accents mélodiques reconnus facilement surviennent normalement à des poin
structurellement importants, tels que sur des pulsations fortes. La durée d’un ancrage à l’autre e
donc souvent une relation simple. Comme cela n’est pas toujours vrai, la partie supérieure droite d
la figure 10.2 montre les procédures utilisant une méthode indépendante de pistage des fluctuation
de tempo. Ces modèles recherchent des éléments répétitifs dans les durées successives et effectuen
Recherche
des « événements importants » Recherche de périodicités

Accents Accents Autres Train Statistiques


agogiques mélodiques accents d'impulsions de durée

Liste Liste
des événements des durées
importants importantes
Unité
de référence
d'estimation

Ancrages Durées
structurels structurelles
d'estimation d'estimation

Pistage
du tempo

Valeurs
de notes
hypothétiques

Figure 10.2 – Le pisteur de tempo de Mont-Reynaud.


Voir le texte pour une explication.

des statistiques sur les durées les plus fréquentes. Les durées les plus significatives sont en génér
en relation simple les unes par rapport aux autres et dans les durées d’ancrage à ancrage. En comb
nant ces deux approches, les décisions de pistage du tempo sélectionnent une hypothèse raiso
nable au sujet du tempo en cours. La flexibilité de l’approche est montrée en présence des syncop
— les ancrages se font à contretemps, mais les durées significatives pistent toujours le temp
Réciproquement, lorsque les ancrages donnent des indications fortes, des ajustements importan
de tempo sont effectués.
Une autre famille d’approches du pistage du tempo est basée sur les stratégies connectionnist
(D’Autilia et Guerra, 1991 ; Rowe, 1992a, b). Dans ces systèmes, un réseau de nœuds, représenta
l’étendue temporelle entre deux événements, interagissent les uns les autres. Ils altèrent leurs valeu
pour devenir des multiples rationnels plus simples les uns par rapport aux autres. Dans l’idéal, c
valeurs définissent une grille métrique.
Pour une pulsation fixe, chaque événement détecté peut être assigné à une durée métrique. Ce
serait simple si les interprétations étaient mécaniquement parfaites, mais les interprétations mus
cales expressives montrent des variations considérables dans les durées de notes censées être éga
les (Chafe et coll., 1982 ; Clarke, 1987 ; Clynes et Nettheim, 1982 ; Clynes et Walker, 1982). Les accen
agogiques, qui allongent la durée des notes importantes, abondent dans la musique interprétée.
Pour rendre la déduction de la durée métrique plus facile, le programme d’analyse peut quantifie
les durées des notes, c’est-à-dire les arrondir à une durée métrique comme une croche ou une doubl
Les programmes de notation sollicitent généralement des indications des interprètes avant la tran
cription, leur demandant par exemple de stipuler la plus petite valeur de note jouée, ce qui calibr
la grille de quantification. Même dans ce cas, Desain et Honig (1992c) montrent dans une étud
comparative que les stratégies de quantification basées sur une grille simple telle que celles utilisée
dans les programmes de notation de musique du commerce peuvent conduire à des transcription
pathologiques. La figure 10.3, tirée de leur article, montre ce qui se passe lorsqu’un programm
quantifie un triolet d’après une grille basée sur la soixante-quatrième de noire. Un problème est qu
la note appelée A est jouée plus courte que la note B, alors que la notation montre l’inverse. De
stratégies de quantification alternatives existent, dont celles basées sur les modèles connectionniste
mais toutes semblent avoir leurs propres limitations.

Figure 10.3 – Effets délétères de la quantification.


(a) Musique écrite de façon appropriée. (b) Transcription par un programme d’édition du commerc
© Dunod. Toute reproduction non autorisée est un délit.

utilisant une quantification basée sur une grille de quadruple croche.

10.4.3 Regroupement en éléments


L’étape suivante dans la reconnaissance est la subdivision de la liste de notes en groupes de note
ou éléments rythmiques. La figure 10.4a montre le point de départ de processus de regroupement
une liste de durées de notes sans indication quant aux limites de mesure ou à la signature tempo
relle. Comment le programme reconnaît-il que des barres de mesure doivent être insérées après le
notes 1, 7 et 14, comme à la figure 10.4b ? Comment détermine-t-il que l’interprétation la plus mus
cale des deuxièmes, troisièmes et quatrièmes notes d’entrée est le triolet ?
Différents programmes d’application musicale peuvent regrouper les notes selon divers critère
Un système de notation, par exemple, peut regarder les groupes de notes à regrouper, telles qu’un
série de croches. Un programme qui tente de modeler l’écoute humaine peut essayer de construir
(b)

Figure 10.4 – Un problème de groupement rythmique.


(a) Séquence de notes sous la forme utilisée par un analyseur de rythme.
(b) Interprétation plausible de (a).

une hiérarchie de phrases. Le regroupement des notes par mesures nécessite certaines hypothès
au sujet de la métrique, et nous aborderons donc ce sujet dans la prochaine partie.
La reconnaissance d’éléments rythmiques est dominée par les techniques de recherche et comp
raison (Rowe, 1975 ; Mont-Reynaud, 1985b ; Mont-Reynaud, et Goldstein, 1985). Les théories qua
grammaticales de l’analyse du rythme, telles que celles que l’on trouve dans Lerdahl et Jackendo
(1983), Longuet-Higgins (1976, 1987), et Longuet-Higgins et Lee (1983) ont servi de guide aux alg
rithmes d’analyse. Par exemple, Rosenthal (1988) cite cinq règles tirées de Lerdahl et Jackendo
et présente une traversée étape par étape de ces règles appliquées à des rythmes musicaux simple
Nous en faisons ici la liste pour donner un exemple de règles de regroupement typiques.
1. Les groupes commencent sur les notes accentuées.
2. Ne pas former de groupes d’un seul événement.
3. Les événements de courte durée tendent à être regroupés avec les événements suivants
durée longue.
4. Une limite de groupement sépare les événements de durée longue des événements de dur
courte suivants.
5. Les groupes situés au même niveau hiérarchique devraient être aussi égaux que possible
durée.
Ces théories, doit-on souligner, proviennent de musique écrite, et non nécessairement jouée. Ain
en pratique, de tels algorithmes sont en général embellis par des règles empiriques tirées de l’exp
rience. Des règles plus compliquées, par exemple, prennent en compte les éléments de hauteur
d’amplitude afin de résoudre deux hypothèses rythmiques compétitives (Katayose et Inokuc
1989 ; Katayose et coll., 1989).
Les méthodes connectionnistes ont été utilisées comme solution de remplacement aux classificateu
d’éléments basés sur des règles (Desain et Honing, 1989, 1992b, 1992c ; Linster, 1992).

10.4.4 Estimation des limites de métrique et de mesure


La métrique est un rapport entre deux niveaux temporels. L’un est la période de pulsation (p
exemple, une noire égale une seconde), et l’autre est une période plus grande basée sur un nomb
fixe de pulsations — la mesure. La métrique impose en général une structure d’accents sur les pu
sations, une structure qui tend à articuler la mesure. Déterminer la métrique peut être divisé en de
problèmes. Le premier consiste à trouver la métrique perçue basée sur des éléments récurren
divisibles par un entier n (par exemple, double, triple, quadruple, quintuple). C’est en général
but des programmes de composition interactifs et des modèles d’écoute. Le deuxième problèm
le problème rencontré lors de la transcription en partition imprimée.
En raison des ambiguïtés des relations rythmiques, l’estimation de la métrique perçue et la subd
vision de la musique en mesures ne sont pas évidentes (Rosenthal 1992). La stratégie de Rosenth
fut de déployer des agents spécialisés multiples, chacun rassemblant des statistiques sur le placemen
et les durées des notes, sur les accents et les éléments caractéristiques de hauteurs et de rythme
Chaque agent proposait une hypothèse, et un programme de gestion choisissait parmi les multiple
hypothèses proposées. Il faisait cela en notant que certains agents étaient plus dignes de confianc
que d’autres (et donc, possédaient plus de poids) et que lorsque plusieurs agents étaient d’accord su
une hypothèse, il y avait des chances pour qu’elle soit correcte. Miller, Scarborough et Jones (1992
comparent la stratégie basée sur des règles et la stratégie connectionniste dans l’estimation de
métrique. La première est quelque peu rigide, et ses forces et ses faiblesses sont prévisibles. La stra
tégie connectionniste, étant plus flexible, peuvent prendre en main des situations qui font échoue
les méthodes basées sur des règles, telles que des estimations en présence de variations de temp
Mais parfois l’approche connectionniste fait une estimation vague, ce qui montre la difficulté géné
rale de la prédiction et de l’interprétation de la sortie des analyseurs connectionnistes.
L’estimation de la signature temporelle exacte est assez difficile, en partie parce que de nombreuse
signatures temporelles peuvent sonner à l’identique. Par exemple, une mélodie donnée peut êtr
jouée en 1/2, 2/2, 2/4, 4/4, 4/8, 8/8, etc., et sonner de façon identique, à la condition que le temp
soit ajusté en conséquence. Assigner une signature temporelle propre à un rythme nécessite la con
naissance du style dans lequel la pièce a été composée. Par exemple, une pièce composée au dix-hu
tième siècle à Vienne aura beaucoup de chance d’être limitée pour le choix de la signature tempo
relle. Globalement, le mieux que peuvent faire les programmes actuels est de faire une estimatio
culturelle, basée sur le style de la musique. Pour les compositions de musique contemporaine ave
des changements fréquents de signature temporelle, le problème est bien évidemment plus difficil
Encore une fois, dans les programmes de notation du commerce, la signature temporelle peut êtr
spécifiée par le musicien, pour que le programme n’ait pas à faire face à ce problème.

10.5 Récupération
De nombreux facteurs peuvent embrouiller un reconnaisseur de rythme : une interprétation irré
gulière, une ambiguïté rythmique, un passage de faible amplitude où les départs de notes ne son
pas clairs, ou simplement un trou dans la capacité du reconnaisseur à analyser un type particulie
© Dunod. Toute reproduction non autorisée est un délit.

de passage. Ainsi, un reconnaisseur de rythme pratique doit essayer de récupérer doucement aprè
un point de confusion, de se rattraper comme le ferait un musicien humain. Ce sujet est complex
et les stratégies de récupération dépendent de la tâche effectuée. Comme le soulignent Allen
Dannenberg (1990), si le système maintient des hypothèses multiples de l’interprétation, il aura e
premier lieu moins tendance à se trouver complètement confus.
Chapitre 11

Analyse spectrale
méthodes de Fourier

Le musicien créatif ne sera-t-il pas un maître plus puissant s’il est également informé de la science pu
des méthodes et des matériaux de son art ? Ne sera-t-il pas capable de mélanger les couleurs sonore
avec une plus grande habileté s’il comprend la nature des ingrédients et des effets qu’ils produisent
(Dayton C. Miller, 1916)
Tout comme une image peut être décrite comme un mélange de couleurs (fréquences dans la part
visible du spectre électromagnétique), un objet sonore peut être décrit comme un mélange de vibra
tions acoustiques élémentaires. L’une des façons de disséquer le son est de considérer la contributio
des différents composants, chacun correspondant à un certain taux de variation dans la pressio
d’air. Jauger l’équilibre existant entre ces composants s’appelle l’analyse spectrale.
Une définition correcte du spectre est la suivante : « une mesure de la distribution de l’énergie d
signal en fonction de la fréquence ». Une telle définition peut sembler directe, mais il n’existe pa
© Dunod. Toute reproduction non autorisée est un délit.

de définition plus générale et plus précise du spectre. Ceci parce que différentes techniques d’analys
mesurent des propriétés qu’elles appellent toutes « spectre » avec des résultats plus ou moins dive
gents. Sauf pour des cas isolés de test, la pratique de l’analyse spectrale n’est pas une science exac
(voir Marple, 1987, pour une présentation plus approfondie). Les résultats sont typiquement un
approximation du spectre réel, et l’analyse spectrale peut donc plus précisément être appelée est
mation spectrale.
L’analyse spectrale évolue rapidement. L’étendue de ce chapitre, bien qu’étant large, ne peut ten
compte de toutes les approches possibles. Après avoir montré la nature technique de ce sujet, notr
but principal dans ce chapitre sera de faire ressortir le côté musical d’un concept parfois obscur.
Les tracés spectraux révèlent la microstructure des sons vocaux, instrumentaux et synthétiqu
(Moorer, Grey et Strawn, 1978 ; Piszczalski, 1979a, b ; Dolson, 1983, 1986 ; Stautner, 1983 ; Straw
1985a, b). Ils constituent ainsi des outils essentiels pour l’acousticien et le psychoacousticien (R
set et Wessel, 1982).
Les musicologues s’appuient de plus en plus sur les sonagrammes et sur d’autres techniques d’an
lyse du son pour étudier l’interprétation musicale et la structure de la musique électronique (Coga
1984). Ceci inclut la transcription automatique de musique — du son à la partition — soit en notati
musicale commune, soit sous une forme graphique (Moorer, 1975 ; Piszczalski et Galler, 197
Chafe et coll., 1982 ; Foster et coll., 1982 ; Haus, 1983 ; Schloss, 1985).
L’analyse spectrale en temps réel est une sorte « d’oreille » pour les systèmes de musique interacti
L’analyse spectrale révèle l’énergie fréquentielle caractéristique des sons vocaux et instrumentau
aidant ainsi à identifier les timbres et à séparer des sources multiples jouant simultanément (Mah
1990). Comme les montrent les chapitres 9 et 10, les résultats de l’analyse spectrale sont souve
précieux en reconnaissance de hauteur et de rythme.
Mais les musiciens ne souhaitent pas seulement analyser des sons ; ils veulent modifier les donné
d’analyse et resynthétiser des variantes des sons originels. De plus en plus de techniques de tran
formation du son débutent par une étape d’analyse, dont la compression et expansion temporel
le déplacement de fréquences, la convolution (filtrage et effets de réverbération), et de nombre
types de synthèse croisée — création d’hybrides entre deux sons. Les techniques basées sur une an
lyse spectrale permettent une transformation continue entre les sons « naturels » et « synthétique
lors de la resynthèse des sons analysés (Gordon et Grey, 1977 ; Risset, 1985a, b ; Serra, 1989). Po
plus de détails sur l’analyse/resynthèse, voir les chapitres 19 et 24.

11.2 Tracés spectraux


Il existe de nombreuses stratégies pour mesurer et tracer les spectres. Cette partie examine les strat
gies appartenant à deux catégories de base : statique (cliché d’un spectre) et variant dans le tem
(film d’un spectre dans le temps).
11.2.1 Tracés spectraux statiques
Les tracés statiques capturent une image immobile du son. Ces clichés soniques projettent une ima
bidimensionnelle de l’amplitude en fonction de la fréquence. L’analyse mesure l’énergie moyen
dans chaque région fréquentielle sur la période temporelle du segment analysé. Cette période temp
relle ou fenêtre peut varier d’un bref instant à plusieurs secondes ou plus. Nous parlerons plus ta
des compromis des différentes longueurs de fenêtre.
Un type de tracé statique est le spectre discret ou en ligne, où une ligne verticale représente chaq
composant fréquentiel. Pour un son principalement harmonique, l’analyse la plus claire est sy
chrone à la hauteur. Ce type d’analyse mesure l’amplitude des harmoniques d’un son dont la haute
peut être précédemment déterminée. La figure 11.1a montre le spectre en ligne d’une partie fixe d’u
son de trompette, mesurée grâce à une technique synchrone à la hauteur. Remarquez qu’à l’insta
où ce spectre a été mesuré, le troisième harmonique possède une amplitude plus forte que le fond
mental.
La figure 11.1b montre un autre spectre de trompette tracée sur une échelle d’amplitude logarit
mique (dB). Une telle échelle compresse le tracé en une bande verticale plus étroite. En traçant
contour des pics, on peut voir la forme formantique globale.
(b)

(c)
© Dunod. Toute reproduction non autorisée est un délit.

Figure 11.1 – Tracés spectraux statiques.


(a) Tracé d’un spectre en ligne amplitude en fonction de la fréquence d’une partie entretenue d’u
son de trompette. Chaque ligne représente la force d’un harmonique de la fréquence fondamental
309 Hz. Échelle d’amplitude linéaire. (b) Spectre du son de trompette de (a) tracé sur une échell
logarithmique (dB), qui compresse le tracé en une bande verticale plus étroite. (c) Tracé spectral sou
forme continue, montrant les pics formantiques pour le phonème « ah ». Échelle d’amplitude linéair
(avec l’aimable autorisation de A. Piccialli, Département de Physique, université de Naples).
mesurés par l’analyseur ont été remplis par interpolation graphique. Les composants sinusoïda
individuels sont cachés, mais la forme globale du spectre est claire.
Chaque type de tracé spectral statique possède ses propres avantages, selon le signal étant analy
et le but de l’analyse.

11.2.2 Spectre de puissance


On peut dériver le spectre de puissance à partir du spectre d’amplitude. Les physiciens définisse
la puissance comme le carré de l’amplitude d’un signal. Ainsi, le spectre de puissance est le car
du spectre d’amplitude. Les représentations spectrales montrent parfois la puissance plutôt q
l’amplitude, car celle-ci est en meilleure corrélation avec la perception humaine. Une autre mesu
est la densité spectrale de puissance, qui s’applique aux spectres continus comme le bruit. Une dé
nition simple de la densité spectrale de puissance est la suivante : spectre de puissance à l’intérie
d’une largeur de bande spécifiée (Tempelaars, 1977).

11.2.3 Tracés spectraux variants dans le temps


Les détails du spectre, même d’un seul son instrumental, changent constamment, et les tracés st
tiques sans aspect temporel ne représentent donc qu’une portion d’une forme sonore en évolutio
Un spectre variant dans le temps montre les mélanges de fréquences changeants pendant la dur
d’un événement. Il peut être tracé sous forme d’un graphe tridimensionnel du spectre en fonction
temps (figure 11.2). Ces tracés alignent essentiellement une série de tracés statiques les uns à
suite des autres.
La figure 11.3 montre deux autres formats d’affichage d’une analyse variant dans le temps.
figure 11.3a est une photographie immobile d’un affichage en chute d’eau — un tracé spectral da
lequel l’axe temporel se déplace en temps réel. Le terme affichage en chute d’eau vient du fait q
ce type de tracé montre des ondes d’énergie fréquentielle ascendante et descendante sous un aspe
fluide. La figure 11.3b montre une mélodie vocale.
Une autre façon d’afficher un spectre variant dans le temps est de tracer un sonagramme ou spe
trogramme — un outil commun en analyse de la parole, où il était à l’origine appelé parole visib
(Potter, 1946). Un sonagramme montre le contenu d’un signal avec la fréquence en fonction du temp
où les fréquences sont tracées verticalement, le temps horizontalement, et les amplitudes des fr
quences dans le spectre apparaissant selon la teinte foncée du tracé. C’est-à-dire que les composan
fréquentiels intenses sont tracés en foncé, tandis que les composants fréquentiels doux sont trac
en clair (figure 11.4). Nous parlerons plus en détails de la représentation sonagramme plus loin

11.3 Modèles derrière les méthodes d’analyses spectrales


Il ne semble pas y avoir de paradigme général ou optimal pour analyser ou synthétiser n’importe qu
type de son. On doit scruter le son — quasi périodique, somme de composants inharmoniques, bruiteu
évoluant rapidement ou lentement — et examiner également quels sont les éléments du son pertinen
pour l’oreille. (Jean-Claude Risset, 1991)
Aucune méthode d’estimation spectrale n’est idéale pour toutes les applications musicales. L’analy
de Fourier — l’approche la plus répandue — est en fait une famille de techniques différentes q
continuent d’évoluer. Un certain nombre de méthodes autres que Fourier continue également d’êt
développé, comme nous le verrons au chapitre 13.
(a)

200 ms

Temps

0
0 5 kHz
Fréquence

(b)
Amplitude

200 ms

Temps

0
0 5 kHz
Fréquence

(c)
Amplitude

200 ms

Temps

0
0 16 kHz
© Dunod. Toute reproduction non autorisée est un délit.

5 kHz
Fréquence

Figure 11.2 – Spectres variants dans le temps tracés sur une échelle d’amplitude linéaire.
Le temps se déplace de l’avant vers l’arrière. (a) Sinusoïde à 1 kHz.
(b) Flûte jouant Flatterzunge à une hauteur de Mi 4. (c) Triangle, frappé une fois.

Toute technique d’analyse du son devrait être vue comme l’ajustement des données d’entrée dan
un modèle hypothétique. Les méthodes basées sur l’analyse de Fourier modèlent les sons d’entré
sous forme d’une somme de sinusoïdes liées harmoniquement — ce qu’elles peuvent être ou non
D’autres techniques modèlent le signal d’entrée sous forme d’un signal excitateur filtré par des réso
nances, sous forme d’une somme de sinusoïdes amorties exponentiellement ou d’ondes carrée
sous forme d’une combinaison de sinusoïdes liées inharmoniquement, sous forme d’un ensemb
de pics formantiques avec ajout de bruit, ou sous forme d’un ensemble d’équations représentant u
(b)

Figure 11.3 – Images fixes d’affichage en temps réel en « chute d’eau » (waterfall).
(a) Son de trompette synthétique. Le temps se déplace de l’arrière vers l’avant, avec l’instant
plus récent au premier plan. L’échelle fréquentielle est logarithmique, et placée de gauche à droit
La fréquence fondamentale est approximativement de 1 kHz. L’amplitude est tracée verticalement s
une échelle logarithmique en dB. (b) Mélodie vocale. Le temps vient vers le spectateur, avec l’insta
le plus récent au premier plan. Les fréquences graves sont sur la gauche (avec l’aimable autorisatio
de A. Peevers, Center for New Music and Arts Technologies, université de Californie, Berkeley).
Figure 11.4 – Tracé sonagramme d’une frappe de tam-tam.
L’axe vertical est la fréquence, et l’axe horizontal le temps. Ce sonagramme utilise 1 024 points d
données d’entrée et une fenêtre Hamming. Le tracé a une résolution fréquentielle de 43 Hz et un
résolution temporelle de 1 ms. La largeur de bande d’analyse s’étend de 0 à 22 kHz, et la gamm
dynamique mesuré est –10 à –44,5 dB, tracé sur une échelle d’amplitude linéaire.

certain comportement d’un instrument traditionnel. D’innombrables autres modèles sont conce
vables. Comme nous le verrons plus loin en détail, les variations d’efficacité parmi les différente
méthodes peuvent souvent être attribuées au niveau de concordance entre le modèle présumé et
© Dunod. Toute reproduction non autorisée est un délit.

processus analysé. Il est ainsi important de choisir la méthode d’analyse appropriée pour une appl
cation musicale particulière.

11.4 Spectre et timbre


Le terme « timbre » est un fourre-tout pour un champ de phénomènes. Tout comme les termes vague
« sonorité » et « Klangideal » (Apel, 1972), il pourrait un jour être remplacé par un vocabulaire plu
précis des qualités sonores. La classification de timbre musical est une science ancienne. L’antiqu
civilisation chinoise développa des descriptions écrites sophistiquées du timbre, comprenant un
taxonomie des sources instrumentales (métal, pierre, argile, peau, fils de soie, bois, courge et bam
bou), et des prises en compte élaborées des différents « touchés » (formes d’attaques, impulsion
et vibratos) impliqués dans le jeu des fils de soie de l’instrument classique chhin (Needham, Lin
et Girdwood-Robinson, 1962). En fait, une des techniques de jeu principales du chhin est la pro
duction de différents timbres à la même hauteur.
propriété physique qui peut être caractérisée comme une distribution d’énergie en fonction de
fréquence. Comment mesurer cette énergie précisément est une autre question ! La psychoacou
tique utilise le terme « timbre » pour désigner les mécanismes perceptuels classifiant le son
familles. Par cette définition, le timbre a aussi peu à voir avec la perception qu’avec les signa
sonores. Il est certainement plus facile de parler du timbre dans le royaume des sons vocaux et in
trumentaux traditionnels, là où la majeure partie de la recherche du passé s’est étendue. Seul
quelques tentatives ont été faites pour classifier l’univers du son en dehors de cette catégorie, la pl
héroïque d’entre elles étant les études de Pierre Schaeffer (1977). Voir également Schaeffer, Reib
et Ferreyra (1967).
Un timbre commun groupe les sons joués par un instrument à différentes hauteurs, intensités
durées. Peu importe les notes que l’instrument joue, car par exemple nous pourrons toujours d
que c’est un piano. La perception humaine sépare chacun des sons d’un instrument des sons d’u
autre instrument joué à la même hauteur, intensité et durée. Personne n’a beaucoup de problèm
à séparer un son de marimba d’un son de violon joué à la même hauteur, intensité et durée. Bien sû
un seul instrument peut également émettre de nombreux timbres, par exemple le grand nomb
de sonorités obtenues avec des saxophones joués à différentes intensités.
De nombreux facteurs informent sur la perception de timbre. Ceci inclut l’enveloppe d’amplitu
(en particulier la forme d’attaque), les ondulations dues au vibrato et au trémolo, les structur
formantiques, la sonie perçue, la durée, et l’enveloppe spectrale variant dans le temps (contenu fr
quentiel dans le temps) (Schaeffer, 1977 ; Risset, 1991 ; McAdams et Bregman, 1979 ; McAdam
1987 ; Gordon et Grey, 1977 ; Grey, 1975, 1978 ; Barrière, 1991).
Lors de l’identification du timbre d’une source instrumentale, la partie d’attaque d’un son est pl
importante perceptuellement que la partie d’état fixe (entretenue) (Luce, 1963 ; Grey, 1975). L
familles d’instruments traditionnels tels que les anches, les cuivres, les cordes et les percussio
ont chacune des « signatures » d’attaque caractéristiques extrêmement importantes lors de
reconnaissance des sons qu’ils fabriquent.
L’amplitude et la durée ont une influence sur la perception du timbre. Par exemple, les proportio
de fréquences dans le spectre d’un son de flûte à 60 dB peuvent être équivalentes à celles d’un s
amplifié à 120 dB, mais nous n’entendrons ce dernier que comme une explosion forte. De faç
similaire, une explosion sonore durant 30 ms peut avoir la même forme d’onde périodique qu’u
son durant 30 secondes, mais les auditeurs trouveront difficile de dire si elles représentent la mêm
source.
La clé est que le spectre n’est pas la seule indication du timbre perçu. En examinant attentiveme
la forme d’onde dans le domaine temporel, on peut glaner beaucoup d’informations sur le timb
d’un son, sans avoir à le soumettre à une analyse spectrale détaillée.

11.5 Analyse spectrale : origines


Au dix-huitième siècle, les scientifiques et les musiciens savaient bien que de nombreux sons mu
caux étaient caractérisés par des vibrations harmoniques autour d’un son fondamental, mais ils
possédaient pas de technologie pour analyser ces harmoniques de façon systématique. Sir Isa
Newton inventa le terme « spectre » en 1781 pour décrire les bandes de couleur montrant les d
férentes fréquences passant à travers un prisme en verre.
En 1822, l’ingénieur français Joseph Fourier (1768-1830) publia sa thèse décisive Théorie analytiq
de la chaleur. Dans ce traité, il développait la théorie selon laquelle les vibrations complexes peuve
prouva que toute fonction périodique peut être représentée sous forme d’une addition infinie d
termes sinus et cosinus. En raison de la relation par rapport entier entre les fréquences sinusoïdale
de l’analyse de Fourier, elle devint connue sous le nom d’analyse harmonique. En 1843, Georg Ohm
(1789-1854) de l’Institut Polytechnique de Nuremberg fut le premier à appliquer la théorie de Fourie
aux signaux acoustiques (Miller 1935). Plus tard, le scientifique allemand Hermann von Helmhol
(1821-1894) devina que le timbre instrumental est largement déterminé par la série harmoniqu
de Fourier de la partie statique des sons instrumentaux (Helmholtz, 1863). Helmholtz développ
une méthode d’analyse harmonique basée sur des résonateurs mécanico acoustiques.
En traduisant le terme de Helmholtz Klangfarbe (« couleur sonore »), le physicien britannique Joh
Tyndall inventa le terme Clang-tint pour décrire le timbre comme un « mélange de deux ou plusieur
sons » et effectua des expériences afin de visualiser les signaux sonores, telles que les « flamme
chantantes » et les « jets d’eau chantants » (Tyndall, 1875).

11.5.1 Analyse spectrale mécanique


Les analyseurs de formes d’onde mécanique manipulés manuellement furent développés à la fi
du dix-neuvième siècle et au début du vingtième (Miller, 1916). Backhaus (1932) développa u
système d’analyse pour un seul harmonique à la fois. Il était constitué d’un microphone à carbon
connecté à l’entrée d’un filtre passe-bande ajustable. La sortie du filtre était dirigée vers un ampl
ficateur, dont la sortie était à son tour connectée à un stylo et à un enregistreur à tambour. Backhau
ajustait le filtre à la fréquence de l’harmonique étudié et demandait à l’instrumentiste de jouer un
note. Lorsque le musicien jouait, Backhaus mettait en route un tambour tandis qu’un stylo traça
la sortie du filtre pour cette fréquence sur un rouleau de papier. Le tracé résultant était pris pou
représenter le comportement d’un seul harmonique. Meyer et Buchmann (1931) développèrent u
système similaire.
Les avances dans la conception des oscilloscopes dans les années 1940 permirent une nouvel
vague de recherche. Les scientifiques photographiaient les formes d’onde à partir de l’écran de l’osci
loscope puis traçaient manuellement leurs contours dans des analyseurs de Fourier mécaniques.
Une avancée théorique fut décrite dans le célèbre article de Norbert Wiener sur l’analyse harmoniqu
généralisée (Wiener 1930), qui déplaçait l’intérêt principal de l’analyse de Fourier des composan
harmoniques à un spectre continu. Parmi d’autres résultats, Wiener montra en analogie avec
lumière blanche, que le bruit blanc était composé de toutes les fréquences en quantités égale
© Dunod. Toute reproduction non autorisée est un délit.

Blackman et Tukey (1958) décrivirent une implémentation de l’approche de Wiener en utilisan


des données échantillonnées. Après l’apparition des ordinateurs au début des années 195
l’approche Blackman-Tukey était la méthode d’analyse spectrale la plus populaire jusqu’à l’intro
duction de la transformée de Fourier rapide (FFT) en 1965, parfois créditée à Cooley et Tukey (1965
Voir Singleton (1967) et Rabiner et Gold (1975) pour plus de détails sur l’histoire de la FFT.
La plupart des analyses préinformatiques, telles que celles de Miller (1916) et de Hall (1937) fa
saient la moyenne des caractéristiques variant dans le temps d’un son instrumental. Comme dan
la recherche de Helmholtz, ces études supposaient que le spectre statique (partie entretenue de
note) jouait un rôle dominant dans la perception du timbre. Comme nous l’avons mentionné plus tô
il est maintenant reconnu que la première demi-seconde de la partie d’attaque d’un son est plu
importante perceptuellement que la partie statique pour l’identification d’une note instrumental
Les contributions pionnières de Dennis Gabor à l’analyse du son (1946, 1947) ont eu un impa
retardé, mais sont maintenant considérées comme essentielles, particulièrement parce qu’il a pré
senté une méthode d’analyse de signaux variants dans le temps. Dans les théories de Gabor, le so
quanta — appelés maintenant des grains, ou ondelettes, ou fenêtres, selon le système d’analyse u
lisé. Voir le chapitre 22 pour plus de détails sur les grains. Les fenêtres sont présentées plus loin da
ce chapitre et l’analyse par ondelettes au chapitre 13.

11.5.2 Analyse spectrale basée sur ordinateur


Les premières expériences d’analyse informatique des sons d’instruments de musique nécessitaie
des efforts héroïques. Les convertisseurs analogique-numérique et les ordinateurs étaient rares,
théorie n’était pas encore développée et les programmes d’analyse devaient être programmés
partir de zéro sur des cartes perforées (figure 11.5). Malgré ces obstacles, l’analyse et la synthè
basées sur ordinateur et développées dans les années 1960 permirent des résultats plus détaillés q
ceux fournis par les modèles analogiques. Aux Bell Telephone Laboratories, Max Mathews et Jea
Claude Risset analysèrent des cuivres en utilisant un programme d’analyse synchrone à la haute
(Mathews, Miller et David, 1961 ; Risset, 1966 ; Risset et Mathews, 1969). L’analyse synchrone à
hauteur brise la forme d’onde d’entrée en segments pseudo-périodiques, puis estime la hauteur
chacun d’entre eux. La taille du segment d’analyse est ajustée selon la période de hauteur estimée.
spectre de Fourier harmonique est ensuite calculé sur le segment d’analyse comme si le son ét
périodique ; c’est-à-dire comme si la hauteur était quasi constante d’un bout à l’autre du segme
d’analyse. Ce programme générait des fonctions d’amplitude variantes dans le temps pour chaq
harmonique d’une fondamentale donnée. La recherche doctorale de Luce (1963) au Massachuse
Institute of Technology implémentait une autre approche synchrone à la hauteur pour l’an
lyse/resynthèse des sons instrumentaux.

Figure 11.5 – James Beauchamp effectuant des expériences d’analyse du son


à l’université de l’Illinois, vers 1966.
lyseur/resynthétiseur de Fourier en temps réel hybride (analogique-numérique) pour les son
musicaux (Grogorno, 1984).
✦ Analyse par filtre hétérodyne
L’étape suivante dans l’analyse informatique des sons musicaux mit en jeu les filtres hétérodyn
(Freedman, 1965, 1967 ; Beauchamp, 1969, 1975 ; Moorer, 1973, 1975). L’approche par filtre hétéro
dyne est efficace pour résoudre les harmoniques (ou quasi harmoniques) d’une fréquence fonda
mentale donnée. Ceci implique que la fréquence fondamentale est estimée lors d’une étape précé
dente d’analyse. Le filtre hétérodyne multiplie une forme d’onde entrante par une sinusoïde ou un
onde cosinus aux fréquences harmoniques puis additionne les résultats sur une courte périod
temporelle pour obtenir des données d’amplitude et de phase.
La figure 11.6a montre l’opération de la méthode hétérodyne. Le signal d’entrée est multiplié pa
une sinusoïde d’analyse. Dans la figure 11.6a, la fréquence des deux signaux concorde exactemen
et l’énergie est ainsi complètement positive, indiquant une forte énergie à la fréquence d’analys
À la figure 11.6b, les deux fréquences ne sont plus identiques, et nous obtenons donc une form
d’onde qui est fondamentalement symétrique autour de l’axe d’amplitude. Lorsque le filtre hétéro
dyne additionne cette forme d’onde sur une courte période temporelle, elle s’annule au fond elle
même.
Après une période d’expérimentation dans les années 1970, les limites de la méthode hétérodyn
devinrent bien connues. Moorer montra que l’approche par filtre hétérodyne est embrouillée pa

(a) 1.0

-1.0
Temps

(b) 1.0
© Dunod. Toute reproduction non autorisée est un délit.

-1.0
Temps

Figure 11.6 – Analyse par filtre hétérodyne.


(a) Produit d’un signal d’entrée (sinusoïde à 100 Hz) et d’un signal d’analyse (également une sinu
soïde à 100 Hz). Le résultat est entièrement positif, indiquant une forte énergie à 100 Hz. (b) Produ
d’un signal d’entrée (une sinusoïde à 200 Hz) et d’un signal d’analyse (une sinusoïde à 100 Hz). L
résultat est dispersé en énergie positive et négative, n’indiquant pas de forte énergie à 100 Hz dan
le signal d’entrée.
sando, le portamento et le vibrato) supérieurs à deux pour cent (environ un quart de ton). Bien q
Beauchamp (1981) ait implémenté une version pisteuse d’un filtre hétérodyne qui pouvait suivre l
trajectoires de fréquence (similaire dans l’esprit au vocodeur de phase pisteur présenté plus loin
l’approche hétérodyne a été supplantée par d’autres méthodes.
✦ La saga du vocodeur de phase
L’une des techniques les plus populaires pour l’analyse/resynthèse des spectres est le vocodeur
phase (VP). James Flanagan et Roger Golden aux Bell Telephone Laboratories développèrent le pr
mier programme VP en 1966. Il était à l’origine conçu comme une méthode de codage po
réduire la largeur de bande des signaux parlés. Bien loin de compresser les données audio, le VP cau
une explosion de données ! C’est-à-dire que la quantité de données d’analyse brutes est bien sup
rieure à la quantité de données du signal d’origine.
Le VP est gourmand en calcul. Les premières implémentations nécessitaient tellement de temps
calcul que le VP ne fut utilisé dans aucune application pratique pendant des années. Travaillant
Massachusetts Institute of Technology, Portnoff (1976, 1978) développa un VP relativement efficac
prouvant qu’il pouvait être implémenté en utilisant la FFT. Il expérimenta des transformatio
sonores de la parole telles que la compression et l’expansion temporelle. Ceci conduit à l’artic
célèbre de Moorer sur l’application du VP dans la musique informatique (Moorer 1978).
Au cours des années 1970 et 1980, l’analyse spectrale effectuée par un ordinateur produisit d
aperçus significatifs dans la microstructure des sons instrumentaux et vocaux (Moorer, Grey et Sne
1977 ; Moorer, Grey et Strawn, 1978 ; Piszczalski, 1979a, b ; Dolson, 1983 ; Stautner, 1983 ; Straw
1985b). Dans les années 1990, l’analyse spectrale a évolué, passant d’une spécialité technique ésot
rique à un outil familier dans le studio du musicien — pour l’analyse, la transcription, et la transfo
mation du son. Les prochaines parties présentent les différentes formes de l’analyse spectra
dont la transformée de Fourier à court terme et le vocodeur de phase. Bien que les méthodes
Fourier prédominent dans l’analyse spectrale, d’autres méthodes ont gagné du terrain ces derni
res années. Nous survolerons donc également ces techniques « sans la méthode de Fourier »
chapitre 13. Pour un survol technique de l’analyse spectrale écrit dans un style anecdotique, vo
Robinson (1982).

11.6 Le spectre de Fourier à court terme


La transformée de Fourier (FT) est une procédure mathématique qui relie n’importe quelle form
d’onde (analogique) continue dans le temps à la somme de Fourier correspondante d’une série infin
de sinusoïdes élémentaires, chacune ayant une amplitude et une phase spécifique. En d’autres term
la FT transforme ses signaux d’entrée en représentations spectrales correspondantes. Pour adapt
l’analyse de Fourier au monde pratique des signaux échantillonnés, de durées finies et variant
dans le temps, les chercheurs ont façonné la FT en transformée de Fourier à court terme ou STF
(Schroeder et Atal, 1962 ; Flanagan, 1972 ; Allen et Rabiner, 1977 ; Schafer et Rabiner, 1973b).
11.6.1 Fenêtrage du signal d’entrée
En préparation à l’analyse spectrale, la STFT impose une séquence de fenêtres temporelles au sign
d’entrée (figure 11.7). C’est-à-dire qu’il brise le signal d’entrée en segments « à court terme » (bre
limités dans le temps par une fonction de fenêtrage. Une fenêtre n’est rien de plus qu’un type sp
cifique d’enveloppe conçue pour l’analyse spectrale. La durée de la fenêtre est en général de l’ord
de 1 ms à 1 seconde, et les segments se superposent parfois. En analysant séparément le spectre
Extraction d'un segment

×
Multiplication
par fonction
de fenêtrage
Fonction
de fenêtrage

Segment fenêtré

Figure 11.7 – Fenêtrage d’un signal d’entrée.

chaque segment fenêtré, on obtient une séquence de mesures qui constitue un spectre variant dans
temps.
Le processus de fenêtrage est la source de l’adjectif « à court terme » dans « transformée de Fourie
à court terme ». Malheureusement, le fenêtrage a un effet secondaire de distorsion de la mesur
spectrale. Ceci en raison du fait que l