L'Audionumérique - Musique Et Informatique Curtis Roads 3eme Edition Dunod 2006

Curtis Roads
L’audionumérique
Musique et informatique
3 e édition
Traduction et adaptation française : Jean de Reydellet

Cet ouvrage est la 3e édition,
mise à jour et enrichie, de la traduction française
de l’ouvrage de Curtis Roads publié en langue anglaise sous le titre :
The Computer Music Tutorial
Copyright 1ère édition © 1996 Massachusetts Institute of Technology

Authorized translation from the English Language edition published by MIT Press
All rights reserved.
© Dunod, 2016 pour la 3e édition française
Traduction et adaptation française : Jean de Reydellet
Photo de couverture : B&W Loudspeakers LTD, England
© Dunod, 1998, 2007, 2016 pour la traduction française

5 rue Laromiguière, 75005 Paris
www.dunod.com
ISBN 972-2-10-074650-7
Table des matières
AVANT-PROPOS DE L’AUTEUR XI
AVANT-PROPOS DU TRADUCTEUR XIII
PARTIE A – ENVIRONNEMENT ET OUTILS
CHAPITRE 1 – CONCEPTS AUDIONUMÉRIQUES 3
1.1 Origines : histoire de l’enregistrement audionumérique 3

1.2 Éléments fondamentaux des signaux sonores 10
1.3 Représentations analogiques du son 16
1.4 Représentations numériques du son 17
1.5 Gamme dynamique des systèmes audionumériques 31
1.6 Suréchantillonnage 33
1.7 Supports audionumériques 36
1.8 Compression des données audio 37
© Dunod. Toute reproduction non autorisée est un délit.
1.9 Synthèse et traitement du signal 39

1.10 Conclusion 41
CHAPITRE 2 – MIXAGE 43
2.1 Mixage et gamme dynamique 45

2.2 Tables de mixage 45
2.3 Tables hybrides 50
2.4 Éléments des tables de mixage numériques 52
2.5 Enregistrement et mixage multipiste 54
2.6 Écoute audio 56
2.7 Automatisation du mixage 59
2.8 Synchronisation du mixage audio et de la vidéo 61
2.9 Conclusion 65
IV L’AUDIONUMÉRIQUE
CHAPITRE 3 – TRANSFORMATION DE LA GAMME DYNAMIQUE 67
3.1 Remodeleurs d’enveloppes 67

3.2 Extensions avec seuil (noise gates) 67
3.3 Compresseurs 69
3.4 Extenseurs 71
3.5 Limiteurs 71
3.6 Unités de réduction du bruit et compresseurs-extenseurs 71
3.7 Dangers de la transformation de la gamme dynamique 73
CHAPITRE 4 – LES FILTRES NUMÉRIQUES 75
4.1 Présentation de la théorie des filtres aux musiciens 75

4.2 Filtres : origines 76
4.3 Réponse impulsionnelle, fréquentielle et de phase d’un filtre 78
4.4 Les filtres sous forme d’équations 79
4.5 Filtre passe-bas simple 80
4.6 Filtre passe-haut simple 82
4.7 Filtres à réponse impulsionnelle finie généraux 83
4.8 Filtres à réponse impulsionnelle infinie simples 85
4.9 Filtres à réponse impulsionnelle infinie généraux 87
4.10 Comparaison des filtres FIR et des filtres IIR 87
4.11 Conception d’un filtre à partir d’une spécification arbitraire 87
4.12 Blocs de construction des filtres complexes 88
4.13 Filtres en peigne 89
4.14 Filtres passe-tout 93
CHAPITRE 5 – LA CONVOLUTION 95
5.1 L’opération de convolution 95

5.2 Convolution par impulsions élémentaires échelonnées et retardées 97
5.3 Définition mathématique de la convolution 98
5.4 Comparaison de la convolution et de la multiplication 99
5.5 La loi de la convolution 99
5.6 Relation entre convolution et filtrage 99
5.7 Convolution rapide 100
5.8 Signification musicale de la convolution 101
5.9 Convolution avec des grains et des pulsars 104
5.10 Comparaison de la convolution linéaire et de la convolution circulaire 105
5.11 Déconvolution 105
CHAPITRE 6 – LES EFFETS DE RETARD 107
6.1 Les effets de retard temporel fixe 107

6.2 Les effets de retard temporel variable 111
6.3 Changement temps/hauteur 114
TABLE DES MATIÈRES V
CHAPITRE 7 – LA SPATIALISATION 121
7.1 Spatialisation du son 121

7.2 Indications de localisation 126
7.3 Haut-parleurs rotatifs 137
7.4 Son surround 139
CHAPITRE 8 – LA RÉVERBÉRATION 151
8.1 Réverbération 151

8.2 Modelage d’espaces sonores 161
CHAPITRE 9 – RECONNAISSANCE DE LA HAUTEUR 169
9.1 Analyse de hauteur, de rythme et de forme d’onde : origines 169

9.2 Reconnaissance de la hauteur et du rythme dans les systèmes MIDI 172
9.3 Le problème de la détection de hauteur 173
9.4 Méthodes de détection de hauteur 176
CHAPITRE 10 – RECONNAISSANCE DU RYTHME 187
10.1 Applications de reconnaissance du rythme 188

10.2 Niveaux de reconnaissance du rythme 188
10.3 Détection d’événement 189
10.4 Transcription 191
10.5 Récupération 195
CHAPITRE 11 – ANALYSE SPECTRALE : MÉTHODES DE FOURIER 197
11.1 Applications de l’analyse spectrale 198

11.2 Tracés spectraux 198
11.3 Modèles derrière les méthodes d’analyses spectrales 200
11.4 Spectre et timbre 203
11.5 Analyse spectrale : origines 204

11.6 Le spectre de Fourier à court terme 208
11.7 La représentation sonagramme 220
11.8 Le vocodeur de phase 222
CHAPITRE 12 – ANALYSE SPECTRALE : 233

MÉTHODES PAR DÉCOMPOSITION ATOMIQUE
12.1 Fondamentaux 233

12.2 Méthodes 236
12.3 Applications 238
12.4 Conclusion : études avancées 242
VI L’AUDIONUMÉRIQUE
CHAPITRE 13 – ANALYSE SPECTRALE : AUTRES MÉTHODES 243
13.1 Analyse du son sans la méthode de Fourier 243

13.2 Analyse par banque de filtres à Q constant 245
13.3 Analyse par ondelettes 248
13.4 Analyse du signal par distribution de Wigner-Ville 255
13.5 Analyse spectrale par autorégression 257
13.6 Analyse par d’autres fonctions 259
13.7 Modèles d’audition 260
13.8 Systèmes comprenant le signal 262
CHAPITRE 14 – MIDI 269
14.1 Comparaison des données de contrôle MIDI et du son 270

14.2 Origines : la spécification MIDI 1.0 270
14.3 Possibilités musicales du MIDI 272
14.4 Matériel MIDI 273
14.5 Pilotes MIDI 278
14.6 Canaux MIDI 278
14.7 Messages MIDI 280
14.8 Modes MIDI 286
14.9 Contrôle continu par MIDI 289
14.10 Fichiers MIDI standards 290
14.11 Transfert de données audio 292
14.12 Contrôle temporel du MIDI 293
14.13 Contrôle de machine MIDI et contrôle de show MIDI 295
14.14 Accessoires MIDI 296
14.15 Limites du MIDI 297
14.16 Accélérer les communications MIDI 300
14.17 Écriture de logiciel de musique MIDI 302
14.18 Contacts sur le MIDI 304
14.19 Conclusion 304
CHAPITRE 15 – INTERCONNEXIONS DE SYSTÈME 307
15.1 Alimentations en courant alternatif 307

15.2 Câbles audio analogiques 309
15.3 Patchbays 310
15.4 Lignes série électroniques 312
15.5 Câbles MIDI 313
15.6 Liaisons audionumériques 315
15.7 Câbles en fibre optique 318
15.8 Liaisons de synchro 320
15.9 Ports et bus parallèles 323
15.10 Contrôleurs d’accès direct à la mémoire et mémoires partagées 324
15.11 Réseaux 325
TABLE DES MATIÈRES VII
CHAPITRE 16 – LA PSYCHOACOUSTIQUE ET LA SYNTHÈSE 333
16.1 Perception de l’intensité 334

16.2 L’oreille humaine 336
16.3 Perception des caractéristiques temporelles 337
16.4 Perception de la fréquence 339
16.5 Perception du bruit 341
16.6 Fusion et perception du timbre 342
16.7 Effets de masques 343
16.8 Conclusion : psychoacoustique et perception 345
16.9 Remerciements 345
PARTIE B – SYNTHÈSE SONORE
CHAPITRE 17 – INTRODUCTION À LA SYNTHÈSE 349
17.1 Origines : histoire de la synthèse numérique du son 349

17.2 Synthèse par lecture de table d’onde fixe 352
17.3 Bruit de lecture de table et oscillateurs interpolants 354
17.4 Synthèse de formes d’ondes variant dans le temps 356
17.5 Logiciels de synthèse 360
17.6 Synthèse numérique en temps réel 362
17.7 Comparaison de la synthèse différée et de la synthèse en temps réel 364
17.8 Spécification des sons musicaux 364
17.9 Conclusion 371
CHAPITRE 18 – L’ÉCHANTILLONNAGE 373
18.1 Musique Concrète et échantillonnage : origines 373

18.2 Bouclage 377
18.3 Transposition de hauteur 379
18.4 Conversion du taux d’échantillonnage sans transposition de hauteur 381

18.5 Problèmes du rééchantillonnage 382
18.6 Réduction et compression des données dans les échantillonneurs 382
18.7 Bibliothèques d’échantillons 384
18.8 Évaluation des échantillonneurs 384
18.9 Modelage des transitions note à note 385
CHAPITRE 19 – LA SYNTHÈSE ADDITIVE 389
19.1 Synthèse additive 389

19.2 Analyse/resynthèse additive 398
VIII L’AUDIONUMÉRIQUE
CHAPITRE 20 – LA SYNTHÈSE PAR TABLES D’ONDES MULTIPLES 409
20.1 Fondu enchaîné de tables d’ondes 409

20.2 Empilement d’ondes 412
CHAPITRE 21 – LA SYNTHÈSE PAR TERRAINS D’ONDES 415
21.1 Terrains et orbites 415

21.2 Création de formes d’ondes prévisibles à partir des terrains d’ondes 416
21.3 Orbites périodiques 417
21.4 Orbites variant dans le temps 418
CHAPITRE 22 – LA SYNTHÈSE GRANULAIRE 421
22.1 Synthèse granulaire : historique 421

22.2 Grains sonores 422
22.3 Instrument générateur de grain 424
22.4 Organisations granulaires de haut niveau 424
22.5 Évaluation de la synthèse granulaire 435
CHAPITRE 23 – LA SYNTHÈSE PULSAR 437
23.1 Synthèse pulsar de base 438

23.2 Spectres de la synthèse pulsar de base 443
23.3 Synthèse pulsar avancée 445
23.4 Implémentations de la synthèse pulsar 450
23.5 Composer avec les pulsars 451
23.6 Applications musicales de la synthèse pulsar 452
23.7 Conclusion 452
CHAPITRE 24 – LA SYNTHÈSE SOUSTRACTIVE 455
24.1 Synthèse soustractive 455

24.2 Analyse/resynthèse soustractive 466
24.3 Codage prédictif linéaire 468
CHAPITRE 25 – LA SYNTHÈSE PAR MODULATION 479
25.1 Signaux bipolaires et unipolaires 480

25.2 Modulation en anneau 481
25.3 Modulation d’amplitude 485
25.4 Modulation de fréquence 488
25.5 Modulation de fréquence à multiples porteuses 497
25.6 Modulation de fréquence à multiples modulantes 499
25.7 Modulation de fréquence bouclée 502
25.8 Distorsion de phase 509
25.9 Synthèse par distorsion non linéaire 509
TABLE DES MATIÈRES IX
25.10 Modulations générales 517

CHAPITRE 26 – LA SYNTHÈSE PAR MODÈLES PHYSIQUES 519
26.1 Synthèse par modèles physiques 519

26.2 Analyse de source et de paramètres pour les modèles physiques 537
26.3 Synthèse Karplus-Strong (corde pincée et tambour) 539
CHAPITRE 27 – LA SYNTHÈSE ANALOGIQUE VIRTUELLE 545
27.1 Comparaison de numérique et d’analogique 545

27.2 Analogique virtuelle 546
27.3 Évolution de la synthèse analogique 548
27.4 Questions soulevées par l’émulation de synthèse analogique 550
27.5 Amplificateurs, compresseurs et égaliseurs par modelage analogique 556
27.6 Conclusion 557
CHAPITRE 28 – LA SYNTHÈSE FORMANTIQUE 559
28.1 Synthèse par fonction d’onde formantique et CHANT 561

28.2 Analyse/resynthèse FOF 568
28.3 VOSIM 570
28.4 Synthèse par fonction de fenêtrage 572
CHAPITRE 29 – LA SYNTHÈSE PAR SEGMENTS DE FORME D’ONDE 577
29.1 Interpolation de forme d’onde 578

29.2 SAWDUST 582
29.3 SSP 583
29.4 Synthèse par instruction 584
CHAPITRE 30 – LA SYNTHÈSE CONCATÉNATIVE 587

30.1 Fondamentaux 588

30.2 Deux approches générales 591
30.3 Perspectives historiques 593
30.4 Conclusion 593
CHAPITRE 31 – LA SYNTHÈSE GRAPHIQUE 595
31.1 Graphiques dans la synthèse sonore : origines 595

31.2 Interaction avec l’UPIC 596
31.3 Synthèse graphique avec le MIDI 599
31.4 Évaluation de la synthèse sonore graphique 599
X L’AUDIONUMÉRIQUE
CHAPITRE 32 – LA SYNTHÈSE STOCHASTIQUE ET CHAOTIQUE 601
32.1 Modulation de bruit 601

32.2 Synthèse stochastique de forme d’onde 605
BIBLIOGRAPHIE 611
INDEX DES SUJETS 655
INDEX DES NOMS 672

Avant-propos de l’auteur
Après des décennies de recherche musicale, les conditions d’un âge d’or de création dans la musi-
que électronique et informatique ont émergé. Un certain nombre de facteurs cruciaux, à la fois
techniques et esthétiques, se mettent en place pour favoriser cette tendance.
La musique informatique est le sujet d’un nombre de publications plus élevé qu’à aucun autre
moment dans le passé. La recherche est florissante, et des douzaines de festivals servent de terrain
d’expérimentation pour la musique électronique. Une industrie variée est apparue autour de la
création de nouveaux synthétiseurs, logiciels et composants audio. La mentalité purement
commerciale est contrebalancée par un vigoureux marché alternatif d’instruments exotiques et de
logiciels gratuits. Les outils d’organisation du son — les appareils d’édition et de mixage — ont
atteint un degré d’efficacité indéniable, tandis que leur prix a chuté. Le coût d’un studio à base
d’informatique — inimaginable pour un musicien individuel il y a encore vingt ans — est souvent
inférieur au prix d’un instrument traditionnel.
Les avancées dans les domaines de la recherche et de la technologie ne relatent cependant qu’une
partie de l’histoire. Nous possédons maintenant une meilleure compréhension des implications
esthétiques de cette approche de la musique. Nous voyons qu’elle se déploie sur de multiples échel-
les temporelles, et nos méthodes de synthèse, d’analyse et de transformation du son reflètent cela.
La perspective des échelles multiples a commencé avec l’exploration du microson et de ses effets,
depuis les procédés granulaires jusqu’aux masses sonores en mutations continues. Couplée à cet
aperçu, la spatialisation du son a évolué pour devenir un élément à part entière de la composition.
Ces perspectives ont eu un impact profond sur notre conception de la forme musicale.
Les nouveaux outils et matériaux sonores conduisent inévitablement à de nouvelles stratégies
d’organisation. Parmi celles-ci se trouvent des processus basés sur les mutations sonores, le
contrepoint timbral et spatial, le contrôle détaillé de masses sonores complexes, les juxtapositions
de paysages sonores virtuels et réels, la coalescence et la désintégration sonore, le contrepoint
microtonal, et l’interaction entre l’échelle microtemporelle et les autres échelles de temps qui ne
peut être réalisée par des instruments acoustiques.
C’est pour moi un grand plaisir que de pouvoir présenter cette troisième édition française de
L’audionumérique. J’ai la chance d’avoir comme collaborateur Jean de Reydellet, qui aura été la
XII L’AUDIONUMÉRIQUE
force motrice de cette publication. J’ai également la chance d’avoir trouvé en Dunod un éditeur
visionnaire, qui aura su prévoir le besoin d’une édition révisée et actualisée de ce livre. Je suis
heureux d’annoncer qu’avec cette nouvelle édition, le lecteur francophone possède la version la
plus récente et la plus à jour de toutes celles qui existent, y compris en langue anglaise.
Curtis Roads
Santa Barbara, novembre 2015
Présentation des collaborateurs

Curtis Roads
Curtis Roads est compositeur et professeur au Media Arts and Technology, University of California,
Santa Barbara.
Jean de Reydellet (chapitre 7)
Titulaire d’une maîtrise en musicologie, Jean de Reydellet s’est spécialisé dans les technologies
informatiques et matérielles appliquées à la musique.
John Strawn (chapitre 1 et chapitre 17)
Titulaire d’un doctorat de Standford, John Strawn est le fondateur de S Systems, Inc, société four-
nissant des services de conseil et d’expertise en programmation pour de nombreux acteurs de
l’industrie audio.
Bob L. Sturm (chapitre 12 et chapitre 30)
Après avoir obtenu un doctorat à l’University of California, Santa Barbara, Bob L. Sturm travaille à
Paris puis Copenhague. Il est maintenant maître de conférences en médias numériques à la School
of Electronic Engineering and Computer Science, au sein de la Queen Mary University de Londres.
John William Gordon (chapitre 16)
John William Gordon a obtenu le premier doctorat en informatique musicale au monde, au sein du
CCRMA de la Stanford University. Au cours de sa carrière, il a conçu des logiciels liés à l’acousti-
que, des solutions de traitement du signal et des systèmes de surveillance.
Avant-propos du traducteur
L’audionumérique, version française de l’ouvrage The Computer Music Tutorial de Curtis Roads,
voit aujourd’hui le jour dans sa troisième édition. Dix-sept années se sont écoulées depuis la sortie
de la première édition, qui constituait déjà une somme de connaissances remarquable dans les
domaines de l’informatique musicale et de la synthèse du son. La seconde édition, conçue dès
l’origine pour augmenter le nombre des informations fournies au lecteur, et divisée en deux par-
ties, avait permis l’ajout de nombreux chapitres ou parties : MIDI, interconnexion de systèmes,
supports audionumériques, compression des données audio, formats de son surround, protocoles
réseau, synthèse pulsar et synthèse par émulation analogique.
Cette troisième édition intègre quant à elle deux nouveaux chapitres. Les méthodes par décompo-
sition atomique permettent l’émergence de techniques à fort potentiel pour des applications de
traitement avancé de l’audio : débruitage, désaturation, correction de corruptions dans les
signaux, ou encore séparation de sources ou détection de notes dans des environnements comple-
xes. La synthèse concaténative quant à elle, constitue la méthode la plus aboutie de synthèse texte-
parole actuellement existante. Elle est également utilisée dans les domaines de la synthèse vocale
et de la synthèse d’instruments en intégrant des données de haut niveau telles que phrasés, transi-
tions entre les notes ou nuances de jeu. Le livre a enfin fait l’objet d’une relecture qui a permis la
correction d’un certain nombre d’erreurs et la suppression de quelques rares parties devenues
obsolètes.
Je tiens tout d’abord à remercier Curtis Roads d’être parvenu au cours des années à réunir cet
ensemble de connaissances et d’informations sur de nombreux sujets liés au travail sur le son, et
d’avoir su les exprimer dans un style concis et clair. Il m’a fait l’honneur de m’accorder sa confiance
lors de la réalisation de cette version en langue française, et parce qu’il est un homme épris de
savoir, de recherche et de vérité, je ne peux éprouver à son égard qu’un sentiment de profond res-
pect. J’exprime également ma gratitude à Horacio Vaggione, pour avoir assuré des cours passion-
nants, et pour sa capacité à placer constamment des concepts liés à la composition musicale au
sein d’un ensemble plus grand d’idées esthétiques et philosophiques. À lui, ainsi qu’à Gérard Pape,
ancien directeur du CCMIX (Centre de Composition Musicale Iannis Xenakis), j’adresse de chaleu-
reux remerciements pour avoir permis à Curtis Roads d’assurer des cours sur le sol français dans
XIV L’AUDIONUMÉRIQUE
le cadre de l’université Paris 8 et du CCMIX, symbole de leur ardente passion à rendre accessibles
nombre de sujets abordés dans ce livre sur un plan pratique, par l’utilisation du studio et de la
composition musicale.
J’adresse ma reconnaissance à Jean-Baptiste Gugès et Cécile Rastier des Éditions Dunod. Leur pro-
fessionnalisme, leur sensibilité, leur gentillesse et leur intelligence auront permis d’éditer un
ouvrage d’un haut niveau de qualité, tant sur le fond que sur la forme. J’espère que chaque lecteur
passionné par le son et la musique trouvera parmi ces pages matière à alimenter ses réflexions et
son inspiration.
Jean de Reydellet
Novembre 2015
Partie A
Environnement
et outils
Chapitre 1
Concepts audionumériques
Curtis Roads et John Strawn
La fusion de l’enregistrement audionumérique et de la technologie de l’informatique musicale crée

un médium artistique souple et puissant. Ce chapitre présente l’histoire et la technologie de l’enre-
gistrement et de la reproduction audionumérique. Après avoir étudié cette introduction, vous devriez
être accoutumé au vocabulaire de base et aux concepts de l’audionumérique. Par souci de brièveté,
nous condenserons les grands sujets ; pour plus d’informations, se reporter à D. Davis (1988, 1992).
1.1 Origines : histoire de l’enregistrement audionumérique

Figure 1.1 – Séance d’enregistrement par procédé mécanique avant 1900.

Les vibrations sonores captées par le large cône situé au-dessus du piano étaient transformées sous
forme de vibrations mécaniques d’un stylet qui perçait un cylindre de cire en rotation.
4 ENVIRONNEMENT ET OUTILS
Figure 1.2 – Haut-parleur Amplion, publicité de 1925.

L’histoire de l’enregistrement sonore est riche et commence avec les expérimentations de Thomas
Edison et d’Émile Berliner dans les années 1870, puis fut marquée par le Telegraphone de Valdemar
Poulsen, un enregistreur magnétique à fil métallique datant de 1898 (Read et Welch, 1976). L’enre-
gistrement sonore des débuts était mécanique (figure 1.1).
Bien que l’invention de la lampe à triode en 1906 lançât l’ère de l’électronique, les enregistrements
produits électroniquement ne furent pas mis en application avant 1924 (Keller, 1981). La figure 1.2
montre un haut-parleur à pavillon typique des années 1920.
Figure 1.3 – Prototype d’un enregistreur à bande portable Magnetophon de 1935,

construit par AEG (avec l’aimable autorisation de BASF Aktiengesellschaft).
L’enregistrement optique sur film fut présenté pour la première fois en 1922 (Ristow, 1993). L’enre-
gistrement sur bande recouverte de matériau magnétique pulvérisé fut développé en Allemagne
dans les années 1930 (figure 1.3), mais ne s’étendit au reste du monde qu’après la Seconde Guerre
mondiale. Les enregistreurs allemands Magnetophon étaient largement en avance sur les enregis-
treurs à fil métallique ou à ruban d’acier, qui nécessitaient une soudure pour faire un raccord. Les
Magnetophon et leurs descendants étaient des enregistreurs analogiques. Le terme « analogique »
fait référence à la forme d’onde codée sur la bande : une proche analogie de la forme d’onde sonore
captée par le microphone. L’enregistrement analogique continue d’être amélioré, mais doit faire face
à des limites physiques fondamentales. Ces limites sont plus apparentes lors de copies d’un support
analogique à un autre : un bruit additionnel est inévitable.
Pour plus d’informations sur l’enregistrement analogique, en particulier sur les machines multi-
pistes, voir le chapitre 2.
1.1.1 Expérimentation de l’enregistrement numérique

Le concept clé de l’enregistrement audionumérique est l’échantillonnage, c’est-à-dire la conversion
de signaux analogiques continus (tels que ceux provenant d’un microphone) en signaux discrets
échantillonnés temporellement. La clé de voûte théorique de l’échantillonnage est le théorème de
l’échantillonnage, qui spécifie la relation entre le taux d’échantillonnage et la largeur de bande
audio (voir la partie sur le théorème de l’échantillonnage plus loin dans ce chapitre). Ce théorème
est également appelé théorème de Nyquist d’après les travaux de Harold Nyquist aux Bell Telephone
Laboratories (Nyquist, 1928), mais une autre forme de ce théorème fut tout d’abord établie en 1841
par le mathématicien français Augustin Louis Cauchy (1789-1857). Le chercheur britannique Alec
Reeves développa le premier système breveté de modulation par impulsion (PCM) pour la trans-
mission de messages sous forme (numérique) de « dichotomie de l’amplitude, quantification du
temps » (Reeves, 1938 ; Licklider, 1950 ; Black, 1953). Même aujourd’hui, l’enregistrement numérique
est quelquefois appelé « enregistrement PCM ». Le développement de la théorie de l’information
contribua à la compréhension de la transmission audionumérique (Shannon, 1948). La résolution
des difficiles problèmes de conversion entre signaux analogiques et signaux numériques demanda
deux décennies, et est encore en cours d’amélioration. Nous présenterons les procédés de conversion
plus tard.
À la fin des années 1950, Max Mathews et son groupe de travail des Bell Telephone Laboratories géné-
rèrent les premiers sons synthétiques à partir d’un ordinateur. Les échantillons étaient écrits par
l’ordinateur sur des armoires de stockage à bandes magnétiques volumineuses et coûteuses. La
production de son à partir des nombres était effectuée de façon séparée en relisant la bande à travers
une lampe « faite maison » de 12 bits, un « convertisseur numérique son » développé par Epsco
Corporation (Roads, 1980 ; voir également le chapitre 17).
Hamming, Huffman et Gilbert sont à l’origine de la théorie de la correction d’erreur numérique datant
des années 1950 et 1960. Plus tard, Sato, Blesser, Stockham et Doi contribuèrent à la correction
d’erreur, ce qui permit la construction des premiers systèmes d’enregistrement audionumérique uti-
lisables. Le premier enregistreur audionumérique monophonique spécialisé (basé sur un méca-
nisme de magnétoscope), fut présenté par la compagnie japonaise de diffusion NHK (Nakajima et
coll. 1983). Peu après, Denon développa une version améliorée (figure 1.4), et la course commença
pour la mise sur le marché d’enregistreurs audionumériques (Iwamura et coll., 1973).
En 1977, le premier système d’enregistrement arriva sur le marché, le processeur Sony PCM-1,
conçu pour coder des signaux audionumériques 13 bits sur des enregistreurs de vidéocassettes
Sony de format Beta. En moins d’une année, il fut remplacé par les codeurs PCM en 16 bits tels que
le Sony PCM-1600 (Nakajima et coll. ,1978). À ce moment, la production se divisa en deux secteurs :
des unités professionnelles et des unités « grand public », bien qu’un réel marché de masse pour ce
type d’enregistreurs numériques ne se soit jamais matérialisé. Les Sony PCM-1610 et 1630 profes-
sionnels devinrent les normes pour le mastering des disques compacts (CD), tandis que les systèmes
compatibles avec le Sony PCM-F1 (également appelés systèmes EIAJ pour Electronics Industry
Association of Japan — Association de l’Industrie Électronique du Japon) devinrent de facto la
norme pour l’enregistrement audionumérique à bas prix sur vidéocassette. Ces normes ont perduré
durant les années 1980.
Figure 1.4 – Enregistreur audionumérique construit en 1973 par Nippon Columbia (Denon)
et basé sur un enregistreur à bande vidéo 1 pouce (sur la droite).
L’Audio Engineering Society établit deux normes de fréquences d’échantillonnage en 1985 : 44,1 et
48 kHz. Ils révisèrent leurs spécifications en 1992 (Audio Engineering Society, 1992a, 1992b). Il
existe également une fréquence d’échantillonnage de 32 kHz pour la radiodiffusion. Entre-temps,
quelques compagnies développèrent des enregistreurs numériques de plus haute résolution capable
de coder plus de seize bits à des taux d’échantillonnage plus élevés. Par exemple, une version de l’enre-
gistreur numérique à bande X-86 de Mitsubishi codait en 20 bits à une fréquence d’échantillonnage
de 96 kHz (Mitsubishi, 1986). Un certain nombre d’enregistreurs à haute résolution sont maintenant
sur le marché.
1.1.2 Son numérique pour le public
Le son numérique atteignit tout d’abord le grand public en 1982 grâce au format disque compact
(CD), un disque optique de 12 cm lu par un laser (figure 1.5). Le format CD fut développé conjoin-
tement par les sociétés Philips et Sony après des années de recherche. Ce fut un succès commercial
énorme, car plus de 1,35 million de lecteurs et des dizaines de millions de disques furent vendus
en moins de deux ans (Pohlman, 1989). Depuis lors, une variété de produits a été dérivée de la tech-
nologie du CD, dont le CD-Rom (Read Only Memory — Mémoire à lecture seule), le CD-I (Interactif),
et d’autres formats mélangeant les données audio, les textes et les images.
Au début des années 1990, les constructeurs se recentrèrent sur un besoin de support numérique
enregistrable. Différents supports apparurent, dont la DAT (Digital Audio Tape — Bande audionu-
mérique), la DCC (Digital Compact Cassette — Cassette compacte numérique), le MD (Mini-Disc),
et le CD-R (CD enregistrable). Voir plus bas la partie sur les supports audionumériques.
Figure 1.5 – Le disque compact Sony-Philips.
1.1.3 Son numérique pour les musiciens

Bien que les lecteurs de CD aient eu des convertisseurs 16 bits bon marché, les convertisseurs de
bonne qualité n’étaient pas répandus avant 1988. Avant cette date, quelques centres de musique avaient
développé des convertisseurs analogique-numérique et numérique-analogique, mais les posses-
seurs d’ordinateurs personnels devaient attendre. Ils pouvaient acheter des synthétiseurs numériques
et les contrôler par protocole MIDI, mais ils ne pouvaient directement synthétiser ou enregistrer
des sons avec l’ordinateur.
Ce n’est qu’à la fin des années 1980 que des convertisseurs bon marché et de bonne qualité furent
mis sur le marché pour les ordinateurs personnels. Ce développement proclama l’arrivée d’une
nouvelle ère de la musique informatique. En peu de temps, la synthèse du son, l’enregistrement, et le
traitement du son par ordinateur se répandirent. Des douzaines de stations de travail audio diffé-
rentes apparurent sur le marché de la musique. Ces systèmes permettaient au musicien d’enregistrer
de la musique sur un disque dur connecté à l’ordinateur. Cette musique pouvait être éditée préci-
sément sur l’écran de l’ordinateur, avec relecture à partir du disque dur.
1.1.4 Enregistrement numérique multipiste

Contrairement aux enregistreurs stéréophoniques qui enregistrent en même temps les canaux
gauche et droit, les enregistreurs multipistes possèdent différents canaux séparés ou pistes qui peuvent
être enregistrées à différents moments. Chaque piste peut par exemple enregistrer un instrument
séparé, ce qui permet une flexibilité lors du mixage ultérieur. Un autre avantage des machines multi-
pistes est qu’elles laissent les musiciens construire les enregistrements par couches, chaque nouvelle
couche étant un accompagnement des couches enregistrées précédemment.
La British Broadcasting Company (BBC) développa un enregistreur numérique expérimental à dix
canaux en 1976. Deux années plus tard, la société 3M, en association avec la BBC, présenta le pre-
mier enregistreur commercial 32 canaux (figure 1.6), accompagné d’un éditeur numérique de bande
rudimentaire (Duffy, 1982). Le premier éditeur et mélangeur basé sur disque dur fut construit par
la compagnie Soundstream de Salt Lake City, en Utah. Ce système permettait le mixage de huit pistes
simultanées ou fichiers sons stockés sur disque dur (Ingebretsen et Stockham, 1984).
Figure 1.6 – Enregistreur numérique 32 pistes à bande de 3M, présenté en 1978.
Au milieu des années 1980, 3M et Soundstream s’étaient retirés du marché des enregistreurs numé-
riques multipistes, dominé alors par les conglomérats Sony et Mitsubishi, plus tard rejoints par la
compagnie Studer. Depuis un certain nombre d’années, l’enregistrement numérique multipiste
était une activité très onéreuse (figure 1.7). La situation entra dans une nouvelle phase au début
des années 1990, avec la présentation d’enregistreurs multipistes à bande peu onéreux, par les
Figure 1.7 – Enregistreur multipiste numérique Studer D820-48 DASH,

présenté en 1991 à un prix de vente au détail d’environ 200 000 €.
compagnies Alesis et Tascam, et d’enregistreurs multipistes sur disque dur par diverses compa-
gnies. Le chapitre 2 raconte l’histoire de l’enregistrement multipiste analogique.
1.2 Éléments fondamentaux des signaux sonores

Cette partie présente les éléments fondamentaux et la terminologie pour décrire les signaux sonores,
y compris la fréquence, l’amplitude et la phase.
1.2.1 Fréquence et amplitude
Le son atteint les oreilles de l’auditeur après avoir été transmis par l’air depuis sa source. Les audi-
teurs entendent des sons, car la pression de l’air change légèrement dans leurs oreilles. Si la pression
varie selon un modèle répétitif, nous disons que le son a une forme d’onde périodique. S’il n’y a pas
de modèle discernable, on parle de bruit. Entre ces deux extrêmes se trouve le vaste domaine des
sons quasi périodiques et quasi bruiteux.
La répétition d’une forme d’onde périodique est appelée un cycle, et la fréquence fondamentale de
la forme d’onde est le nombre de cycles qui se produit par seconde. Lorsque la longueur du cycle
appelée longueur d’onde ou période augmente, la fréquence en cycles par seconde diminue, et vice
versa. Dans le reste de ce livre, nous substituons Hz pour « cycles par seconde » en conformité avec
la terminologie standard de l’acoustique (Hz est une abréviation de Hertz, d’après le nom de
l’acousticien allemand Heinrich Hertz).
✦ Représentation dans le domaine temporel
+1
Amp. 0 Pression
de l’air
-1
Temps
Figure 1.8 – Représentation dans le domaine temporel d’un signal.

L’axe vertical montre la pression de l’air. Lorsque la courbe est près du sommet du graphique, la
pression de l’air est plus élevée. Au-dessous de la ligne horizontale, la pression est réduite. Les
variations de pression atmosphérique entendues comme du son peuvent survenir rapidement ; pour
des sons musicaux, ce graphique peut ne durer qu’un millième de seconde (1 ms).
Une méthode simple pour décrire les formes d’ondes sonores est de les dessiner sous forme de gra-
phiques de pression d’air par rapport au temps (figure 1.8). Ceci est appelé représentation dans le
domaine temporel. Lorsque la courbe est proche du bas du graphique, la pression est faible, et lors-
que la courbe est proche du haut, la pression d’air a augmenté. L’amplitude de la forme d’onde est la
quantité de changement de pression d’air ; nous pouvons mesurer l’amplitude comme la distance
verticale entre le point de pression zéro et le point le plus haut (ou le plus bas) d’un segment de forme
d’onde donné.
Un instrument acoustique crée du son en émettant des vibrations qui changent la pression de l’air
autour de l’instrument. Un haut-parleur crée du son en se déplaçant d’avant en arrière selon les
changements de tension dans un signal électronique. Lorsque le haut-parleur « entre » par rapport
à sa position de repos, la pression d’air diminue. Lorsque le haut-parleur « sort », la pression d’air
près du haut-parleur augmente. Pour créer un son audible, ces différentes vibrations doivent sub-
venir à une fréquence comprise entre 20 et 20 000 Hz.
✦ Représentation dans le domaine fréquentiel
Mise à part la fréquence fondamentale, il peut y avoir de nombreuses fréquences présentes dans
une forme d’onde. Une représentation dans le domaine fréquentiel ou représentation du spectre
montre le contenu fréquentiel d’un son. Les composants fréquentiels individuels du spectre sont
appelés harmoniques ou partiels. Les fréquences harmoniques sont des multiples entiers de la fré-
quence fondamentale. Si l’on considère une fondamentale ou premier harmonique de 440 Hz, son
second harmonique sera 880 Hz, son troisième 1 320 Hz, et ainsi de suite. De façon plus générale,
n’importe quel composant harmonique peut être appelé partiel, qu’il soit ou non multiple entier de
la fondamentale. En fait, de nombreux sons n’ont pas de fréquence fondamentale particulière.
(a) 100%
Amp.
-100%
0° 360°
Phase
(b) 100%
Amp.
0%
1 10 20 30 40 50 60
Harmoniques
(c) 100%
Amp.
-100%
0° 360°
Phase
(d)
Amp.
1 10 20 30 40 50 60
Harmoniques
Figure 1.9 – Représentations dans les domaines temporels et fréquentiels de quatre signaux.
(a) Vue dans le domaine temporel d’un cycle de sinusoïde. (b) Spectre du composant unique de
fréquence d’une sinusoïde. (c) Vue dans le domaine temporel d’une forme d’onde en dent-de-scie.
(d) Spectre montrant le contenu fréquentiel d’une dent-de-scie décroissant de façon exponentielle.
Figure 1.9 – Suite

(e) Vue dans le domaine temporel d’un cycle de forme d’onde complexe. Bien que la forme d’onde
ait un aspect complexe, lorsqu’elle est répétée elle sonne de façon simple — comme un son d’orgue
à anche. (f) Le spectre de la forme d’onde (e) montre qu’il est dominé par quelques fréquences.
(g) Forme d’onde de bruit aléatoire. (h) Si la forme d’onde change constamment (chaque cycle est
différent du cycle précédent), nous entendons du bruit. Le contenu du bruit est très complexe. Dans
ce cas, l’analyse extrait 252 fréquences. Cet instantané ne montre pas comment leurs amplitudes
varient dans le temps.
Le contenu fréquentiel d’une forme d’onde peut être représenté de nombreuses façons. Une repré-
sentation standard consiste à relever les partiels sous forme de lignes sur un axe x. La hauteur de
chaque ligne indique la force (ou amplitude) de chaque composant fréquentiel. Le signal le plus
pur est une forme d’onde dite sinusoïde, car elle peut être calculée grâce à la formule trigonométrique
du sinus d’un angle. Une onde sinusoïdale pure représente juste un composant fréquentiel ou une
ligne dans le spectre. La figure 1.9 montre les représentations dans le domaine temporel et dans le
domaine fréquentiel de quelques formes d’ondes. Remarquez que les relevés spectraux sont nommés
« Harmoniques » sur leur axe horizontal, puisque l’algorithme d’analyse suppose que l’entrée est
exactement une période de la fondamentale d’une forme d’onde périodique. Dans le cas du bruit à
la figure 1.9g, cette supposition n’est pas valide, donc nous renommons les partiels « Composants
fréquentiels ».
1.2.2 Phase
Le point de départ d’une forme d’onde périodique sur l’axe d’amplitude ou axe des y est sa phase
initiale. Par exemple, une sinusoïde typique commence à l’amplitude 0 et achève son cycle à 0.
Si l’on déplace le point de départ de 2¼ sur l’axe horizontal (ou 90 degrés), la sinusoïde commence
et s’achève à 1 sur l’axe d’amplitude. Par convention, on nomme cette forme d’onde cosinus. En effet,
un cosinus est l’équivalent d’un sinus déphasé de 90 degrés (figure 1.10).
Cosinus
Sinus
Amp.
-1
Temps
Figure 1.10 – Une sinusoïde est équivalente à une forme d’onde cosinus
retardée ou légèrement déphasée.
Lorsque deux signaux commencent au même point, on dit qu’ils sont en phase ou en alignement de
phase. Au contraire, lorsqu’un signal est légèrement retardé par rapport à un autre, on dit qu’ils
sont déphasés. Lorsqu’un signal A est exactement l’opposé d’un autre signal B (c’est-à-dire déphasé
de 180 degrés, pour qu’à chaque valeur positive de A, il existe une valeur correspondante négative
pour le signal B), nous disons que B est en polarité inversée par rapport à A. Nous pourrions égale-
ment dire que B est une copie en inversion de phase de A. La figure 1.11 montre l’effet de l’addition de
deux signaux en inversion de phase.
✦ Importance de la phase
On dit souvent que la phase est insignifiante à l’oreille humaine, parce que deux signaux totalement
identiques à l’exception de leur phase sont difficiles à distinguer. En fait, les recherches montrent
que des différences de 180 degrés en phase ou polarité absolue peuvent être distinguées par certaines
personnes en condition de laboratoire (Greiner et Melton, 1991). Mais même en dehors de ce cas
(a)
+
(b)
⇓
(c)
Figure 1.11 – Les effets de l’inversion de phase.

(b) est la copie en inversion de phase de (a).
Si les deux formes d’onde sont additionnées, leur résultat est nul (c).
particulier, la phase est un concept important pour diverses raisons. Tous les filtres utilisent le
déphasage pour altérer les signaux. Un filtre déphase un signal (en retardant son entrée d’un temps
très court) puis combine la version déphasée avec le signal originel pour créer des effets d’annulation
de phase en fonction de la fréquence qui altèrent le spectre de l’original. Par « en fonction de la
fréquence », nous voulons dire que tous les composants fréquentiels ne sont pas affectés de façon
égale. Lorsque le déphasage change dans le temps, les bandes fréquentielles affectées changent
également, créant des effets sonores de balayage appelés phasing ou flanger (voir le chapitre 6).
La phase est également importante dans les systèmes qui resynthétisent le son en se basant sur
l’analyse d’un son existant. En particulier, ces systèmes ont besoin de connaître la phase initiale de
chaque composant fréquentiel afin de replacer les différents composants dans le bon ordre (voir le
chapitre 11). Les données de phase sont particulièrement critiques lors de restitution de sons tran-
sitoires courts et changeants rapidement, tels que l’attaque de sons instrumentaux.
Finalement, une grande attention a été portée depuis quelques années sur les composants audio
qui déphasent leur signal d’entrée au minimum, car les déphasages dépendant de la fréquence dis-
tordent les signaux musicaux audibles et interfèrent avec l’image des haut-parleurs. L’image est la
capacité d’un ensemble de haut-parleurs à créer une « image audio » stable, où chaque source est bien
localisée à une place précise. Un déphasage involontaire est appelé distorsion de phase. Pour prendre
une analogie avec l’image, un signal en distorsion de phase est « flou ».
Maintenant que nous avons présenté les propriétés de base des signaux audio, nous allons comparer
leurs deux représentations : analogique et numérique.
1.3 Représentations analogiques du son

La quantité électrique appelée tension, tout comme la pression de l’air, varie dans le fil métallique
connectant un amplificateur avec des haut-parleurs selon les ondes sonores. Inutile de définir ici
ce qu’est la tension. Pour les besoins de ce chapitre, nous pouvons simplement considérer qu’il est
possible de modifier les propriétés électriques du fil métallique de façon à ce qu’elles suivent étroi-
tement les changements de pression d’air.
Une des caractéristiques importantes des quantités variant dans le temps dont nous venons de parler
(pression d’air et tension) est que chacune d’entre elles est plus ou moins analogue à l’autre. Un
graphique des variations de pression d’air captées par un microphone a un aspect très similaire à
celui d’un graphique des variations de la position du haut-parleur lorsque le son est lu. Le terme
« analogue » sert à se souvenir de la relation qui lie ces quantités.
La figure 1.12 montre une chaîne audioanalogique. La courbe d’un signal audio peut être inscrite
le long des sillons d’un disque phonographique. Les parois des sillons contiennent une représentation
temporelle continue du son stocké sur le disque. Lorsque l’aiguille glisse à travers le sillon, elle se
Platine
tourne-disque Sillons microscopiques
d’un enregistrement
phonographique
Temps
Signal électronique
faible
Préamplificateur
Signal légèrement
amplifié
Amplificateur
0
Signal très amplifié
Variation de pression d’air

(son)
Haut-parleur
Figure 1.12 – La chaîne audioanalogique, commençant avec une forme d’onde analogique
transformée à partir des sillons d’un disque en tension, qui est ensuite envoyée dans un préampli-
ficateur, un amplificateur, un haut-parleur, puis projetée dans l’air.
déplace latéralement de long en large. Ce mouvement latéral est ensuite transformé en tension, qui
est amplifiée et atteint finalement les haut-parleurs.
La reproduction analogique du son a atteint un très haut niveau ces dernières années, mais il existe
malgré tout des limites fondamentales associées à l’enregistrement analogique. Lorsque vous copiez
un enregistrement d’un enregistreur analogique à un autre, la copie n’est jamais aussi bonne que
l’original. Ceci en raison du fait que le procédé d’enregistrement analogique ajoute toujours du
bruit. Pour un enregistrement de première génération ou enregistrement original, ce bruit peut être
admissible. Mais si l’on continue avec trois ou quatre générations, une part de plus en plus impor-
tante de l’enregistrement originel est transformée en bruit. Au contraire, la technologie numérique
peut créer n’importe quel nombre de générations de clones parfaits (sans bruit) de l’enregistrement
originel, comme nous le montrerons plus tard.
Par définition, la génération ou la reproduction d’un son numérique implique la conversion d’une
chaîne de nombres en l’un des changements variant dans le temps dont nous venons de parler. Si ces
nombres peuvent être transformés en tension, alors les tensions peuvent être amplifiées et conduites
à un haut-parleur pour reproduire le son.
1.4 Représentations numériques du son

Cette partie présente les concepts de base associés aux signaux numériques, y compris la conversion
de signaux en nombres binaires, la comparaison des données audio et des données MIDI, l’échan-
tillonnage, le repliement, la quantification et le dither.
1.4.1 Conversion analogique-numérique

Examinons le procédé d’enregistrement et de lecture numérique d’un son. Au lieu des signaux
continus dans le temps du monde analogique, un enregistrement numérique traite des signaux
discrets dans le temps. La figure 1.13 présente le diagramme de l’enregistrement et de la lecture
numérique. Sur cette figure, le microphone transforme les variations de pression d’air en tensions
électriques, qui passent à travers un fil métallique vers le convertisseur analogique-numérique,
généralement abrégé en CAN. Cet appareil convertit les tensions en chaînes de nombres binaires à
chaque période de l’horloge d’échantillonnage. Les nombres binaires sont stockés sur un support
d’enregistrement numérique — une sorte de mémoire.
1.4.2 Nombres binaires

Contrairement aux nombres décimaux (ou base dix), qui utilisent les dix chiffres 0 à 9, les nombres
binaires (ou base deux) n’utilisent que les deux chiffres 0 et 1. Le terme bit est une abréviation de
binary digit (chiffre binaire). Le tableau 1.1 liste des nombres binaires et leurs équivalents en décimal.
Il existe plusieurs façons d’indiquer qu’un nombre est négatif en binaire.
Tableau 1.1 – Nombres binaires et leurs équivalents décimaux.
Binaire Décimal Binaire Décimal Binaire Décimal
0 0 11 3 10000 16
1 1 100 4 100000 32
10 2 1000 8 111111111111111 65535

1
Variations
de pression d’air
Microphone
Tension
Préamplificateur
Tension
Filtre
antirepliement
passe-bas
Horloge
d’échantillonnage
Tension
φ
CAN
Nombres
Enregistrement binaires
Stockage Mémoire
Nombres
binaires
Lecture
φ CNA
Tension
Horloge
d’échantillonnage
Filtre
de lissage
passe-bas
Tension
Amplificateur
Tension
Haut-parleur
Variations
de pression d’air
Figure 1.13 – Vue globale de l’enregistrement et de la lecture numérique.
Dans de nombreux ordinateurs, le bit le plus à gauche est interprété comme indicateur de signe, le
1 indiquant un nombre positif et le 0 un nombre négatif. Les nombres réels ou nombres à virgule
flottante peuvent être représentés en binaire.
La façon dont un bit est codé sur un support d’enregistrement dépend des propriétés de ce support.
Sur un magnétophone numérique par exemple, 1 peut être représenté par une charge magnétique
positive, tandis que 0 sera indiqué par une absence de charge. Ceci est différent d’un enregistrement
analogique, dans lequel le signal est représenté par une charge variant constamment. Sur un support
optique, les données binaires peuvent être codées sous forme de variations de la réflectivité d’un
endroit particulier.
1.4.3 Conversion numérique-analogique
La figure 1.14 montre le résultat de la conversion d’un signal audio (a) en signal numérique (b).
Lorsque l’auditeur veut réécouter le son, les nombres sont lus les uns après les autres dans la mémoire
(a)
Un cycle
(b)
(c)
Temps
Figure 1.14 – Représentations analogiques et numériques d’un signal.

(a) Sinusoïde analogique. La barre horizontale sous l’onde indique une période ou cycle. (b) Version
échantillonnée de la sinusoïde (a), telle qu’elle apparaît à la sortie d’un CAN. Chaque barre verti-
cale représente un échantillon. Chaque échantillon est stocké en mémoire sous forme de nombre
qui représente la hauteur de la barre verticale. Une période est représentée par quinze échantillons.
(c) Reconstruction de la version échantillonnée de la forme d’onde (b). Les sommets des échantil-
lons sont connectés par le filtre passe-bas lissant pour former la forme d’onde qui atteint finalement
l’oreille de l’auditeur.
numérique et passent à travers un convertisseur numérique-analogique, abrégé en CNA. Cet appareil,

contrôlé par une horloge d’échantillonnage, change les suites de nombres en série de niveaux de
tension. À partir de là, le procédé est le même que celui de la figure 1.13 ; c’est-à-dire que les séries
de niveaux de tension passent par un filtre passe-bas pour devenir une forme d’onde continue
dans le temps (figure 1.14c), amplifiée, puis conduite vers le haut-parleur, dont les vibrations font
changer la pression de l’air. Voilà, le signal sonne de nouveau.
En résumé, nous pouvons changer un son dans l’air en une chaîne de nombres binaires qui peuvent
être stockés numériquement. Le composant central de cette conversion est le CAN. Lorsque nous
souhaitons réécouter le son, un CNA peut de nouveau transformer ces nombres en son.
1.4.4 Comparaison de l’enregistrement audionumérique
et de l’enregistrement MIDI
Ce point final devrait lever toute confusion : la chaîne de nombres générés par le CAN n’a rien à voir
avec les données MIDI. MIDI est la spécification Musical Instrument Digital Interface « Interface
Numérique pour Instruments de Musique », un protocole largement utilisé pour le contrôle de sys-
tèmes de musique numériques ; voir le chapitre 14. Les enregistreurs audionumériques et les séquen-
ceurs MIDI sont tous les deux numériques et peuvent enregistrer en « multipistes », mais ils diffèrent
dans la quantité et le type d’informations qu’ils manipulent.
Lorsqu’un séquenceur MIDI enregistre une interprétation humaine sur un clavier, seule une relative-
ment petite quantité d’information de contrôle est en fait transmise du clavier jusqu’au séquenceur. Le
MIDI ne transmet pas la forme d’onde échantillonnée du son. Pour chaque note, le séquenceur
n’enregistre que le temps de début et le temps de fin, sa hauteur, et son amplitude au commencement
de la note. Si cette information est retransmise au synthétiseur sur lequel elle était jouée à l’origine,
alors celui-ci rejouera le son comme précédemment, en analogie avec un rouleau de piano méca-
nique. Si le musicien joue quatre noires à un tempo de 60 sur un synthétiseur, seulement seize infor-
mations définissent ce son de quatre secondes (quatre débuts, fins, hauteurs et amplitudes).
En comparaison, si nous enregistrons le même son avec un microphone connecté à un enregistreur
audionumérique configuré à une fréquence d’échantillonnage de 44,1 kHz, 352 800 informations
(sous la forme d’échantillons audio) sont enregistrées pour le même son (44 100 ∞ 2 canaux
∞ 4 secondes). Les exigences de stockage de l’enregistrement audionumérique sont énormes. En
utilisant des échantillons 16 bits, il faut plus de 700 000 octets pour stocker 4 secondes de son.
C’est 44 100 fois plus de données que ce qui est stocké en MIDI.
Grâce à la faible quantité de données qu’il manipule, l’enregistrement de séquences MIDI a l’avantage
d’être bon marché. Par exemple, un programme d’enregistrement de séquences MIDI de 48 pistes
tournant sur un petit ordinateur peut coûter moins de 100 € et manipule 4 000 octets par seconde.
En comparaison, un enregistreur numérique à bande de 48 pistes coûte des dizaines de milliers
d’euros et manipule plus de 4,6 Mo d’information audio par seconde, plus de mille fois le taux de
données du MIDI.
L’avantage de l’enregistrement audionumérique est qu’il peut capturer n’importe quel son pouvant
être enregistré par un microphone, y compris la voix humaine. L’enregistrement de séquences
MIDI est limité aux signaux de contrôle de départ, de fin, de hauteur et d’amplitude d’une série
d’événements de notes. Si vous branchez le câble MIDI du séquenceur dans un synthétiseur qui n’est
pas celui sur lequel la séquence a été jouée à l’origine, le résultat sonore peut changer radicalement.
1.4.5 Échantillonnage
Le signal numérique montré à la figure 1.14b est de façon significative différent du signal analogique
montré à la figure 1.14a. Tout d’abord, le signal numérique n’est défini qu’à certains points dans le
temps. Ceci en raison du fait que le signal a été échantillonné à ces moments. Chaque barre verticale
de la figure 1.14b représente un échantillon du signal originel. Les échantillons sont stockés sous
forme de nombres binaires, et la barre de la figure 1.14b correspond à la grandeur du nombre.
Le nombre de bits utilisé pour représenter chaque échantillon détermine à la fois le niveau de bruit
et la gamme dynamique qui peuvent être traités par le système. Un disque compact utilise un nombre
de 16 bits pour représenter un échantillon, mais l’on peut également utiliser plus ou moins de bits.
Nous reviendrons sur ce point dans la partie sur la « quantification ».
Le taux auquel les échantillons sont pris — la fréquence d’échantillonnage — est exprimé en
échantillons par seconde. C’est une spécification importante des systèmes audionumériques. Elle
est souvent appelée taux d’échantillonnage et est exprimée en Hertz. Mille Hertz est abrégé en kHz,
et nous disons donc : « Le taux d’échantillonnage d’un disque compact est de 44,1 kHz », où « k »
est tiré du système métrique dans lequel « kilo » signifie mille.
✦ Reconstruction du signal analogique
Les fréquences d’échantillonnage autour de 50 kHz sont fréquentes dans les systèmes audionumé-
riques, bien que l’on puisse également trouver des fréquences plus basses ou plus élevées. De toute
façon, 50 000 nombres par seconde sont un débit rapide de nombres ; cela signifie qu’il existe plus
de 6 000 000 échantillons pour une minute de son en stéréophonie.
Le signal numérique de la figure 1.13b ne montre pas les valeurs entre les barres. La durée d’une
barre est extrêmement courte, pouvant durer seulement 0,00002 seconde (un deux cent millième
de seconde). Ceci signifie que si le signal originel change « entre » les barres, ce changement n’est
pas reflété dans la hauteur de la barre, tout au moins jusqu’à l’échantillon suivant. En termes tech-
niques, nous disons que le signal de la figure 1.13b est défini à des temps discrets, chacun de ces
temps étant représenté par un échantillon (par une barre verticale).
Une partie de la magie des sons numérisés vient du fait que si le signal est limité en fréquences,
le CNA et le matériel associé peuvent exactement reconstruire le signal originel à partir de ces
échantillons ! Ceci signifie que, sous certaines conditions, la partie manquante du signal « entre les
échantillons » peut être restaurée. Ceci arrive lorsque les nombres sont passés par le CNA et par un
filtre de lissage. Le filtre de lissage « connecte les points » entre les échantillons discrets (voir la
ligne de points à la figure 1.13c). Ainsi, un signal envoyé au haut-parleur a l’apparence et sonne
comme le signal originel.
1.4.6 Repliement
Le procédé d’échantillonnage n’est pas aussi simple qu’il peut en avoir l’air. Tout comme un ampli-
ficateur ou un haut-parleur peuvent introduire de la distorsion, l’échantillonnage peut jouer des tours
au son. La figure 1.15 en donne un exemple. En utilisant la forme d’onde montrée à la figure 1.15a,
supposez qu’un échantillon est pris à chaque point temporel montré par les barres verticales de la
figure 1.15b (chaque barre verticale crée un échantillon). Comme avant, les échantillons résultants
de la figure 1.15c sont stockés sous forme de nombres dans une mémoire numérique. Mais lorsque
l’on essaie de reconstituer la forme d’onde originelle, comme dans la figure 1.15d, le résultat est
complètement différent.
Afin de mieux comprendre les problèmes qui peuvent subvenir avec l’échantillonnage, nous allons
examiner ce qui arrive lorsque nous changeons la longueur d’onde (la longueur d’un cycle) du signal
(a)
(b)
(c)
(d)
Temps
Figure 1.15 – Problèmes de l’échantillonnage.

(a) Forme d’onde à enregistrer. (b) Impulsions d’échantillonnage ; dès qu’une impulsion d’échan-
tillonnage apparaît, un échantillon est pris. (c) La forme d’onde échantillonnée et stockée dans la
mémoire. (d) Lorsque la forme d’onde (c) est envoyée au CNA, le signal de sortie aura l’apparence
montrée ici (d’après Mathews, 1969).
originel sans changer l’espace de temps entre les échantillons. La figure 1.16a montre un signal avec
un cycle de huit échantillons de longueur, la figure 1.16d avec un cycle de deux échantillons de lon-
gueur, et la figure 1.16 g une forme d’onde avec onze cycles pour dix échantillons.
De nouveau, lorsque l’ensemble des échantillons est repassé par le CNA et par le matériel associé,
le signal est reconstruit (figure 1.16c, f et i) et envoyé aux haut-parleurs. Le signal montré par la
ligne pointillée à la figure 1.16c est relativement bien reconstruit. Les résultats de l’échantillonnage
à la figure 1.16f sont potentiellement moins satisfaisants ; une reconstruction possible est montrée
ici. Mais à la figure 1.16i, la forme d’onde resynthétisée est complètement différente de l’original,
ou très exactement la longueur d’onde (longueur du cycle) est différente. Physiquement, ceci signifie
que le signal reconstitué sonne à une hauteur différente de l’original. Ce genre de distorsion est appelé
repliement.
Les fréquences auxquelles surviennent ces repliements peuvent être prédites. Imaginons, pour
utiliser des nombres simples, que nous prenions 1 000 échantillons par seconde. Le signal à la
figure 1.16a a une fréquence de 125 cycles par seconde (puisqu’il y a huit échantillons par cycle et que
1 000/8 = 125). À la figure 1.16d, le signal a une fréquence de 500 cycles par seconde (1 000/2 = 500).
La fréquence du signal d’entrée à la figure 1.16g est de 1 100 cycles par seconde. Mais la fréquence
du signal de sortie est différente. À la figure 1.16i, vous pouvez compter dix échantillons par cycle
de forme d’onde de sortie. En fait, celle-ci apparaît à une fréquence de 1 000/10 = 100 cycles par
seconde. Ainsi, la fréquence du signal originel de la figure 1.16g a été modifiée par un procédé de
conversion du taux d’échantillonnage. Ceci représente un changement inacceptable du signal
musical, et doit être évité le plus possible.
(a)
(b)
(c)
(d)
(e)
(f)
Un cycle d'entrée
(g)
(h)
Un cycle de sortie
(i)
Figure 1.16 – Effets du repliement.

Dans la partie inférieure de chaque graphique, les barres noires représentent les échantillons, et
la ligne pointillée le signal reconstruit par le CNA. Chaque cycle de la sinusoïde (a) est échantillonné
huit fois dans (b). En utilisant la même fréquence d’échantillonnage, chaque cycle de (d) n’est
échantillonné que deux fois dans (e). Si les impulsions d’échantillonnage dans (e) étaient dépla-
cées vers la droite, la forme d’onde de sortie dans (f) pourrait être déphasée, bien que la fré-
quence de sortie soit la même. Dans (h), il y a dix échantillons pour les onze cycles de (g). Lorsque
le CNA essaie de reconstruire le signal, comme cela est montré dans (i), nous obtenons une sinusoïde
dont la fréquence a été complètement modifiée par l’effet de repliement. Remarquez les deux flèches
au-dessus de (g) et de (i), montrant la durée pour les formes d’onde d’entrée et de sortie.
1.4.7 Le théorème de l’échantillonnage

Nous pouvons dire de façon générale, en partant de la figure 1.16, que s’il y a au moins deux échan-
tillons par période de la forme d’onde originelle, nous savons que la forme d’onde resynthétisée
aura la même fréquence. Mais lorsqu’il y a moins de deux échantillons par période, la fréquence
(et peut-être le timbre) du signal originel sera perdue. Dans ce cas, la nouvelle fréquence peut être
trouvée par la formule suivante. Si la fréquence originelle est plus grande que la moitié de la fré-
quence d’échantillonnage, alors :
nouvelle fréquence = fréquence d’échantillonage – fréquence originelle
Cette formule n’est pas complète mathématiquement, mais est suffisante pour notre propos. Elle
signifie ceci : imaginons que nous ayons choisi une fréquence d’échantillonnage fixe. Nous com-
mençons avec un signal basse fréquence que nous échantillonnons, puis nous resynthétisons le signal.
Si nous augmentons la hauteur du signal d’entrée (tout en gardant la fréquence d’échantillonnage
constante), la hauteur du signal resynthétisé est la même que le signal d’entrée jusqu’à ce que nous
atteignions la moitié de la fréquence d’échantillonnage. Si nous augmentons encore la hauteur du
signal d’entrée, la hauteur du signal de sortie redescend dans les plus basses fréquences ! Lorsque
le signal d’entrée atteint la fréquence d’échantillonnage, le procédé entier se répète.
Pour donner un exemple concret, supposons que nous introduisions un signal analogique à 26 kHz
dans un convertisseur analogique-numérique travaillant à 50 kHz. Le convertisseur le lit comme
un son à 24 kHz puisque 50 – 26 = 24 kHz.
Le théorème de l’échantillonnage définit la relation entre le taux d’échantillonnage et la largeur de
bande du signal transmis. Il fut énoncé par Harold Nyquist (1928) comme suit :
Pour toute déformation donnée du signal reçu, le domaine de fréquence transmis doit être augmenté
en proportion directe avec la vitesse du signal… La conclusion est que la largeur de fréquence est
directement proportionnelle à la vitesse.
Le point essentiel du théorème de l’échantillonnage peut être établi précisément comme ceci :
Afin d’être capable de reconstruire un signal, la fréquence d’échantillonnage doit être le double de
la fréquence du signal échantillonné.
En raison de sa contribution à la théorie de l’échantillonnage, la plus haute fréquence qui puisse
être produite dans un système audionumérique (c’est-à-dire la moitié du taux d’échantillonnage)
est appelée la fréquence de Nyquist. Dans les applications musicales, la fréquence de Nyquist est en
général dans le domaine supérieur à celui de l’écoute humaine, au-dessus de 20 kHz. Ainsi, la fré-
quence d’échantillonnage peut être spécifiée comme étant au moins le double, c’est-à-dire au-dessus
de 40 kHz.
Dans certains systèmes, la fréquence d’échantillonnage est établie à plus de deux fois la plus haute
fréquence, car les convertisseurs et le matériel ne peuvent pas parfaitement reconstruire un signal
proche de la moitié de la fréquence d’échantillonnage (une reconstruction idéalisée d’un tel cas est
montrée à la figure 1.16f).
✦ Fréquence d’échantillonnage idéale
La question de savoir quelle fréquence d’échantillonnage est idéale pour l’enregistrement et la repro-
duction musicale de haute qualité est un débat encore en cours. L’une des raisons est que la théorie
mathématique et la pratique des ingénieurs rentrent souvent en conflit : les horloges des convertis-
seurs ne sont pas stables, leurs tensions ne sont pas linéaires, les filtres introduisent de la distorsion
de phase, et ainsi de suite. Voir les parties sur la correction de phase et le suréchantillonnage.
Une autre des raisons est que beaucoup de personnes entendent des informations (on emploie alors
le terme « ambiance ») dans la région située autour de la « limite » humaine d’écoute de 20 kHz
(Neve, 1992). En fait, Rudolph Koenig, dont les mesures précises ont établi les normes internationales
d’acoustique, a observé qu’à l’âge de 41 ans sa propre audition s’étendait jusqu’à 23 kHz (Koenig,
1899). Il peut sembler étrange qu’un nouveau disque compact numérique ait moins de largeur de
bande qu’un disque fabriqué dans les années 1960, ou bien qu’un nouvel enregistreur audio-
numérique ait moins de largeur de bande qu’un enregistreur analogique à bandes vieux de vingt ans.
De nombreux systèmes analogiques peuvent reproduire des fréquences situées au-delà de 25 kHz.
Des expériences scientifiques confirment les effets du son au-dessus de 22 kHz, d’un point de vue
physiologique aussi bien que subjectif (Oohashi et coll., 1991 ; Oohashi et coll. ,1993).
Dans les applications de synthèse sonore, le manque de « hauteur libre » fréquentielle dans les taux
d’échantillonnage standards de 44,1 et de 48 kHz cause de sérieux problèmes. Cela oblige les algo-
rithmes de synthèse à ne générer que des sinusoïdes au-dessus de 11,025 kHz (pour un taux de
44,1 kHz) ou 12 kHz (pour un taux de 48 kHz), ou bien il se produit un repliement. Ceci en raison
du fait que tout composant de haute fréquence ayant des partiels au-delà de la fondamentale possède
une fréquence dépassant le taux de Nyquist. Le troisième harmonique d’un son de 12,5 kHz est par
exemple égal à 37,5 kHz, et, dans un système fonctionnant à un taux d’échantillonnage de 44,1 kHz,
il se repliera en un signal audible de 6 600 Hz. Dans les applications d’échantillonnage et de dépla-
cement des hauteurs, le manque de hauteur libre nécessite un filtrage passe-bas des échantillons
avant que ceux-ci ne soient déplacés vers le haut. Le problème que ces limites imposent est gênant.
Il est clair que des enregistrements à un taux d’échantillonnage élevé sont préférables d’un point
de vue artistique, bien qu’ils posent des problèmes pratiques de stockage et la nécessité d’avoir des
systèmes de reproduction de haute qualité afin que cet effort en vaille la peine.
1.4.8 Filtres antirepliement et filtres de lissage

Afin de s’assurer qu’un système audionumérique marche convenablement, deux filtres importants
sont incorporés. Un filtre est placé avant le CAN, pour être sûr que rien (ou le moins possible) du
signal d’entrée ne survienne à une fréquence supérieure à la moitié de la fréquence d’échantillon-
nage. Tant que ce filtre fait bien son travail, le repliement ne doit pas survenir durant l’enregistrement.
De façon logique, un tel filtre est appelé filtre antirepliement.
L’autre filtre est placé après le CNA. Sa fonction principale est de transformer les échantillons stockés
numériquement en une représentation lisse et continue du signal. Ce filtre passe-bas de lissage crée la
ligne pointée de la figure 1.14c en reliant les points noirs de cette figure.
1.4.9 Correction de phase

La venue de la correction de phase a suivi de près l’introduction de la première génération d’enre-
gistreurs/lecteurs audionumériques. De nombreuses personnes se plaignaient du son « dur » des
enregistrements numériques, un problème qui venait des filtres antirepliement en mur de brique
(Woszczyk et Toole, 1983 ; Preis et Bloom, 1983). On appelle ceux-ci des filtres en mur de brique en
raison de leur courbe raide de rejet de fréquences (en général plus de 90 dB/octave à la fréquence de
Nyquist). Ces filtres raides peuvent causer des retards temporels significatifs (distorsion de phase)
dans les fréquences médiums et hautes (figure 1.17). Un plus petit retard en fonction de la fréquence
est également créé par le filtre de lissage à la sortie du CNA.
Aucun filtre analogique ne peut être à la fois extrêmement raide et linéaire du point de vue de la
phase autour du point de coupure. Linéaire du point de vue de la phase signifie que le filtre introduit
très peu, voire pas du tout, de retard en fonction de la fréquence. En conséquence, l’effet d’un filtre
(a)
(b)
Figure 1.17 – Distorsion de phase causée par un filtre antirepliement.

(a) Onde carrée de 2,5 kHz distordue par un filtre antirepliement en mur de briques.
(b) Onde carrée avec phase corrigée.
raide se « répand » dans le domaine audio. Pour des enregistrements sur disques compacts à un taux
d’échantillonnage de 44,1 kHz, la fréquence de Nyquist est de 22,05 kHz, et un filtre antirepliement
raide peut introduire de la distorsion de phase qui s’étend bien en dessous de 10 kHz (Meyer, 1984).
Ce type de distorsion de phase donne aux hautes fréquences un son dur et peu naturel.
Il existe différentes façons de s’attaquer à ce problème. La plus simple est de réduire la propriété
d’antirepliement du filtre pour obtenir une distorsion de phase plus faible. Un filtre antirepliement
moins raide (de 40 à 60 dB/octave, par exemple) introduit moins de distorsion de phase, mais avec
un risque de repliement des sons de très hautes fréquences. Une autre solution est d’appliquer un fil-
tre de correction temporelle avant le CAN pour fausser les relations de phase du signal d’entrée afin
de préserver les relations de phase d’origine dans l’enregistrement (Blesser, 1984 ; Greenspun, 1984 ;
Meyer, 1984). Aujourd’hui, quoi qu’il en soit, les solutions de haute technologie utilisées pour obtenir
une conversion de phase de qualité acceptable sont les techniques de suréchantillonnage, aussi bien
en entrée qu’en sortie du système. Nous parlerons plus tard du suréchantillonnage.
1.4.10 Quantification
L’échantillonnage à intervalles de temps discrets, dont nous avons parlé dans les parties précédentes,
constitue l’une des différences majeures entre les signaux analogiques et les signaux numériques.
Une autre différence est la quantification, ou résolution d’amplitude discrète. Les valeurs du signal
échantillonné ne peuvent pas prendre n’importe quelle valeur. Ceci est dû au fait que les nombres
numériques ne peuvent être représentés qu’à l’intérieur d’un certain domaine, et avec une certaine
exactitude, qui varie selon le matériel utilisé. Les implications de ceci sont un facteur important de
la qualité audionumérique.
✦ Bruit de quantification
Les échantillons sont en général représentés sous forme de nombres entiers. Si le signal d’entrée
a une tension correspondant à une valeur entre 53 et 54, par exemple, alors le convertisseur doit
l’arrondir et lui assigner une valeur de 53. En général, à chaque échantillon donné, la valeur de
l’échantillon diffère légèrement de la valeur du signal d’origine. Ce problème des signaux numériques
est connu sous le terme d’erreur de quantification ou bruit de quantification (Blesser, 1978 ; Maher,
1992 ; Lipshitz et coll., 1992 ; Pohlmann, 1989a).
La figure 1.18 montre les genres d’erreurs de quantification qui peuvent survenir. Quand le signal
d’entrée est quelque chose de compliqué comme une symphonie, et lorsque nous n’écoutons que les
erreurs, montrées en bas de la figure, cela sonne comme du bruit. Si les erreurs sont grandes, alors
on peut remarquer quelque chose de similaire au sifflement d’une bande analogique à la sortie du
système.
(a)
Forme d’onde
originelle
(b)
Valeurs
échantillonnées
(c)
Erreurs
Figure 1.18 – Effets de la quantification.

(a) Forme d’onde analogique. (b) Version échantillonnée de (a). On ne peut assigner à chaque
échantillon qu’un certain nombre de valeurs, qui est indiqué par les traits dessinés sur l’axe vertical
à gauche de la forme d’onde. Les différences entre chaque échantillon et le signal originel sont
montrées en (c), où la hauteur de chaque barre représente l’erreur de quantification.
Le bruit de quantification dépend de deux facteurs : le signal en lui-même, et l’exactitude avec

laquelle le signal est représenté sous forme numérique. Nous pouvons expliquer la sensibilité au
signal en notant que sur un enregistreur à bande analogique, la bande impose un léger halo de bruit
qui continue même sur les périodes de silence de la bande. Mais dans un système numérique, il ne
peut y avoir de bruit de quantification lorsque rien (ou le silence) n’est enregistré. En d’autres termes,
si le signal d’entrée est le silence, alors le signal est représenté par une série d’échantillons dont cha-
cun a une valeur égale à zéro. Les petites différences montrées à la figure 1.18c disparaissent pour
un tel signal, ce qui signifie que le bruit de quantification disparaît. Si, d’un autre côté, le signal
d’entrée est une sinusoïde pure, alors l’erreur de quantification n’est pas une fonction aléatoire, mais
un effet de troncature déterministe (Maher, 1992). Ce son grinçant, appelé bruit de granulation,
peut être entendu lorsque des sinusoïdes à très faible niveau se transforment progressivement en
silence. Lorsque le signal d’entrée est compliqué, la granulation devient aléatoirement du bruit blanc.
Le second facteur dans le bruit de quantification est l’exactitude de la représentation numérique.
Dans un système PCM qui représente chaque valeur d’échantillon par un nombre entier (un système
PCM linéaire), le bruit de quantification est directement lié au nombre de bits qui sont utilisés pour
représenter un échantillon. Cette spécification est la largeur d’échantillon ou niveau de quantification
(a) 1
Points d’échantillonnage
(b) 15
Points d’échantillonnage
Figure 1.19 – Comparaison de la finesse d’une quantification à 4 bits

et d’une quantification à 1 bit. La courbe arrondie est la forme d’onde à l’entrée. (a) La quantification
à 1 bit fournit deux niveaux de résolution d’amplitude, tandis qu’une quantification à 4 bits fournit
seize différents niveaux de résolution d’amplitude (b).
(a)
Amp.
Temps
(b)
Amp.
Temps
Figure 1.20 – Effet de la quantification sur le lissé d’une sinusoïde.

(a) « Sinusoïde » avec dix niveaux de quantification, correspondant à un son modérément fort émis
par un système 4 bits. (b) Sinusoïde plus lisse émise par un système 8 bits.
d’un système. La figure 1.19 montre les effets de différents niveaux de quantification, en comparant
la résolution d’une quantification en 1 bit et en 4 bits. Dans un système PCM linéaire, généralement,
plus il y a de bits utilisés pour représenter un échantillon, moins il y a de bruit de quantification.
La figure 1.20 montre l’amélioration spectaculaire de l’exactitude d’une onde sinusoïdale atteinte
en accroissant le nombre de bits de résolution.
La mesure de quantification est rendue confuse par les systèmes de suréchantillonnage, qui utilisent
un convertisseur très rapide à « 1 bit ». La quantification d’un système utilisant un convertisseur
« 1 bit » est en fait bien plus grande que 1 bit. Voir la partie sur le suréchantillonnage plus loin.
✦ Bruit de quantification à faible niveau et dither
Bien qu’un système numérique ne reproduise pas de bruit lorsqu’il n’y a pas de signal d’entrée, aux
niveaux très faibles (mais non nuls) du signal, le bruit de quantification prend une forme pernicieuse.
Un signal de très faible niveau ne provoque des variations que sur le bit le plus bas. Ces variations de
1 bit ont l’apparence d’une onde carrée, riche en composants harmoniques impairs. Si l’on consi-
dère la chute d’une note de piano qui s’atténue doucement, avec les partiels élevés s’estompant pro-
gressivement, au moment exact du niveau le plus bas, cette note change distinctement et devient une
onde carrée sonnant durement. Les harmoniques de l’onde carrée peuvent même s’étendre au-delà
de la fréquence de Nyquist, causant des repliements et introduisant de nouveaux composants fré-
quentiels qui n’étaient pas présents dans le signal d’origine. Ces artefacts peuvent être ignorés si le
signal est gardé à un faible niveau d’écoute, mais si celui-ci est augmenté, ou si on le remélange numé-
riquement à un niveau plus élevé, il devient évident. Dès lors, il est important que le signal soit
quantifié aussi exactement que possible en entrée.
Pour combattre les problèmes de quantification à faible niveau, certains systèmes d’enregistrement
numériques agissent d’une façon qui peut à première vue sembler étrange. Ils introduisent une
faible quantité de bruit analogique dans le signal, appelé dither, avant la conversion analogique-
numérique (Vanderkooy et Lipshitz, 1984 ; Lipshitz et coll., 1992). Ceci oblige le CAN à faire des
variations aléatoires autour du signal de faible niveau, ce qui atténue les effets pernicieux des har-
moniques d’onde carrée (figure 1.21). Avec le dither, l’erreur de quantification, qui est généralement
dépendante du signal, est transformée en un bruit de large bande qui n’est plus en corrélation avec
le signal. Pour des decrescendos comme la note de piano mentionnée plus haut, l’effet est celui d’un
« atterrissage en douceur », lorsque le son s’évanouit lentement dans un lit de bruit aléatoire de faible
niveau. La quantité de bruit ajoutée est d’habitude de l’ordre de 3 dB, mais l’oreille peut reconstruire
des notes de musique dont les amplitudes descendent en dessous de celle du signal dither. Voir
Blesser (1978, 1983), Rabiner et Gold (1975), Pohlmann (1989a), et Maher (1992) pour plus de
détails sur le bruit de quantification et sur les méthodes pour le minimiser. Lipshitz, Wannamaker,
et Vanderkooy (1992) présentent une analyse mathématique de la quantification et du dither. Voir
Hauser (1991) pour un exposé sur le dither dans les convertisseurs suréchantillonneurs.
Le dither peut ne pas être nécessaire avec un convertisseur 20 bits précis, puisque le bit faible repré-
sente un signal extrêmement doux, à plus de 108 dB en dessous du signal le plus fort. Mais lorsque
-10
-20
dB -30
-10
-20
-30
1 kHz 10 kHz
Fréquences
Figure 1.21 – Le dither réduit la distorsion harmonique d’un système numérique.

La partie supérieure de la figure montre le spectre d’une sinusoïde à 1 kHz avec une amplitude de
1/2 bit. Remarquez les harmoniques produits par l’action du CAN. La partie inférieure montre le
spectre du même signal après qu’un dither d’une amplitude d’environ 1 bit a été appliqué avant
conversion. Seule une petite quantité du troisième harmonique subsiste, accompagnée d’un bruit de
large bande. L’oreille peut reconstituer la sinusoïde au-dessous du seuil bruiteux.
par exemple on convertit des signaux d’un format 20 bits à un format 16 bits, le dither est nécessaire
pour préserver la fidélité du signal.
✦ Linéarité du convertisseur
Les convertisseurs peuvent provoquer un certain nombre de distorsions (Blesser, 1978 ; Mc Gill, 1985 ;
Talambiras, 1985). L’une d’elles vient du fait qu’un convertisseur n bits n’est pas nécessairement
exact vis-à-vis du domaine dynamique entier impliqué par ses entrées et sorties à n bit. Tandis que
la résolution d’un convertisseur n bits est une partie de 2n, la linéarité du convertisseur est le degré
auquel les signaux analogiques et numériques d’entrée et de sortie s’épousent en terme de magni-
tude. C’est-à-dire que certains convertisseurs utilisent 2n valeurs, mais ces valeurs ne sont pas
linéaires, ce qui cause de la distorsion. Dès lors, il est possible de voir par exemple un « convertisseur
18 bits », qui est en fait « 16 bits linéaire ». Un tel convertisseur peut être meilleur qu’un simple
convertisseur 16 bits non linéaire. Voir Pohlmann (1989a) pour un exposé de ces problèmes.
1.5 Gamme dynamique des systèmes audionumériques

Les spécifications des équipements numériques parlent en général de l’exactitude ou de la résolution
du système. Ceci peut être exprimé en utilisant le nombre de bits que le système utilise pour sauve-
garder chaque échantillon. Le nombre de bits par échantillon est important pour le calcul de la
gamme dynamique maximum d’un système audionumérique. En général, la gamme dynamique
est la différence entre les sons les plus forts et les sons les plus faibles que le système peut produire,
et elle est mesurée grâce à l’unité des décibels (dB).
1.5.1 Décibels
Le décibel est l’unité de mesure des relations entre les niveaux de tension, l’intensité, ou la puis-
sance, particulièrement dans les systèmes audio. Dans les mesures acoustiques, l’échelle des décibels
indique le rapport d’un niveau par comparaison à un niveau de référence, selon la relation :
nombres de décibels = 10 × log 10 ( niveau ⁄ niveau de référence )
où le niveau de référence est en général le seuil de l’audition (10–12 watts par mètre carré). La base
logarithmique des décibels signifie que si deux notes sonnent ensemble, et que chaque note a une
puissance de 60 dB, l’augmentation de niveau n’est que de 3 dB. Si l’on accroît l’intensité un million
de fois, le résultat est une augmentation de 60 dB. Voir le chapitre 16, Backus (1977) ou Pohlmann
(1989) pour plus de précisions sur les décibels.

La figure 1.22 montre l’échelle des décibels et des niveaux de puissance acoustique estimés par
rapport à 0 dB. Deux faits importants décrivent les besoins de la gamme dynamique d’un système
audionumérique :
1. L’étendue de l’audition humaine s’étend approximativement de 0 dB, à peu près le niveau où
le son le plus doux peut être entendu, jusqu’à environ 125 dB, qui équivalent au seuil de dou-
leur des sons tenus.
2. Une différence d’un peu moins de 1 dB entre les niveaux d’amplitude de deux sons corres-
pond à la plus petite différence d’amplitude qui peut être entendue.
Ces cas peuvent varier avec l’âge, l’entraînement, les hauteurs, et les individus.
Lors de l’enregistrement de musique, il est important de capturer la gamme dynamique la plus large
possible, si l’on veut reproduire toute la puissance d’expression de la musique. Dans un concert
d’orchestre, par exemple, la gamme dynamique peut varier du « silence », à un solo instrumental
Décibels Source acoustique
195 Fusée lunaire au décollage
170 Avion turboréacteur avec postcombustion
150
Avion à hélices
130 Concert de musique rock (son continu)

Orchestre de 75 instruments (pics momentanés)
120
Marteau piqueur
110
Piano (pics momentanés)
100
Automobile sur une autoroute
90 Cri (niveau moyen)
80
70 Conversation (niveau moyen)
60
50
40
Murmure
30
20 Studio d’enregistrement traité acoustiquement
10
0 Seuil de l’audition
Figure 1.22 – Niveaux de puissance acoustique pour différentes sources acoustiques.

Tous les cas se rapportent à 0 dB = 10–12 watts par mètre carré.
à 60 dB, jusqu’à une section tutti de l’orchestre dépassant les 110 dB. La gamme dynamique des
enregistreurs analogiques est limitée par la physique des procédés d’enregistrement analogique.
Elle se situe aux alentours de 80 dB pour un son de 1 kHz lors de l’utilisation d’enregistreurs à bandes
professionnels, sans ajout de réduction de bruit. La réduction de bruit peut accroître l’étendue au
prix de certaines distorsions. Voir le chapitre 3 pour plus d’informations sur la réduction de bruit.
Lorsqu’un enregistrement est produit pour la distribution sur un support qui ne possède pas une
grande gamme dynamique (une cassette analogique produite en grand nombre, par exemple), les
passages doux sont un peu remontés par l’ingénieur, et les passages forts sont légèrement atténués.
Si cela n’était pas fait, les passages les plus forts créeraient de la distorsion, et les passages les plus
doux seraient masqués par du sifflement et par d’autres bruits.
1.5.2 Gamme dynamique d’un système numérique

Pour calculer la gamme dynamique maximale d’un système audionumérique, nous pouvons utiliser
la simple formule suivante :
étendue dynamique maximum en décibels = nombre de bits × 6,11
Le nombre 6,11 est une approximation du maximum théorique (van de Plassche, 1983 ; Hauser,
1991). En pratique, 6 est plus proche de la réalité. Une dérivée de cette formule est donnée dans
Mathews (1969) et Blesser (1978).
Ainsi, si l’on enregistre du son avec un système 8 bits, la limite supérieure de la gamme dynamique
sera approximativement de 48 dB, ce qui est pire que la gamme dynamique des enregistreurs ana-
logiques. Mais si l’on enregistre par exemple en 16 bits, la gamme dynamique s’accroît jusqu’à un
maximum de 96 dB — une amélioration très nette. Un convertisseur 20 bits offre une gamme
dynamique potentielle de 120 dB, ce qui correspond environ à l’étendue de l’oreille humaine. Puisque
le bruit de quantification est directement lié au nombre de bits, même les passages les plus doux
qui n’utilisent pas la gamme dynamique entière du système devraient être plus nets.
Cet exposé suppose que l’on utilise un système PCM linéaire qui stocke chaque échantillon sous forme
de nombre entier représentant la valeur de chaque échantillon. Blesser (1978), Moorer (1979b), et
Pohlmann (1989a) étudient les implications d’autres systèmes de codage, qui convertissent le son
en nombres décimaux, en fractions, en différences entre deux échantillons successifs, et ainsi de
suite. Les autres systèmes de codage ont en général pour but de réduire le nombre total des bits que
le système doit stocker. Pour certaines applications, comme les disques compacts qui mélangent
images et données audio (CD-Rom, CD-I, etc.), il peut être nécessaire de faire un compromis avec
la gamme dynamique en stockant moins de bits, afin de faire rentrer toutes les informations sur le
disque. Une autre façon de sauvegarder de l’espace est, bien entendu, de réduire le taux d’échantil-
lonnage.
1.6 Suréchantillonnage
Jusqu’ici, nous avons principalement parlé des convertisseurs PCM linéaires. Un CNA PCM linéaire
transforme un échantillon en tension analogique en une seule étape. Contrairement aux convertis-
seurs PCM linéaires, les convertisseurs suréchantillonneurs utilisent plus d’échantillons lors de
l’étape de conversion que ceux qui sont effectivement stockés sur le support d’enregistrement. La
théorie du suréchantillonnage est un sujet complexe, quoi qu’il en soit, et pour nos besoins ici même,
il est suffisant de n’en présenter que les idées de base, en laissant de nombreuses références pour
ceux qui souhaiteraient approfondir le sujet.
Le suréchantillonnage n’est pas une technique, mais une famille de méthodes destinées à accroître
l’exactitude des convertisseurs. Il existe deux types différents de suréchantillonnages :
1. Les CNA suréchantillonneurs multibits développés pour les lecteurs de disques compacts au
début des années 1980 par les ingénieurs de la compagnie Philips (van de Plassche, 1983 ;
van de Plassche et Dijkmans, 1984).
2. Le suréchantillonnage 1 bit avec modulation delta-sigma ou une méthode proche utilisée
dans les CAN et les CNA plus récents (Adams, 1990 ; Hauser, 1991).
La première méthode convertit un nombre de bits (par exemple 16) à chaque battement de l’horloge
d’échantillonnage, tandis que la seconde convertit un bit à la fois, mais à une très haute fréquence
d’échantillonnage. La distinction entre les systèmes multibits et les systèmes à 1 bit n’est pas toujours
claire, car certains convertisseurs utilisent une combinaison de ces deux approches. C’est-à-dire
qu’ils effectuent tout d’abord un suréchantillonnage multibits, puis le transforment en un flux à 1 bit
qui est de nouveau suréchantillonné.
1.6.1 Convertisseurs suréchantillonneurs à bits multiples

Au milieu des années 1980, de nombreux fabricants de disques compacts utilisaient un CNA conçu
par Philips, qui rendait accessibles aux particuliers les bénéfices de la technologie du sur-
échantillonnage. Ces convertisseurs tirent avantage du fait que les filtres numériques peuvent fournir
une réponse de phase bien plus linéaire que les filtres analogiques raides en mur de brique utilisés
généralement dans les CNA. Des CAN basés sur ce concept ont également été produits, mais nous
n’aborderons ici que le cas des CNA. Dans un lecteur de disques compacts, 44 100 échantillons en
16 bits sont stockés chaque seconde sur chaque canal, mais lors de la relecture, ils peuvent être
échantillonnés à quatre fois le taux (176,4 kHz), ou à huit fois (352,8 kHz), selon le système. Ceci
est accompli en interpolant trois (ou sept) nouveaux échantillons 16 bits entre chaque échantillon
d’origine. Au même moment, tous les échantillons sont filtrés par un filtre numérique de phase
linéaire, au lieu d’un filtre analogique en mur de brique qui introduirait de la distorsion de phase.
Ce filtre numérique est un filtre à réponse impulsionnelle finie ; voir le chapitre 4.
En dehors de la linéarité de phase, l’un des bénéfices principaux du suréchantillonnage est la réduc-
tion de bruit de quantification, et un accroissement du rapport signal/bruit sur toute la largeur de
bande audio. Ceci vient du principe de base des convertisseurs qui établit que le pouvoir total de
bruit de quantification correspond à la résolution de son convertisseur, indépendamment du taux
d’échantillonnage. Ce bruit est, en théorie, répandu uniformément sur toute la largeur de bande du
système. Un taux d’échantillonnage plus élevé répand une quantité constante de bruit de quantifi-
cation sur une plus grande étendue de fréquences. Un filtrage passe-bas important élimine le bruit
de quantification au-dessus de la bande de fréquences audio. Grâce à cela, un enregistrement sur-
échantillonné dans un rapport d’un à quatre, a 6 dB de moins de bruit de quantification (ce qui
équivaut à rajouter un bit de résolution), et un enregistrement suréchantillonné dans un rapport d’un
à huit, a 12 dB de moins de bruit. L’étape finale de ces systèmes est un filtre passe-bas analogique
en pente douce qui supprime les composants au-dessus de 30 kHz, avec un déphasage insignifiant
dans la bande audio.
1.6.2 Convertisseurs suréchantillonneurs à 1 bit

Bien que la théorie des convertisseurs suréchantillonneurs à 1 bit remonte aux années 1950 (Cutler
1960), il fallut attendre de nombreuses années avant que cette technologie soit intégrée à des systè-
mes audionumériques. Les convertisseurs suréchantillonneurs à 1 bit constituent une famille de
techniques successivement appelées convertisseurs sigma-delta, delta-sigma, noise-shaping, bitstream,
ou MASH, selon le fabricant. Ils ont pour point commun d’échantillonner un bit à la fois, mais à de
très hautes fréquences. Plutôt que d’essayer de représenter la forme d’onde entière sur un seul échan-
tillon, ces convertisseurs mesurent les différences entre échantillons successifs.
Les convertisseurs 1 bit tirent parti d’une loi fondamentale de la théorie de l’information (Shannon et
Weaver, 1949), qui dit que l’on peut échanger la largeur d’échantillonnage et le taux d’échantillonnage,
et convertir pourtant à la même résolution. C’est-à-dire qu’un convertisseur 1 bit qui « suréchantil-
lonne » à 16 fois le taux d’échantillonnage stocké est l’équivalent d’un convertisseur 16 bits sans
suréchantillonnage. Ils traitent tous les deux le même nombre de bits. Les bénéfices du suréchantil-
lonnage s’accroissent lorsque le nombre de bits traités est supérieur au nombre de bits d’entrée.
Le taux de suréchantillonnage d’un convertisseur 1 bit peut prêter à confusion, puisqu’il n’indique
pas combien de bits sont traités ou stockés. L’une des façons de déchiffrer les spécifications du
suréchantillonnage est de déterminer le nombre total de bits traités, selon la relation :
facteur de suréchantillonnage ∞ largeur du convertisseur
Par exemple, un système avec convertisseur 1 bit « suréchantillonnant 128 fois » traite 128 ∞ 1 bit
à chaque période d’échantillonnage. Ceci doit être comparé à un convertisseur linéaire 16 bits qui
traite 1 × 16 bits, soit huit fois moins de données. En théorie, les convertisseurs 1 bit devraient sonner
de façon beaucoup plus propre. En pratique, quoi qu’il en soit, ce genre de pronostics est parfois
réduit à néant par des convertisseurs qui utilisent plusieurs étapes de suréchantillonnage et des
largeurs de bit interne variables.
Quoi qu’il en soit, tous les bénéfices du suréchantillonnage reviennent aux convertisseurs 1 bit,
y compris une résolution améliorée et une linéarité de phase, compte tenu du filtrage numérique.
Des taux d’échantillonnage élevés qui sont difficiles à mettre au point avec la technologie des conver-
tisseurs multibits sont beaucoup plus faciles à implémenter avec des convertisseurs 1 bit. Les taux
de suréchantillonnage dans le domaine des MHz permettent des quantifications de 20 bits par
échantillon.
Une autre technique utilisée dans les convertisseurs suréchantillonneurs 1 bit est le noise-shaping,
qui peut prendre de nombreuses formes (Hauser, 1991). L’idée de base est que l’erreur de « requan-
tification » qui survient lors du procédé de suréchantillonnage est déplacée dans le domaine des
hautes fréquences — en dehors de la largeur de bande audio — par un filtre passe-haut bouclé en
rétroaction avec le signal d’entrée. La boucle de noise-shaping n’envoie que l’erreur de requantifi-
cation à travers le filtre passe-haut, pas le signal audio.
L’étape finale de n’importe quel convertisseur suréchantillonneur est un filtre diviseur qui réduit le
taux d’échantillonnage du signal à celui convenant au stockage (pour un CAN) ou à la lecture (pour
un CNA), et filtre également le signal en passe-bas. Dans le convertisseur noise-shaping ce filtre
diviseur retire aussi le bruit de requantification, ce qui a pour effet de grandement améliorer le
rapport signal/bruit. Avec le noise-shaping de second ordre (appelé ainsi en raison des filtres passe-
haut de second ordre utilisés dans la boucle en rétroaction), le niveau de signal/bruit maximum d’un
convertisseur 1 bit est approximativement équivalent à 15 dB (2,5 bits) par octave de suréchantil-
lonnage, moins une pénalité fixée de 12,9 dB (Hauser, 1991). Ainsi, un facteur de suréchantil-
lonnage de 29 augmente le rapport signal/bruit d’un convertisseur 16 bits de l’équivalent de 10 bits,
soit 60 dB.
Pour plus de détails sur les convertisseurs suréchantillonneurs noise-shaping, voir Adams (1986,
1990), Adams et coll. (1991), et Fourré, Schwarzenbach et Powers (1990). Hauser (1991) a rédigé
un article qui explique l’histoire, la théorie, et la pratique des techniques de suréchantillonnage sous
forme pédagogique, et contenant également de nombreuses références supplémentaires.
1.7 Supports audionumériques

Tableau 1.2 – Supports audionumériques.
Accès série
Support Notes
ou aléatoire
Tête stationnaire Série Utilisé pour l’enregistrement multipiste professionnel (24,

(bande magnétique) 32, 48 pistes) ; plusieurs formats ; édition limitée.
Bande vidéo à tête rotative Série Formats professionnels et grand public ; cassettes grand
(bande magnétique) public peu chères ; plusieurs formats de bande (U-matic,
Beta, VHS, 8 mm, etc.) et trois formats internationaux de
codage incompatibles (NTSC, PAL, SECAM).
Bande audio à tête rotative Série Format professionnel Nagra-D pour enregistrement quatre
(bande magnétique) pistes.
Bande audionumérique Série Cassettes et enregistreurs de petite taille et portatifs ; com-

(DAT) (bande magnétique) patibilité mondiale ; certaines machines sont compatibles
avec le codage SMPTE.
Cassettes numériques Série Format numérique compatible avec les enregistreurs ana-
compactes (DCC) logiques traditionnels. Compression des données. Qualité
(bande magnétique) sonore inférieure au format CD.
Disques durs Aléatoire Disques durs intégrés rapides (quelques millisecondes de

(magnétiques et optiques) temps d’accès) ; les disques durs transportables convien-
nent pour la sauvegarde et le transport d’échantillons.
Disque optique transportable différent du format audio CD,
bien que celui-ci ait la même apparence.
Disquettes (magnétiques) Aléatoire Petites, bon marché et pratiques, mais lentes et ne pouvant
stocker que de petits fichiers son. Peu sûres pour l’archi-
vage.
Mini Disc Sony (MD) Aléatoire Format de disquette pour le son avec compression de
(magnétique) données. Qualité sonore inférieure au format CD.
Disque compact (CD) Aléatoire Disque petit et fin stockant jusqu’à 782 Mo ; les disques
(optique) d’archivage durent des décennies ; peut lire des images et
du son. Différentes qualités, du CD-ROM au format
20 bits. Format lent comparé à d’autres supports à accès
aléatoire (Pohlmann, 1989b, d).
Mémoire à semiconducteur Aléatoire Temps d’accès très rapide (moins de 80 nanosecondes) ;

(électronique) excellent pour stockage temporaire, mais trop cher pour de
grandes bases de données.
Super Audio CD Aléatoire Stockage jusqu’à 8,5 Go avec encodage DSD (suréchan-
tillonnage 1 bit à une fréquence de 2,8224 MHz). Contient
en général une version multicanal et une version stéréo en
DSD, et une version CD audio standard, optionnelle.
DVD-Audio Aléatoire Stockage jusqu’à 8,5 Go en 16, 20 ou 24 bits. Compatible

avec des fréquences d’échantillonnage jusqu’à 192 kHz
(stéréo) ou 96 kHz (systèmes multicanaux). Encodage en
LPCM avec ou sans compression MLP.
Les échantillons audio peuvent être stockés sur n’importe quel support numérique : bande, disque,
ou circuit intégré, utilisant n’importe quelle technologie d’enregistrement audionumérique, par
exemple, magnétique, magnéto-optique ou optique. Sur le même support, les données peuvent être
écrites dans un grand nombre de formats. Un format est un genre de structure de données. Par exemple,
des fabricants de stations de travail audionumériques implémentent, pour le stockage des échantillons
sur le disque dur, un format qui leur est propre. Pour des raisons aussi bien de technologie que de
marketing, de nouveaux supports et de nouveaux formats apparaissent régulièrement. Le tableau 1.2
liste certains supports et ce qui les distingue.
Certains supports sont capables de gérer plus de bits par seconde et ont ainsi un potentiel d’enre-
gistrement de plus haute qualité. Par exemple, certains enregistreurs numériques à bandes peuvent
coder 20 bits par échantillon avec les convertisseurs appropriés (Angus et Faulkner, 1990). Un disque
dur peut gérer des échantillons 20 bits à des taux dépassant 10 kHz (avec un certain nombre de pistes
simultanées), tandis que pour les supports à semi-conducteurs (barrettes mémoires) la largeur et
le taux d’échantillonnage potentiels sont encore plus grands.
Une autre caractéristique des supports est la durée de vie. Des disques optiques destinés à l’archi-
vage, fabriqués en verre trempé, gravés puis recouverts d’or peuvent durer des décennies et être
joués plusieurs milliers de fois (Digipress, 1991). Les supports magnétiques comme les DAT et les
disquettes sont bon marché et de petite taille, mais beaucoup moins robustes.
Un des avantages remarquables des supports de stockage numériques est que l’on peut transférer
les bits d’un support à l’autre sans aucune perte — ceci dans le cas bien entendu d’une compatibilité
entre les machines et d’une absence de circuits de protection de copie. On peut cloner un enregis-
trement autant de fois qu’on le souhaite, à partir de l’original ou à partir de n’importe laquelle des
copies. Cela signifie également que l’on peut transférer un enregistrement d’un support série peu
coûteux (tel qu’une DAT) vers un support à accès aléatoire (tel qu’un disque) qui est mieux approprié
à l’édition et au traitement. Après avoir terminé l’édition, on peut retransférer les échantillons sur
la DAT. Ces transferts sont effectués à travers des connecteurs numériques entrée/sortie (des prises
sur les systèmes de lecture et d’enregistrement) et des formats standards de transmission audio-
numérique (protocoles logiciels pour envoyer les données audio entre les machines).
1.8 Compression des données audio

La compression des données audio a été utilisée dès l’origine pour des besoins de gain de place, et elle
est devenue omniprésente dans le monde d’aujourd’hui. Non seulement elle est utilisée dans toutes
les formes de transmission téléphoniques, mais elle a également investi le domaine de la consom-
mation culturelle, des médias et de l’Internet.
Il existe deux grandes familles de compression des données audio : la compression sans perte, dans
laquelle le signal peut être récupéré à l’identique, car il est simplement stocké de façon plus efficace,
et la compression avec perte, dans laquelle une partie des données est irrémédiablement perdue,
car éliminée du signal. Noux examinons tout d’abord ces deux types de traitement des données, en
expliquant brièvement les techniques qu’elles utilisent, puis fournissons ensuite une liste des for-
mats les plus couramment utilisés.
1.8.1 Compression sans perte

La compression est un domaine complexe qui prend racine dans les mathématiques et la théorie
de l’information. Elle emprunte à cette dernière de nombreux concepts, et plus particulièrement
celui de la redondance. Celle-ci définit, au sein d’un message binaire, le rapport entre les éléments
inutiles (les répétitions consécutives d’un même événement au sein d’une série) et le nombre total
d’éléments. Dans la forme la plus simple d’encodage (appelé codage des répétitions), éliminer la
redondance consiste simplement à décrire l’événement et le nombre d’occurrences, plutôt que la
suite entière des événements identiques.
Des formes plus évoluées intègrent le concept d’entropie de Shannon. Celui-ci tente de mesurer le
caractère d’incertitude d’une série d’événements. Si tous les événements sont identiques, ils sont
prévisibles, et l’entropie est donc égale à zéro. Si les événements sont parfaitement aléatoires,
l’entropie est élevée. Dans le domaine de la transmission de données, le taux d’entropie est le nombre
moyen de bits par symbole nécessaire pour encoder celui-ci, et l’entropie définit la plus courte taille de
message en bits capable de décrire la source d’information (Shannon, 1948). Par exemple, des évé-
nements apparaissant fréquemment se verront attribuer un code plus court que celui d’événements
plus rares.
L’une des applications les plus courantes de ce type de traitement des données est le codage de
Huffman. Celui-ci commence par une étude des éléments à encoder et attribue à chacun un poids
égal à son occurrence. Un arbre logique est ensuite construit selon le principe suivant : les deux élé-
ments de plus faible poids sont associés, leurs poids sont additionnés et constituent leur emplace-
ment au niveau supérieur de l’arbre. Lorsque celui-ci est achevé, la branche la plus faible se voit attri-
buer un code égal à 0, et la plus forte un code égal à 1. De nombreuses autres techniques d’encodage
existent (Huffman adaptative, arithmétique, Golomb, etc.), avec des degrés divers de réussite dans
l’approche de la valeur optimale définie par Shannon, au-delà de laquelle aucune compression n’est
possible sans une certaine perte. Voir Dumas et coll. (2007) pour des descriptions détaillées des
techniques utilisées en théorie de l’information et en compression de données. Dans le cas de l’audio
en particulier, les algorithmes de compression généraux ne sont pas très efficaces, et les implémenta-
tions utilisent des astuces telles que du codage de répétitions et du codage prédictif linéaire pour
optimiser le signal avant encodage.
1.8.2 Compression avec perte

La compression avec perte est utilisée dans de très nombreux domaines : téléphonie, diffusion sur
internet, DVD, radio numérique, écoute sur baladeur ou sur ordinateur, etc. Comme elle supprime
des données, il n’est pas surprenant qu’elle permette une compression plus prononcée que les ver-
sions sans perte. Elle a constitué un domaine de recherche important après les années 1980 en rai-
son de la nécessité de parvenir à des gains de place lors du stockage sur un support, ou à des gains
de largeur de bande, lors de transmissions. Un grand nombre de formats coexistent, qui utilisent
chacun des types différents de traitement du son, mais ont cependant pour trait commun de se
baser sur des principes liés à la psychoacoustique.
L’une des premières applications de ces techniques était la compression de la parole pour les services
de téléphonie. En raison de ses limites, tant dans le domaine fréquentiel que dans le domaine dyna-
mique, il semble évident qu’un tel signal peut être réduit tout en conservant une certaine qualité.
Par exemple, la gamme de fréquence transmise peut être limitée au domaine situé entre 400 et
3 500 Hz, et la gamme dynamique peut être réduite grâce à une compression-extension : le codage
est alors optimisé et le rapport signal-bruit est meilleur que celui d’un encodage linéaire. Un algo-
rithme courant de la compression avec perte est la prédiction linéaire excitée par code (CELP), une
forme particulière de CPL. Voir le chapitre 24 pour plus de détails sur le codage prédictif linéaire.
Une autre technique utilisée dans la compression de données est appelée le codage de sous-bande.
Celle-ci est basée sur le phénomène psychoacoustique des effets de masques. Voir le chapitre 16 pour
une explication des effets de masques. Le signal est tout d’abord décomposé en plusieurs bandes grâce
à une FFT ou à une banque de filtres, puis les sous-bandes sont comparées au signal d’origine afin de
déterminer les masques présents. Chaque sous-bande est ensuite quantifiée et encodée afin de con-
server le bruit de quantification en dessous du seuil de masque. Les échantillons quantifiés sont fina-
lement réunis sous forme d’images qui peuvent être lues par le décodeur. Ce type d’encodage est
celui utilisé dans les différents formats MPEG.
Le codage hiérarchique, quant à lui, tente de déterminer l’importance des divers éléments présents
dans un signal, afin d’appliquer une compression plus forte sur ceux qui participent le moins à
l’intelligibilité. Il est particulièrement bien adapté à la transmission sur des réseaux, où les risques
de pertes et d’erreurs sont élevés, et permet la transmission avec une largeur de bande relativement
faible, en filtrant les éléments jugés les moins nécessaires.
Citons enfin une technique appelée compression par ondelettes, qui fonctionne bien sur des signaux
contenant des transitoires, mais est moins performante sur des signaux lisses et périodiques. Une
transformée en ondelettes est tout d’abord effectuée, suivie d’une compression et d’une quantifica-
tion des coefficients résultants. Les valeurs obtenues sont alors encodées grâce une technique basée
sur l’entropie ou sur l’encodage de répétitions. Voir le chapitre 13 pour une explication de la théorie
des ondelettes.
Le tableau 1.3 présente les formats (codecs) de compression audio les plus courants. Les codecs
utilisés uniquement en téléphonie (G.711, G.721, etc.) et le format RealAudio, qui utilise des codecs
de compression provenant d’autres sociétés, ne sont pas évoqués. Ce domaine de recherche connaît
des modifications constantes. Voir Salomon (1998) et Sayood (2000) pour des présentations complètes
de la compression de données appliquées à différents domaines, dont l’audio.
1.9 Synthèse et traitement du signal

Comme nous l’avons vu, l’échantillonnage transforme les signaux acoustiques en nombres binaires,
rendant ainsi possible l’enregistrement audionumérique. Pour des utilisations musicales, les applica-
tions de l’échantillonnage vont au-delà de l’enregistrement, jusqu’à la synthèse et au traitement du
signal. La synthèse est le procédé de génération de flux d’échantillons grâce à des outils algorith-
miques. Les chapitres 17 à 32 énumèrent les nombreux sentiers possibles conduisant à la synthèse.
Le traitement du signal transforme les flux d’échantillons. En musique, nous utilisons les outils de
traitement du signal pour sculpter les ondes sonores en formes esthétiques. Les applications de
traitement du signal les plus typiques sont les suivantes :
• Manipulations dans le domaine dynamique (amplitude) : redessiner le profil d’amplitude

d’un son.
• Mixage : combinaison de multiples pistes audio, y compris les fondus enchaînés.
• Filtres et égaliseurs : changer le spectre fréquentiel d’un son.
• Effets de retards temporels : échos, effet chorus, flanger, phasing.
• Convolution : transformations temporelles et fréquentielles simultanées.
• Projection spatiale, y compris la réverbération.
• Réduction de bruit : nettoyage de mauvais enregistrements.
• Conversion de taux d’échantillonnage : avec ou sans déplacement des hauteurs.
• Analyse du son, transformation, et resynthèse.
• Compression/expansion temporelle : changer la durée sans toucher aux hauteurs, ou vice-
versa.
Tableau 1.3 – Formats courants de compression des données audio.
Compression
Nom du codec Notes
avec ou sans perte
AAC Avec perte Divise le signal en 1 024 sous-bandes. Permet de stocker des
métadonnées et des schémas de protection anticopie. Utilisé
dans un grand nombre d’applications.
ADX Avec perte Utilisé principalement dans les jeux vidéo.
Apple Lossless Sans perte Format propriétaire d’Apple Inc., uniquement utilisé à travers
iTunes et QuickTime.
ATRAC Avec ou sans perte Utilisé sur le MiniDisc, au cinéma (système SDDS), sur des
baladeurs et des consoles de jeu. La dernière mise à jour com-
presse sans perte.
Direct Stream Sans perte Utilisé uniquement comme codec de compression audio pour les
Transfer flux DSD (Direct Stream Digital) utilisés sur le Super Audio CD.
Dolby Digital Avec perte Utilisé principalement pour les films et la vidéo, sur support
(AC-3) DVD, HD-DVD et Blu-ray.
Dolby TrueHD Sans perte Basé sur le format MLP et utilisé sur les supports optiques à
haute densité (obligatoire sur HD-DVD, optionnel sur Blu-ray).
DTS Coherent Avec ou sans perte Utilisé pour les films et la vidéo, sur support CD, DVD, HD-DVD
Acoustics et Blu-ray. La version DTS-HD Audio compresse sans perte.
FLAC Sans perte Open Source et multi plate-forme, il est utilisé dans un grand
(Free Lossless nombre d’applications : écoute sur baladeurs ou ordinateurs,
Audio Codec) jeux vidéo, etc.
HE-AAC Avec perte Amélioration du format AAC grâce à un meilleur traitement de

(aacPlus) la gamme de fréquences et des informations de stéréo.
MLP Sans perte Utilisé sur les supports optiques à haute densité (obligatoire
(Meridian Lossless sur HD-DVD et DVD-Audio, optionnel sur Blu-ray). Licencié à
Packing) Dolby pour leur format TrueHD.
MPEG-1 Layer II Avec perte Divise le signal en 32 sous-bandes. Utilisé dans les formats
(MP2) Video CD et Super Video CD.
MPEG-1 Layer III Avec perte Divise le signal en 576 sous-bandes. Permet de stocker des
(MP3) métadonnées. Utilisé dans un grand nombre d’applications.
Musepack (MPC) Avec perte Utilisé principalement dans les assistants personnels (PDA).
Vorbis Avec perte Utilisé dans les jeux vidéo, et pour l’écoute sur baladeur et
sur ordinateur. Permet de stocker des métadonnées.
WavPack Sans perte Permet un mode hybride dans lequel deux fichiers sont créés :
un fichier compressé avec perte et un fichier de correction.
Leur association permet une compression sans perte. Utilisé
pour l’écoute sur ordinateur et sur certains baladeurs.
Windows Media Avec ou sans perte Utilisé dans un grand nombre d’applications. De nombreuses
Audio (WMA) versions existent, dont des versions multicanaux et sans perte.
Bien qu’il soit un champ relativement nouveau, le traitement numérique du signal (DSP pour Digital
Signal Processing) s’est épanoui en une vaste science théorique et en un art appliqué. La deuxième
partie de ce livre explique des concepts essentiels du DSP, pertinents d’un point de vue musical.
1.10 Conclusion
Ce chapitre a présenté les concepts fondamentaux de l’enregistrement et de la reproduction numé-
riques. Cette technologie continue d’évoluer. Dans les domaines de la conversion AN et NA, du trai-
tement du signal, et de la technologie de stockage — il y a toujours de la place pour l’amélioration
— nous pouvons espérer de nouveaux développements pendant encore de nombreuses années.
Tandis que la technologie de l’enregistrement continue sa marche, l’esthétique de l’enregistrement
pousse cette technologie dans deux directions opposées. La première est l’école d’enregistrement
« naturaliste » ou « puriste », qui tente de recréer l’expérience idéale de concert, avec aussi peu
d’artifices que possible. À l’écoute de ces enregistrements, c’est comme si l’on était suspendu dans les
airs (où sont les microphones), dans la position idéale d’écoute, écoutant aux portes une interpré-
tation virtuose. L’approche opposée, non moins valide, est souvent utilisée dans les musiques de
variété, électroniques, ou informatiques : la création d’une scène sonore artificielle dans laquelle les
sources peuvent se déplacer. Nous sommes en contact avec des illusions telles que des sons émanant
de plusieurs espaces simultanément. Ces illusions sont créées par les opérations de traitement du
signal décrites dans la deuxième partie.
Chapitre 2
Mixage
La nature mixe acoustiquement les sons dans l’air — par exemple dans la sonorité orchestrale
« fusionnée » d’un concert symphonique, ou la cacophonie urbaine d’un coin de rue. Les circuits
électroniques analogiques mixent également des signaux sonores, où chaque signal est représenté
par une tension variant dans le temps. Un circuit additionne de nombreux signaux pour former un
signal composite.
Dans le domaine numérique, les signaux audio sont mixés selon les règles de simple addition. Pour
aider à visualiser ce processus, les figures 2.1, 2.2 et 2.3 montrent un mixage sur trois échelles tem-
t1 t2
+32767
(a) +10000
+10000
(b)
-32767
+20000
(c)
0
Figure 2.1 – Les signaux (a) et (b), constitués de deux échantillons aux temps t1 et t2,
sont mixés, et donnent comme résultat le signal (c).
(a)
(b)
(c)
Figure 2.2 – Mixage de formes d’onde.

(a) Sinusoïde à 50 Hz. (b) Sinusoïde à 500 Hz. (c) Mixage de (a) + (b).
(a)
(b)
(c)
Temps
Figure 2.3 – Mixage de fichiers son.

(a) Son de saxophone alto. (b) Texture de synthèse granulaire. (c) Mixage de (a) + (b).
porelles différentes. Dans la figure 2.1, un échantillon de la source (a) au temps t1 avec une valeur
de 32 767 est ajouté à un autre échantillon de la source (b) au temps t1 avec une valeur de –32 767,
et la valeur d’échantillon additionnée a pour résultat 0 (c). Lorsque deux signaux positifs de 10 000
chacun sont additionnés au temps t2, le résultat est 20 000.
La figure 2.2 montre un mixage au niveau de l’addition de forme d’onde, combinant une onde de
basse fréquence et une onde de haute fréquence.
Enfin, la figure 2.3 montre le résultat du mixage de deux fichiers son différents, chacun durant
environ 2,5 secondes.
2.1 Mixage et gamme dynamique

La gamme dynamique (GD) est l’étendue (exprimée en décibels) entre les sons les plus faibles et les
sons les plus forts qu’un système peut manipuler. Par exemple, la GD de l’oreille humaine est d’environ
120 dB. Comme l’expliquait le chapitre 1, la GD d’un système audionumérique est proportionnel à la
quantification du système, avec environ 6 dB pour chaque bit quantifié. Ainsi, la GD d’un système
16 bits est limité à 96 dB, tandis qu’un système audio pouvant manipuler 20 bits aura approximative-
ment la même gamme dynamique que le mécanisme auditif humain.
Les limites de la gamme dynamique posent des problèmes aux systèmes de mixage numériques, car
ceux-ci additionnent de nombreuses valeurs d’échantillons pour créer une somme. Si la somme
dépasse le domaine de quantification, le résultat est un craquement brutal provenant des convertis-
seurs numérique-analogique causé par la « coupure numérique » ou débordement.
La plupart des programmes de mixage numériques offrent des résolutions de quantification de 24
à 64 bits aux points d’addition dans le trajet du signal. Ces nombreux bits sont nécessaires, car il est
fréquent qu’une table de mixage combine plus de seize canaux simultanément. Ajouter seize nombres
16 bits de magnitude significative permet d’obtenir un nombre 20 bits. Une autre raison pour avoir
une haute résolution dans une table de mixage est que de nombreuses opérations nécessitent au moins
24 bits (144 dB de gamme dynamique) pour maintenir une qualité audio de haut niveau. Différentes
méthodes d’arrondissement peuvent échelonner les échantillons pour avoir moins de bits à la sortie
de la table de mixage.
À l’intérieur de celle-ci (ou du programme de mixage), l’utilisation de nombres entiers pour les
échantillons audio est caractéristique d’une représentation à virgule fixe. Ceci est à différencier de la
représentation à virgule flottante, où les échantillons sont représentés sous forme de deux nombres :
une mantisse et un exposant. L’exposant agit comme facteur d’échelonnage, permettant la repré-
sentation de nombres très grands et très petits — ce qui augmente la gamme dynamique. Ainsi, une
représentation par virgule flottante est l’une des façons grâce auxquelles les concepteurs de systèmes
peuvent éviter les problèmes de gamme dynamique dans les systèmes numériques.
2.2 Tables de mixage

Une table de mixage (également appelée console de mixage) associe un certain nombre de canaux
d’entrée à un certain nombre de canaux de sortie en temps réel. Les tables de mixage effectuent des
opérations auxiliaires comme du filtrage et de l’acheminement de signal. Pendant de nombreuses
années, les tables de mixage étaient construites exclusivement avec des circuits analogiques, parfois
selon des normes très exigeantes. Peu à peu, la technologie numérique fut ajoutée aux tables ana-
logiques. Les tables hybrides, présentées plus loin, combinent des circuits audio analogiques et des
circuits d’automatisation et de contrôle numériques. Les tables de mixage entièrement numériques
sont de plus en plus utilisées.
Une table de mixage audio est souvent plus qu’un simple additionneur de signaux audio. Elle est éga-
lement le principal « tableau de bord » d’un studio ou d’un concert. Elle intègre ainsi des contrôles
spécialisés et des éléments de coordination. Les éléments spécifiques disponibles dépendent du cons-
tructeur de la table de mixage et des options choisies par l’acheteur. Comme ce chapitre traite de
principes généraux, nous n’essaierons pas de décrire toutes les options de contrôle que comportent
certaines tables.
2.2.1 Propriétés des tables de mixage

Les tables de mixage peuvent être caractérisées par le rapport entre le nombre de canaux
d’entrée qu’elles manipulent et le nombre de canaux de sortie mixés qu’elles produisent. Par
exemple, une table de mixage pouvant manipuler huit canaux en entrée et les mixer en deux
canaux de sortie est appelée une table de mixage 8/2. De nombreuses tables de mixage possèdent
plusieurs bus de sortie auxquels les signaux peuvent être envoyés simultanément. Pour donner
un exemple, une table de mixage ayant huit entrées, un bus à quatre sorties et un bus à deux
sorties peut être appelée une table 8/4/2. Grâce à une telle table, il est possible d’enregistrer
simultanément en quatre pistes et en deux pistes, par le bus à quatre sorties et le bus à deux
sorties.
Une table d’enregistrement de studio comporte en général six parties principales : une sec-
tion d’entrée, une section de sortie, une section de retours auxiliaires, une section d’envoi
d’ordres, une section de contrôle d’écoute, et une section de contrôle de niveau. Une simple table 8/4/2
est montrée à la figure 2.4. Les huit canaux d’entrée sont envoyés dans un ou plusieurs bus de
sortie grâce à un ensemble de boutons d’assignation de bus de sortie (GD, 1/2, et 3/4) et à des
potentiomètres de panoramisation. En appuyant sur l’un des boutons d’assignation de bus de
sortie, le signal est envoyé à deux bus de sortie ; en tournant le potentiomètre de panoramisation
vers la gauche ou vers la droite, on sélectionne l’un des deux bus de sortie. L’entrée peut également
être envoyée à deux bus de départs auxiliaires (AUX) pour un traitement externe du signal. Les
retours auxiliaires (RET) de l’unité d’effets peuvent être mixés dans les bus de sortie grâce à
un petit potentiomètre rotatif situé au-dessus du fader de niveau de sortie. La sortie de l’unité
d’effets peut également être envoyée dans l’un des canaux d’entrée pour obtenir un contrôle
supplémentaire du son. Les potentiomètres CM et SM en haut à droite établissent l’amplitude
des haut-parleurs d’écoute respectivement pour une cabine de contrôle (CM) et pour une écoute
de studio (SM). Ils prennent leur entrée à partir des bus G/D. Un micro d’envoi d’ordres (à droite)
permet à l’ingénieur de communiquer avec les musiciens ou de donner des indications sur un
enregistrement. Le bandeau de Vumètres montre les niveaux d’amplitude des huit canaux d’entrée
et des six bus de sortie.
Les paragraphes suivants présentent les différentes parties d’une table de mixage de façon plus
détaillée.
2.2.2 Section d’entrée

La section d’entrée est en général constituée d’un certain nombre de modules d’entrée identiques
(figure 2.5). Le tableau 2.1 donne une explication des parties du module d’entrée.
2.2.3 Section de sortie

Faire fonctionner la section de sortie d’une table de mixage est en général très simple. Elle est
constituée d’un fader pour contrôler le niveau de sortie d’un signal envoyé au bus de sortie et d’un
affichage de niveau.
Bandeau de Vumètres
1 2 3 4 5 6 7 8 S1 S2 S3 S4 G D
Départs
Bus
AUX 4 bus de de sortie
8 canaux d’entrée Retours sortie G/D
AUX
Section SM
contrôle d’écoute
CM
AUX AUX AUX AUX AUX AUX AUX AUX Section

envoi d’ordres
GD GD GD GD GD GD GD GD
GD
1/2 1/2 1/2 1/2 1/2 1/2 1/2 1/2 Section
de retours AUX 1/2
3/4 3/4 3/4 3/4 3/4 3/4 3/4 3/4
3/4
RET RET RET RET RET RET

1 2 3 4 5 6 7 8 S1 S2 S3 S4 G D
Section d’entrée Section de sortie
Figure 2.4 – Flux du signal dans une table de mixage 8/4/2 simple,
montrant également les différentes parties de celle-ci. Les carrés représentent les boutons de
commutation, tandis que les cercles représentent les potentiomètres rotatifs. Les bus de sortie
sont indiqués de 01 à 04, ainsi que par G et D (gauche et droite). Les indicateurs CM et SM de la
section de contrôle d’écoute font référence aux niveaux d’écoute de la cabine de contrôle et du
studio.
Sélecteur d’entrée,
alimentation fantôme,
L/M POW PH
inverseur de phase
GAIN
Atténuateur d’entrée
Egaliseur
paramétrique
EQ ON/OFF Marche/Arrêt EQ
Envoi AUX
Pre/Post
G D Potentiomètre
de panoramique
M S PFL Mute, Solo, PFL
0 Fader de canal
Figure 2.5 – Parties d’un simple module d’entrée d’une table de mixage.
Le tableau 2.1 explique chacune d’entre elles.
2.2.4 Section de retours auxiliaires

La section de retours auxiliaires peut également être appelée la section d’effets, d’insertion, ou de
rabattement. Ces quatre termes sont utilisés par différents secteurs de l’industrie de l’enregistrement.
Les départs auxiliaires permettent à l’ingénieur d’ajouter des sons traités par des unités d’effets au
signal de sortie. Ils lui permettent également de créer des sous-mixages spéciaux pour chaque
musicien qui écoute avec un casque (dans un studio d’enregistrement) ou avec des haut-parleurs
(sur scène).
Tableau 2.1 – Fonctions d’un module d’entrée d’une table de mixage.
Sélecteur d’entrée, Boutons de sélection. Le sélecteur d’entrée choisit un microphone, un niveau

alimentation fantôme, de ligne, ou une entrée de sous-groupe. Le bouton d’alimentation fantôme
boutons d’inversion envoie un signal de puissance DC à un microphone à condensateur. L’inver-
de phase seur de phase permet de déphaser le signal d’entrée (utile en configuration
de plusieurs microphones).
Atténuateur d’entrée Atténue le niveau du signal d’entrée pour que le canal ne soit pas saturé par
des signaux trop forts. Pour des signaux en niveau de ligne, l’atténuateur
d’entrée permet que la table soit alignée sur le niveau de la machine d’entrée
externe (par exemple magnétophone ou instrument).
Égaliseur paramétrique Altère le spectre du son en amplifiant ou en atténuant certaines bandes de

fréquence. La figure montre un égaliseur paramétrique trois bandes. Les trois
contrôles de chaque bande sont la largeur de bande, la fréquence centrale et
la quantité d’amplification ou d’atténuation. Un égaliseur semi-paramétrique
n’offre pas de contrôle de largeur de bande.
Marche/Arrêt EQ Permet d’utiliser ou non la section d’égalisation dans le circuit.
Envois auxiliaires Envoie le son à une unité d’effets (par exemple une unité de retard ou un
réverbérateur) ou à une sortie d’insertion. Celle-ci est en général envoyée aux
casques que portent les interprètes dans un studio d’enregistrement, ou à
des haut-parleurs sur scène. Ainsi, la sortie d’insertion constitue un sous-
mixage de la musique qui peut être équilibré afin que chaque musicien
entende son propre instrument au-dessus des autres. Le potentiomètre
d’envoi contrôle le niveau du son envoyé à l’unité d’effets ou à l’insertion. Le
potentiomètre de retour contrôle le niveau du son revenant de l’unité
d’effets (voir la section d’effets/retours auxiliaires). Lorsque le son est dirigé
vers l’envoi d’effet après le fader d’entrée (postfader), si le fader est coupé,
le son l’est aussi. Sinon (préfader), le son d’entrée est toujours envoyé au
bus d’envoi d’effet.
Potentiomètre Contrôle la position spatiale du son entre deux ou plusieurs canaux.

de panoramisation
Mute, Solo et PFL Le bouton Mute coupe le canal. Le bouton Solo permet d’écouter un seul
canal. Dans ce cas, tous les autres canaux passent en position Mute. PFL
(pre-fader listen — écoute préfader) est utilisé lorsqu’un canal d’entrée doit
être vérifié sans ouvrir un fader. Par exemple, les ingénieurs radio appuient
sur le bouton PFL pour écouter le début d’un enregistrement avec le casque,
mais comme le fader est descendu, le public ne pourra pas l’entendre. Le PFL
est un moyen de réglage des niveaux et d’égalisation à un moment où une
vérification normale du son serait impossible.
Assignation de canal La section d’assignation de canal est en général un ensemble de boutons, avec
(non montré) un bouton par bus de sortie. Le signal passant à travers le canal d’entrée
est envoyé à tous les canaux de sortie sélectionnés.
Fader de canal Curseur linéaire ou potentiomètre rotatif qui contrôle l’amplitude (ou gain)
(ou potentiomètre) du son.
2.2.5 Section d’envoi d’ordres

La section d’envoi d’ordres permet à l’ingénieur de communiquer avec les musiciens dans le studio
d’enregistrement. Une autre utilisation de l’envoi d’ordres dans un studio de musique informatique
est l’annotation d’un enregistrement avec des commentaires en vue d’une utilisation ultérieure.
D’un point de vue technique, la section d’envoi d’ordres est constituée d’un microphone, d’un
contrôle de niveau, et de plusieurs commutateurs pour déterminer où la voix de l’ingénieur sera
envoyée.
2.2.6 Section de contrôle d’écoute

Cette section prend comme entrée le bus de sortie gauche/droite et l’envoie aux haut-parleurs et
aux casques de la cabine de contrôle (là où se trouve la table de mixage) et du studio (là où sont les
musiciens).
2.2.7 Section de contrôle de niveau

Les indicateurs de niveau fournissent les niveaux sonores des canaux d’entrée et des bus de sortie.
Les crêtemètres montrent les valeurs crêtes de l’amplitude du signal. Leur temps de montée (le temps
nécessaire pour atteindre 99 pour cent de la valeur finale) est de quelques millisecondes, tandis
que leur temps de descente est de plus d’une seconde. Il existe plusieurs types de crêtemètres ayant
des spécifications différentes. Les Vumètres ont un temps de montée beaucoup plus lent, de l’ordre
de 300 ms, et ils tendent donc à refléter l’amplitude moyenne du signal sur une brève période de
temps. Certains indicateurs fournissent à la fois les caractéristiques crêtes et moyennes d’un signal.
2.2.8 Possibilités de groupement

Certaines tables de mixage ont des possibilités de sous-groupes. Ceci permet à l’ingénieur d’assigner
plusieurs canaux d’entrée à un seul fader, appelé le fader de sous-mixage ou de sous-groupe. Les
mouvements ultérieurs du fader de sous-groupe contrôlent le niveau de tous les canaux assignés
simultanément au sous-groupe.
2.3 Tables hybrides

La technologie matérielle numérique a été introduite dans les tables de mixage au début des
années 1970. Le premier bénéfice de la technologie numérique fut l’automatisation des faders — la
capacité de restituer des réglages de coupures et de positions de faders pour recréer un mixage
particulier (voir plus loin la partie sur l’automatisation du mixage). Aujourd’hui, certaines tables
sont des hybrides de la technologie numérique et de la technologie analogique, combinant les pos-
sibilités d’automatisation du numérique avec la largeur de bande plus grande du traitement analo-
gique du signal (figure 2.6). La réponse fréquentielle des circuits analogiques dépasse fréquem-
ment 100 kHz, ce qui est bien supérieur au domaine des tables numériques qui sont conçues pour
travailler avec les fréquences d’échantillonnage standards de 44,1 et 48 kHz.
Les systèmes d’automatisation des tables hybrides permettent à l’ingénieur de sauvegarder les
données de contrôle du mixage puis de restituer le mixage stocké en mémoire pour le reproduire.
Pour écrire des données de mixage, les positions des faders (représentées par des tensions analo-
giques) sont échantillonnées par un convertisseur analogique-numérique et stockées dans l’ordi-
nateur de la table.
2.3.1 Relecture du mixage

Deux schémas différents peuvent être utilisés pour restituer ou « relire » le mixage sur la table. Dans
le premier, les données numériques du mixage pour chaque canal sont envoyées à un convertisseur
numérique-analogique, où, sous forme analogique, elles contrôlent le niveau d’un amplificateur
contrôlé par tension (VCA) (figure 2.7).
Figure 2.6 – Une grande table de mixage hybride (construite par Solid State Logic)
avec un traitement du signal analogique contrôlé par un ordinateur de table intégré. L’automatisa-
tion est nécessaire lorsque l’on travaille sur une table d’une telle taille (avec l’aimable autorisation
du Capri Digital Studio, Capri).
Ch1 Ch2 Ch n
VCA VCA VCA
Rappel
de la mémoire CNA CNA ... CNA
vers la console
Stockage
Ordinateur pour les

console données de
mélange
Écriture
(sauvegarde)
de la console
CAN CAN ... CAN
vers la mémoire
Ch1 Ch2 Ch n
position position position
de fadeur de fadeur de fadeur
Figure 2.7 – Schéma global de l’écriture et du rappel des données de mixage

dans une table hybride (analogique-numérique) basée sur des amplificateurs contrôlés par tension.
Comme les VCA ne peuvent atteindre la qualité audio des circuits non VCA, certains construc-
teurs implémentent une automatisation pilotée par robotique. C’est-à-dire que les CNA contrô-
lent des moteurs déplaçant physiquement les faders (et donc modifient le niveau du canal) en
suivant les mouvements enregistrés auparavant par l’ingénieur. Les faders motorisés peuvent
être construits selon des standards élevés, effectuant des mouvements entre le niveau le plus
élevé et le niveau le plus faible en moins de 100 ms, couvrant une échelle de niveaux de plus de
4 096 valeurs différentes par incrément de 0,1 dB. Il n’y a dans ce cas aucun VCA impliqué dans
le traitement du son. Un autre avantage des faders motorisés est que l’ingénieur peut visualiser
les changements de niveaux de mixage enregistrés au cours du temps en regardant les mouve-
ments des faders. Pour modifier un mixage enregistré, l’ingénieur peut appuyer sur le fader en
mouvement, outrepasser le contrôle de l’ordinateur et permettre au fader d’être ajusté manuel-
lement.
2.4 Éléments des tables de mixage numériques

Les tables de mixage numériques ont des possibilités qui n’existent pas sur les tables analogiques
ou hybrides. Voici quelques-unes de ces possibilités (néanmoins, elles n’existent pas forcément sur
toutes les tables numériques) :
1. Les opérations de traitement du signal sont effectuées dans le domaine numérique, et les
artefacts dus aux conversions répétées des CNA et des CAN sont évités.
2. Les tableaux de bord peuvent être redéfinis pour utiliser un moindre nombre de molettes de
réglage. Au lieu d’avoir un bouton pour chaque circuit (jusqu’à 4 000 molettes, boutons et
curseurs sur les tables de grande taille), des molettes de réglage assignables manipulent dif-
férents paramètres à différents moments. Une possibilité de contrôle centralisée est accessible
par n’importe quel canal (figure 2.8), ou bien un fader peut être assigné pour contrôler
n’importe quel nombre de canaux d’entrée.
3. Les tableaux de bord et le matériel de mixage peuvent être séparés, et donc un tableau de bord
numérique prend beaucoup moins de place que n’en prendrait une table analogique.
4. Les effets numériques tels que les retards, la réverbération et les traitements de la gamme
dynamique peuvent être intégrés à la table.
5. D’autres technologies numériques comme l’automatisation des faders, l’acheminement auto-
matique du signal, les indicateurs graphiques, l’impression sur papier, les communications
en réseaux et les interfaces informatiques peuvent tous être facilement intégrés au système
puisque tous ces éléments « parlent en numérique ».
6. Au niveau où le système est basé sur un logiciel (c’est-à-dire utilise des programmes ou des
microcodes pour contrôler le matériel), celui-ci peut être mis à jour pour offrir des amélio-
rations ou de nouvelles fonctionnalités.
7. Si le matériel de mixage est flexible, il peut être reconfiguré grâce à un logiciel pour adapter
les différents nombres de canaux d’entrée et de sortie, les égaliseurs, etc., pour être en confor-
mité avec les besoins des différentes séances. Un studio peut conserver une douzaine de
« patchs » ayant différentes configurations pour chaque type de séance de studio.
8. Les sous-programmes de diagnostic du logiciel peuvent repérer et afficher les conditions et les
exemples de comptes rendus d’erreurs afin qu’un technicien puisse ultérieurement effectuer
son analyse.
Section d’assignation
des bus de sortie
1/2 7/8 13/14
3/4 9/10 15/16

PAN
5/6 11/12 G/D
Égaliseur
paramétrique
Processeur de
domaine dynamique
16000 -- 80
Attaque Seuil Rapport Extinction
Hz Hz Hz 2 30 1:1.5 40
+1 -- +2
ms dB X:Y ms
dB dB dB
.1 -- .2
Extension
Q Q Q Limitation Compression Extension
avec seuil
A A A A A A A A
Mic 1 Violons Perc 1 Perc 2 Cuivres Bois Voix 1 Voix 2

Faders de canaux
Figure 2.8 – Dans une table assignable, chaque canal d’entrée possède un fader,
mais la table ne possède qu’un seul élément de contrôle pour l’égalisation, la dynamique, l’assigna-
tion de bus de sortie, etc. L’accès à un contrôle sur un canal se fait en appuyant un bouton d’assi-
gnation (marqué A) au-dessus du fader désiré. Ceci commute le contrôle sur ce canal. Dans cette
figure, le canal 2 a accès à deux unités d’égalisation paramétrique et à un extenseur de gamme
dynamique, et dirige sa sortie vers plusieurs bus. Des potentiomètres rotatifs sans fin sont des
contrôles d’assignation idéaux.
2.4.1 Comparaison des tables de mixage autonomes

et des stations de travail audio
Il existe deux architectures matérielles distinctes : celles possédant des fonctions fixes et celles
possédant des fonctions variables. Ces différences internes se reflètent en général dans l’emballage
extérieur et dans les opérations des systèmes de mixage numériques. Les systèmes à fonctions fixes
sont souvent conçus comme des tables de mixage autonomes optimisées pour certaines fonctions
audio qu’elles effectuent d’une façon particulièrement efficace (figure 2.9a).
Les stations de travail à fonctions variables opèrent sous le contrôle d’un ordinateur hôte standard
(figure 2.9b). Ils peuvent ainsi faire tourner une bien plus grande quantité de logiciels et se con-
nectent facilement à des périphériques. Contrairement à l’unité autonome, la table de mixage
matérielle peut être constitué d’une carte ou d’une boîte à circuits se connectant à l’ordinateur avec
des faders pour contrôler les paramètres audio en temps réel. L’avantage d’avoir plusieurs logiciels
peut cependant être illusoire, si ceux-ci ne fonctionnent pas bien ensemble.
2.5 Enregistrement et mixage multipiste

Les premiers enregistrements étaient monophoniques — c’est-à-dire enregistrés sur un seul canal.
La reproduction du son était donc également monophonique, en général avec un seul haut-parleur.
L’enregistrement stéréophonique (deux canaux) fut expérimenté dans les années 1930 (Blumlein,
1931 ; Keller, 1981), et pendant des années les enregistrements furent effectués sur un ou deux
canaux. Les interprétations étaient enregistrées en direct, et les balances relatives des différentes
sources sonores étaient fixées au moment de l’enregistrement.
Au contraire, les enregistreurs multipistes ont plusieurs canaux séparés ou pistes, et chacune d’entre
elles peut être enregistrée à un moment différent. Dans le reste de cette partie, nous examinerons
brièvement l’histoire de l’enregistrement multipiste, nous décrirons ses avantages, et considérerons
également les problèmes de remixage qu’il pose.
2.5.1 Enregistrement multipiste : origines

En collaboration avec la société californienne Ampex Corporation, le guitariste Les Paul fut un des
pionniers du concept de l’enregistrement avec lecture synchrone grâce à la technique multipiste
dans les années 1950 (Bode, 1984). Les enregistreurs à bande multipistes furent introduits sur le
marché en 1960. Cette année-là, Karlheinz Stockhausen utilisa un enregistreur quatre pistes Tele-
funken T9 dans les studios de la Westdeutschen Rundfunks (WDR) pour réaliser sa pièce de musique
électronique Kontakte (Stockhausen, 1968 ; Morawska-Büngeler, 1988). En 1964, la compagnie
suisse Studer produisit son premier enregistreur à bande quatre pistes, qui fut envoyé au produc-
teur George Martin pour la réalisation du célèbre album des Beatles Sgt. Pepper’s Lonely Hearts Club
Band.
Le chapitre 1 raconte l’histoire de l’enregistrement multipiste numérique. Les enregistreurs numéri-
ques professionnels à bande actuels peuvent enregistrer plus de 48 canaux audio. S’il y a besoin de
plus de canaux, plusieurs machines peuvent être synchronisées. Bien que certains enregistreurs mul-
tipistes professionnels soient très chers, l’enregistrement multipiste numérique dans un petit studio
est possible en utilisant des enregistreurs à vidéocassettes ou des stations de travail à disques durs.
2.5.2 Avantages de l’enregistrement multipiste

Le support d’enregistrement multipiste offre une grande flexibilité à plusieurs étapes de l’enre-
gistrement. Tout d’abord, les ingénieurs du son peuvent placer chaque source sonore sur une piste
(a)
(b)
Figure 2.9 – Comparaison des tables autonomes et des stations de travail

à fonctions variables. (a) Une table autonome, la Solid State Logic 01, conçue pour le mastering
de disques compacts. La partie gauche ressemble à une table de mixage analogique. (b) Une station
de travail audio multipiste (Studer Dyaxis II), travaillant en collaboration avec un ordinateur person-
nel (Apple Quadra sur la gauche) qui peut faire fonctionner une grande variété de logiciels. Parmi les
autres périphériques du studio numérique de mixage, nous trouvons un magnétophone numérique
huit pistes (à la droite de l’écran). Au-dessus de celui-ci se trouve un enregistreur de disque com-
pact. À leur droite se trouvent deux enregistreurs DAT professionnels (avec l’aimable autorisation de
Cornelia Colyer, Center for Computer Music and Music Technology, Kunitachi College of Music, Tokyo).
séparée. Au lieu de tenter d’équilibrer tous les canaux lorsque le son est enregistré, ils peuvent
remettre l’équilibrage des niveaux à l’étape de remixage.
Pour la musique synthétisée, l’approche multipiste de l’enregistrement et la possibilité de superposer
des pistes sont très attrayantes. L’enregistrement numérique permet la possibilité de « ping-pongs
de pistes » (mixage de plusieurs pistes sur une seule, sur une même machine et en même temps) et
l’enregistrement avec lecture synchrone sans perte de génération (c’est-à-dire le bruit ajouté à
chaque copie — une contrainte sérieuse du support analogique).
Certains systèmes offrent des possibilités numériques son sur son. Dans un enregistrement son sur
son, un nouveau signal sonore (par exemple un signal à deux canaux) est simplement ajouté à un
signal existant pour créer un nouveau signal à deux canaux. En ajustant avec précision l’équilibre
entre l’ancien et le nouveau signal, des textures complexes peuvent être construites, ou un filigrane
compliqué des filaments sonores peut être créé étape par étape.
2.5.3 Problèmes posés par le mixage multipiste

Bien qu’elle rende l’enregistrement plus flexible, la technologie multipiste n’est pas une panacée.
Afin de tirer avantage de l’indépendance offerte par les multiples canaux, les sons sur un canal doivent
être des sons étant enregistrés simultanément sur les autres canaux. Pour approcher cet idéal, les
ingénieurs du son utilisent des cabines isolées, des écrans, des microphones directionnels, et des
portées courtes de microphones pour obtenir une isolation maximale. Les signaux des instruments
électriques et électroniques sont directement envoyés dans les pistes individuelles, sans utilisation
de microphones.
Lorsque ces sources isolées sont ajoutées, le résultat est une perspective sonore nettement artificielle.
En particulier lorsqu’elle est écoutée avec un casque, chaque piste sonne comme si l’oreille
était à quelques centimètres des différents instruments. Pour les musiques où le but est de créer une
scène sonore synthétique (comme dans les musiques populaires ou électroniques), cette
situation n’est pas nécessairement un problème. Pour fusionner les pistes individuelles en une scène
sonore unifiée, les ingénieurs du son ajoutent une réverbération globale et positionnent soi-
gneusement les panoramisations et les positions spatiales dans le plan stéréophonique. Si nous ne
souhaitons pas « unifier » ces diverses sources sonores, nous pouvons créer des espaces artifi-
ciels fantastiques et détachés de ce monde en appliquant des effets de spatialisation aux pis-
tes individuelles.
Quoi qu’il en soit, lorsque le but est de recréer une image sonore que l’auditeur pourrait enten-
dre dans une salle de concert, l’approche multipiste n’est pas idéale. Ceci est le cas avec la plu-
part des musiques acoustiques (orchestres, ensembles, solistes, chanteurs). En réaction aux prati-
ques multipistes, certains ingénieurs du son sont revenus à une approche plus « puriste » de
l’enregistrement, en utilisant moins de microphones et moins de pistes (Streicher et Dooley
1978). Le succès dans l’approche puriste nécessite que l’ingénieur positionne de façon appro-
priée les musiciens et les microphones dans une salle ayant une bonne sonorité. Ceci donne plus
d’importance à la technique d’enregistrement originelle, car le mixage est essentiellement déter-
miné au moment de l’enregistrement.
2.6 Écoute audio

L’écoute audio est importante lors de l’enregistrement et du mixage. Plusieurs philosophies de l’écoute
coexistent. Il est possible d’avancer des arguments pour chacune, mais le choix se fait finalement
en fonction des goûts et du budget.
2.6.1 Casque
Pour l’enregistrement sur site (en dehors du studio), où il n’existe pas de pièce séparée pour l’écoute,
le casque est la seule option. Mais l’usage du casque ne se limite pas à l’enregistrement sur site. L’écoute
avec un bon casque revient à voir le son à travers des lunettes grossissantes. Le casque est la meilleure
façon de vérifier un enregistrement pour trouver des défauts subtils tels que points de coupure,
clics, bruits, distorsion et problèmes de phase, qui ne seraient sans doute pas aussi nets avec une
écoute par haut-parleurs à niveau moyen.
2.6.2 Écoute par haut-parleurs
Les haut-parleurs et les salles travaillent ensemble. Dans cette partie, nous examinerons trois types
d’environnements d’écoute par haut-parleurs : l’écoute de proximité, l’écoute de cabine de contrôle et
l’écoute de salle. En faisant la distinction entre ces trois environnements, nous ne voulons pas dire
qu’ils sont les seuls — il existe de nombreuses variations. En général, les sentiments sur les environ-
nements d’écoute évoluent avec les modes audio du moment.
(a)
(b)
"Cône de vigilance"
x
(c)
x x
Figure 2.10 – Trois environnements d’écoute.

(a) Dans un environnement d’écoute « de proximité », de petits haut-parleurs sont placés à un ou
deux mètres de l’auditeur. (b) Dans un environnement de cabine de contrôle, de gros haut-parleurs
sont installés sur les murs à une distance de trois à cinq mètres de l’auditeur, situé pour sa part dans
un « cône de vigilance » au milieu de la table. (c) Dans un environnement d’écoute de salle, de grands
haut-parleurs placés sur le sol sont positionnés à une distance de deux à cinq mètres de l’auditeur.
✦ Écoute de proximité
Dans les petits studios ou les appartements, les écoutes de proximité sont répandues (figure 2.10a).
Les écoutes de proximité sont également utilisées dans les grands studios où l’ingénieur du son
souhaite écouter comment la musique sonnera sur des haut-parleurs similaires à ceux qui existent
dans les systèmes d’écoute des particuliers. Placées au-dessus ou à proximité de la table de mixage
au niveau de l’oreille, ces petits haut-parleurs dynamiques devraient être à une distance inférieure
à deux mètres de l’ingénieur du son. Dans cette configuration, le son direct des haut-parleurs est
prédominant par rapport aux sons indirects reflétés par la pièce. La petite taille des écoutes de proxi-
mité est importante, car l’auditeur est si près de l’unité que l’écoute doit projeter une image spatiale
« fusionnée » ; cet effet ne peut être accompli à proximité d’un grand haut-parleur ayant plusieurs
voies, où le tweeter (voie des fréquences aiguës) peut être situé à plus d’un mètre du boomer (voie des
fréquences graves).
Un des problèmes sérieux avec les écoutes de proximité est leur manque de réponse en fréquences
graves en raison de leurs petites tailles. Deux ou trois octaves de son peuvent manquer ou être forte-
ment atténuées dans la reproduction par des écoutes de proximité.
✦ Écoute en cabine de contrôle

Une autre approche de l’écoute audio provient de la conception des studios d’enregistrement tra-
ditionnels, qui sont divisés en deux parties : le studio — où sont placés les musiciens, et la cabine
de contrôle — où sont placés l’ingénieur du son et la table de mixage. L’approche de l’écoute en
cabine de contrôle implique l’installation des haut-parleurs sur le mur situé en avant d’un environ-
nement traité acoustiquement (figure 2.10b). Chaque voie du haut-parleur peut être amplifiée sépa-
rément ; ceci est appelé biamplification ou triamplification, selon le nombre de voies du système de
haut-parleurs. Le système entier (y compris la cabine) est égalisé pour une obtenir une réponse plate
en un « cône de vigilance » centré sur la tête de l’ingénieur. L’approche par cabine de contrôle permet
une écoute à des niveaux de pression sonore élevés, ce qui est typique des grands studios de variété.
✦ Écoute en salle
L’approche par salle place les haut-parleurs d’écoute sur le sol, ou juste au-dessus, dans un environ-
nement plus familier, comme cela est en général le cas dans les salles de séjour (figure 2.10c). La
pièce peut être traitée acoustiquement, mais jamais aussi radicalement que dans les cabines d’écoute
des studios de variété. Les haut-parleurs sont des modèles de grande taille ayant une courbe de
réponse plate et une image spatiale précise. Des haut-parleurs dynamiques à trois voies (tweeter,
médium et boomer) ou électrostatiques très fins projettent le son. L’approche de la salle de séjour
est préférée par de nombreux ingénieurs du son et producteurs classiques pour l’écoute à des niveaux
moyens. La figure 2.11 montre une variation de cette approche dans un studio de mastering de
disques compacts. Le rectangle au centre du mur est un panneau de diffusion qui disperse les ondes
sonores de façon irrégulière. Ceci aide à casser les résonances de la pièce.
2.6.3 Mixage et écoute en concert

Du point de vue du jugement de ce qui le public entend, la meilleure position pour le mixage d’un
concert diffusé par des haut-parleurs est située au milieu de la salle, parmi le public. La question
de configuration des haut-parleurs reste ouverte, et elle est avant tout une décision artistique. Une
autre question esthétique apparaît lors de la présentation d’instruments acoustiques en combinaison
avec des sons électroniques. Doivent-ils être mélangés ou doivent-ils être séparés ? Voir Morrill
(1981b) pour une présentation de ces questions par un compositeur ayant écrit de nombreuses
Figure 2.11 – Exemple d’un environnement de « salle »

dans un studio de mastering de disques compacts
(avec l’aimable autorisation de John Newton au Soundmirror, Boston).
pièces pour instruments et sons générés par ordinateur. Voir le chapitre 7 pour davantage de détails
sur la projection du son dans l’espace.
2.7 Automatisation du mixage

Remixer un enregistrement multipiste peut être compliqué, dépassant très rapidement les capacités
physiques d’un seul être humain. Jusqu’au développement de l’automatisation du mixage, un mixage
multipiste compliqué (comme une bande-son de film) pouvait impliquer jusqu’à quatre personnes
travaillant sur une seule table. Le bénéfice de l’automatisation du mixage est qu’un seul ingénieur
peut effectuer un mixage compliqué en un certain nombre d’étapes simples. Par exemple, l’ingénieur
peut commencer en mixant deux programmes stéréophoniques, sur les pistes 1-2 et 3-4. Le système
d’automatisation construit à l’intérieur de la table de mixage enregistre l’information de contrôle
nécessaire à la restitution de ce mixage en temps réel. Lorsque la première étape est effectuée, un
autre programme stéréophonique (5-6) peut être ajouté au mixage. À chaque étape du mixage, les
données de mixage entrées précédemment sont restituées afin que le mixage soit construit par
incréments. Le mixage audio en entier n’est enregistré que lors de l’étape finale.
L’étendue de l’automatisation varie selon les tables de mixage. « Automatisation » peut faire réfé-
rence à des éléments aussi divers que la reconfiguration de la table par enfoncement d’un bouton,
l’automatisation des faders (restituant le mouvement des faders de canaux dans le temps), ou la
mémorisation de toutes les fonctions et de toutes les configurations entrées dans une grande table
de mixage pour une séance entière.
Les systèmes d’automatisation à fonctions complètes lisent toutes les configurations de la table de
nombreuses fois par seconde. Lors de cette lecture, la position courante d’un fader ou d’un bouton
est comparée à la représentation stockée de la lecture précédente. Si la position a changé, un flot de
données est envoyé, identifiant le contrôle et la nouvelle position. Lors de la lecture, l’ordinateur de
la table met à jour les contrôles de la table à partir de la mémoire au même taux. L’ingénieur peut,
à n’importe quel moment, outrepasser les configurations stockées en ajustant manuellement la
molette de contrôle désirée.
2.7.1 Contrôle MIDI des tables de mixage audio :

raccordement et coupure de canal
Bien qu’elle n’ait pas été créée pour l’automatisation des tables de mixage, la spécification MIDI 1.0
a eu un impact sur la conception des tables de mixage, particulièrement sur celles équipant les petits
studios. Les fonctions de configuration de la table peuvent facilement être exportées grâce au contrôle
MIDI. Par exemple, les messages de changement de programme MIDI peuvent reconfigurer l’assi-
gnation des entrées/sorties de la table, ou bien couper certains canaux à des temps donnés. Dans ces
cas, un microprocesseur bon marché intégré à la table interprète les messages et modifie les com-
mutations internes de la table pour effectuer les changements désirés.
La coupure de canal est une technique de production importante dans la musique de variété, où
elle est utilisée en combinaison avec l’enregistrement multipiste sur bande. Imaginez par exemple
une piste de batterie enregistrée sur trois canaux différents, chacun ayant un effet différent appliqué
à la batterie. En coupant les canaux de façon dynamique avec un séquenceur MIDI, on peut insérer
des effets de batterie différents sur différentes parties du rythme. Une autre application répandue
de la coupure est de faire plusieurs prises d’une interprétation vocale sur différentes pistes et d’utiliser
la coupure pour sélectionner les meilleures parties de chacune.
Mais la configuration et la coupure ne sont que deux fonctions parmi les douzaines qui apparaissent
lors d’un mixage, y compris les variations continues des faders, l’égalisation, la panoramisation et
les effets. Le taux de données limité du MIDI ne permet pas d’automatisation dynamique à fonctions
complètes du type de celles utilisées sur les grandes tables professionnelles (Cooper, 1989 ; Rogers,
1987 ; McGee, 1990). Le MIDI peut prendre en main les fonctions d’une petite table, mais il ne peut
ni les gérer toutes en même temps, ni de façon continue. Les tables contrôlées par MIDI nécessitent
des compromis afin de réduire le taux de données dans le domaine accepté par le MIDI.
L’automatisation de table est en général pilotée par un séquenceur dédié exclusivement à cette
tâche. Puisqu’il n’existe pas de norme pour l’automatisation de table MIDI, trois schémas de base
sont utilisés, chacun employant une catégorie différente de messages MIDI : changement de pro-
gramme, note/vélocité et code temporel MIDI.
Un exemple de l’utilisation des messages de changement de programme MIDI est donné par les sys-
tèmes MCA (MIDI-controlled attenuator — atténuateur contrôlé par MIDI) (figure 2.12). Les MCA
représentent une solution bon marché au problème de l’automatisation des faders dans un petit
studio. Le système (en général de huit à seize canaux audio) se connecte sur les entrées d’une table
analogique traditionnelle. Un séquenceur MIDI envoie les messages de changement de programme
aux canaux individuels du MCA, ce qui fait changer l’amplitude des canaux. La programmation
d’un mixage revient alors à créer et sauvegarder des clichés statiques ou « scènes » pour chaque point
dans la musique où les changements de position des faders doivent apparaître. Dans certains sys-
tèmes, il est possible de spécifier un temps de fondu enchaîné, durant lequel le système change
Audio analogique
(en général
d’un magnétophone) Logiciel
de séquence
Données
MIDI
MCAs Ordinateur
personnel
Sortie
analogique
Console analogique ordinaire
Figure 2.12 – Réglage pour une séance de remixage avec un système d’atténuateur
contrôlé par MIDI (MCA) pour une table analogique 6/2. Les niveaux de la table analogique restent
inchangés, tandis que l’ingénieur du son manipule les niveaux sur la table MCA. Alors même que le
mixage de chaque piste est retravaillé, les données de contrôle sont enregistrées sur une piste dans
le séquenceur MIDI, ce qui permet à un mixage complexe d’être construit étape par étape.
automatiquement de l’ancienne à la nouvelle configuration — simulant une sorte de contrôle quasi

continu.
Une autre approche est d’assigner à chaque molette ou bouton de contrôle de la table un message
de note MIDI. Lorsque l’ingénieur du son change une position de molette, la table envoie des évé-
nements de note indiquant un changement de cette molette. Comme chaque événement de note
MIDI est associé à une « vélocité » 7 bits, cette valeur de vélocité est interprétée comme la nouvelle
valeur de la molette. Sept bits signifient que 128 valeurs de fader peuvent être représentées, ce qui
peut donner des effets d’enchaînement « échelonnés » en raison de la faible résolution du fader.
La troisième approche de l’automatisation de table MIDI implique l’envoi de messages clés par le
code temporel MIDI (voir la partie sur ce code plus loin dans le chapitre). Les messages clés sont
envoyés à l’avance du temps d’action. Ils peuvent par exemple dire à la table de commencer un
enchaînement à un certain taux à un point particulier du code temporel.
2.8 Synchronisation du mixage audio et de la vidéo

Cette partie présente un sujet d’importance croissante dans les studios de mixage : la synchronisation
de plusieurs machines. Dans ce cas, elle signifie que le fonctionnement d’un ou plusieurs appareils
est simultané et parallèle. Une application typique de la synchronisation survient lors de la post-
production vidéo (mixage de la bande-son et de la production vidéo). Ici, le but est de synchroniser
un enregistreur multipiste audio (contenant les dialogues, les effets sonores, et les pistes de musique
sur des canaux séparés) avec une production vidéo montée. La machine audio doit suivre la lecture
vidéo pour que l’on puisse voir et écouter de façon synchronisée l’image et le son.
Plus loin, dans la partie sur le code temporel MIDI, nous présentons plusieurs autres applications
de la synchronisation, telles que le contrôle de séquenceurs, d’effets et de lecture de fichiers son par
MIDI. Cette partie ne présente pas un autre type de synchronisation, que l’on appelle synchronisation
par horloge d’échantillonnage pour l’audionumérique.
2.8.1 Synchronisation de plusieurs machines

La synchronisation de plusieurs machines les relie par des câbles à un synchroniseur — un outil
standard dans les configurations de postproduction audio/vidéo et devenant de plus en plus répandu
dans les studios de musique. La tâche du synchroniseur est de lire le code temporel déjà enregistré
sur les machines et de s’assurer qu’une machine suit les autres. Le code temporel étiquette une piste
spéciale sur chaque machine avec une adresse d’identification unique appelée une image. Chaque
image retient sa propre identité, rendant des opérations telles que le montage et la synchronisation
efficaces et précises jusqu’au niveau de l’image. Voir plus loin la partie sur le code temporel SMPTE.
Le synchroniseur enchaîne le comportement d’une machine appelée le maître aux autres machines
appelées les esclaves, en suivant les positions de code temporel sur le maître. Dans le cas des enregis-
treurs à bande, le synchroniseur effectue cela en contrôlant le transport de bande des machines escla-
ves. Lorsque le maître se déplace à une position donnée du code temporel, la machine esclave le suit.
Dans les systèmes à disque dur, le synchroniseur accomplit la même tâche en disant au contrôleur
de disque de l’esclave d’accéder aux adresses spécifiées. Par exemple, certains enregistreurs à disque
peuvent être programmés pour lire des fichiers son lorsqu’ils lisent certaines adresses de code tem-
porel provenant de la machine maître.
Synchroniseur
Esclave Maître
Contrôle du code du code
du transport temporel temporel
Magnétophone Magnétoscope
multipistes professionnel
Audio ... Audio

non mélangé mélangé
Section d’entrée Section de sortie
Console de mélange
Figure 2.13 – Configuration de postproduction audio/vidéo pour le remixage

d’une bande-son située sur un enregistreur audio multipiste vers un magnétoscope professionnel.
Le multipiste audio et le magnétoscope sont tous deux raccordés à un synchroniseur. Dans ce cas,
le magnétoscope est le maître et le multipiste audio l’esclave. C’est-à-dire qu’une bande lue sur le
magnétoscope envoie un code temporel au synchroniseur, qui à son tour contrôle le transport de
l’enregistreur multipiste.
La figure 2.13 montre un schéma typique de la postproduction audio/vidéo — le processus de dis-

position en couches des effets sonores, du dialogue et de la musique sur une bande vidéo. Un enre-
gistreur multipiste audio et un enregistreur à bande vidéo professionnel sont reliés au synchroniseur.
Une piste du multipiste audio et une piste du magnétoscope contiennent chacune le code temporel
qui a été séparément écrit sur chaque bande par un générateur de code temporel. Les sons du multi-
piste audio à un point donné correspondent aux images du magnétoscope.
Lorsque l’ingénieur avance la bande vidéo, le synchroniseur lit la nouvelle position de code temporel
et dit à l’enregistreur multipiste audio de le suivre aussi précisément que possible. Pour enregistrer
de l’audio sur la bande vidéo, l’ingénieur appuie sur un bouton du magnétoscope lorsque le multi-
piste audio commence à lire. L’ingénieur mixe les pistes provenant du multipiste et en fait une version
stéréophonique pour le magnétoscope. Ce mixage peut également être automatisé lors d’une étape
séparée de la production.
2.8.2 Code temporel SMPTE

Les normes de formats de code temporel sont toutes regroupées sous le nom de code temporel
SMPTE. Le nom SMPTE provient de Society of Motion Picture and Television Engineers, l’orga-
nisme ayant étudié et normalisé un signal pouvant décrire les images vidéo. Il existe deux variétés
du code temporel SMPTE : le code longitudinal (LTC) enregistré horizontalement sur le côté de la
bande, et le code vertical (VITC) enregistré sur une image d’une bande lue en spirale. La lecture en
spirale fait référence aux magnétoscopes usuels dans lesquels les têtes de lecture et d’enregistrement
sont en rotation verticale tandis que la bande passe horizontalement devant elles. Le code temporel
longitudinal peut lui-même être divisé en 24 images/seconde (film), 25 images/seconde (PAL),
30 images/seconde (noir et blanc), et 30 images/seconde « drop frame » (NTSC). Le taux de données
du SMPTE est de 2 400 bits par seconde.
L’avantage du VITC est qu’il peut être lu sur une bande à l’arrêt. Un système à disque dur peut utiliser
n’importe quel format SMPTE, mais dans les applications de synchronisation il est important de
spécifier le taux d’image correct, ou bien des problèmes audibles peuvent survenir en raison de chan-
gements dynamiques dans la base temporelle.
Tous les formats SMPTE représentent le temps sous forme d’un nombre 80 bits ayant des champs
pour les heures, les minutes, les secondes et les images. Par exemple, le code SMPTE « 01:58:35:21 »
signifie 1 heure, 58 minutes, 35 secondes et 21 images. Comme le code en lui-même n’occupe pas
les 80 bits, il reste de la place pour coder d’autres informations, comme le temps écoulé, les nombres
d’index ou les étiquettes. Lorsqu’un événement est marqué avec un code temporel SMPTE, celui-ci
devient une adresse permanente pour cet événement. Pour plus de détails sur le code temporel
SMPTE, voir Hickman (1984).
Comme nous l’avons précédemment expliqué, dans une configuration standard, chaque machine
à synchroniser écrit une forme de code temporel SMPTE sur une piste. De nombreux enregistreurs
possèdent une piste spéciale dédiée spécifiquement à l’enregistrement du code temporel SMPTE.
Les machines esclaves suivent le code temporel lu à partir de la machine maître.
2.8.3 Code temporel MIDI

Le MIDI peut également être utilisé pour le mixage quasi synchrone. Les retards de transmission
inhérents au MIDI empêchent toute synchronisation à la milliseconde près. Les applications typiques
sont les suivantes :
1. Un clavier MIDI peut contrôler plusieurs synthétiseurs et échantillonneurs pour que le son
de plusieurs synthétiseurs liés par MIDI puisse être mélangé lorsque le musicien utilise le
clavier de contrôle.
2. Un séquenceur MIDI peut stocker une série de notes dont la lecture est déclenchée à un certain
point du mixage.
3. Un séquenceur peut également stocker une série précédemment codée de changements de
programme pour une unité d’effets contrôlable par MIDI. De cette façon, des séquences d’effets
complexes peuvent être appliquées automatiquement aux sons qui sont mixés. Une autre
variation consiste à contrôler les coupures de canaux par MIDI.
4. Certains systèmes utilisant des fichiers son stockés sur ordinateur peuvent lire une série de
fichiers son en réponse à un message de déclenchement envoyé par MIDI.
La principale question technique des applications (2), (3) et (4) est la suivante : comment déclenche-
t-on le départ des séquences MIDI pour obtenir une lecture quasi synchrone de la séquence avec le
reste des signaux audio ? Une méthode directe est d’appuyer manuellement sur une touche du clavier
de l’ordinateur pour initialiser la séquence. Une méthode plus homogène est effectuée grâce à une
connexion entre code temporel SMPTE et code temporel MIDI (MTC).
Dans ce dernier schéma, une piste de code temporel SMPTE est inscrite sur un enregistreur multi-
piste audio, par exemple, et relue avec les données audio des autres pistes. La piste de code temporel
SMPTE est envoyée dans un convertisseur SMPTE-MIDI. Celui-ci convertit le tempo SMPTE en
temps MTC, ce qui permet de déclencher le départ d’une séquence MIDI ou la lecture d’un fichier
son (figure 2.14). Les points de déclenchement sont appelés des commandes dans le jargon de la
synchronisation. Plusieurs programmes de séquence peuvent utiliser ce schéma.
Source de code temporel SMPTE
Convertisseur SMPTE-MIDI
Code temporel MIDI
Séquenceur
Ordinateur ou lecteur
de fichier son
Messages MIDI
Vers les appareils MIDI
Figure 2.14 – Flux logique de données dans une conversion de code temporel SMPTE-MIDI.
Une source de code temporel SMPTE, par exemple la lecture d’une vidéo, envoie un code temporel au
convertisseur. Le code temporel MIDI est interprété par un séquenceur MIDI ou par un programme
de lecture de fichiers sons, qui contrôle à son tour d’autres matériels MIDI.
Des schémas de synchronisation de musique plus étranges peuvent être développés grâce aux
logiciels d’interprétation MIDI interactifs.
2.9 Conclusion
Le mixage du son n’est qu’une étape dans le processus de production qui commence avec l’enregis-
trement, l’édition et le traitement du signal. Mais le mixage est plus qu’un métier technique ;
il demande de l’intuition et du jugement musical. Dans le studio ou sur scène, l’ingénieur joue un rôle
analogue à celui du chef d’orchestre dans une salle de concert, car il est responsable de l’équilibre
global des voix à l’intérieur d’une composition.
Le choix critique de l’environnement d’écoute se fait en grande partie en fonction du goût et des
conventions, tandis que dans l’automatisation de table ou dans la synchronisation, il existe une
relation plus linéaire entre prix, qualité et éléments. Cependant, la technologie du mixage continue
d’évoluer. Ceci est démontré par le grand nombre d’approches qui caractérisent ce milieu : tables
analogiques ou hybrides, systèmes logiciels, tables numériques autonomes, stations de travail audio.
Nous avons souhaité montrer qu’aucune de ces approches n’était idéale pour toutes les situations
de travail.
Les capacités de stockage croissantes du support numérique lui permettent de stocker des milliers
de fichiers son dans un seul système. Plusieurs centaines de fichiers peuvent être inclus dans un
seul mixage. Reste la question de savoir comment organiser et accéder à de si nombreux fichiers de
façon efficace, ce qui risque également de poser un problème aux systèmes de gestion des bases de
données audio du futur.
Chapitre 3
Transformation
de la gamme dynamique
Les techniques de la gamme dynamique transforment l’amplitude des signaux. Elles servent de
fondation à des outils tels que les modeleurs d’enveloppe, les noise gates, les compresseurs, les limi-
teurs, les extenseurs, les unités de réduction du bruit, et les compresseurs-extenseurs (McNally, 1984).
Les applications de la transformation de la gamme dynamique s’étendent de tâches très pratiques
comme le nettoyage de signaux bruiteux jusqu’à des tâches plus créatives comme le remodelage de
l’enveloppe d’un instrument ou d’une voix.
3.1 Remodeleurs d’enveloppes

La plupart des systèmes d’édition du son permettent aux musiciens de rééchelonner l’enveloppe
d’amplitude globale d’un son échantillonné. Ce rééchelonnage peut mettre en jeu un simple chan-
gement de gain (c’est-à-dire des valeurs de dB plus élevées ou plus faibles en amplitude), ou une
reconstruction de l’enveloppe globale du son. Le remodelage peut être appliqué à un objet sonore
individuel ou à une partie entière de musique.
La figure 3.1 montre comment l’attaque raide d’un son de clavecin a été arrondie par l’enveloppe
de la figure 3.1b. La partie médiane du son devient une sorte de son entretenu avant de disparaître.
3.2 Extensions avec seuil (noise gates)

L’extension avec seuil est une technique permettant de nettoyer les signaux musicaux obscurcis
par un bruit constant, tel qu’un sifflement ou un ronflement. En général, le bruit est censé être en
dessous du niveau du signal musical. L’extension avec seuil fonctionne comme un commutateur
qui est ouvert lorsque le signal musical d’amplitude élevée passe à travers, et se referme lorsque la
musique s’arrête, coupant ainsi tous les bruits résiduels du système. En particulier, lorsque
l’amplitude pic d’un signal entrant dans un extenseur avec seuil devient inférieur au seuil spécifié,
(a)
Amp.
Original
Temps
(b)
Amp.
Temps
(c)
Amp.
Temps
Figure 3.1 – Rééchelonnage de l’enveloppe d’amplitude d’un son de clavecin.

(a) Son originel. (b) Nouvelle enveloppe tracée à la main.
(c) Son de clavecin rééchelonné suivant le tracé de la nouvelle enveloppe.
l’extenseur atténue au maximum le signal d’entrée (il le coupe). La figure 3.2 montre ce processus.
Dans la partie 3.2a, un signal bruiteux disparaît jusqu’à ce que le bruit soit le seul élément restant
audible. Dans la partie 3.2b, dès que le signal descend en dessous du seuil, l’extenseur avec seuil
élimine à la fois le signal et le bruit.
Il semble évident qu’un simple extenseur avec seuil ne peut éliminer du bruit lorsque le signal
musical est encore joué, et cet outil ne fonctionne donc correctement que lorsque la musique mas-
que le signal bruiteux.
(a)
Amplitude pic Le signal

du signal musical
se fond
dans le bruit
Bruit dans le signal
Temps
(b)
Amplitude pic Le signal
du signal musical
L‘extenseur
se fond
avec seuil
dans le silence
se déclenche
Seuil
de l’extenseur
Bruit dans le signal Plancher de bruit
Temps
Figure 3.2 – Opération de l’extenseur avec seuil (noise gate).

(a) Sans extenseur avec seuil, un signal musical contenant un bruit de bas niveau se fond dans le
bruit. (b) Avec un extenseur avec seuil, le signal descendant traverse le seuil de l’extenseur, ce qui
déclenche celui-ci. Ainsi, le signal se fond dans le silence au lieu de se fondre dans un mélange de
signal et de bruit.
3.3 Compresseurs
Un compresseur est un amplificateur dont le gain (c’est-à-dire la quantité d’amplification) est con-
trôlé par le signal d’entrée. L’une des utilisations du compresseur est de conserver un signal de sor-
tie relativement constant. Lorsque le signal d’entrée s’élève au-dessus d’une limite supérieure spé-
cifiée, le compresseur atténue celui-ci.
Une bonne façon de caractériser un compresseur est d’utiliser sa fonction de transfert, qui montre
comment une valeur d’amplitude donnée envoyée dans la machine est reliée à une valeur d’ampli-
tude de sortie donnée. Cette représentation de la fonction de transfert est exactement la même que
celle utilisée pour expliquer la synthèse par distorsion non linéaire dans le chapitre 9.
La figure 3.3 montre les fonctions de transfert de plusieurs systèmes de traitement de la gamme
dynamique. Nous pouvons imaginer que le signal entre dans la boîte par le bas et en ressort par la
droite. La figure 3.3a montre une fonction de transfert parfaitement linéaire. Une valeur de –1 en bas
est liée à une valeur de –1 sur la droite ; une valeur de +1 en bas est liée à une de +1 sur la droite,
et ainsi de suite.
La figure 3.3b montre une fonction de transfert et la forme d’onde traitée avec un effet de compres-
sion relativement « doux ». Remarquez comme les pics de l’entrée sont liés à des valeurs inférieures
à la sortie de la fonction de transfert.
Fonctions Formes d’onde dans

de transfert le domaine temporel
0
(a) +1
0 Sortie
Original
-1
-1 Entrée +1 Temps
(b)
Compression
(c)
S
S Limitation
(d)
Extension
Figure 3.3 – Traitement de la gamme dynamique.

La colonne de gauche montre les fonctions de transfert associées aux différentes méthodes de trai-
tement. (a) Signal originel — un crash de cymbale avec une fonction de transfert linéaire. (b) Une
compression légère des pics abaisse ceux-ci de quelques dB. (c) Une limitation stricte aplatit les pics
pour garder ceux-ci à l’intérieur des limites de seuil indiquées par S. (d) L’extension exagère les pics,
et en crée de nouveaux par la même occasion.
3.3.1 Comparaison des détecteurs de pics et des détecteurs de moyenne

À l’intérieur du compresseur, un circuit de détection surveille l’amplitude du signal d’entrée. Les
circuits de détection des compresseurs peuvent répondre soit aux amplitudes pic, soit aux amplitudes
moyennes du signal d’entrée. Un détecteur de pics réagit aux pics d’amplitude, même si ceux-ci
n’apparaissent que pendant un court instant. Les processeurs de gamme dynamique montrés à la
figure 3.3 réagissent tous aux pics. Au contraire, un détecteur de moyenne répond plus lentement
à l’amplitude globale d’un signal, en général sur une période d’une ou deux secondes. Les détecteurs
pics réagissent rapidement, ce qui permet de s’assurer qu’il n’y a pas de débordement d’amplitude.
D’un autre côté, les détecteurs de moyenne offrent des réponses plus douces aux changements du
signal d’entrée.
3.3.2 Rapport de compression

Le rapport de compression ou rapport entrée/sortie est le rapport entre le changement du signal
d’entrée et le changement du signal de sortie. Un amplificateur ordinaire possède un rapport de
compression de 1:1. Un rapport de 4:1 signifie qu’un changement de 4 dB dans le signal d’entrée
ne causera qu’un changement de 1 dB dans le signal de sortie. Les rapports de compression supé-
rieurs à 8:1 tendent à « écraser » de façon audible le signal et à aplatir les transitoires, ce qui intro-
duit des changements du timbre.
Une forte compression est un cliché répandu dans la production de musique populaire. Par exemple,
des rapports d’environ 10:1 donnent un aspect « intime » aux voix de la musique populaire, en
raison d’une exagération des mouvements de la langue, du claquement des lèvres, du ruissellement
de la salive, et des bruits de respiration, lorsque tous les vocalismes sont échelonnés sur la même
étendue d’amplitude. Avec des instruments à cordes pincées, comme les guitares électriques, une
compression extrême crée des effets de sostenuto. C’est-à-dire que la compression réduit les tran-
sitoires de pincement tout en élevant le niveau global. Lorsque ce signal compressé est beaucoup
amplifié, comme dans le cas des guitares électriques, il renforce l’oscillation soutenue de la corde.
3.4 Extenseurs
Un extenseur est l’inverse d’un compresseur. Il transforme les petits changements du signal d’entrée
en changements plus larges dans le signal de sortie. Le rapport d’extension détermine le degré
d’extension. Par exemple, un rapport d’extension de 1:5 signifie qu’un changement de 1 dB dans le
signal d’entrée est converti en un changement de 5 dB dans le signal de sortie. L’une des principales
applications des extenseurs est la restauration de vieux enregistrements. Les systèmes de réduc-
tion du bruit contiennent souvent une paire de compresseurs-extenseurs, comme nous l’explique-
rons dans un moment. La figure 3.3d montre un effet d’extension de pics appliqué au signal
d’entrée de la figure 3.3a.
3.5 Limiteurs
La limitation est une compression extrême — où les rapports de compression sont bien supérieurs
à 10:1. Comme le montre la figure 3.3c, la relation entre l’entrée et la sortie est linéaire au-delà d’un
certain niveau. Ce niveau est indiqué par les limites de seuil positif et négatif S. En pratique, on ne
spécifie qu’une valeur absolue pour le seuil, plutôt que des limites supérieures et inférieures sépa-
rées. Au-delà de ce seuil, la sortie reste constante quel que soit le niveau d’entrée.
Les limiteurs sont utilisés dans les enregistrements de concert où il est impératif de ne pas dépasser
la gamme dynamique absolue de quelque composant que ce soit dans la chaîne d’enregistrement.
Par exemple, les enregistreurs numériques ont un seuil de niveau d’entrée absolu au-delà duquel
se produit une distorsion de coupure numérique stridente. Un ingénieur du son peut insérer un
limiteur avant l’enregistreur pour s’assurer que le seuil de celui-ci ne sera jamais dépassé.
3.6 Unités de réduction du bruit et compresseurs-extenseurs

Les unités de réduction du bruit (RB) utilisent en général un compresseur à l’étape d’entrée d’un
enregistreur et un extenseur à l’étape de sortie (figure 3.4). Pour cette raison, elles sont parfois
appelées compresseurs-extenseurs. L’étape de compression réduit les transitoires et amplifie le
reste du signal d’entrée à un niveau artificiellement élevé. À la lecture, l’étape d’extension restaure
Signal d’entrée
Unité de réduction du bruit
Enregistrement Compresseur
Enregistreur
Lecture
Extenseur
Signal de sortie
Figure 3.4 – Les unités de réduction du bruit compressent lors de l’enregistrement

et étendent lors de la lecture.
la gamme dynamique du signal originel. Comme l’enregistrement compressé contient peu de bruit
(il est enregistré à un niveau modérément élevé au-dessus du seuil de bruit de l’enregistreur),
le résultat est un enregistrement faiblement bruiteux ayant une large gamme dynamique.
La figure 3.5 montre le processus de compression-extension. La gamme dynamique de l’enregis-
trement se resserre à l’intérieur du canal bruiteux, comme dans le cas d’un enregistreur à cassette
analogique ou d’un enregistreur numérique ayant peu de bits. Le signal enregistré reste à un niveau
suffisamment élevé pour éviter le bruit du canal bruiteux, mais suffisamment bas pour éviter des
coupures et de la distorsion de débordement.
Canal bruiteux avec

compression-extension
Entrée Sortie
Coupure
Bruit
Figure 3.5 – Une unité de réduction du bruit par compression-extension

réduit la gamme dynamique entrant dans le canal bruiteux. Elle tente de maintenir le signal au-
dessus du niveau du bruit, et en dessous du niveau de coupure. L’étape finale de la compression-
extension étend de nouveau la gamme dynamique.
Certains schémas de réduction du bruit, comme ceux développés par Dolby Laboratories, effectuent
une compression et une extension selon la fréquence. C’est-à-dire que le signal d’entrée est filtré
en plusieurs bandes de fréquence, chacune étant compressée et étendue séparément — un processus

appelé séparation de bandes. En séparant la compression-extension en bandes de fréquences indi-
viduelles, chacune ayant sa propre courbe de compression et d’extension, les effets secondaires de
la compression-extension peuvent être rendus moins audibles. Seules certaines bandes, par exemple,
ont besoin d’être compressées-étendues ; le reste peut être laissé tel quel.
Les sons qui traversent des bandes de fréquence, comme les glissandos continus, peuvent cepen-
dant poser un problème à ces systèmes, car des artefacts audibles peuvent apparaître dans le cas
où les circuits de réduction du bruit de chaque bande déclenchent une opération. De plus, même
de petites irrégularités (< 1 dB) dans la réponse amplitude-fréquence des bandes peuvent conduire à
des colorations audibles du son global (Lagadec et Pelloni, 1983). Voir le chapitre 8 pour une défini-
tion de la réponse amplitude-fréquence.
3.7 Dangers de la transformation de la gamme dynamique

Il est en général difficile de toucher de façon variante dans le temps à l’amplitude d’un son sans
introduire des distorsions sur les transitoires de forme d’onde — les sommets aigus des attaques
et certaines chutes qui servent de clefs principales pour la reconnaissance du timbre. Les transitoires
peuvent facilement être estompés par les transformations de la gamme dynamique ; ces techniques
devraient ainsi être employées en gardant à l’esprit leurs effets secondaires.
Les processeurs de gamme dynamique imposent globalement des enveloppes d’attaque et de chute,
ce qui influe sur tous les sons passant à travers eux, sans prise en compte du contexte musical. Ils
réagissent à l’amplitude du signal passant à travers eux. Le retard de réaction entre la « cause »
(variation d’amplitude dans le signal) et « l’effet » (commutation en position de transformation)
est un problème bien connu. Certains systèmes réduisent cet effet en retardant légèrement le signal
d’entrée et en « regardant en avant » pour voir s’il va y avoir des formes d’onde qui vont déclencher
la transformation de la gamme dynamique. Si cela est le cas, ils peuvent se commuter vers l’effet de
façon plus ou moins synchrone avec les formes d’onde. D’autres processeurs n’emploient pas de telles
prévisions. On peut changer le « seuil de déclenchement » pour le faire réagir plus rapidement,
mais alors l’effet se déclenche trop souvent, ce qui entraîne un « appauvrissement » notable du son.
Il n’existe pas de réglage optimal du seuil de déclenchement, de l’enveloppe, et du retard pour plu-
sieurs sons. Ainsi, l’ajustement de ces paramètres est en général un compromis entre une absence
de transformation d’un côté, et une distorsion audible de l’autre. Dans le cas de la compression, c’est
justement cette qualité de distorsion que de nombreux producteurs de musique populaire recher-
chent. Finalement, la compression, comme n’importe quel effet, est facilement utilisée avec abus.
Chapitre 4
Les filtres numériques
Un comité d’ingénieurs spécialisés en traitement du signal a défini un filtre de la façon suivante :

Un filtre numérique est un processus ou un algorithme de calcul grâce auquel un signal numérique ou
une séquence de nombres (agissant comme entrée) est transformé en une seconde séquence de nombres
appelée le signal numérique de sortie. (Rabiner et coll., 1972)
Ainsi, n’importe quel matériel ayant une entrée et une sortie est un filtre ! L’utilisation la plus
répandue de ce terme décrit des outils qui amplifient ou atténuent des régions du spectre sonore.
Les réverbérateurs ou les lignes à retard numériques sont également des filtres. Ceci doit suggérer
qu’en fait un filtre ne change pas seulement le spectre d’un signal d’entrée, mais également sa struc-
ture temporelle — soit sur une échelle fine (retardement de certaines régions fréquentielles de
quelques millisecondes), soit sur une échelle plus grande (retardement du signal entier de plusieurs
centaines de millisecondes).
4.1 Présentation de la théorie des filtres aux musiciens

La théorie du filtrage numérique est une spécialité se situant principalement dans un milieu mathé-
matique, éloigné de l’expérience humaine. L’équation d’un filtre numérique, par exemple, ne révèle
pas nécessairement ses qualités audio. Ceci est malheureux, car la perception et l’émotion s’attachent
attentivement aux effets des filtres. Le sujet profond de l’esthétique du filtrage est rarement évoqué
dans la littérature du traitement du signal (Gerzon, 1990, Rossum, 1992, et Massie et Stonick, 1992,
sont des exceptions), même si l’impact des filtres sur le son musical peut être soit sublime soit hor-
rible. Les musiciens parlent des filtres comme étant « durs », « chauds » ou « musicaux » en tentant
de décrire ces différents effets. Une terminologie peut être plus précise évoluera lorsque cet art
parviendra à maturité.
Entre notre expérience subjective des filtres et leur implémentation pratique se tient la forêt de la
théorie. Des myriades de représentations expliquent l’opération des filtres. Les textes d’ingénierie
électrique décrivent inévitablement les filtres par la transformée z. La transformée z trace les effets
des retards d’échantillons sur une image bidimensionnelle du domaine fréquentiel appelé le plan
complexe z. Les pôles au dessus de ce plan représentent les pics de résonance, tandis que les zéros
représentent les points d’amplitude nulle. Un filtre bipôle, par exemple, possède deux pics de réso-
nance. La transformée z est un concept essentiel pour les concepteurs professionnels de filtres,
car elle fournit un lien mathématique entre les caractéristiques désirées du filtre et ses paramètres
d’implémentation. Mais le processus de raisonnement nécessaire pour expliquer la transformée z
et ses applications est long et abstrait, et n’est lié qu’indirectement aux paramètres ayant une signi-
fication physique.
Notre présentation de la théorie des filtres adoptera donc une approche plus simple et plus musi-
cale. Nous caractérisons les composants internes des filtres en termes de retards et d’opérations
arithmétiques simples sur les échantillons, ce qui correspond à la façon dont un filtre est repré-
senté dans un logiciel. Nous présentons des images du flux du signal, de la réponse impulsionnelle
et de la réponse fréquentielle pour apporter un complément aux explications. Lorsque l’on y ajoute
l’explication des concepts de base des filtres du chapitre 24, cette présentation couvre toute la connais-
sance essentielle nécessaire aux musiciens utilisant les filtres dans la composition ou en concert.
Les lecteurs souhaitant faire un trajet dans la forêt de la théorie des filtres pourront trouver des
centaines d’articles où s’aventurer. Les articles les plus orientés vers un aspect musical de la ques-
tion sont Moore (1978b, 1990), Cann (1979-1980), Smith (1985a, b) et Moorer (1981b, 1983a).
Voir également les guides sur la conception des filtres par Hutchins (1982-1988), très complets et
comportant des listes de codes. Des douzaines de livres d’ingénierie traitent des filtres, soit en totalité,
soit en partie.
Après une brève note historique, le reste de ce chapitre présente la notion fondamentale de réponse
impulsionnelle d’un filtre, et explique l’implémentation de filtres passe-bas et passe-haut simples.
Il met en contraste les deux structures de base des filtres, aborde la conception des filtres, et présente
les sections des filtres, les filtres en peigne et les filtres passe-tout.
4.2 Filtres : origines

Les premiers matériels de musique électronique utilisaient des filtres analogiques pour modeler les
formes d’onde brutes émises par leurs générateurs de son, un processus nommé formation sous-
tractive du son par Douglas (1968). Parmi les instruments les plus notables qui contenaient des filtres,
il y avait le Mixtur-Trautonium, le Solovox, le Clavioline, le Warbo Formant Organ, le Hammond
Novachord, le RCA Synthesizer et l’Ondioline (Jenny, 1958 ; Rhea, 1972 ; Bode, 1984).
Les filtres autonomes analogiques comme le filtre Albis Tonfrequenz (figure 4.1) étaient des com-
posants standards des studios de musique électronique comme celui de la Westdeutschen Rundfunks
(WDR) dans lequel Karlheinz Stockhausen, Gottfried Michael Koenig, Jean-Claude Eloy, et d’autres
compositeurs ont travaillé dans les années 1950 et 1960. Plus tard, les filtres contrôlés par tension
ont été typiques de l’époque dorée des synthétiseurs analogiques modulaires (Chamberlin, 1985 ;
Rossum, 1992).
Les expériences avec les circuits de filtrage numérique commencèrent dans les années 1950. La
théorie du filtrage numérique fit un bond en avant dans les années 1960 avec l’adoption générale du
calcul de la transformée z (Kaiser, 1963 ; Rabiner et Gold, 1975). Des filtres numériques simples
apparurent dans les langages de synthèse sonore tels que Music IV et Music 4B (Mathews et Miller,
1963 ; Winham, 1966). Les synthétiseurs de grande taille et très onéreux comme le Systems Concepts
Digital Synthesizer (Samson, 1980, 1985) et la 4X de Giuseppe Di Giugno (Asta et coll., 1980) pou-
vaient réaliser des douzaines de filtres numériques en temps réel. Mais ce ne fut pas avant la fin des
Figure 4.1 – Le filtre Albis « voix-fréquence » (Tonfrequenz),

un égaliseur graphique énormément utilisé dans les studios de musique électronique
de la Westdeutschen Rundfunks (WDR), Cologne.
années 1980 que la rapidité du matériel permit l’implémentation de filtres numériques en temps
réel sur des synthétiseurs bon marché, sur des cartes de traitement du signal, sur des unités
d’effets, et sur des consoles de mélange numériques.
4.3 Réponse impulsionnelle, fréquentielle et de phase

d’un filtre
On peut voir les effets d’un filtre dans le domaine temporel ou dans le domaine fréquentiel. Les
images « précédentes » et « ultérieures » du signal montrent les effets du filtrage (figure 4.2).
Bien sûr, certaines entrées révèlent mieux que d’autres les effets du filtre. Existe-t-il un signal d’entrée
idéal qui puisse clairement caractériser la réponse de tous les filtres ? Afin de tester parfaitement un
(a)
Amp.
Temps
7500 Hz
Amp.
Fréquence
(b)
0
Amp.
Temps
4600 Hz
Amp.
Fréquence
Figure 4.2 – L’effet d’un filtre passe-bas atténuateur,

montré à la fois dans les domaines temporels et fréquentiels. (a) Segment d’un signal originel émis
par un Dulcitone (instrument à clavier anglais du dix-neuvième siècle). (b) Le même son, filtré en
passe-bas de –12 dB à 3 000 Hz. Remarquez la réduction de largeur de bande.
filtre, nous avons besoin d’un signal contenant toutes les fréquences. Le bruit blanc, qui contient
toutes les fréquences, nous dira comment le filtre répond dans le domaine fréquentiel. Mais une
mesure d’égale importance d’un filtre est de savoir comment celui-ci répond aux transitoires. Pour
cela, nous avons besoin d’une mesure de sa réponse dans le domaine temporel.
Comme Fourier l’a montré au dix-neuvième siècle, une relation inverse existe entre la durée d’un
signal et son contenu fréquentiel. Une sinusoïde de durée infinie est l’expression d’une seule fré-
quence. Si l’on raccourcit la durée de la sinusoïde, son spectre de Fourier devient de plus en plus
compliqué. C’est-à-dire qu’il nous faut ajouter toujours plus de sinusoïdes, qui finalement s’annu-
lent les unes les autres, pour créer un signal de courte durée. Ainsi, plus le signal est court, plus le
spectre est large.
Dans un système numérique, le signal le plus bref possible ne dure qu’un seul échantillon. Ce
signal contient de l’énergie à toutes les fréquences qui peuvent être représentées à une fréquence
d’échantillonnage donnée. Ainsi, une façon générale de caractériser un filtre est de voir sa réponse
pour une impulsion d’un échantillon, ce qui est une approximation de l’impulsion élémentaire ou
symbole de Kronecker abstrait et infiniment bref. Le signal de sortie généré par un filtre dans lequel
on envoie une impulsion élémentaire est appelé la réponse impulsionnelle (IR) de ce filtre. L’IR cor-
respond exactement à la réponse amplitude-fréquence du système. Le chapitre 24 explique ce
terme, appelé couramment « réponse fréquentielle ». L’IR et la réponse fréquentielle contiennent
la même information — la réponse du filtre à l’impulsion élémentaire —, mais sont tracées dans
des domaines différents. C’est-à-dire que l’IR est une représentation dans le domaine temporel et
la réponse fréquentielle est une représentation dans le domaine fréquentiel. Le lien entre ces deux
domaines est la convolution, expliquée au chapitre suivant.
La figure 4.3a montre comment un filtre amplificateur étroit élargit l’énergie d’une impulsion. En
général, une longue IR correspond à une réponse fréquentielle étroite, puisqu’un filtre étroit crée
un effet sur une période de temps significative après l’impulsion originelle. Comme nous le voyons
au chapitre 11, le « temps de retard » long des filtres étroits devient problématique dans l’analyse
spectrale. D’un autre côté, une IR courte correspond à une réponse fréquentielle large. La figure 4.3b
montre l’effet d’un filtre passe-bas de lissage.
Une autre caractéristique des filtres est leur effet sur la phase des sinusoïdes qui passent à travers
eux. La réponse de phase d’un filtre trace le déphasage (en radians) appliqué à chaque composant
sinusoïdal du signal d’entrée (Smith, 1985a). Une mesure peut-être plus intuitive est le retard de
phase, qui trace le déphasage sous forme de retard temporel (en secondes) appliqué à chaque com-
posant sinusoïdal envoyé dans le filtre.
4.4 Les filtres sous forme d’équations

En dehors des images des réponses impulsionnelles, nous pouvons également décrire un filtre numé-
rique avec une équation qui relie un signal d’entrée à un signal de sortie. La sortie de l’équation est
décrite sous forme de résultats d’additions, de soustractions, et de multiplications des échantillons
d’entrée courants et passés. Le terme technique pour ce type d’équation est l’équation différentielle
linéaire. Linéaire signifie que si l’entrée d’un filtre est la somme de deux fonctions échelonnées, la
sortie est équivalente à la somme de chacune de ces fonctions envoyées séparément dans le filtre.
Voir Rabiner et Gold (1975) ou tout autre texte sur le traitement du signal pour plus de détails sur
les équations différentielles linéaires.
Dans la littérature de traitement du signal, le signal d’entrée introduit dans le filtre est par convention
appelé x, et la sortie est appelée y. Les échantillons d’entrée et de sortie sont indexés (par exemple
Impulsion Impulsion filtrée

par passe-bande
amplificateur
76 ms
Amp. Amp.
Temps Temps
Impulsion
Impulsion filtrée
en passe-bas
Amp. Amp.
Temps Temps
Figure 4.3 – Effets des filtres sur les impulsions.

(a) Filtre passe-bande amplificateur. Sur la gauche se trouve une ligne indiquant une impulsion.
Sur la droite se trouve la même impulsion filtrée de +24 dB à 200 Hz, avec un filtre de bande étroite
(20 Hz de largeur de bande). Remarquez l’ondulation de faible niveau qui étend la réponse jusqu’à
76 ms. (b) Filtre passe-bas. Coupure de –15 dB à 1 kHz.
l’échantillon au temps n, l’échantillon suivant au temps n + 1, etc.), et l’index d’échantillon est sou-
vent mis entre crochets. Ainsi x[0] est le « zéroième » échantillon de l’entrée, x [1] est l’échantillon
d’entrée suivant, et ainsi de suite.
4.5 Filtre passe-bas simple

Un filtre passe-bas simple fait la moyenne entre les valeurs de l’échantillon d’entrée courant et la
valeur de l’échantillon d’entrée précédent. C’est-à-dire qu’il additionne l’échantillon courant et
l’échantillon précédent et divise le résultat par deux. Un filtre faisant une moyenne a tendance à lisser
les éléments saillants du signal d’entrée. De telles saillies sont des changements soudains et repré-
sentent donc des composants de haute fréquence. L’équation pour un filtre à moyenne simple est
la suivante :
y [ n ] = ( 0,5 × x [ n ] ) + ( 0,5 × x [ n – 1 ] )
ou : sortie courante = moitié de l’entrée courante + moitié de l’entrée précédente
Les constantes d’échelonnage (0,5) dans l’équation sont appelées les coefficients de filtrage.
La figure 4.4 montre un circuit réalisant cette équation.
0.5
Δ ×
Entrée × + Sortie
0.5
Figure 4.4 – Un simple filtre à moyenne atténue les hautes fréquences

jusqu’à la moitié de la fréquence d’échantillonnage. Voir le texte pour une explication de la nota-
tion utilisée dans cette figure et dans les suivantes.
Remarquez que dans cette figure et celles qui la suivent, la notation suivante est appliquée : les flèches
indiquent le flux du signal, les lignes sans flèches indiquent des entrées de coefficients (pour les mul-
tiplicateurs ou les additionneurs), le point noir indique un embranchement où le signal est envoyé
dans deux directions différentes, le signe × indique une multiplication, le signe + une addition, et le
signe Δ indique un retard d’une période d’échantillonnage.
La figure 4.5 montre la réponse fréquentielle de ce filtre, qui ressemble au premier quadrant d’une
onde cosinus. Faire la moyenne non plus sur deux échantillons, mais sur trois, quatre ou plus aug-
mente l’effet d’atténuation des hautes fréquences du filtre. Cette moyenne sur plusieurs échantillons
revient à connecter plus de deux filtres similaires en série.
1.0
Amp.
0
0 Fréquence FE/2
Figure 4.5 – Réponse fréquentielle du filtre passe-bas simple à moyenne

montré à la figure 4.4.
4.6 Filtre passe-haut simple

Nous présentons maintenant un filtre passe-haut qui atténue les fréquences graves. Ce filtre soustrait
les échantillons au lieu de les additionner, c’est-à-dire qu’il calcule les différences entre des paires
successives d’échantillons :
y [ n ] = ( 0,5 × x [ n ] ) – ( 0,5 × x [ n – 1 ] )
ou sortie courante = moitié de l’entrée courante – moitié de l’entrée précédente
Maintenant, l’échantillon de sortie y[n] est l’échantillon d’entrée courant moins l’échantillon d’entrée
précédent, divisé par deux. Un filtre passe-haut supprime les fréquences graves — là où les diffé-
rences entre les échantillons sont faibles — et il exagère les fréquences élevées, car les différences
entre les échantillons successifs sont grandes. La figure 4.6 montre le circuit réalisant cette équa-
tion. La figure 4.7 trace la réponse fréquentielle du filtre.
0.5
Δ ×
Entrée × − Sortie
0.5
Figure 4.6 – Circuit d’un filtre passe-haut simple

qui soustrait les échantillons d’entrée successifs.
1.0
Amp.
0
0 Fréquence FE/2
Figure 4.7 – Réponse fréquentielle du filtre passe-haut simple

Pour rendre ce filtre (ou le précédent) plus flexible, nous pouvons transformer les coefficients
constants de valeur 0,5 en variables a0 et a1 comme dans cette équation :
y [ n ] = ( a0 × x [ n ] ) + ( a1 × x [ n – 1 ] )
Le coefficient d’indice 0 indique un signal non retardé, tandis que l’indice 1 indique un retard d’un
échantillon. En changeant la valeur des coefficients, on modifie la réponse de fréquence du filtre.
4.7 Filtres à réponse impulsionnelle finie généraux

L’équation générique d’un tel filtre est la suivante :
y [ n ] = ( a0 × x [ n ] ) ± ( a1 × x [ n – 1 ] ) ± … ( ai × x [ n – i ] )
où ai est le dernier coefficient et x[i] est le dernier échantillon stocké. Les coefficients peuvent être
positifs ou négatifs, pour obtenir respectivement un filtrage passe-bas ou passe-haut.
Un filtre générique de ce type peut être assimilé à une ligne à retard — une unité à mémoire bouclée
qui retarde les signaux entrants de i échantillons. La mémoire de cette ligne à retard ne revient que
sur une distance finie dans le temps — i échantillons —, ce qui correspond à la longueur de la ligne
à retard. Ainsi, la réponse du filtre à un bref signal d’entrée (par exemple une impulsion) disparaît
au bout d’une période finie de temps. Pour cette raison, de tels filtres sont appelés des filtres à
réponse impulsionnelle finie (FIR).
La figure 4.8 montre la structure d’un tel filtre, qui est également appelé filtre transversal. En effet,
le signal d’entrée pénètre dans une ligne à retard de n échantillons de longueur. Le filtre multiplie
x[n]
Δ ... Δ
a0 a1 ai
× × ... ×
y[n]
Figure 4.8 – Structure d’un filtre FIR général, constitué d’une série de retards
d’un échantillon, pour que dans la dernière unité de retard, le signal d’entrée soit retardé de i échan-
tillons. Chacun de ces signaux retardés est échelonné par un coefficient correspondant a. La sortie
est la somme de tous ces échantillons retardés et échelonnés.
l’entrée et toutes ses versions retardées par des coefficients fractionnaires, puis les additionne pour
obtenir la sortie. En ajustant les coefficients, la réponse du filtre peut être contrôlée vers une fré-
quence limite inférieure équivalente à environ le taux d’échantillonnage divisé par le nombre d’étapes
de retard. Par exemple, pour une fréquence d’échantillonnage de 44,1 kHz, un filtre passe-bas FIR
à dix étapes expulse les fréquences situées à peu près au-dessus de 4 400 Hz.
+10
0
-30
Amp. en dB
-60
-90
0 .10 .20 .30 .40 .50
Fréquence en unités arbitraires
+10
0
-30
Amp. en dB
-60
-90
0 .10 .20 .30 .40 .50
Fréquence en unités arbitraires
Figure 4.9 – Tracé de la réponse fréquentielle comparant les lobes de coupure du filtrage
pour des filtres FIR de différentes longueurs. L’axe des fréquences est mesuré en unités arbitrai-
res. (a) Filtre à 15 étapes. (b) Filtre à 31 étapes. La ligne verticale indique la fréquence de coupure
(0,125). Ajouter davantage d’étapes de retards à un filtre a pour effet de resserrer son lobe de
Plus la longueur du filtre est grande, plus sa bande transitoire est étroite, et plus la coupure est raide.
Il n’est donc pas surprenant qu’un filtre plus long nécessite plus de calculs. Dans la pratique, il existe
une longueur au-dessus de laquelle on atteint une petite raideur perceptible, bien que les pics sur
les côtés du lobe principal du filtre (c’est-à-dire les pics d’ondulation) deviennent plus nombreux
et se resserrent (figure 4.9).
4.8 Filtres à réponse impulsionnelle infinie simples

Si nous envoyons la sortie du filtre dans sa propre entrée, celui-ci mélange plus de l’histoire passée
du signal que ne le peut un filtre FIR, et cela, avec moins de coefficients. Moins de coefficients
signifient moins de multiplications, et donc moins de calculs. On dit d’un filtre utilisant les échan-
tillons de sortie passés qu’il opère par réinsertion ou récursion. Puisque cette histoire est potentiel-
lement infinie, un tel filtre est appelé filtre à réponse impulsionnelle infinie (IIR) ou filtre récursif.
Un exemple de filtre IIR simple est un filtre à moyenne de temps exponentielle (ETA). Un filtre ETA
ajoute sa dernière sortie y[n – 1] à l’entrée courante x[n], puis divise le résultat par deux pour
générer le nouvel échantillon de sortie :
y [ n ] = ( 0,5 × x [ n ] ) + ( 0,5 × x [ n – 1 ] )
La figure 4.10 montre un graphique de flux du signal pour ce filtre, comportant le trajet de réinser-
tion. La figure 4.11 trace la réponse fréquentielle du filtre ETA. L’analyse de ce filtre montre qu’il est
équivalent à un filtre FIR « infiniment long » :
y [ n ] = ( 1 ⁄ 2 × x [ n ] ) + ( 1 ⁄ 4 × x [ n – 1 ] ) + ( 1 ⁄ 8 × x [ n – 2 ] )…
Comme avec les filtres FIR, on peut substituer aux constantes des coefficients variables :
y[n] = (a × x[n]) + (b × y[n – 1])
0.5
× Δ
0.5
x[n] × + y[n]
Figure 4.10 – Schéma du flux de signal pour un filtre ETA IIR

— remarquez le trajet de réinjection.
Ici, nous utilisons la convention de notation qui veut que les coefficients b modifient le trajet de
réinsertion. Lorsque b augmente, la fréquence de coupure du filtre s’abaisse. Le terme fréquence
de coupure est expliqué au chapitre 24. La valeur absolue du coefficient b doit rester inférieure à 1,
ou bien le filtre devient instable. Dans un filtre instable, les valeurs de sortie y[n] deviennent de plus
en plus grandes, ce qui résulte en un débordement numérique (nombres supérieurs aux capacités
des convertisseurs audio) et en un son distordu.
1.0
Amp.
0
0 Fréquence FE/2
Figure 4.11 – Tracé de la réponse fréquentielle du filtre ETA IIR

Un filtre récursif passe-haut simple soustrait l’échantillon d’entrée courant de l’échantillon de sortie
précédent, puis divise par deux. La figure 4.12 trace sa réponse de fréquence. L’équation du filtre
est la suivante :
y[n] = (a × x[n]) – (b × y[n – 1])
où a = b = 0,5. Dans ce cas, augmenter b revient à remonter la fréquence de coupure passe-haut,
ce qui atténue de plus en plus les fréquences graves.
1.0
Amp.
0
0 Fréquence FE/2
Figure 4.12 – Tracé de la réponse fréquentielle d’un filtre passe-haut IIR.

4.9 Filtres à réponse impulsionnelle infinie généraux

Des filtres IIR plus complexes peuvent être conçus en incorporant des échantillons d’entrée précé-
dents (multipliés par des coefficients non nuls) et de la réinsertion d’échantillons de sortie précé-
dents. La forme générale d’un filtre IIR est la suivante :
y [ n ] = ( a0 × x [ n ] ) + … ( aM × x [ n – M ] ) – ( b1 × y [ n ] ) – … ( bN × y [ n – N ] )
ce qui peut s’écrire :
M N
y[n] = ∑ ai × x [ n – i ] – ∑ bj × y [ n – j ]
i=0 j=1
4.10 Comparaison des filtres FIR et des filtres IIR

L’existence de deux types basiques de filtres (FIR et IIR) pose la question : pourquoi utiliser des filtres
FIR dans certaines applications et des filtres IIR dans d’autres ? Chacun possède ses avantages et ses
désavantages. Il est facile de concevoir un filtre FIR ayant une réponse de phase linéaire. On consi-
dère en général que cela est meilleur pour les signaux audio, car cela évite la distorsion de phase
— une dégradation de la qualité sonore due aux retards dépendants de la fréquence qui tendent à
estomper les transitoires et à rendre confuses les images stéréo. De plus, en raison du fait que les
filtres FIR n’ont pas de réinsertion, ils sont toujours stables et ne commencent jamais à osciller. Un
désavantage des filtres FIR est qu’ils demandent plus d’opérations arithmétiques et de mémoire qu’un
filtre IIR ayant des caractéristiques fréquentielles similaires. Certains filtres FIR possèdent des milliers
d’étapes de retard, comme le montrera clairement le chapitre sur la convolution. Ainsi, un filtre FIR
donné peut être plus coûteux en terme de matériel qu’un filtre IIR ayant un effet similaire.
Les filtres IIR peuvent produire des coupures et des amplifications raides, de formes exponentielles,
en utilisant beaucoup moins de calcul qu’un filtre FIR. Ceci est dû au fait que la réinsertion des
échantillons précédents dans les filtres IIR élimine un grand nombre des étapes arithmétiques et
des accès à la mémoire qui seraient nécessaires dans un filtre FIR pour obtenir le même effet. Les
filtres IIR souffrent, quoi qu’il en soit, de distorsion de phase et de résonance (Preis, 1982). La réso-
nance signifie que les transitoires tendent à exciter le filtre, ce qui fait osciller (résonner) celui-ci
pendant un moment, après le passage du transitoire dans le système. En d’autres termes, les filtres
IIR estompent les transitoires dans le temps, en rendant moins discernables les fréquences élevées
et en donnant au son un aspect dur. De plus, en raison de la nature récursive du calcul, les filtres IIR
sont plus sensibles à l’accumulation des erreurs d’approximation de l’arithmétique du filtre que les
filtres FIR correspondants.
4.11 Conception d’un filtre à partir d’une spécification arbitraire

Jusqu’à présent, nous avons présenté des exemples de plusieurs types de filtres de base, chacun
ayant ses propres caractéristiques. Quoi qu’il en soit, la tâche effectuée par les ingénieurs concepteurs
de filtres se dirige vers une autre direction. Ils se doivent de concevoir un filtre réalisable — compre-
nant des paramètres pour ses coefficients — en partant d’un ensemble de caractéristiques désirées.
Celles-ci peuvent inclure des spécifications audio telles que la réponse amplitude-fréquence, la
réponse phase-fréquence, la réponse impulsionnelle, le retard de groupe, la fréquence de coupure,
et ainsi de suite, ainsi que des contraintes pratiques telles que la longueur de mot, la vitesse de calcul,
et la compatibilité avec les logiciels et les matériels existants, sans même évoquer les contraintes
économiques.
En général, la réalisation d’un filtre à partir d’un ensemble arbitraire de spécifications est une
tâche peu banale. Même lorsque les spécifications ne sont pas en conflit, une dérivation algébrique
et numérique plus ou moins complexe doit être effectuée. Le résultat est souvent une approximation
de la spécification désirée, ce qui oblige à faire des choix qui équilibrent les caractéristiques entre
elles.
Comme nous l’avons dit plus tôt, la théorie de la conception des filtres est une vaste discipline en
elle-même, dont les stratégies sont variées et en concurrence. De nombreux textes d’ingénierie
traitent de la théorie de la conception des filtres de façon rigoureuse et détaillée, ce qui dépasse le
cadre d’un livre comme celui-ci ; ainsi, nous recommandons ces ouvrages aux lecteurs attirés par
la technique. Le texte de Rabiner et Gold (1975), que nous avons cité à de nombreuses reprises, est
un classique.
Heureusement, les détails contrariants de la conception de filtres ont été codés en systèmes de con-
ceptions de filtres automatiques (McClellan, Parks et Rabiner, 1973). Ils sont disponibles sous forme
de bibliothèques de codes (Smith, 1981) et sous forme de programmes interactifs tournants sur
des ordinateurs personnels (Hebel, 1987, 1989 ; Zola Technologies, 1991 ; Hyperception, 1992). Les
programmes interactifs permettent à l’utilisateur de spécifier la stratégie de conception et les carac-
téristiques d’un filtre tout en cachant la plupart des manipulations algébriques et numériques
nécessaires à l’implémentation. Beaucoup de ces systèmes permettent à l’utilisateur de tester le filtre
simulé sur des signaux audio.
4.12 Blocs de construction des filtres complexes

Dans tout filtre, la période de temps utilisée pour créer chaque échantillon de sortie est appelée
l’ordre du filtre. Un filtre de premier ordre, par exemple, n’a que des retards d’un échantillon, tandis
qu’un filtre de second ordre contient des retards de deux échantillons. C’est une pratique courante
de concevoir des filtres compliqués à partir d’un réseau de filtres de premier et de second ordre,
chacun d’entre eux étant relativement stable et robuste, plutôt que d’implémenter une structure plus
grande et plus délicate. Voir Rabiner et Gold (1975) pour une présentation de ce sujet.
Une section de second ordre est une structure IIR particulièrement populaire dans les systèmes
audionumériques (Shpak, 1992). En tant que filtre IIR de second ordre, il lit deux échantillons en
arrière par rapport à sa sortie y. Le terme « section » signifie que ce filtre peut être combiné avec
d’autres filtres du même type, pour former un filtre plus compliqué. Il effectue une réponse fré-
quentielle passe-bande, et il est donc souvent utilisé comme bloc de construction pour des égaliseurs
paramétriques et graphiques. En réglant certains de ses coefficients à zéro, il peut également effec-
tuer des filtrages passe-bas et passe-haut, d’où ses applications nombreuses.
La littérature spécialisée présente plusieurs formes de sections de second ordre. Nous présentons
ici la forme « la plus générale », d’après Rabiner et Gold (1975, pp. 19-20). L’équation est la suivante :
y [ n ] = ( a0 × x [ n ] ) + ( a1 × x [ n – 1 ] ) + ( a2 × x [ n – 2 ] ) – ( b1 × y [ n – 1 ] ) – ( b2 × y [ n – 2 ] )
Ici, les coefficients a échelonnent les trajets d’injection directe, et les coefficients b échelonnent les
trajets de réinsertion. Ceux-ci contribuent en général aux pics de la réponse, tandis que les trajets
d’injection directe causent les entailles.
Un autre terme pour la section de second ordre est un filtre biquadratique, en référence aux deux
formules quadratiques de son équation (une pour a et une pour b). La figure 4.13 présente un dia-
y[n-2] y[n-1]
Δ Δ
b2
× ×
a0 b1
x[n] × + y[n]
a1 a2
× ×
Δ x[n-1]
Δ x[n-2]
Figure 4.13 – Forme globale d’une section de filtre de second ordre.

Le trajet d’injection directe est situé sous le centre, et contrôlé par les coefficients a. Le trajet de
réinjection est au-dessus du centre, et contrôlé par les coefficients b.
gramme du circuit correspondant à l’équation présentée ci-dessus. Une telle conception est si com-
mune que la puissance de traitement du signal d’un système est souvent présentée grâce au nombre
de sections de second ordre que celui-ci peut réaliser en temps réel (Moorer, 1983b).
4.13 Filtres en peigne

Un filtre en peigne crée une série régulière de pics et de creux — espacés de façon égale en fré-
quence — dans le spectre du signal d’entrée. Il est appelé ainsi, car les pics et les creux évoquent
les dents d’un peigne. Les filtres en peigne FIR traitent leurs entrées précédentes, tandis que les filtres
en peigne IIR traitent leurs sorties précédentes. Nous allons maintenant expliquer les deux types
de filtres en peigne.
4.13.1 Filtres en peigne FIR

Un filtre en peigne FIR simple sépare le signal audio entrant en deux trajets et insère un retard
temporel de plusieurs échantillons D dans l’un d’entre eux, avant de les additionner (figure 4.14).
L’équation d’un filtre en peigne FIR simple est la suivante :
y[n] = x[n] + x[n – D]
La structure d’un filtre en peigne FIR est similaire à celle d’un filtre passe-bas FIR. Quoi qu’il en soit,
ni le signal originel ni le signal retardé ne sont échelonnés dans ce filtre en peigne (bien qu’ils pour-
raient l’être) ; mais le plus important est que le temps de retard D est plus grand dans un filtre en pei-
gne. À un taux d’échantillonnage de 48 kHz, un retard d’un échantillon dans le circuit crée un effet de
filtre passe-bas moyen. Ceci parce que le retard n’est que d’environ 0,02 ms. Ce n’est que lorsque le
Entrée + Sortie
Figure 4.14 – Circuit d’un filtre en peigne simple à injection directe.
retard dépasse 0,1 ms que le filtre commence à créer de multiples points nuls (points d’amplitude zéro)
dans le spectre, en raison des effets d’annulation de phase, ce qui donne un effet de filtrage en peigne.
L’effet de peigne provient de l’annulation et du renforcement de phase entre les signaux retardés et
non retardés. Si le signal originel et le signal retardé s’ajoutent — comme dans le filtre en peigne
à somme positive — le filtre résultant possède un premier pic à la fréquence ƒ = 1/D × ƒs, où D est le
retard en échantillons et fs est la fréquence d’échantillonnage. Les pics successifs apparaissent à 2f, 3f,
4f, etc. Ainsi, ce filtre peut être utilisé pour renforcer une fondamentale f et tous ses harmoniques.
Par exemple, si le taux d’échantillonnage est de 48 kHz, le retard est de 12 échantillons (0,25 ms), et si
le signal originel et le signal retardé sont additionnés positivement, le premier pic audible apparaît à
1/12 × 48 000 = 4 kHz, avec des pics consécutifs à 8 kHz, 12 kHz, et ainsi de suite, jusqu’à la fré-
quence de Nyquist (24 kHz). Ce même filtre en peigne possède des creux à 2 kHz, 6 kHz, et ainsi de
suite par intervalles de 4 kHz jusqu’à la fréquence de Nyquist (figure 4.15).
1.0
Amp.
0
0 Fréquence FE/2
Figure 4.15 – Tracé d’un spectre de filtre en peigne FIR

pour ƒ = 4 kHz et un retard de 0,25 ms.
L’effet d’annulation et de renforcement de phase peut être expliqué comme suit. Aux basses fré-
quences, le retard n’a virtuellement aucun effet sur la phase du signal, et les deux signaux (originel et
retardé) s’ajoutent, ce qui amplifie le signal de sortie. Lorsque les retards influent sur les fréquences
plus élevées, elles s’approchent de plus en plus d’un déphasage de 180 degrés. À 2 kHz, un retard
de 0,25 ms crée précisément un déphasage de 180 degrés. Lors de l’addition avec le signal originel, les
deux signaux s’annulent à cette fréquence (figure 4.16). Au-delà de 180 degrés, les signaux s’ajoutent
(a) (b)
4 kHz 2 kHz
4 kHz, déphasage 0 degrés 2 kHz, déphasage 180 degrés
Somme Somme
Figure 4.16 – Effets des renforcements et des annulations de phase.

(a) est la colonne de gauche et (b) est la colonne de droite. (a) En haut : son de 4 kHz. Au milieu :
son de 4 kHz sans déphasage. En bas : somme des signaux du haut et du milieu, provoquant un ren-
forcement. (b) En haut : son de 2 kHz. Au milieu : son de 2 kHz avec un déphasage de 180 degrés.
En bas : Somme des signaux du haut et du milieu, provoquant une annulation.
de nouveau, jusqu’à ce que le retard de déphasage atteigne 0 ou 360 degrés, ce qui produit un pic de
renforcement à 4 kHz. À 6 kHz, les signaux sont de nouveau en déphasage de 180 degrés, produisant
un creux, et ainsi de suite.
Comme l’indique le tableau 4.1, les retards plus longs créent des dents plus proches dans le peigne.
Par exemple, lorsque le retard est de 50 ms, le premier creux apparaît à 10 Hz puis consécutivement à
30, 50, 70 Hz, et ainsi de suite. Les délais inférieurs à 5 ms produisent les effets de filtrage en peigne
les plus riches, car l’espacement entre les pics et les creux augmente, donc les dents du peigne
deviennent plus larges en fréquence et apparaissent de façon plus frappante à l’oreille.
Que se passe-t-il lorsque deux signaux (originel et retardé) sont soustraits plutôt qu’additionnés ?
Ceci est le cas d’addition négative, car cela revient à additionner deux signaux dont l’un est en dépha-
sage de 180 degrés. L’équation pour ce filtre en peigne FIR soustractif est la suivante :
y[n] = x[n] – x[n – D]
où D est le retard en échantillons. Si les deux signaux sont soustraits plutôt qu’additionnés, le pre-
mier creux apparaît à 0 Hz, avec des creux successifs à f, 2f, 4f, et ainsi de suite. Dans ce cas, le filtre
en peigne élimine la fondamentale et ses harmoniques. Le signal est renforcé à f/2, 3f/2, 5f/2, et
ainsi de suite.
Tableau 4.1 – Pics des filtres en peigne FIR.
Temps de retard Premier pic

(en ms) et espacement des pics
20 50 Hz
10 100 Hz
2 500 Hz
1 1 kHz
0,5 2 kHz
0,25 4 kHz
0,125 8 kHz
0,1 10 kHz
4.13.2 Filtres en peigne IIR

Un filtre en peigne récursif (IIR) réinjecte une partie de sa sortie dans sa propre entrée. L’équation
d’un filtre en peigne récursif simple est la suivante :
y[n] = (a × x[n]) + (b × y[n – D])
Les coefficients a et b sont des facteurs qui échelonnent entre 0 et 1. La figure 4.17 trace la réponse
fréquentielle de ce filtre. Selon la valeur du coefficient b en particulier, ce filtre en peigne IIR produit
1.0
Amp.
0
0 Fréquence FE/2
Figure 4.17 – Tracé du spectre d’un filtre en peigne IIR.

un effet de « résonance » plus prononcé qu’un filtre FIR correspondant. En fait, si b est trop élevé, le
filtre effectue une réinsertion excessive, ce qui cause un débordement numérique et de la distorsion.
4.14 Filtres passe-tout

Un filtre passe-tout est un processeur du signal particulier. Lorsqu’on lui injecte des sons statiques, le
filtre passe-tout fait passer toutes les fréquences avec une égale qualité sans changement d’amplitude
— d’où son nom. On dit ainsi qu’un filtre passe-tout a une réponse fréquentielle plate sur toute la lar-
geur de bande audio. Quoi qu’il en soit, le passe-tout impose également un déphasage dépendant de
la fréquence sur le signal entrant. C’est-à-dire qu’il retarde diverses régions fréquentielles dans diver-
ses proportions. Ce type de retard dépendant de la fréquence est également appelé dispersion.
La figure 4.18 montre une courbe du retard en fonction de la fréquence pour un filtre passe-tout.
Remarquez comme les fréquences graves sont retardées. Les effets audibles d’un filtre passe-tout
apparaissent lors des attaques et des chutes raides, lorsqu’il « colore » le signal par un déphasage
dépendant de la fréquence (Preis, 1982 ; Deer, Bloom et Preis, 1985 ; Chamberlin, 1985). Moorer a
décrit le filtre passe-tout de la façon suivante :
Nous devons nous rappeler que la nature passe-tout est une nature plus théorique que perceptuelle.
Nous ne devons pas supposer, simplement parce que la réponse fréquentielle est absolument uniforme,
que le filtre est transparent pour notre perception. En fait, la réponse de phase d’un passe-tout peut être
très complexe. La nature passe-tout implique simplement que sur des périodes de temps suffisam-
ment longues, avec des sons statiques, la balance spectrale ne sera pas modifiée. Ceci n’implique rien
de tel pour le court terme et pour les régions transitoires. En fait, les filtres en peigne et les filtres
passe-tout ont des « sons » très distincts et définis, immédiatement reconnaissable pour une oreille
expérimentée. (J.A. Moorer, 1979)
10
Retard
(ms)
0
0 1 kHz
Fréquence
Figure 4.18 – La réponse retard en fonction de la fréquence d’un filtre passe-tout dispersif
(d’après Chamberlin, 1983).
La prochaine équation décrit un filtre passe-tout simple ayant une réponse fréquentielle plate à
long terme (de zéro à la moitié de la fréquence d’échantillonnage) qui retarde diverses régions fré-
quentielles dans diverses proportions. Lorsque le retard en échantillons D est grand, le passe-tout
génère une série d’échos amortis (d’amplitude décroissante), un effet utilisé dans les réverbérateurs
passe-tout (voir le chapitre 8).
y [ n ] = ( –g × x [ n ] ) + x [ n – D ] + ( g × y [ n – D ] )
La figure 4.19 montre la structure d’un tel filtre passe-tout, équivalent à celui présenté par Schroeder
(1961, 1962 ; voir également Moorer, 1977). Ce passe-tout est constitué d’un filtre en peigne IIR
avec une réinsertion (contrôlée par g), intercalé dans un circuit qui injecte également directement
une partie du signal d’entrée direct avec un gain de –g. Cette soustraction élimine les effets spectraux
du filtre en peigne, tout en préservant les caractéristiques d’écho et de retard.
x[n] + D + y[n]
×
-g
Figure 4.19 – Structure d’un filtre passe-tout simple.
En général, le déphasage (en degrés) d’un filtre passe-tout est une fonction logarithmique du retard.
C’est-à-dire qu’un retard de 100 ms n’est qu’une petite fraction d’un cycle basse fréquence — seule-
ment quelques degrés de déphasage. Mais à 10 kHz, ce même retard de 100 ms constitue un dépha-
sage complet de 360 degrés en raison de la période de cette fréquence.
Deux propriétés caractérisent les filtres passe-tout. La fréquence de renversement est la fréquence
à laquelle le déphasage atteint 180 degrés. La largeur de transition d’un filtre passe-tout est la raideur
de la transition d’un déphasage de 0 à 360 degrés. La largeur de transition d’un filtre passe-tout est
analogue au Q (coefficient de qualité) d’un filtre passe-bande (voir le chapitre 24 pour une expli-
cation du coefficient Q).
Les applications musicales des filtres passe-tout sont de toutes sortes. Une utilisation immédiate
d’un filtre passe-tout est de l’employer pour compenser le déphasage introduit par un autre filtre
(Meyer, 1984). Par exemple, plusieurs fabricants ont fabriqué des filtres passe-tout comme rétro-
ajusteurs d’anciens enregistreurs audionumériques, pour compenser la distorsion de phase inhé-
rente dans les enregistreurs non modifiés. Une autre application est trouvée dans certains synthé-
tiseurs. Dans ce cas, le filtre passe-tout crée un déphasage en fonction de la fréquence et variant
dans le temps, qui peut apporter de la richesse à des sons qui seraient sans cela restés statiques. Cela
est un moyen utilisé pour créer une sorte d’effet chorus — une combinaison de retard et de déphasage.
L’application sans doute la plus importante des filtres passe-tout se trouve dans les réverbérateurs,
comme nous le verrons au chapitre 8.
Chapitre 5
La convolution
La convolution est une opération fondamentale du traitement audionumérique du signal (Rabiner

et Gold, 1975 ; Dolson, 1985 ; Oppenheim et Schafer, 1975 ; Oppenheim et Willsky, 1983). Tout le
monde est familiarisé avec ses effets, même s’il n’a jamais entendu parler de la convolution. N’importe
quel filtre, par exemple, convolve sa réponse impulsionnelle avec le signal d’entrée pour produire un
signal de sortie filtré. Rappelez-vous la définition de la réponse impulsionnelle donnée au chapitre 4.
La convolution est souvent déguisée sous des termes plus familiers comme filtrage, modulation,
réverbération ou synthèse croisée. Mais l’utilisation explicite de la convolution devient de plus en
plus répandue — d’où ce chapitre.
La convolution d’un son donné avec une IR arbitraire peut produire une énorme variété d’effets
musicaux. Par exemple, on peut créer un réverbérateur, qui est un type complexe de filtre, en obtenant
l’IR d’une salle, puis en convolvant cette IR avec un son d’entrée arbitraire. Lorsque le son convolvé
est mélangé avec le son originel, le résultat sonne comme si le son originel avait été joué dans la
salle.
En dehors des effets de réverbération, l’IR de n’importe quel processeur audio (microphone, enceinte,
filtre, distorsion, effet, etc.) peut être convolvée avec un signal audio pour que celui-ci prenne les
caractéristiques du système.
Ceci conduit à une application musicale puissante de la convolution : la synthèse croisée par convo-
lution de deux sons arbitraires. La descendance de la synthèse croisée porte des caractéristiques
des sons parents, mais peut ne ressembler à aucun des deux. Si les sons d’entrée sont instrumen-
taux, le résultat peut sonner comme si un instrument « jouait » de l’autre (par exemple une série
de cloches jouant du gong). À la fin de ce chapitre, nous examinerons plus en détail l’intérêt musical
de la convolution, et nous donnerons des méthodes empiriques pour l’utiliser.
5.1 L’opération de convolution

Pour comprendre la convolution, examinons ce cas simple : la convolution d’un signal a avec une
impulsion élémentaire, que nous appelons élém[n]. Une impulsion élémentaire a été présentée
(a)
1
∗ ⇒
0 0 0
RI
(b)
0.5
∗ ⇒
0 0 0
RI
(c)
0.5
∗ ⇒
0 01 2 01 2
RI
Figure 5.1 – Exemples prototypes de la convolution d’échantillons.

(a) La convolution d’un signal d’entrée avec une impulsion élémentaire est une opération d’identité.
(b) La convolution avec une impulsion élémentaire d’une valeur de 0,5 échelonne le signal d’un fac-
teur de 0,5. (c) La convolution avec une unité élémentaire retardée déplace la séquence d’entrée dans
le temps de façon correspondante.
plus haut comme une séquence numérique définie sur n points temporels. Au temps n = 0,
élém[n] = 1, mais pour toutes les autres valeurs de n, élém[n] = 0. La convolution de a[n] avec
élém[n] peut être exprimée comme suit :
sortie [ n ] = a [ n ] ∗ élém [ n ] = a [ n ]
Ici, « ∗ » signifie convolution. Ceci donne comme résultat un ensemble de valeurs pour la sortie qui
est identique au signal originel a[n] (figure 5.1a). Ainsi, la convolution avec une impulsion élé-
mentaire est appelée une opération d’identité par rapport à la convolution, car n’importe quelle
fonction convolvée avec élém[n] laisse cette fonction inchangée.
5.2 Convolution par impulsions élémentaires échelonnées

et retardées
Deux autres cas simples de la convolution nous en disent assez pour prédire ce qui va arriver au
niveau de l’échantillon avec n’importe quelle convolution. Si nous échelonnons élém [n] par une
constante c, l’opération peut être écrite comme suit :
sortie [ n ] = a [ n ] ∗ ( c × élém [ n ] )
Le résultat est simplement :
sortie [ n ] = ( c × a [ n ] )
En d’autres termes, nous obtenons l’identité de a, échelonnée par la constante c (figure 5.1b).
Si nous convolvons le signal a avec une impulsion élémentaire qui a été déplacée dans le temps de
t échantillons, l’impulsion apparaît à l’échantillon n – t, au lieu d’apparaître à n = 0. Ceci peut être
exprimé de la façon suivante :
sortie [ n ] = a [ n ] ∗ élém [ n – t ]
dont le résultat est :
sortie [ n ] = a [ n – t ]
C’est-à-dire que la sortie est identique à a sauf qu’il est déplacé dans le temps de la différence entre
n et t (figure 5.1c).
En mettant ensemble ces deux faits, on peut considérer n’importe quelle fonction échantillonnée
comme étant une séquence de fonctions d’impulsions élémentaires échelonnées et retardées. Par
exemple, la convolution d’un signal a contenant deux impulsions séparées par une grande distance
avec n’importe quelle fonction b donne pour résultat deux apparitions de b, échelonnées et retar-
dées par les impulsions de a (figure 5.2a). La convolution peut ainsi créer des effets d’écho. Lors-
que les impulsions de a sont proches, les répétitions échelonnées de b se superposent (figure 5.2b).
(a)
∗ ⇒
(b)
∗ ⇒
Figure 5.2 – Effets temporels de la convolution.

(a) La convolution avec deux impulsions très espacées produit un effet d’écho.
(b) La convolution avec deux impulsions proches produit un effet de brouillage temporel.
Ceci a pour résultat un effet de brouillage du temps. Lorsque le brouillage temporel est dense (cen-
taines d’impulsions par seconde) et distribué aléatoirement, il prend un caractère réverbérant.
Ainsi, convolver une séquence d’entrée a[n] avec une fonction arbitraire b[n], place une copie de
b[n] à chaque point de a[n], échelonnée par la valeur de a[n] à ce point. La convolution de a et b
est la somme de ces fonctions échelonnées et retardées (figure 5.3).
Réponse impulsionnelle a
0.5 0 1.0 0.5
Copies de b échelonnées
et retardées
Mise à b4 × 0.5 0.5 0.37 0.25 0.12
l’échelle
et retard b3 × 1.0 1.0 0.75 0.5 0.25
b2 × 0 0 0 0 0
b1 × 0.5 0.5 0.37 0.25 0.12
Copies
0.5 0.37 1.25 1.37 0.87 0.5 0.12
de somme
Convolution a ∗ b
Figure 5.3 – La convolution directe de deux signaux a et b,

de quatre échantillons de longueur, signifie que chaque échantillon de a échelonne une copie retardée
de b. La séquence de convolution c est la somme de ces copies de b échelonnées et retardées. La
longueur de la séquence est de sept échantillons.
5.3 Définition mathématique de la convolution

Une définition mathématique de la convolution de deux séquences finies d’échantillons est la suivante :
N–1
a [ n ] ∗ b [ n ] = sortie [ k ] = ∑ a [n] × b [k – n]
0=n
où N est la longueur de la séquence a en échantillons et k parcourant la longueur entière de b. Chaque

échantillon de a[n] sert de fonction de pondération pour une copie retardée de b[n]. Ces copies
pondérées et retardées sont toutes additionnées. La méthode classique pour calculer cette équation
est d’évaluer la somme pour chaque valeur de k. Cette méthode est appelée convolution directe. Au
point médian de la convolution, n copies sont additionnées, et donc le résultat de cette méthode de
convolution est en général rééchelonné (normalisé) ensuite.
La longueur d’une séquence de sortie générée par convolution directe est la suivante :
longueur (sortie) = longueur (a) + longueur (b) – 1
Dans un cas typique de filtrages, a est une IR courte comparée à la longueur du signal b. Par exemple,
pour un filtre de lissage large, l’IR dure moins d’une milliseconde.
5.4 Comparaison de la convolution et de la multiplication

La convolution implique de la multiplication, mais la convolution de deux signaux est différente de
la multiplication de deux signaux. La multiplication d’un signal a par un autre signal b signifie que
chaque échantillon de a est multiplié par l’échantillon correspondant de b. Ainsi :
sortie [ 1 ] = a [ 1 ] × b [ 1 ] ,
sortie [ 2 ] = a [ 2 ] × b [ 2 ] ,
etc.
La convolution, au contraire, signifie que chaque échantillon de a est multiplié par tous les échan-
tillons de b, créant ainsi une rangée d’échantillons de longueur b pour chaque échantillon de a. La
convolution est la somme de ces rangées. Comparez la convolution avec une impulsion élémentaire
et la multiplication avec une impulsion élémentaire. Contrairement à la convolution, la multiplication
de a[n] avec l’impulsion élémentaire élém[n] a comme résultat que toutes les valeurs de sortie[n]
sont égales à zéro, sauf pour sortie[0], où élém[n] est égal à 1.
5.5 La loi de la convolution

Une affirmation souvent exprimée dans le traitement du signal dit que la convolution de deux formes
d’onde est équivalente à la multiplication de leur spectre. L’inverse est également vrai. C’est-à-dire
que la multiplication de deux formes d’onde est l’équivalent de la convolution de leur spectre. Une
autre expression de loi peut être exprimée de la façon suivante :
La convolution dans le domaine temporel est équivalente à la multiplication dans le domaine fré-
quentiel, et vice-versa.
La loi de la convolution a des implications très profondes. En particulier, la convolution de deux
signaux audio est équivalente au filtrage du spectre de l’un d’eux par le spectre de l’autre. Inverse-
ment, la multiplication de deux signaux audio (c’est-à-dire effectuer une modulation d’amplitude ou
une modulation en anneau ; voir le chapitre 25) est équivalente à la multiplication de leurs spectres.
La convolution de spectres signifie que chaque point du spectre de fréquence discret de a est con-
volvé avec chaque point du spectre de b. La convolution ne distingue pas si les séquences d’entrée
représentent des échantillons ou des spectres. Pour l’algorithme de convolution, ils ne sont tous les
deux que des séquences discrètes.

La loi de convolution signifie que chaque fois que l’on remodèle l’enveloppe d’un son, on convolve
le spectre de l’enveloppe avec le spectre du son remodelé. En d’autres termes, toute transformation
dans le domaine temporel a pour résultat une transformation correspondante dans le domaine fré-
quentiel, et vice-versa.
5.6 Relation entre convolution et filtrage

La convolution est directement liée au filtrage. Rappelez-vous l’équation d’un filtre FIR général :
y [n] = (a × x [n]) ± (b × x [n – 1]) ± …(i × x [n – j])
Nous pouvons concevoir les coefficients a, b, … i comme des éléments d’une rangée h(i), où chaque
élément est multiplié fois l’élément correspondant dans la rangée x[j]. En gardant cela à l’esprit,
l’équation générale d’un filtre FIR présenté auparavant peut être exprimée comme une convolution :
N–1
y [n] = ∑ h [m] × x [n – m]
m=0
où N est la longueur de la séquence h en échantillons et n parcourant la longueur entière de x.
Remarquez que le coefficient h joue le rôle de réponse impulsionnelle dans l’équation de convolu-
tion. Et en fait, la réponse impulsionnelle de tout filtre FIR peut être prise directement à partir de
la valeur de ses coefficients. Ainsi, tout filtre FIR peut être exprimé sous forme de convolution, et
vice-versa.
Comme un filtre FIR convolve également, il est raisonnable de se demander s’il existe une relation
directe entre ses coefficients et sa réponse impulsionnelle. En un mot, la réponse est non. Il existe
cependant des techniques mathématiques concevant un filtre FIR qui fait une approximation
d’une réponse impulsionnelle donnée. Voir Rabiner et Gold (1975, p. 265).
5.7 Convolution rapide

La convolution directe est connue pour être très gourmande en calcul, nécessitant de l’ordre de N2
opérations, où N est la longueur de la plus longue séquence d’entrée. La convolution directe est ainsi
rarement utilisée pour implémenter des filtres ou des réverbérateurs à bande étroite (qui ont tous
les deux des réponses impulsionnelles longues) lorsque des méthodes plus simples existent. Voir une
présentation de la réverbération par convolution au chapitre 8.
De nombreuses applications pratiques de la convolution utilisent une méthode appelée convolution
rapide (Stockham, 1969). La convolution rapide pour de longues séquences tire avantage du fait que
le produit de deux transformées de Fourier discrètes à N points (DFT — discrete Fourier transform)
est équivalent à la DFT de la convolution de deux séquences à N points. Comme la DFT peut calculer
très rapidement en utilisant l’algorithme de transformée de Fourier rapide (FFT — fast Fourier
transform), cela conduit à une accélération énorme de la convolution. Le chapitre 11 présente la
DFT et la FFT. Avant que la FFT soit effectuée, les deux séquences sont allongées en ajoutant des
zéros jusqu’à ce qu’elles soient égales à la longueur de sortie de la convolution. Ce processus est
appelé remplissage de zéro et est également présenté au chapitre 11. Les résultats de la convolution
peuvent être resynthétisés en appliquant une FFT inverse. La figure 5.4 montre le schéma global de
la convolution rapide.
Ceci signifie que l’on peut remplacer la convolution directe par des FFT, qui sont de façon specta-
culaire plus rapides pour de grandes valeurs de N. En particulier, la convolution rapide demande
de l’ordre de N × log2 (N) opérations. Pour citer un exemple, considérez la convolution directe de
deux sons de deux secondes échantillonnés à 48 kHz. Elle nécessitera de l’ordre 96 0002 ou
9 216 000 000 opérations. Une convolution rapide des deux mêmes sons nécessite moins de
1 500 000 opérations, soit une accélération par un facteur de 6 100. Pour exprimer cela autrement,
on peut dire qu’une convolution rapide demandant une seconde de calcul sur un microprocesseur
donné demanderait 101 minutes pour un calcul avec une convolution directe.
Pour les applications en temps réel où des sorties plus ou moins immédiates sont nécessaires, il est
également possible d’implémenter la convolution sectionnée, c’est-à-dire ne traitant que quelques
échantillons à la fois. Les convolutions sectionnées et non sectionnées génèrent des résultats équi-
valents. Voir Rabiner et Gold (1975) et Kunt (1981) pour une explication des techniques standards
de la convolution sectionnée. Rabiner et Gold présentent également l’implémentation d’un convolveur
en temps réel.
Source A Source B
Remplissage Remplissage
de zéro de zéro
FFT FFT
IFFT
Signal convolvé
A *B
Figure 5.4 – Schéma de la convolution rapide.
5.8 Signification musicale de la convolution

Différentes transformations sonores peuvent être assimilées à des convolutions, dont le filtrage, les
effets temporels et la modulation, que nous présentons dans les trois prochaines parties.
5.8.1 Le filtrage comme convolution
Le filtrage est un bon exemple de multiplication des spectres, car l’on peut implémenter n’importe
quel filtre en convolvant un signal d’entrée avec la réponse impulsionnelle du filtre désiré. Mais la
convolution s’étend au-delà de ce qui sépare le filtrage simple de la synthèse croisée — le filtrage d’un
son par un autre. Appelons deux sources a et b et leurs spectres analysés correspondants spectre_a et
spectre_b. Si nous multiplions chaque point de spectre_a avec chaque point correspondant du
spectre_b, puis que nous resynthétisons le spectre résultant, nous obtenons une forme d’onde dans
le domaine temporel qui est la convolution de a avec b. Par exemple, la convolution de deux sons de
saxophone, chacun ayant une attaque douce, mélange leurs hauteurs, sonnant comme si les deux sons
avaient été joués simultanément. Contrairement au simple mélange, cependant, l’effet de filtrage
de la convolution accentue les résonances métalliques présentes dans les deux sons. Un autre effet,
subtil dans ce cas, mais pas dans d’autres, est le brouillage temporel, que nous présentons plus loin.
5.8.2 Les effets temporels comme convolution

La convolution introduit également des effets dans le domaine temporel tels que l’écho, le brouillage
temporel et la réverbération (Dolson et Boulanger, 1985 ; Roads, 1993a). Ces effets peuvent être
subtils ou évidents, selon la nature des signaux convolvés.
Une impulsion élémentaire dans une des entrées de la convolution donne comme résultat une
copie de l’autre signal. Ainsi, si nous convolvons n’importe quel son avec une IR constituée de deux
impulsions élémentaires espacées de 500 ms, le résultat est un écho clair du premier signal.
L’IR d’une salle peut contenir de nombreuses impulsions, correspondantes aux réflexions sur les
diverses parois de la salle — son modèle d’écho. Lorsqu’une telle IR est convolvée avec un son arbi-
traire, le résultat est comme si le son avait été joué dans la salle, car celui-ci a été relié au modèle
d’écho de la pièce.
Si les pics de l’IR sont cependant proches, les répétitions sont brouillées dans le temps (reportez-
vous à la figure 5.2b). Le brouillage temporel atténue les transitoires raides et trouble le temps de
départ précis des événements. La figure 5.5 montre comment la convolution d’un son de cloche avec
lui-même provoquera une version brouillée temporellement.
La combinaison du brouillage temporel et de l’écho explique pourquoi les signaux bruiteux, qui
contiennent des milliers de pics raides, créent des effets de réverbération lorsqu’ils sont convolvés.
Si l’enveloppe d’amplitude d’un signal bruiteux possède une attaque raide et une chute exponentielle,
le résultat de la convolution sera une sorte d’enveloppe de réverbération naturaliste. Pour colorer
cette réverbération, on peut filtrer le bruit avant ou après de le convolver. Si le bruit possède une chute
(a)
Amp.
Temps
(b)
Amp.
Temps
Figure 5.5 – Exemple de brouillage temporel.

(a) Source originelle, une frappe de cloche avec une attaque très raide. (b) Résultat de la convolution
de la cloche avec elle-même. Remarquez le brouillage temporel dans l’attaque.
logarithmique, cependant, le second son apparaîtra comme suspendu dans le temps jusqu’au début
de la chute.
5.8.3 La modulation comme convolution
Les modulations d’amplitude et en anneau (voir le chapitre 25) utilisent toutes deux la multiplication
de formes d’onde dans le domaine temporel. La loi de la convolution établit que la multiplication
de deux formes d’onde convolve leurs spectres. La convolution prend en compte les bandes latérales
qui résultent de ces multiplications. Considérez les exemples de la figure 5.2, et imaginez qu’au lieu
d’impulsions dans le domaine temporel, la convolution travaille sur des lignes dans le domaine fré-
quentiel. Les mêmes règles s’appliquent — avec la différence importante que l’arithmétique des
nombres complexes s’applique. La FFT, par exemple, génère un nombre complexe pour chaque com-
posant spectral. Le point principal ici est que cette représentation est symétrique autour de 0 Hz,
avec une réplique exacte de chaque composant spectral (d’amplitude divisée par deux) dans le
domaine fréquentiel négatif. Ce spectre négatif est rarement tracé, puisqu’il n’est significatif qu’à
l’intérieur de la FFT.
(a)
-100 100
Amp.
0
Fréquence
(b)
-1000 1000
Amp.
0
Fréquence
(c)
-1100 -900 900 1100

Amp.
0
Fréquence
Figure 5.6 – La modulation en anneau comme convolution.

Ces images montrent la représentation des spectres à l’intérieur de la FFT, où une représentation
symétrique s’applique. (a) Sinusoïde à 100 Hz. (b) Sinusoïde à 1 kHz. (c) Convolution de (a) et (b).
La figure 5.6 est une description graphique de la convolution du spectre qui apparaît lors de la
modulation en anneau (voir le chapitre 25). La figure 5.6a montre le spectre émis par une FFT pour
une seule sinusoïde à 100 Hz. La figure 5.6b montre une sinusoïde à 1 kHz. La figure 5.6c montre
leur convolution. Les deux impulsions à –100 et +100 sont retardées et échelonnées à la région
autour de 1 et –1 kHz. Les fréquences de 900 et 1 100 Hz représentent les fréquences de somme et
de différence des deux signaux d’entrée, ce qui est typique de la modulation en anneau.
5.9 Convolution avec des grains et des pulsars

Une classe unique de transformations sonores met en jeu des convolutions de sons avec des nuages
de grains sonores. Voir la description de la synthèse granulaire asynchrone présentée au chapitre 22.
Dans cette application, les grains ne sont pas entendus en eux-mêmes ; ils peuvent plutôt être conçus
comme la « réponse impulsionnelle virtuelle » d’un filtre inhabituel ou d’un espace synthétique
(Roads, 1992b).
(a)
(b)
(c)
Figure 5.7 – Convolution avec des grains.

(a) Nuage épars de grains brefs durant chacun 0,5 ms. (b) Frappe de tambourin. (c) La convolution
de (a) et (b) donne pour résultat de nombreuses frappes de tambourin, correspondant au compor-
tement temporel du nuage. Remarquez le déplacement momentané vers l’énergie négative en raison
du second grain de (a).
Les résultats de la convolution avec des grains peuvent être très variables, selon les propriétés du
nuage granulaire et du signal d’entrée. Pour un signal d’entrée ayant une attaque raide, la convolution
avec un nuage épars contenant quelques douzaines de grains courts crée une distribution statistique
d’échos du signal d’entrée (figure 5.7). Plus le nuage est dense, plus les échos fusionnent en un effet
de réverbération irrégulier. Les grains plus longs accentuent le brouillage temporel et arrondissent
les attaques raides. Lorsque le signal d’entrée possède une attaque douce — comme un son legato
de saxophone —, le résultat est comme un effet de filtrage variant dans le temps sur le son, effet
qui dépend du spectre de la forme d’onde à l’intérieur des grains. Voir Roads (1993a) pour plus de
détails sur cette technique.
Une autre classe de sons synthétisés provient de la convolution de sons échantillonnés avec des
trains d’impulsions variables de formes d’onde appelées pulsars. Les trains pulsar se situent dans
le continuum entre les infrasons et les fréquences audio, ce qui permet à la fois des effets rythmiques
ou timbraux. Voir le chapitre 23 et Roads (1994) pour plus de détails sur cette technique.
5.10 Comparaison de la convolution linéaire

et de la convolution circulaire
La convolution directe est une convolution linéaire. Comme nous l’avons mentionné plus haut,
la convolution directe allonge ses entrées comme suit :
longueur (sortie) = longueur (a) + longueur (b) – 1
Pour un signal d’entrée donné a de 1 024 échantillons de long et une réponse impulsionnelle b de
512 échantillons de long, la longueur de sortie de la convolution directe sera
longueur (a) + longueur (b) – 1 = 1 535 échantillons
Ceci en raison du fait que tous les échantillons de a convolvent tous les échantillons de b, y compris
le 1 024e élément de a, qui est la réponse impulsionnelle à laquelle on a ajouté 511 échantillons.
La convolution circulaire est une anomalie qui apparaît lorsque la convolution est implémentée avec
une FFT. Chaque FFT prend N échantillons comme entrée (où N est la plus longue des deux séquences
d’entrée). La convolution rapide émet N échantillons comme sortie. Qu’est-il arrivé à l’extension
qui apparaît avec la convolution linéaire ?
Dans la convolution rapide, les points d’extension sont « réenroulés » au début de la série de
1 024 points, comme s’il s’agissait d’une liste circulaire dont la fin était raccordée au début. Le résultat
de cela est que le début et la fin de la convolution contiennent des données invalides. Heureusement,
il est facile d’éviter la distorsion de la convolution circulaire en spécifiant des tailles de fenêtre de
FFT supérieures ou égales à la longueur de la séquence de sortie prévue. Voir le chapitre 11 pour
une présentation des tailles de fenêtre. Ceci peut être effectué en réglant la taille de la fenêtre FFT
sur la plus proche puissance de deux supérieure aux N échantillons de la plus longue séquence
d’entrée. Les points d’échantillonnage additionnels sont remplis de zéro.
5.11 Déconvolution
Malheureusement, dès que deux signaux sont convolvés, il n’existe pas de méthode connue pour les
séparer ou les déconvolver parfaitement. En supposant que l’on connaisse le spectre de l’un des
signaux, on peut filtrer le signal convolvé pour supprimer ce spectre, mais d’autres artefacts de la
convolution dus au barbouillage temporel (tels qu’échos et transformations d’enveloppes) resteront.
En raison de la nature particulière des signaux de la parole, cependant, deux catégories de déconvo-
lution ont effectué une séparation approximative de l’excitation (impulsions glottales) et de la
résonance (formants du conduit vocal) des sons de la voix. Il s’agit de déconvolution autorégressive
ou homomorphique (Rabiner et Gold, 1975). Le chapitre 13 présente l’analyse autorégressive, qui
est liée de près au codage prédictif linéaire présenté au chapitre 24. Une méthode de déconvolution
homomorphique est la technique d’analyse cepstrale décrite au chapitre 9 (voir également Galas et
Rodet, 1990).
Chapitre 6
Les effets de retard
6.1 Les effets de retard temporel fixe

Le retard temporel est une technique de traitement du signal polyvalente. Une unité de retard numé-
rique ou ligne à retard numérique (LRN) prend un flux d’échantillons en entrée et le stocke dans sa
mémoire pendant une période brève avant de le renvoyer. Mélanger un signal retardé avec le signal non
retardé originel peut créer une grande variété d’effets, que nous décrirons dans un moment.
6.1.1 Comparaison de la LRN et des filtres passe-bas et en peigne FIR
La figure 6.1 montre un circuit de ligne à retard numérique (LRN) simple. Remarquez les similarités
entre ce circuit, le filtre passe-bas FIR simple de la figure 4.4, et le filtre en peigne FIR de la figure 4.14.
Amplitude
Temps retardée
de retard du signal
D ×
Entrée × + Sortie
Amplitude
originelle
du signal
Figure 6.1 – Circuit d’une ligne à retard numérique.

Remarquez la similitude entre cette structure et celles des figures 4.4 et 4.14.
La principale différence entre eux n’est pas la structure du circuit, mais le retard temporel mis en
jeu. Pour un filtre passe-bas, le retard est d’un échantillon, donc le circuit a comme effet de faire la
moyenne des échantillons successifs. Pour un filtre en peigne, les temps de retards effectifs se situent
entre 0,1 et 1 ms. Pour une LRN, les retards sont supérieurs à 1 ms.
6.1.2 Implémentation d’une ligne à retard

À l’intérieur d’un processeur de signal, une structure de données appelée queue circulaire représente
une méthode efficace d’implémentation de ligne à retard (figure 6.2). Une telle queue est simple-
ment une liste de positions de mémoire séquentielle contenant des échantillons audio. À chaque
période d’échantillonnage, le programme de retard lit l’échantillon le plus ancien et le remplace en
8 1
7 2
N
A
6 3
5 4
8 1
7 2
N
6 3
A
5 4
Figure 6.2 – Opération d’une queue circulaire pour implémenter une ligne à retard.
N est l’échantillon le plus récent dans la queue, tandis qu’A est le plus ancien. (a) « Avant ». Pointeurs
dans la queue circulaire au temps t. (b) « Après ». Pointeurs dans la queue au temps t + 1, indiquant
que l’espace occupé par l’échantillon le plus ancien au temps t a été lu et remplacé par un nouvel
échantillon entrant.
écrivant un nouvel échantillon entrant à la même position. Le pointeur lecture/écriture se déplace

ensuite à la position suivante dans la queue, qui contient maintenant à son tour l’échantillon le plus
ancien. Lorsque le pointeur atteint la « fin » de la queue, il « se retourne » jusqu’à la « première »
position, d’où le terme de circulaire.
Pour l’instant, nous avons décrit un retard ayant une durée fixe, proportionnelle à la longueur de la
queue. Ce retard possède un pointeur de lecture — ou bascule dans le langage du traitement du
signal, et la bascule précède toujours une écriture à la même position. En permettant au pointeur
de lecture de basculer n’importe quel point de la queue, nous pouvons implémenter des retards qui
sont plus courts que la longueur de la queue, y compris des retards changeants dans le temps.
Ces possibilités conduisent aux effets de retard temporel variable décrits plus loin.
De façon logique, une ligne à retard multibascules possède plus d’une bascule. La figure 6.3 montre
une ligne à retard multibascules implémentée sous forme de queue circulaire. À chaque période
d’échantillonnage, un nouvel échantillon est écrit dans la queue à la position N. Simultanément, deux
échantillons sont lus aux positions Bascule1 (retard d’un échantillon) et Bascule2 (retard de trois
échantillons). Puis tous les pointeurs sont incrémentés à la position suivante pour se préparer à la
période d’échantillonnage suivante.
8 1
Bascule 1
7
Bascule 2
2
N
6
3
A
5 4
Figure 6.3 – Une ligne à retard à deux bascules implémentée dans une queue circulaire.
Les deux bascules de lecture, Bascule1 et Bascule2, circulent autour de la queue en compagnie des
pointeurs A (ancien) et N (nouveau). Les échantillons entrants sont écrits à la position occupée par
N à chaque période d’échantillonnage.
6.1.3 Effets de retard fixe

Par esprit de simplicité, il est souvent pratique de faire la distinction entre effets de retard fixe et
variable. Dans une unité de retard fixe, le temps de retard ne change pas lorsque le son passe. Dans
une unité de retard variable, le temps de retard change constamment ; ceci est implémenté en variant
les points de bascule à chaque période d’échantillonnage. Nous nous attachons ici au cas du retard
fixe ; la prochaine partie traitera du cas du retard variable.
Les retards audio fixes peuvent être groupés en trois catégories d’étendues temporelles, selon les
différents effets perceptuels qu’ils créent :
• court (inférieur à environ 10 ms) ;

• moyen (de 10 à 50 ms environ) ;
• long (supérieur à environ 50 ms).
Les retards courts sont perceptibles tout d’abord par les anomalies dans le domaine fréquentiel qu’ils
introduisent. Par exemple, un retard d’un à plusieurs échantillons, mélangé avec le signal originel
est l’équivalent d’un filtre passe-bas FIR. Lorsque le retard devient supérieur au domaine [0,1 ms,
10 ms], des effets de filtrage en peigne apparaissent.
Les retards moyens peuvent rehausser un signal « mince ». Par exemple, les retards moyens sont
beaucoup utilisés en musique de variétés pour relever les pistes de voix, de batterie et de synthétiseur.
Un retard moyen crée une « ambiance » autour du signal, donnant l’illusion d’une sonie accentuée
sans accentuation correspondante de l’amplitude mesurée. La « sonie » est un terme décrivant une
sensation de force sonore tandis qu’« amplitude » décrit une mesure physique. Un retard entre 10
et 50 ms « fusionne » avec le son originel pour créer un effet de « doublage ». L’effet de doublage peut
être rehaussé en appliquant au signal des déplacements de hauteur subtils variants dans le temps
et des retards, avant de le mélanger au signal originel.
Les retards longs (supérieurs à 50 ms) créent des échos discrets — des sons entendus comme des
répétitions du son originel. Dans la nature, les échos apparaissent lorsque les ondes sonores se
déplacent en partant de leur source, frappent une surface réfléchissante, puis retournent à l’auditeur
suffisamment tard pour qu’elles puissent être entendues comme une répétition discrète. Comme
le son se déplace à environ 334 m par seconde dans l’air à 20 °C, un retard d’une milliseconde cor-
respondant à un trajet total du son de la source jusqu’à l’auditeur d’environ 30 cm. Créer un écho
discret nécessite un retard temporel d’au moins 50 ms. Ceci implique une distance d’environ 16 m
de distance totale de la source jusqu’à la surface réflective puis jusqu’à l’auditeur (figure 6.4).
Réflexion
d’écho
Source Direct
Auditeur
sonore
Réflexion
d’écho
Figure 6.4 – Effet d’écho causé par le mélange de son direct et de son reflété.
6.1.4 Retards et localisation spatiale

La localisation fait référence à la capacité de l’oreille de détecter la position d’une source sonore.
Les retards constituent une des clés de la localisation dans un système sonore multicanal. Pour
donner un exemple, si le son est envoyé à amplitude égale à deux enceintes et que l’auditeur s’assoit
au milieu de la zone d’écoute, « l’image sonore » se concentre au centre de la scène d’audition. Si un
court retard temporel (0,2 à 10 ms) est appliqué au son provenant de l’enceinte de droite, la source
apparente du son se déplace vers l’enceinte gauche (Blauert, 1983). Ceci montre que nos oreilles utili-
sent le retard comme clé pour la localisation. Utilisés judicieusement, des échos multiples peuvent
créer l’illusion d’un son émanant d’un espace spécifique. Le chapitre 7 couvre en détail le sujet de
la spatialisation.
6.2 Les effets de retard temporel variable

Les effets de retard temporel variable sont obtenus avec des lignes à retard dont les temps de
retard varient lorsque le signal passe. Deux de ces effets les plus connus sont le flanger et le pha-
sing (ou déphasage), qui sont devenus communs dans la musique populaire des années 1960 et
1970. Les techniques sont similaires, mais offrent des effets possibles différents.
6.2.1 Le flanger
L’effet de flanger électronique provient d’un phénomène acoustique naturel qui apparaît lorsqu’un
bruit de large bande est entendu dans un mélange de son direct et de son retardé. Bilsen et Ritsma
(1969) donnent un historique de cet effet, en commençant avec sa découverte par Christian Huygens
en 1693. Le guitariste et pionnier de l’enregistrement Les Paul fut le premier à utiliser le flanger
comme effet sonore dans un studio d’enregistrement. Son système de flanger de 1945 utilisait deux
enregistreurs à disque, dont un était équipé d’un contrôle variable de la vitesse (Bode, 1984). Dans
les années 1960, le flanger était obtenu en studio grâce à deux enregistreurs à bande analogiques et
une console de mélange. Les enregistreurs à bande étaient alimentés avec le même signal. L’ingénieur
écoutait les sorties combinées, tout en pressant occasionnellement sur le rebord (flange) de l’une
des bobines pour la ralentir (figure 6.5). Deux enregistreurs étaient nécessaires afin de synchroni-
ser le retard global introduit par l’écoute à partir de la tête de lecture de l’enregistreur ralenti. À une
vitesse de bande de 38 cm/s, la distance entre les têtes de lecture et d’enregistrement d’un enregis-
treur à bande analogique typique introduit un retard fixe d’environ 35 ms. Le retard précis dépend
de la configuration des têtes d’enregistrement et de lecture. Ainsi, on pourrait également substi-

tuer une ligne à retard fixe à l’enregistreur à bande de gauche dans la figure 6.5.
Le principe général du flanger est le suivant :
flanger = signal + signal retardé
où le temps de retard change constamment.
Le flanger électronique utilise une ligne à retard variant de façon continue pour arriver au même
effet (Factor et Katz, 1972). Pour remplacer la pression manuelle effectuée sur la bobine de bande,
le temps de retard d’un flanger électronique est varié par un oscillateur basse fréquence (émettant
en général une sinusoïde ou une onde triangulaire) opérant dans le domaine situé entre 0,1 et 20 Hz.
Le flanger peut également être appelé effet de filtrage en peigne balayant. Dans le flanger, plusieurs
creux sont balayés de haut en bas dans le spectre. Les pics du filtre sont placés aux fréquences mul-
tiples de 1/D, où D est le temps de retard. La profondeur du flanger est au maximum si les amplitudes
du signal originel et du signal retardé sont égales.
Signal audio
Enregistrement
Enregistrement
Lecture Lecture
avec retard variable
Mélangeur
Signal audio avec effet de flanging
Figure 6.5 – Flanger de bande utilisant deux magnétophones à bande analogiques.

La vitesse de lecture du second magnétophone varie lorsque l’opérateur applique une pression du
doigt sur le rebord (flange) de la bobine.
Quantité Fréquence
de variation de variation
LFO
Temps de retard « central »
+
Variation
du temps
de retard
D
Trajet
de réintroduction
Entrée +
du retard
+ Sortie
Trajet du signal originel
Figure 6.6 – Circuit de flanger avec réinjection,

mélangeant un signal retardé et un signal d’origine. Un oscillateur basse fréquence (LFO) fournit
la variation de temps de retard autour d’un temps de retard « central ». Le circuit pourrait être
encore amélioré en insérant des multiplicateurs dans le trajet de réinjection du retard et dans le
trajet du signal d’origine, afin de pouvoir ajuster le rapport entre les deux signaux ou inverser la
phase de la réinjection.
La structure décrite jusqu’ici est équivalente à un filtre en peigne FIR ou en alimentation directe
ayant un retard variant dans le temps. En pratique, les implémentations les plus modernes du flan-
ger utilisent une structure en peigne IIR ou à réinsertion récursive ayant un retard variant dans le
temps, comme montré à la figure 6.6. On peut en général commuter entre une réinsertion positive
et une réinsertion négative, pour comparer laquelle est la plus efficace pour une application du flanger
sur un son particulier.
6.2.2 Le phasing
Le phasing a le même effet que le flanger, mais le son « brassé » produit par le filtre en peigne balayant
est en général moins prononcé. Dans le phasing, un signal spectralement riche est envoyé à travers
une série de filtres passe-tout (Hartman, 1978 ; Beigel, 1979 ; Smith, 1984). Les filtres passe-tout
possèdent une courbe de réponse plate (c’est-à-dire qu’ils n’atténuent aucune fréquence), mais
déphasent le signal originel. Un oscillateur basse fréquence peut être utilisé pour balayer la quantité
de déphasage introduite par chaque filtre passe-tout. Les sorties des filtres sont mélangées à gain égal
avec le signal originel. Comme dans le flanger, il en résulte une sorte d’effet de filtrage en peigne
balayant.
Quelle est la différence entre flanger et phasing ? Le flanger crée des pics et des creux complets dans
le spectre, et ceux-ci sont espacés à des intervalles uniformes en fréquence. Au contraire, le nombre
de pics et de creux dans la réponse du déphaseur correspond au nombre d’étapes de filtrage. L’espa-
cement, la profondeur et la largeur peuvent être modifiés.
Le phasing conduit à une grande variété d’effets sonores. Chamberlin (1985) donne un exemple de
quatre filtres passe-tout en série ayant la même fréquence de renversement et une largeur de tran-
sition large. Une sinusoïde de 1 kHz est envoyée dans ces filtres. Si la fréquence de renversement
est balayée de 10 à 100 Hz, le son subit un déphasage en accroissement constant. Ceci a pour effet
d’abaisser momentanément la fréquence de la sinusoïde. Si le balayage de renversement est inversé,
la sinusoïde s’élèvera momentanément en fréquence. Si la sinusoïde est remplacée par un signal
contenant de nombreux harmoniques, les déplacements temporaires de fréquence créent une
« ondulation » audible dans les harmoniques au moment où la fréquence de renversement change.
6.2.3 Les effets chorus

La recherche des effets chorus a longtemps fasciné les musiciens et les ingénieurs du son. Pour un
instrument ayant une voix (qui peut être un timbre électronique), existe-t-il une façon de traiter ce
signal pour qu’il devienne aussi plein qu’un chœur de voix semblables ? Un tel effet nécessite qu’il
y ait de petites différences entre les différentes voix de l’ensemble simulé, y compris de petits retards,
des altérations de la fréquence fondamentale (ce qui crée des effets de battement), et un vibrato
asynchrone. Il n’existe pas d’algorithme universel de l’effet chorus ; les différentes implémentations
utilisent diverses méthodes pour y arriver.
Les efforts pour construire des générateurs d’effets chorus remontent aux années 1940, lorsque John
Hanert construisit des lignes à retard électromécaniques pour la musique électronique (Hanert,
1944, 1945, 1946). Elles étaient construites dans les orgues Hammond pour obtenir un effet de son
choral (Bode, 1984). Dans les années 1950, W.C. Wayne, Jr. avait construit un modulateur de son
choral purement électronique pour l’orgue électrique Baldwin (Wayne, 1961).
Dans les systèmes numériques, un type d’effet chorus peut être réalisé en envoyant un son à travers
une ligne à retard multibascule, où les temps de retard varient constamment sur une grande échelle.
Cette variation introduit un faussage de hauteur et des effets de doublage variants dans le temps.
Ceci revient à envoyer un signal dans une banque de flangers en parallèle, bien que les retards dans
le flanger soient en général plus courts que ceux utilisés pour l’effet chorus.
Ces types de techniques peuvent être enrichis en utilisant de la réinsertion négative (renvoyer une
version en inversion de phase du signal retardé), comme dans le flanger. Ceci signifie inverser en
phase le trajet de réinsertion du flanger de la figure 6.6. Une réinsertion négative, plutôt que positive,
minimise le risque de résonances et de dépassement du système.
Une autre technique d’effet chorus sépare le signal d’entrée en plusieurs bandes de largeurs d’une
octave et applique à chacune un déplacement de spectre ou de fréquence. Le déplaceur de fréquence
peut être conçu comme si l’on ajoutait une constante à la fréquence de chaque composant du spectre.
Avec un déplacement de fréquence de 10 Hz, 220 Hz deviennent 230, 440 Hz deviennent 450, 880 Hz
deviennent 890, et ainsi de suite. Il est clair que le déplaceur de fréquence détruit les relations har-
moniques entre les composants. Après le déplaceur de fréquence se trouve une ligne à retard variant
dans le temps. Selon Chamberlin (1985), ce type de conception est meilleur pour simuler les effets
de grands ensembles.
En utilisant plusieurs filtres passe-tout en parallèle, un type d’effet chorus peut être atteint en pilotant
les fréquences de renversement du filtre grâce à des signaux de basse fréquence quasi aléatoires
(Chamberlin, 1985).
6.3 Changement temps/hauteur

Certaines transformations sonores sont des combinaisons de manipulations temporelles et fréquen-
tielles. Ceci inclut une paire de techniques proches appelées compression/expansion temporelle et
pitch-shifting (« transposition de hauteur »). Comme ces techniques sont en général utilisées
ensemble, cette partie les réunit sous le terme de changement temps/hauteur. Cette technique possède
deux facettes. D’un côté, la durée d’un son peut être allongée ou raccourcie tout en conservant les
hauteurs. D’un autre côté, la hauteur d’un son peut être déplacée vers le haut ou vers le bas tout en
gardant la durée constante.
Le changement temps/hauteur le plus efficace apparaît lorsque celui-ci est appliqué de façon sélec-
tive, dépendante du contexte. Afin de préserver l’identité d’un son originel, il est important de pré-
server la structure fine des attaques et des autres transitoires, en ne traitant que les parties fixes du
signal. Pour allonger de la parole, par exemple, on peut améliorer l’intelligibilité et le « naturel » en
allongeant davantage les voyelles que les consonnes.
Le changement temps/hauteur peut être réalisé à divers degrés de succès, grâce à plusieurs méthodes :
les techniques temporelles granulaires, les harmoniseurs en temps réel, le vocodeur de phase, les
ondelettes, et le codage prédictif linéaire. Le reste de cette partie fait un résumé de chacune d’entre
elles. Pour éviter une certaine redondance avec d’autres parties de ce livre, la présentation de chaque
méthode présentée ici est nécessairement brève.
6.3.1 Changement temps/hauteur par granulation temporelle
La granulation temporelle implique la segmentation d’un flux d’échantillons sonores en unités de
courtes durées appelées grains. Ceci est équivalent au processus de fenêtrage qui apparaît dans de
nombreux algorithmes d’analyse du son (voir le chapitre 11). Les grains peuvent être simplement
des segments coupés à des intervalles successifs espacés régulièrement et enveloppés pour que leur
somme reconstitue la forme d’onde originelle. En granulation temporelle, la durée de chaque grain
peut varier de 1 ms à plus de 200 ms. Le chapitre 22 décrit les représentations granulaires plus en
détail.
✦ Granulation temporelle électromécanique
Le physicien britannique Dennis Gabor (1946) construisit l’un des premiers changeurs temps/hauteur
électromécaniques. Une compagnie allemande, Springer, construisit un outil semblable basé sur
une bande magnétique, et utilisé dans les studios de musique électronique analogique (Springer,
1955 ; Morawaska-Büngler, 1988). Cet outil, appelé le Tempophon, traitait les sons parlés dans la
pièce de musique électronique de 1963 de Herbert Eimert Epitaph für Aikichi Kuboyama (disque
Wergo 60014). Voir également Fairbanks, Everitt et Jaeger (1954) pour une description d’un outil
similaire. Le principe de base de ces machines est la granulation temporelle de sons enregistrés.
Les méthodes numériques contemporaines peuvent être expliquées en faisant référence à l’opération
de ces outils précurseurs.
Dans un changeur temps/hauteur électromécanique, une tête rotative (tête d’échantillonnage)
tournoie le long d’un enregistrement (sur film ou sur bande) d’un son. La tête d’échantillonnage
tournoie dans la même direction que le déplacement de la bande. Comme la tête ne rentre en contact
avec la bande que pendant une courte période, l’effet est celui d’un « échantillonnage » du son sur
la bande à des intervalles réguliers. Chacun de ces segments échantillonnés est un grain de son.
Dans le système de Gabor, les grains étaient rassemblés en un flux continu sur un autre enregistreur.
Lorsque ce second enregistrement était relu, le résultat était un signal plus ou moins continu, mais
avec une base temporelle différente. Par exemple, la contraction du signal originelle était obtenue
en ralentissant la vitesse de rotation de la tête d’échantillonnage. Ceci signifiait que l’enregistrement
Figure 6.7 – Granulation temporelle.

(a) Compression temporelle par extraction de grains séparés. (b) Expansion temporelle par clonage
de deux copies de chaque grain. Dans les deux cas, le contenu fréquentiel local du signal est préservé.
rééchantillonné contenait une séquence de grains qui avaient été formellement séparés (figure 6.7a).
Pour l’expansion temporelle, la tête rotative tournoyait rapidement, échantillonnant plusieurs copies
(clones) du signal originel. Lorsque ces échantillons étaient relus sous forme de signal continu, l’effet
des multiples copies était d’allonger la durée de la version rééchantillonnée (figure 6.7b). Le contenu
fréquentiel local du signal originel, et en particulier la hauteur, était préservé dans la version réé-
chantillonnée.
Pour effectuer un changement de hauteur sans influer sur la durée d’un son, il suffit de changer le
taux de lecture et d’utiliser la modification d’échelonnage temporel décrite ci-dessus pour ajuster
sa durée. Par exemple, pour déplacer d’une octave vers le haut, il faut lire le son originel à vitesse
double puis utiliser la granulation temporelle pour doubler la durée de la version rééchantillonnée.
Ceci restaure la durée à la longueur originelle.
✦ Granulation temporelle numérique
La recherche pionnière effectuée à l’Experimental Music Studio de l’université de l’Illinois conduisit à

une implémentation numérique de la granulation temporelle (Otis, Grossman et Cuomo, 1968).
Cette implémentation simulait l’effet d’un échantillonnage par tête rotative ; elle montrait également
les défauts de cette méthode dans sa forme la plus basique. Le problème principal est que les formes
d’onde au début et à la fin d’un grain échantillonné peuvent ne pas correspondre en niveau avec les
grains rééchantillonnés précédents et suivants. Ceci crée un transitoire à la jonction des deux grains,
un effet montré à la figure 6.8. Les granulateurs temporels électromécaniques et certaines implé-
mentations numériques font ressortir des clics périodiques dans le son, dus à ces transitoires de
coupure.
Clic à la jonction du grain
Figure 6.8 – Lorsque deux grains sont arbitrairement raccordés,

la fin d’un grain peut ne pas épouser correctement le début du grain suivant.
Ceci crée un transitoire (clic) au point de jonction.
Lee (1972) développa le système Lexicon Varispeech sous forme d’un compresseur/expanseur tem-
porel relié à un enregistreur à cassette analogique. L’appareil de Lee comprenait un circuit électro-
nique pour la vérification du niveau au point de coupure, pour réduire les clics du son. L’étude plus
récente de Jones et Parks (1988) a montré comment une reconstruction plus lisse du signal peut être
accomplie en utilisant des enveloppes de grain à pente douce qui se superposent légèrement, ce qui
crée des fondus enchaînés sans raccords apparents entre les grains.
Tout comme dans le changeur temps/hauteur électromécanique, doubler la durée d’un son signifie
que chaque grain est cloné. Pour diviser la durée par deux, un grain sur deux est effacé avant relec-
ture. Le contenu fréquentiel local des grains est préservé, tandis que l’échelle temporelle est altérée
en clonant (pour allonger la durée) ou en effaçant (pour compresser la durée) des grains.
Pour déplacer la hauteur d’un signal échantillonné d’une octave vers le haut sans changer sa durée,
le taux d’échantillonnage de lecture est doublé, et chaque grain est cloné pour restaurer la durée du
signal originel. Pour déplacer la hauteur d’une octave vers le bas sans changer la durée, le taux
d’échantillonnage de lecture est divisé par deux et un grain sur deux est effacé pour restaurer la durée
du signal originel.
Pour l’instant, nous avons décrit des opérations qui doublent ou divisent par deux la hauteur ou le
temps, mais ces opérations ne sont pas limitées au facteur deux. Les échelles de fréquence et de
temps peuvent être altérées dans des rapports arbitraires en changeant le taux d’échantillonnage
avec le clonage ou l’effacement de grains dans les rapports correspondants.
6.3.2 Changement temps/hauteur avec un harmoniseur

Un harmoniseur est un outil de transposition en temps réel qui déplace la hauteur d’un signal entrant
sans altérer sa durée. Basé purement sur des techniques dans le domaine temporel, l’Eventide H910
Harmonizer, construit dans le milieu des années 1970, fut le premier outil numérique de ce type
disponible commercialement (Bode, 1984). La description suivante concerne le Publison, un pro-
cesseur d’effets par échantillonnage développé en France au début des années 1980, et est adaptée
d’après Bloom (1985).
La notion de base d’un harmoniseur est de charger une mémoire vive avec un signal entrant à un taux
de TEent et de lire les échantillons à un taux de TEsor. Le rapport TEent/TEsor détermine le changement
de hauteur.
Pour maintenir un signal de sortie continu, les échantillons doivent être répétés (pour les déplace-
ments de hauteur vers le haut) ou sautés (pour les déplacements de hauteur vers le bas). Comme le
pointeur d’adresse de sortie dépasse constamment le pointeur d’adresse d’entrée (pour l’augmen-
tation de hauteur), ou est dépassé par le pointeur d’adresse d’entrée recirculant (pour l’abaissement
de hauteur), l’adresse de sortie doit occasionnellement se déplacer à un nouveau point de la mémoire.
Afin de rendre cette « coupure » inaudible, le saut précis est calculé d’après une estimation de la
périodicité (hauteur) du signal entrant. Lorsque la décision de sauter est prise, une enveloppe lis-
sante de fermeture en fondu effectue une dénivellation de l’amplitude du signal précoupé jusqu’à
zéro, et une enveloppe correspondante d’ouverture en fondu fait une dénivellation du signal à couper
jusqu’à l’amplitude maximale.
On peut ajouter des raffinements à ce schéma de base pour améliorer son efficacité. L’un d’entre eux
consiste à connecter un noise-gate à l’entrée du système pour que le déplacement de hauteur ne
tente pas de déplacer le bruit ambiant associé au signal entrant.
La qualité sonore d’un simple harmoniseur est basé sur la nature du signal entrant et sur le rapport
de changement de hauteur qu’on lui demande d’effectuer. De petits changements de hauteur tendent
à générer des effets secondaires moins audibles. Certains appareils commerciaux produisent des
effets secondaires non désirés (tels qu’un bourdonnement à la fréquence de coupure) lorsqu’ils sont
utilisés sur un matériau critique, tel que les sons vocaux.
6.3.3 Changement temps/hauteur avec le vocodeur de phase

Le vocodeur de phase (VP), expliqué en détail aux chapitres 11 et 24, applique des transformées de
Fourier rapides (FFT) à des segments courts — généralement superposés — du son entrant. Les
FFT fournissent une série de trames du spectre qui capturent l’évolution dans le domaine fréquen-
tiel du son dans le temps. En se basant sur ces données, le son originel peut être resynthétisé grâce
à la synthèse additive ; chaque fréquence de l’oscillateur sinusoïdal correspondant à un composant

fréquentiel analysé. La sortie de la resynthèse est en général un simulacre du signal originel.
✦ Transformations par superposition-addition

L’intérêt compositionnel du VP réside dans le fait de transformer les données d’analyse avant la
resynthèse, pour produire des variations du son originel. L’une des transformations les plus répan-
dues est la compression/expansion temporelle. On peut accomplir celle-ci de deux façons, selon la
version du VP utilisé. Dans la version qui utilise la resynthèse par superposition-addition (expliquée
au chapitre 11), l’expansion temporelle est effectuée en déplaçant les moments de départ des trames
superposées pour les éloigner lors de la resynthèse. La compression temporelle déplace les moments
de départ pour les rapprocher. Comme l’a fait remarquer Dolson (1986), le vocodeur de phase préfère
les rapports de transposition entiers, que cela soit pour des changements de temps ou de hauteur.
Pour des transpositions douces, le VP devrait multiplier les valeurs de phase par la constante utilisée
dans le changement de base temporelle (Arfib, 1991).
La transposition de hauteur est simplement une question d’échelonnage des fréquences des com-
posants de la resynthèse. Pour les signaux parlés en particulier, cependant, un facteur d’échelonnage
constant change non seulement la hauteur, mais également les fréquences formantiques. Pour des
déplacements vers le haut d’une octave ou plus, ceci réduit l’intelligibilité de la parole. Ainsi, Dolson
(1986) suggère une correction à l’échelonnage fréquentiel qui réimpose l’enveloppe spectrale ori-
ginelle au spectre fréquentiel transposé. Si le spectre originel ne s’élevait que jusqu’à 5 kHz, par
exemple, la version transposée sera également coupée à ce point, sans se soucier de savoir si les fré-
quences des composants se trouvent à l’intérieur de cette enveloppe globale.
✦ Transformations avec le vocodeur de phase pisteur

Une autre technique d’altération de la base temporelle des sons analysés nécessite un vocodeur de
phase pisteur ou VPP (voir chapitre 11). Le VPP convertit une série de trames spectrales en un
ensemble de fonctions d’enveloppe d’amplitude et de fréquence pour chaque composant fréquentiel
analysé. Ces fonctions sont en général représentées sous forme de rangées dans la mémoire de
l’ordinateur. En éditant ces fonctions d’amplitude et de fréquence, on peut déplacer la hauteur ou
(a)
(b)
(c)
Figure 6.9 – Modification de l’échelle temporelle d’enveloppes de vocodeur de phase pisteur.

Tous les tracés montrent l’amplitude sur l’axe vertical, et le temps sur l’axe horizontal.
(a) Original. (b) Étendu dans le temps. (c) Compressé dans le temps.
étendre la durée d’un son indépendamment l’un de l’autre (Portnoff, 1978 ; Holtzman, 1980 ; Gordon
et Strawn, 1985). Par exemple, pour allonger la durée, des points sont interpolés entre les points
existants dans les rangées d’amplitude et de fréquence. Pour rétrécir la durée d’un facteur de n,
seulement toutes les énièmes valeurs sont utilisées en lecture dans les rangées d’amplitude et de
fréquence. En fait, ceci modifie le taux d’échantillonnage (figure 6.9). Maher (1990) présente certaines
distorsions que ces interpolations simples peuvent entraîner, et fournit des remèdes pour de meil-
leures « déformations d’enveloppe ».
Pour déplacer la hauteur d’un son sans changer sa durée, on multiplie les valeurs fréquentielles
assignées à chaque fonction fréquentielle par un facteur désiré. Par exemple, pour déplacer un son
vers le haut d’un intervalle d’une seconde majeure, chaque composant fréquentiel est multiplié par
11,892 pour cent ; une sinusoïde de 1 kHz aura comme fréquence 1 118,92 Hz. On peut également
déplacer la hauteur de façon sélective, en altérant seulement la fréquence fondamentale, et en laissant
identiques les autres partiels.
6.3.4 Changement temps/hauteur avec la transformée en ondelettes

Comme dans le vocodeur de phase, la première étape dans un changement temps/hauteur avec onde-
lettes est une sorte d’analyse spectrale (Kronland-Martinet, 1988 ; Kronland-Martinet et Grossmann,
1991 ; Vetterli, 1992). Le chapitre 11 explique le concept de base des ondelettes. Elles sont similaires
aux segments fenêtrés utilisés avec la FFT, mais la durée de chaque ondelette dépend de son contenu
fréquentiel : plus la fréquence est élevée, plus l’ondelette est courte. Ceci signifie que la résolution
temporelle de la transformée en ondelettes (c’est-à-dire sa capacité à localiser avec exactitude le
moment de départ des événements) est plus grande pour les hautes fréquences.
Comme dans les méthodes de transformées de Fourier, la transformée en ondelettes coupe un son
échantillonné en une collection de composants individuels, localisés dans le temps. Ces composants
sont caractérisés par des valeurs d’amplitude et de phase, glanées lors de l’analyse. Afin de modifier
la base temporelle ou de hauteur, on doit altérer les données d’analyse avant resynthèse.
Pour déplacer la hauteur d’un facteur constant, on multiplie les valeurs de phase des ondelettes
analysées par ce facteur (Kronland-Martinet et Grossmann, 1991). Pour allonger ou rétrécir la base
temporelle tout en gardant la même hauteur, on allonge ou on rétrécit le point de superposition des
ondelettes lors de la resynthèse.
6.3.5 Changement temps/hauteur avec le codage prédictif linéaire

Le chapitre 24 présente le codage prédictif linéaire (CPL) — une méthode d’analyse/resynthèse

soustractive qui peut générer de la parole, du chant, des timbres instrumentaux, et des sons synthé-
tiques résonants (Cann, 1979-1980 ; Moorer, 1979a ; Dodge et Jerse, 1985 ; Dodge, 1989 ; Lansky,
1989 ; Lansky et Steiglitz, 1981). L’analyse CPL modèle un signal d’entrée sous forme d’une fonction
excitatrice (telle que celle produite par les cordes vocales humaines ou les vibrations d’une anche
ou d’une corde frottée) et d’un ensemble de résonances variantes dans le temps (telles que celles du
conduit vocal humain ou du corps d’un saxophone ou d’un violon). Les résonances sont implé-
mentées sous forme de filtre variant dans le temps qui simule une réponse à l’excitation. Pour plus
de détails sur l’analyse spectrale CPL, voir le chapitre 11.
Le CPL n’est pas une méthode d’analyse/resynthèse parfaite. Il fut à l’origine conçu pour être un
codage efficace de la parole, afin de permettre des communications de faible largeur de bande. Son
usage a été étendu à la musique, mais les sons resynthétisés ont en général un côté artificiel, en raison
de la perte de détails lors de l’analyse (Moorer, 1979a). Cependant, si cette limitation est acceptée,
le CPL est et continuera à être utilisé dans des applications de composition efficaces.
Le CPL code les résultats d’analyse sous forme d’une séquence de trames de courte durée, où cha-
que trame capture les coefficients de filtrage, la hauteur, et les données voisées/dévoisées pour une
tranche temporelle donnée de son. Voir le chapitre 24 pour une explication des données de trame.
Pour des besoins musicaux, les compositeurs éditent les trames, et transforment le son originel. La
figure 24.18 du chapitre 24 montre une séquence de données dans les trames CPL.
Pour réaliser un changement temps/hauteur, on édite les trames, puis on utilise les trames éditées
pour piloter la resynthèse. Les trames d’analyse CPL sont en général calculées à des intervalles
réguliers, entre 50 et 120 par seconde. En lançant une commande d’édition, la durée des trames peut
par exemple être changée, pour allonger une seule trame de 10 à 100 ms. La colonne de hauteur
peut être éditée séparément pour ne changer que la hauteur de la version resynthétisée. Ainsi, la
durée et la hauteur peuvent être transformées indépendamment l’une de l’autre. En dehors du
changement temps/hauteur, les données CPL peuvent être éditées d’autres façons pour créer des
variations radicales du son analysé originel. Voir Cann (1979-1980) et Dodge (1985) pour trouver des
exemples d’édition de données CPL. Les applications musicales du changement temps/hauteur par
CPL peuvent être trouvées par exemple dans les compositions de Paul Lansky et de Charles Dodge.
Chapitre 7
La spatialisation
Curtis Roads et Jean de Reydellet
L’art de la spatialisation du son occupe aujourd’hui une position similaire à celle que l’art de l’orches-
tration occupait au dix-neuvième siècle. Déployer l’espace revient à chorégraphier le son : posi-
tionner les sources sonores et animer le mouvement. En immergeant le son dans la réverbération,
on baigne l’auditeur dans son atmosphère luxuriante.
La spatialisation du son possède deux aspects : le virtuel et le physique. Dans la réalité virtuelle du
studio, les compositeurs spatialisent les sons en imposant des retards, des filtres, des panoramisa-
tions et de la réverbération — ce qui conduit à l’illusion de sons émergeant d’environnements
imaginaires. Parfois, ces espaces virtuels prennent des caractéristiques qui seraient impossibles à
réaliser architecturalement, telles qu’un modèle d’écho changeant de façon continue. Dans le monde
physique des salles de concert, les sons peuvent être projetés par un système sonore multicanal à
partir de plusieurs positions : autour, au-dessus, en dessous, ou à l’intérieur du public.
L’architecture sonore ou spatialisation est devenue peu à peu un aspect important de la composition.
Une tendance vers l’utilisation « cinématique » de l’espace se voit dans des compositions qui con-
tiennent des appositions spectaculaires entre les sons proches et les sons réverbérés distants. Certains
compositeurs utilisent des techniques de microphone et du traitement de spatialisation d’une
façon similaire à l’utilisation cinématique de l’angle de la caméra, de la perspective (largeur), et de
la profondeur de champ. L’œuvre Sud de Jean-Claude Risset (1985, Wergo, 2013-50) vient tout de
suite à l’esprit.
7.1 Spatialisation du son

Le mouvement du son à travers l’espace crée des effets spectaculaires et peut servir d’élément
structurel important dans la composition. Les compositeurs peuvent articuler les voix dans une
texture contrapuntique en donnant à chacune une position spatiale unique. La scène sonore virtuelle
et physique autour du public peut être traitée comme un paysage, avec son arrière-plan et son pre-
mier plan, et des sources fixes et en mouvements. Cette scène sonore peut être fixée en lecture, ou
contrôlée par des gestes en concert (Harada et coll., 1992).
Les simulations numériques des sources sonores en mouvements posent des problèmes spéciaux.
Dans de nombreux concerts, le public est entouré par un certain nombre de haut-parleurs. Comment
crée-t-on l’illusion d’un son voyageant dans la salle, s’éloignant ou se rapprochant de l’auditeur au
fur et à mesure de son évolution ? Dans les situations d’écoute avec seulement deux haut-parleurs
ou avec un casque, l’illusion de sons se déplaçant librement dans l’espace est encore plus difficile.
Les illusions de spatialisation les plus populaires sont la panoramisation horizontale — déplacement
latéral d’un son d’un haut-parleur à l’autre — et la réverbération — ajout d’un modèle dense et diffus
d’échos à un son pour le situer dans un espace plus large. La panoramisation verticale (de haut en bas
et au-dessus de la tête) peut également créer des effets saisissants dans la musique électronique.
Voir Gerzon (1973) pour une présentation de l’enregistrement et de la lecture du « son avec hauteur ».
7.1.1 Spatialisation dans la musique : origines
Von welcher Seite, mit wievielen Lautspechern zugleich, ob mit Links - oder Rechtsdrehung, teilweise
beweglich die Klänge und Klanggruppen in den Raum gestrahlt werden : das alles ist für das Verständ-
nis dieses Werkes massgeblich. (De quel côté, avec combien de haut-parleurs, avec une rotation vers
la gauche ou vers la droite, avec du mouvement ou non, de quelle façon les sons et les groupes de sons
devraient être projetés dans l’espace : toutes ces données sont décisives pour la compréhension de
l’œuvre.) (Karlheinz Stockhausen 1958, décrivant sa composition Gesang der Jünglinge [Le chant
des adolescents dans la fournaise])
Les techniques spatiales dans la musique ne sont pas nouvelles. Au seizième siècle, les composi-
teurs associés à la Basilique Saint-Marc de Venise (notamment Adrian Willaert et son élève Andrea
Gabrieli) ont employé l’antiphonaire spatial dans leurs compositions pour deux ou trois chœurs.
Dans ces œuvres, un vers initial était entendu d’un côté de la salle, et un vers de réponse provenait
de l’autre côté. Cet arrangement était facilité par deux orgues se faisant face dans la basilique.
Wolfgang Amadeus Mozart a écrit des compositions pour deux orchestres séparés spatialement
(K. 239 et K. 286), et Hector Berlioz et Gustav Malher ont écrit des compositions pour de multiples
orchestres et chœurs, certains d’entre eux n’étant pas sur scène. Après ces expériences, cependant,
il existe peu de documents concernant les techniques spatiales en composition jusqu’à l’arrivée de
l’électronique.
L’invention du haut-parleur peut être comparée à l’invention de l’ampoule électrique. Soudainement,
il était possible de projeter l’énergie sonore dans de petits et grands espaces, sous n’importe quel
angle, avec n’importe quelle intensité. Mais l’utilisation des haut-parleurs — dans les salles de
cinéma, les stades, les gares, ou dans les radios personnelles — est restée en grande majorité plate
et fonctionnelle. C’est seulement après la Deuxième Guerre mondiale que les possibilités esthétiques
de la projection du son par des haut-parleurs furent exploitées dans la musique électronique.
7.1.2 Exemples de traitement de spatialisation en musique électronique
Un certain nombre d’exemples célèbres de projection spatiale en musique électronique ou infor-
matique doit être mentionné ici :
• Gesang der Jünglinge de Karlheinz Stockhausen fut projeté en 1956 par cinq groupes de haut-
parleurs dans l’auditorium de la Westdeutschen Rundfunks (WDR) (Stockhausen, 1961). Son
œuvre Kontakte, réalisée en 1960, fut la première composition de musique électronique
interprétée par une bande quatre pistes, en utilisant l’enregistreur à bande Telefunken T9
(Stockhausen, 1968).
• En 1958, la composition classique de musique pour bande Poème électronique d’Edgar Varèse
et Concret PH d’Iannis Xenakis furent projetés à travers un système sonore onze canaux par
425 haut-parleurs installés sur les parois courbes du Pavillon Philips, conçu par Xenakis et
Le Corbusier pour l’Exposition universelle de Bruxelles.
• Stockhausen joua sa musique électronique sur des haut-parleurs distribués sur la surface
interne du dôme géodésique du Pavillon allemand à l’Expo 70 à Osaka (Stockhausen, 1971a).
• Lors de la même exposition, Iannis Xenakis interpréta sa composition électroacoustique douze
canaux Hibiki Hana Ma au Pavillon d’acier japonais sur un système de 800 haut-parleurs
distribués autour du public, au-dessus de leurs têtes, et sous leurs sièges (Matossian, 1986).
Un système de projection sonore douze canaux animait son spectacle son et lumière le Polytope
de Cluny projeté à l’intérieur de l’ancien Musée de Cluny à Paris (Xenakis, 1992).
• Le compositeur Salvatore Martirano construisit un appareil numérique complexe appelé la
Construction Sal-Mar pour contrôler un synthétiseur analogique « fait maison » et pour dis-
tribuer le son parmi 250 haut-parleurs minces suspendus à différentes hauteurs depuis les
plafonds des salles de concert (Martirano, 1971).
• L’idée de projection du son par un orchestre de douzaines de haut-parleurs sur scène fut
réalisée dans le Gmebaphone, conçu par le Groupe de Musique Expérimentale de Bourges,
et fut pour la première fois entendue en concert en 1973 (Clozier, 1973).
• Le premier concert de l’Acousmonium — un assemblage de douzaines de « projecteurs
sonores » conçu par le Groupe de Recherches Musicales (figure 7.1) — eut lieu à l’Espace
Cardin à Paris, en 1974 (Bayle, 1989, 1993).
Figure 7.1 – L’Acousmonium — un spatialisateur multicanal

conçu par le Groupe de Recherches Musicales (GRM) — installé dans l’auditorium Olivier Messiaen,
Maison de Radio France, Paris, en 1980. Projetant, grâce à 80 haut-parleurs, le son lu sur une console
48 pistes, l’Acousmonium parvient à atteindre la complexité d’une image sonore semblable à celle
d’un orchestre. Il permet au compositeur de « réorchestrer » une composition électronique pour
une interprétation spatialisée sur l’Acousmonium. (Photographie de L. Ruska fournie avec l’aimable
autorisation de François Bayle et du Groupe de Recherches Musicales.)
• La construction en acier utilisée au milieu des années 1980 lors des interprétations de
Répons de Pierre Boulez tenait des haut-parleurs suspendus au-dessus des têtes du public. Le
contrôle spatial fut implémenté en utilisant le synthétiseur 4X de Di Giugno (Asta et coll.,
1980 ; Boulez et Gerzso, 1988).
• En 1987, les chercheurs du Tempo Reale Studio de Luciano Berio à Florence développèrent
un système de distribution du son appelé Trails et basé sur un ordinateur, qui pouvait distribuer
le son jusqu’à 32 canaux audio, en combinant des modèles préprogrammés et des modèles
en temps réel de spatialisation (Bernardini et Otto, 1989).
De nombreux autres systèmes de spatialisation du son ont été développés, y compris le système
HYBRID IV seize canaux d’Edward Kobrin (Kobrin, 1977) (figure 7.2), le système de distribution
sonore SSSP (Federkow, Buwton et Smith, 1978), l’installation AUDIUM (Loy, 1985b), le Halaphon
de Hans Peter Haller utilisé par P. Boulez et L. Nono (Haller, 1980), le système Sinfonie contrôlé par
ordinateur développé au studio GRAME de Lyon, et le spatialisateur entièrement numérique implé-
menté par Marina Bosi (1990) à l’université de Stanford.
Figure 7.2 – Installation du studio HYBRID IV d’Edward Kobrin à Berlin, 1977,

comprenant un système de spatialisation 16 canaux contrôlé par ordinateur.
Les haut-parleurs sont placés sur les murs.
7.1.3 Amélioration de la projection spatiale en concert

Même des concerts ad hoc de musique électroacoustique sans système de projection du son élaboré
peuvent faire un pas en avant vers l’amélioration des qualités spatiales de l’interprétation. La figure 7.3
illustre quelques configurations standards.
LF RF LF RF
LR RR
(a) (b)
O
RF
LF LR LF RF
RR LR RR
(c) (d)
Figure 7.3 – Configurations sélectionnées de haut-parleurs

pour la spatialisation de musique électronique et informatique. (a) Stéréophonie de base, LF = avant
gauche, RF = avant droite. (b) Quadriphonie, RR = arrière droite, LR = arrière gauche. (c) Périphonie
quadriphonique. Les haut-parleurs avant droite et arrière gauche sont placés au-dessus du niveau
de l’oreille, afin que lorsque le son se déplace horizontalement, il se produise également un dépla-
cement vertical. (d) Configuration à cinq haut-parleurs avec un haut-parleur vertical projetant vers
le bas.
• Si possible, utilisez au moins un système de projection du son quadriphonique (quatre canaux

d’amplification avec des systèmes à quatre haut-parleurs), placé autour du public (figure 7.3b).
• Lorsque les enregistrements deux pistes sont joués sur un système quadriphonique, envoyez
deux canaux vers l’avant et deux canaux vers l’arrière avec la configuration gauche-droite des
canaux arrière inversée. De cette façon, lorsqu’un son se déplace de gauche à droite à l’avant,
il se déplace également de droite à gauche à l’arrière, ce qui accroît la sensation d’animation
spatiale.
• Pour ajouter davantage d’articulation spatiale, placez les haut-parleurs aux coins opposés dans
une position surélevée. Ceci est appelé périphonie ou lecture du « son avec hauteur » (Gerzon,
1973). Dans ce schéma, lorsqu’un son se déplace de gauche à droite, il se déplace également
verticalement (figure 7.3c).
• Lorsque des instruments ou des chanteurs amplifiés sont utilisés, donnez à chacun un ampli-
ficateur et un haut-parleur individuels, accompagnés d’effets (tels que de l’égalisation) pour
articuler cet instrument en particulier. Pour enraciner chaque instrument sur la scène sonore
et atténuer le syndrome de « l’interprète désincarné », le haut-parleur devrait être placé près
de l’interprète (Morril 1981b). Dans le syndrome de l’interprète désincarné, le son d’un ins-
trument est envoyé dans un système de renforcement du son global qui est éloigné de l’inter-
prète. Comme l’image de la source d’un son, du point de vue des auditeurs, est dominée par
le premier son qui atteint leurs oreilles (ceci est appelé l’effet de précédence ; Durlach et Col-
burn, 1978), toute amplification globale d’un interprète jouant d’un instrument acoustique
devrait être retardé de 5 à 40 ms pour permettre à l’amplificateur local de faire la première
impression en tant que source (Vidolin, 1993). Parfois, bien sûr, le compositeur souhaite projeter
le son d’un instrument autour d’une salle, ou la mélanger avec une source préenregistrée ;
ceci est un autre cas.
• Une approche différente consiste à assembler un « orchestre » de plusieurs haut-parleurs sur
scène (l’approche Gmebaphone/Acousmonium). Ceci crée une multiplicité et une diversité
sonore de la source spatiale généralement associée à un orchestre d’instruments acoustiques.
Le contrôle précis des illusions spatiales nécessite la connaissance de la théorie de localisation
— c’est-à-dire comment les êtres humains perçoivent la direction du son, ce qui constitue le sujet
de la prochaine partie.
7.2 Indications de localisation

Avant de fouiller les techniques de spatialisation du son, il est important de comprendre les principes
de base selon lesquels les auditeurs localisent la position d’émission d’un son. Ce sujet, un des
domaines les plus étudiés de la psychoacoustique, est appelé localisation du son. La localisation
dépend des indications pour trois dimensions :
• l’azimut ou angle horizontal ;
• la distance (pour les sons statiques) ou la vélocité (pour les sons en mouvement) ;
• le zénith (altitude) ou angle vertical.
Hauteur (zénith)
Distance
H H
Angle (azimut)
Figure 7.4 – L’auditeur attentif peut localiser une source à partir de son angle horizontal,
de sa hauteur et de sa distance. H = haut-parleur.
Pour déterminer l’azimut d’un son, les auditeurs disposent de trois indications :
• les temps différents d’arrivée d’un son aux deux oreilles lorsque celui-ci vient d’un côté ;
• la différence d’amplitude des sons de hautes fréquences entendus par les deux oreilles,
ce qui produit « l’effet d’ombre » de la tête ;
• les indications spectrales fournies par les réflexions asymétriques du son sur les oreilles
externes (pavillons), les épaules et le torse supérieur.
Les indications de distance sont de trois sortes :
• le rapport entre signal direct et signal réverbéré, lorsque le signal décroît en intensité selon
le carré de la distance ;
• la perte des composants de haute fréquence lorsque la distance augmente ;
• la perte des détails (absence de sons plus doux) lorsque la distance augmente.
Lorsque la distance entre le son et l’auditeur change, l’indication de la vélocité du son est un chan-
gement de hauteur appelé effet Doppler (expliqué plus loin).
La principale indication pour l’azimut est un changement dans le spectre causé par des réflexions
du son sur les pavillons et les épaules
7.2.1 Simulation de l’indication d’azimut
Les auditeurs peuvent localiser un son haute fréquence intense provenant d’une direction particulière
au niveau de l’oreille. De façon logique, si une source sonore est positionnée directement à la position
d’un haut-parleur, le signal en entier devrait provenir de ce haut-parleur. Lorsque la source se déplace
d’un haut-parleur à l’autre, l’amplitude en direction du haut-parleur cible augmente, et l’amplitude
en direction du haut-parleur originel diminue.
Dans les interprétations où un certain nombre de haut-parleurs sont placés à équidistance dans un
cercle autour du public, un algorithme pour la position spatiale n’a besoin que de calculer les
amplitudes de deux haut-parleurs adjacents, sans tenir compte du nombre total de haut-parleurs.
Pour positionner une source sonore à un point P précis entre deux haut-parleurs A et B, on doit tout
d’abord déterminer l’angle (θ) de la source mesuré à partir du point médian entre A et B (figure 7.5).
De nombreuses courbes de panoramisation différentes sont possibles, chacune rendant une impres-
sion spatiale légèrement différente du mouvement sonore. Nous présenterons deux courbes de pano-
ramisation : linéaire et à puissance constante. Pour une panoramisation symétrique, ces courbes
supposent qu’un auditeur est assis exactement au centre entre les deux haut-parleurs. Lorsque
l’auditeur n’est plus assis au centre, il y a un décalage d’azimut dans l’image sonore. Pour des besoins
d’efficacité, les courbes peuvent être calculées à l’avance, ne demandant plus qu’une opération de
lecture de table en utilisant l’index θ.
✦ Panoramisation linéaire
La formule la plus simple pour le positionnement est une relation linéaire simple :
A amp = θ ⁄ θ max
B amp = 1 – ( θ – θ max )
Le problème avec ce type de panoramisation est qu’il crée un effet de « trou au milieu », car les
oreilles ont tendance à considérer que le signal est plus fort aux points limites (aux haut-parleurs)
qu’au milieu (figure 7.6). Ceci en raison de la loi d’intensité sonore, qui établit que la sonie perçue
d’un son est proportionnelle à son intensité. L’intensité d’un son peut être donnée comme suit :
0˚
P
A B
θ
θmax
Auditeur
Figure 7.5 – Pour positionner une source sonore à un point P

entre deux haut-parleurs A et B, vérifier l’angle (θ) de la source mesuré à partir du point médian
entre A et B. Au milieu, θ est égal à 0 degré. L’angle θmax est l’angle maximal, en général plus ou
moins 45 degrés. Utilisez les formules données dans le texte pour trouver l’amplitude des signaux
envoyés aux deux haut-parleurs.
2 2
I = A amp + B amp
Au milieu de la panoramisation (c’est-à-dire là où θ = 0), Aamp = Bamp = 0,5, d’où :
0,5 2 + 0,5 2 = 0,25 + 0,25 = 5 = 0,707

Ainsi, l’intensité chute à 0,707 au milieu, en commençant avec une valeur de 1 sur le côté. Cela
constitue une différence de 3 dB. Pour l’oreille, dont la sensibilité est davantage liée à l’intensité plutôt
qu’à l’amplitude, le son semble être plus faible au centre, comme s’il s’était éloigné de l’auditeur.
✦ Panoramisation à puissance constante
Une panoramisation à puissance constante utilise des courbes sinusoïdales pour contrôler l’ampli-
tude émise par les deux haut-parleurs (Reveillon 1984). Ceci crée l’impression d’une panoramisation
ayant une sonie plus stable :
2
A amp = ------ × [ cos ( θ ) + sin ( θ ) ]
2
2
B amp = ------ × [ cos ( θ ) – sin ( θ ) ]
2
Au milieu de la panoramisation, Aamp = Bamp = 0,707, d’où :
I = 0,707 2 + 0,707 2 = 0,5 + 0,5 = 1 = 1

et ainsi une intensité constante est préservée.
1.0 Réel
0.5 0.5
Amp.
0
+45 0 -45 +45 0 -45
θ θ
Canal gauche Canal droite
Perçu
A B
Auditeur
Figure 7.6 – Une courbe de panoramisation linéaire est entendue avec un éloignement
dans le milieu en raison d’une diminution d’intensité. Les courbes d’amplitude de chaque canal
sont montrées en haut ; la trajectoire perçue est montrée en dessous.
La figure 7.7 montre la panoramisation d’intensité constante. La panoramisation est perçue comme
étant en rotation entre les deux haut-parleurs à une distance constante de l’auditeur.
✦ Réflexions
Lorsque le son se déplace d’un haut-parleur à l’autre dans une salle de concert, les réflexions de la
salle fournissent d’autres indications pour la localisation du son. À certaines positions dans certaines
salles, elles peuvent rendre confuse la sensation de direction, mais ceci est un cas spécial. Ainsi,
pour améliorer l’effet de localisation, le compositeur peut ajouter de petits retards au signal prove-
nant des canaux « indirects » (c’est-à-dire les canaux à partir desquels la source principale n’est
pas projetée). Ces retards simulent les réflexions de la salle ; ils disent à l’oreille que la direction de
la source est ailleurs. Dans l’idéal, le modèle de réflexion doit changer lorsque le son se déplace.
Note : la longueur d’onde correspondante est également montrée. Pour calculer le temps de retard
d’une réflexion, utiliser la distance totale de la source à la surface réfléchissante puis à l’auditeur.
La vitesse du son est fixée à 340 m/s.
Réel
1.0
0.707 0.707
0
+45 0 -45 +45 0 -45
θ θ
Canal gauche Canal droite
Perçu
A B
Auditeur
Figure 7.7 – Une courbe de panoramisation à puissance constante

maintient la distance perçue et l’intensité au milieu. Les courbes d’amplitude pour chaque canal sont
montrées en haut ; la trajectoire perçue est montrée en dessous.
Tableau 7.1 – Distance parcourue par les ondes sonores par unité de temps.
Temps Distance totale Fréquence (en Hz)

(en ms) (en m) de la longueur d’onde
1,0 0,34 1 000
3,4 1 340
6,8 2 168
34 10 34
68 20 16,8
100 34 10
340 100 3,4
680 200 1,68
1000 340 1
Pour avoir une idée de la relation existante entre le temps de retard et la distance perçue d’un son,
examinez le tableau 7.1. Il montre la distance qu’un son traverse pendant certaines quantités de
temps. La troisième colonne du tableau 7.1 a été ajoutée pour satisfaire l’appétit du lecteur curieux,
montrant la longueur d’onde correspondante à une distance donnée. Comme le montre par exemple
la troisième ligne, un son acoustique de 168 Hz (approximativement un Mi) prend forme dans
deux mètres d’air.
7.2.2 Simulation des indications de distance

Pour faire s’éloigner un son dans la distance, on peut baisser son amplitude, appliquer un filtre passe-
bas, ajouter de l’écho, ou mélanger de la réverbération. Les deux premières indications modèlent ce
qui se passe en extérieur dans un grand espace ouvert, où nous ressentons la distance d’un son par
son intensité et par l’effet de filtrage de l’absorption de l’air sur les hautes fréquences.
Les indications d’écho et de réverbération modèlent ce qui se passe dans un espace clos tel qu’une
salle de concert. Pour simuler une distance spécifique à l’intérieur d’une pièce, la méthode la plus
simple est de garder le même niveau de réverbération et d’échelonner le signal direct afin qu’il soit
inversement proportionnel à la distance désirée (figure 7.8). Une extension de cette technique est
d’échelonner également le signal réverbérant, selon une fonction qui décroît moins rapidement que
le signal direct. Lorsque la source s’éloigne, le son total émanant de la source diminue.
D R D R
-10
-30 -30
Amp. -35
en dB
(a) (b)
Figure 7.8 – Indicateurs de niveau pour simuler un son s’éloignant de l’auditeur.

D = direct, R = réverbéré. (a) Son proche dans lequel le son direct a une amplitude bien plus élevée
que le son réverbéré. (b) Son distant. L’amplitude globale est plus faible, et le rapport entre son direct
et son réverbéré est plus petit.
✦ Réverbération locale et globale

Une autre indication de distance est la relation entre réverbération locale et réverbération globale,
ce qui peut être démontré grâce à un système à multiples haut-parleurs. La réverbération globale
est distribuée de façon égale parmi tous les haut-parleurs, tandis que la réverbération locale apparaît
dans les paires adjacentes de haut-parleurs. Ainsi, un son peut avoir une réverbération globale
courte et faible, mais aussi une réverbération locale forte provenant d’une des paires de haut-parleurs
d’un système à haut-parleurs multiples. Ceci peut simuler le cas d’une ouverture vers un espace
large entre deux haut-parleurs.
Une distinction entre les réverbérations locales et globales aide à venir à bout d’un effet de masque
qui apparaît à des distances où les amplitudes des signaux directs et réverbérants globaux sont
égales. Ce masque élimine l’indication d’azimut. L’une des façons d’annuler cet effet est de séparer
la réverbération en composants locaux et globaux et d’augmenter la réverbération locale en fonction

de la distance selon la relation :
réverbération_locale ≅ 1 – ( 1 ⁄ distance )
Lorsque la distance augmente, cette relation tend vers 1. Ainsi, lorsque la source est proche de
l’auditeur, la réverbération est distribuée de façon égale dans tous les canaux. Lorsqu’elle s’éloigne,
le signal réverbérant se concentre dans la direction de la source.
7.2.3 L’indication de vélocité ou effet Doppler
Les indications de localisation de base pour les sons statiques peuvent être étendues aux sources
sonores en mouvements. Ceci est accompli grâce à une indication de la vélocité de la source sonore
appelée effet Doppler, et décrite pour la première fois par le physicien C. Doppler (1842). Les pre-
mières simulations de l’effet Doppler en informatique musicale furent effectuées par John Chowning
(1971).
L’effet Doppler est un changement dans la hauteur qui apparaît lorsque la source et l’auditeur se
déplacent l’un par rapport à l’autre. Un exemple bien connu est entendu lorsque l’on se tient près
d’une voie ferrée et que le train s’approche à grande vitesse puis s’éloigne. Lorsqu’il se rapproche, les
fronts d’onde du son nous atteignent plus rapidement, ce qui élève la hauteur. Lorsque le train est
passé, nous entendons la hauteur redescendre.
Un effet Doppler est une indication de la vélocité radiale d’une source par rapport à l’auditeur. Un
mouvement radial est un mouvement en fonction d’un centre — dans ce cas, l’auditeur (figure 7.9a).
(a) Source
mouvante
P 0˚ N
Distance
variable
Auditeur
(b) Source
mouvante
Distance
constante
Auditeur
Figure 7.9 – (a) Un son s’approchant de l’auditeur possède une vélocité radiale positive (P).
Le son s’éloignant possède une vélocité radiale négative (N). (b) Un son se déplaçant sur un cercle
est toujours à la même distance de l’auditeur et possède donc une vélocité radiale égale à zéro.
La vélocité radiale est différente de la vélocité angulaire. Pour qu’un son ait une vélocité angulaire,
il doit se déplacer dans un cercle autour de l’auditeur (figure 7.9b). Dans ce cas, la distance entre la
source et l’auditeur est constante (c’est-à-dire que la vélocité radiale est nulle), et il n’y a donc pas
d’effet Doppler. Si la position de l’auditeur reste fixe, l’effet Doppler peut être exprimé de la façon
suivante :
nouvelle_hauteur = hauteur_originelle × [ v son ⁄ ( v son – v source ) ]
où hauteur_originelle est la hauteur originelle de la source sonore, vson est la vélocité du son
(≈ 344 m/s), et vsource est la vélocité de la source par rapport à l’auditeur. Si vsource est positive, le son
s’approche de l’auditeur, et la hauteur s’élève. Si elle est négative, la hauteur descend.
Le changement de hauteur qui apparaît dans l’effet Doppler peut être expliqué par la compression
de l’intervalle entre les fronts d’onde lorsque la source s’approche de l’auditeur. La figure 7.10a
montre un son statique émettant des fronts d’onde à un taux ou hauteur constants. La figure 7.10b
montre une source sonore se déplaçant vers l’auditeur. Les points S1, S2 et S3 représentent les posi-
(a)
Source
Auditeur
(b)
Auditeur
S1 S2 S3
Figure 7.10 – Modèles de déplacements Doppler de fronts d’onde.

(a) Son statique, les fronts d’onde arrivent par intervalles constants, ce qui ne provoque pas de
changement de hauteur. (b) S1, S2 et S3 représentent les positions successives d’une source sonore
en mouvement. Déplacement de hauteur vers le haut.
Figure 7.11 – Spectres HRTF pour des sons entendus à 90 degrés

(directement dans l’oreille gauche) à différentes hauteurs. (En haut) 15 degrés au-dessus du niveau
de l’oreille. (Au milieu) Niveau de l’oreille. (En bas) En dessous du niveau de l’oreille (d’après Rodgers,
1981, publié avec l’aimable autorisation de l’Audio Engineering Society).
tions successives d’une source sonore en mouvement. Lorsque le son s’approche, les fronts d’onde
se resserrent, ce qui produit un déplacement vers le haut de la hauteur.
À un instant donné, l’effet Doppler déplace toutes les fréquences du même intervalle logarithmique.
Par exemple, un son approchant se déplaçant à 20 m/s s’élève d’environ une seconde mineure
(3,15 pour cent). Un déplacement de 6,15 pour cent pour un composant à 10 kHz est 615 Hz, tandis
que pour un composant à 100 Hz ce ne sera que 6,15 Hz. Ainsi, l’effet Doppler préserve les relations
interharmoniques échelonnées logarithmiquement dans un son. Ceci est différent d’un déplacement
linéaire de fréquences apparaissant dans la modulation. Un exemple de déplacement linéaire de
fréquences est l’addition de 50 Hz à tous les composants. Déplacer une hauteur de 100 à 150 Hz
constitue un intervalle de quinte juste, tandis qu’à 10 kHz, un déplacement de 50 Hz est tout juste
perceptible. Le déplacement linéaire de fréquences détruit les relations interharmoniques existantes
dans un son (voir le chapitre 9).
7.2.4 Simulation des indications d’altitude (zénith)

L’effet de sources sonores descendantes du haut peut être spectaculaire. Depuis les années 1970, il a
été démontré que les illusions sonores verticales peuvent être atteintes grâce à un système sonore
normal positionné au niveau de l’oreille. Cette recherche a inspiré le développement de systèmes de
spatialisation verticale diffusés dans le commerce, dont les effets peuvent être entendus dans de
nombreux enregistrements.
En général, les systèmes « sons 3D » sont basés sur la recherche qui montre que les sons hautes fré-
quences (supérieurs à 6 kHz) se reflétant sur les pavillons et les épaules fournissent une indication
critique de la position verticale. Les surfaces des pavillons et des épaules agissent comme réflecteurs,
créant des retards temporels courts qui se manifestent dans le spectre sous forme d’un filtre en
peigne (Bloom, 1977 ; Rodgers, 1981 ; Kendall et Martens, 1984 ; Kendall, Martens et Decker, 1989).
Les indications de zénith peuvent être simulées électroniquement, donnant l’impression qu’un son
émane d’emplacements élevés. Ceci est effectué en filtrant le signal d’entrée, imposant le change-
ment dans le spectre causé par les réflexions sur la tête et les épaules. Les filtres sont réglés selon
la position de la source que l’on tente de simuler. La réponse fréquentielle du filtrage est appelée la
fonction de transfert relative à la tête (HRTF pour Head-Related Transfer Function) (Begault, 1991).
La figure 7.11 trace des HRTF typiques pour des sons au-dessus, en dessous, et au niveau de l’oreille.
En pratique, les effets de spatialisation verticale sont très nettement améliorés si le son est projeté
dans un environnement ayant à la fois des haut-parleurs à l’avant et l’arrière. En déplaçant le son
d’avant en arrière ou inversement et en appliquant l’effet HRTF, le son semble passer au-dessus de
la tête lors de la panoramisation. Comme tous les effets de spatialisation, la panoramisation verticale
est plus efficace sur des sons impulsifs de large bande plutôt que sur des sons de basse fréquence
ayant des enveloppes douces.
✦ Problèmes avec les illusions sonores verticales
Comme le montre la figure 7.12, un problème de la projection sonore dans un plan vertical simulé
est la variation des HRTF pour chaque personne (Begault, 1991 ; Kendall, Martens et Decker, 1989).
Lorsqu’une fausse HRTF est utilisée pour une personne particulière, l’effet de panoramisation ver-
ticale est affaibli. Dans une situation d’écoute privée, lorsque le filtrage est effectué en temps réel
lors de la lecture, une solution à ce problème est de fournir plusieurs HRTF et de tester les signaux
pour que chaque personne puisse régler son système afin d’épouser la réponse de ses oreilles avant
l’écoute.
Figure 7.12 – Spectre HRTF pour deux personnes différentes.

Oreille gauche, source au niveau de l’oreille. Le tracé fréquentiel s’étend de 1 à 18 kHz. La ligne
verticale indique la marque de 8 kHz. La différence entre les deux HRTF au-dessus de cette mar-
que est évidente. Les lignes horizontales indiquent des différences de 20 dB.
La robustesse des illusions verticales dépend de la qualité des haut-parleurs utilisés et de la proxi-
mité de l’auditeur par rapport aux haut-parleurs. Pour écouter avec de petits haut-parleurs de proxi-
mité, par exemple, on doit se tenir dans le trajet du son direct, ou l’illusion verticale s’écroule. Ainsi,
dans une situation de concert, il est plus pratique de suspendre les haut-parleurs au-dessus des
têtes du public (voir la figure 7.3d) que de s’appuyer sur l’illusion plus fragile des sources virtuelles.
7.2.5 Son binaural
Dans la recherche psychoacoustique, binaural faisait à l’origine référence à une situation d’écoute
unique, dans laquelle les sujets sont placés dans une chambre anéchoïque avec leurs têtes mainte-
nues mécaniquement et des sondes insérées dans leurs canaux auditifs. Ces conditions sont conçues
pour analyser une variété de mécanismes de l’audition dans un environnement contrôlé (Durlach
et Colburn, 1978 ; Colburn et Durlach, 1978 ; Buser et Imbert, 1992). En raison de la difficulté de
telles expériences, de nombreuses investigations utilisent simplement le casque d’écoute. Dans
d’autres expériences, une tête factice ayant des microphones insérés dans ses oreilles se substitue
au sujet humain.
Un résultat de cette recherche est les enregistrements binauraux, effectués grâce à deux microphones
placés dans la tête factice, ou dans une construction similaire, et censés être écoutés avec un casque.
Ce genre a été particulièrement populaire dans les productions radio et a conduit à la disponibilité de
systèmes d’enregistrement binaural, comprenant des consoles de mélange basées sur un ordinateur
ayant des contrôles de panoramisations horizontales et verticales.
L’un des résultats de la recherche binaurale a été la prise de conscience qu’il est possible de créer
une illusion d’une source sonore à une position spécifique dans un espace binaural par simple
filtrage. Par « espace binaural » nous faisons référence à l’espace perçu à travers le casque, y compris
au-dessus et derrière la tête. Ces techniques emploient les HRTF présentées plus haut. Voir Blauert
(1983), Durlach et Colburn (1978) et Begault (1991) pour plus de détails.
7.2.6 Radiation sonore

Nous terminons la présentation de la localisation avec une note sur la radiation sonore. Chaque
mécanisme producteur de son possède une caractéristique de modèle de radiation. Ce modèle en
trois dimensions décrit l’amplitude du son projeté par le dispositif dans toutes les directions. Dans
les instruments acoustiques traditionnels, le modèle de radiation dépend de la fréquence (Fletcher
et Rossing, 1991). C’est-à-dire qu’il change selon la fréquence rayonnée. Le modèle de radiation est
une indication de l’identité et de la localité de la source.
Les systèmes à haut-parleurs montrent leurs propres modèles de radiation, caractérisés par la spéci-
fication technique appelée modèle de dispersion. Le modèle de dispersion d’un haut-parleur à projec-
tion vers l’avant indique la largeur et la hauteur de la région dans laquelle le haut-parleur maintient
une réponse fréquentielle linéaire.
Le fait que les auditeurs peuvent détecter la différence entre un violon réel et la lecture d’un enregis-
trement de violon a été expliqué par leurs modèles différents de radiations. Ainsi, l’une des direc-
tions prises par la recherche en acoustique au cours des années a été de se concentrer sur la modé-
lisation des modèles de radiation des instruments, puis de les projeter sur des ensembles à haut-
parleurs multiples sphériques (Bloch et coll., 1992). De tels systèmes, contrôlés par ordinateur,
pourraient également être utilisés pour des besoins compositionnels, pour donner par exemple à
chaque voix d’une œuvre son propre modèle de radiation.
7.3 Haut-parleurs rotatifs

La radiation d’un son émis par un haut-parleur rotatif crée un effet saisissant de spatialisation. La
rotation physique d’un haut-parleur rend vivant même les sons sourds et stables, en les animant
de qualités variantes dans le temps.
7.3.1 Haut-parleurs rotatifs : origines

Le mécanisme originel de haut-parleur rotatif fut la Cabine Leslie, qui envoyait un signal entrant
dans deux mécanismes rotatifs séparés : un pavillon rotatif pour les hautes fréquences et un écran
rotatif (bloquant et débloquant un boomer stationnaire) pour les basses fréquences. Une télécom-
mande pour la vitesse du moteur permettait au musicien d’ajuster la vitesse de rotation. Le pavillon
résonant de la Cabine Leslie le rend immédiatement identifiable.
La Cabine Leslie fut conçue pour enrichir le son statique émis par les orgues électriques tels que le
fameux Hammond B3, avec lequel elle était souvent couplée. Mais les musiciens et les ingénieurs
du son découvrirent que n’importe quel son pouvait être enrichi de cette façon, y compris la voix
et la guitare électrique.
Dans les années 1950, des ingénieurs travaillant au Studio expérimental Gravesano de Hermann
Scherchen en Suisse développèrent un haut-parleur sphérique (figure 7.13) qui effectuait des rota-
tions horizontales et verticales (Loescher, 1959, 1960). Leur but était de réduire les caractéristiques
de « faisceau sonore directionnel » des haut-parleurs normaux. Voici ce qu’en dit l’un d’entre eux :
Une rotation double dans le plan horizontal et vertical résulte en des plans rotationnels inclinés des
haut-parleurs seuls et donne de meilleurs résultats. Le champ sonore devient pratiquement homogène,
la reproduction prend un caractère étonnant de plénitude et de douceur, et la dureté de la reproduction
normale a complètement disparu. (Loescher, 1959)
K. Stockhausen faisait manuellement tourner un haut-parleur fixé sur une plaque tournante pour
créer les sons rotatifs de ses compositions Kontakte (1960) et Hymnen (1967) (figure 7.14). Plus tard,
Figure 7.13 – Un haut-parleur sphérique rotatif

construit en 1959 au Studio expérimental Gravesano.
Figure 7.14 – K. Stockhausen avec un mécanisme de haut-parleur rotatif (1960).

Quatre microphones sont positionnés autour de la table tournante du haut-parleur, qui était mani-
pulée à la main. Une version ultérieure était contrôlée par un mécanisme motorisé. (Photographie
copyright WDR, Cologne.)
les ingénieurs de la Westdeutschen Rundfunks (WDR) construisirent un système de rotation sonore

motorisé pour l’interprétation en concert des œuvres de Stockhausen (Morawska-Büngler, 1988).
7.3.2 Simulation de haut-parleurs rotatifs
Les effets de la rotation sont innombrables, mettant en jeu le vibrato de l’effet Doppler, du filtrage
variant dans le temps, des déphasages, des distorsions causées par la turbulence de l’air, et des
réflexions d’échos des surfaces adjacentes — sans même mentionner les caractéristiques de transfert
des amplificateurs et des haut-parleurs utilisés. La Cabine Leslie, par exemple, employait des lam-
pes électroniques avec distorsion « surmultipliée » si désirée. Ces effets acoustiques et électroni-
ques complexes et interactifs sont difficiles à simuler de façon convaincante en utilisant le traite-
ment numérique du signal. Quoi qu’il en soit, un certain nombre de synthétiseurs et d’unités d’effet
offrent des programmes simulant les haut-parleurs rotatifs. De tels programmes devraient s’amé-
liorer au fur et à mesure du développement d’algorithmes plus sophistiqués.
7.4 Son surround

La diffusion du son par de multiples haut-parleurs a depuis longtemps constitué un des domaines
d’expériences favoris des compositeurs de musique électroacoustique et électronique. Pour le grand
public, celles-ci sont restées relativement anecdotiques, et beaucoup d’audiophiles sont plus familiers
avec les formats sonores généralement regroupés sous le terme générique de « son surround ». Ce
terme, qui peut être donné à tout système émettant le son par plus de deux haut-parleurs — plus
particulièrement grâce à des sources placées à l’arrière de l’auditeur — fait maintenant partie des
produits de grande consommation. Il convient de noter que les développements de ces systèmes de
diffusion multicanaux ont pour la plupart eu lieu dans le domaine des applications destinées aux
salles de cinéma, et par la suite, dans celui de l’utilisation personnelle de systèmes vidéo à domicile.
7.4.1 Son surround : origines
Pendant de nombreuses années, le son a été enregistré et lu exclusivement en mono (un micro-
phone et un haut-parleur). L’enregistrement et la lecture stéréo ont été inventés dès 1931 par Alan
Blumlein chez EMI (Blumlein, 1931). À l’époque, le terme « binaural » était utilisé, et le terme
« stéréophonique » ne s’est imposé que par la suite. Binaural possède de nos jours un sens complè-
tement différent, puisqu’il fait référence aux enregistrements effectués grâce à une tête factice et
utilisant des HRTF. Voir plus haut dans ce chapitre la partie sur cette technique. Blumlein avait eu
l’idée d’inventer un système binaural, car il lui semblait que lors de la projection d’un film, il était
préférable par souci de réalisme que le son « suive » l’image, et qu’un acteur situé d’un côté de l’écran
soit entendu sur le même côté.
La même année, le chef d’orchestre Leopold Stokowski, à la tête du Philadelphia Symphony
Orchestra, s’associa avec Harvey Fletcher et Arthur C. Keller des Bell Telephone Laboratories afin de
déterminer jusqu’à quel point il était possible de s’approcher d’une reproduction fidèle de l’orchestre
au moyen d’une diffusion à travers un équipement électrique, qu’il s’agisse de haut-parleurs ou de
casques d’écoute binaurale (McGinn, 1983). Le premier disque stéréo fut enregistré par cette équipe
en 1932, et une transmission eut lieu l’année suivante par le biais de lignes téléphoniques entre
l’orchestre situé à Philadelphie et le Constitution Hall de Washington, où des invités avaient été placés
en face de trois groupes de haut-parleurs situés sur la gauche, le centre et la droite. Les recherches
continuèrent activement durant les années 1930 pour tenter d’améliorer la qualité d’enregistrement
et de transmission, particulièrement en ce qui concernait la gamme dynamique (étendue entre les
sons les plus doux et les sons les plus forts) et la gamme de fréquences (étendue entre les sons les
plus graves et les sons les plus aigus). La diffusion radiophonique et les enregistrements stéréo ne
se développèrent cependant pas avant le milieu des années 1950, et ce format ne connut une utili-
sation commerciale généralisée qu’à partir de la décennie suivante.
✦ Applications dans le cinéma
C’est d’abord dans le domaine du cinéma que les recherches en matière de diffusion multicanal du
son eurent lieu. Les améliorations apportées par Fletcher permettaient, outre une manipulation en
temps réel du son dans les domaines dynamiques et fréquentiels grâce à des amplificateurs et des
filtres, l’enregistrement d’un signal stéréo sur quatre pistes optiques d’un film, offrant dès lors la
possibilité de reproduire la musique à n’importe quel moment (Fletcher, 1940b). De son côté, Sto-
kowski, dans un souci constant d’explorer les nouvelles possibilités offertes par les innovations
technologiques, participa au célèbre film Fantasia de Walt Disney. Pour cette occasion, un format
de diffusion sonore fut inventé et baptisé Fantasound. L’enregistrement de la musique avait com-
mencé dès 1938 avec L’apprenti sorcier de Paul Dukas. L’orchestre, sur proposition de Stokowski,
était divisé en cinq parties, et capté sur trois pistes : une pour la gauche de l’orchestre, une pour la
droite, et la dernière pour une prise d’ensemble. En raison du coût engendré par ces innovations
techniques et par les différentes mises au point nécessaires, il fut décidé qu’un simple court métrage
ne permettrait pas un retour sur investissements suffisant, et le projet fut donc modifié afin de
réaliser un long métrage, seul capable de susciter un intérêt suffisamment important. La méthode
d’enregistrement fut portée à huit pistes (violons/altos, violoncelles, contrebasses, bois, cuivres et
percussions, plus un mélange des six pistes de parties et une prise à distance de l’orchestre entier).
Le tout était ensuite mixé sur support optique (film cinéma) en quatre pistes : trois pistes de son et
une piste de contrôle. Cette dernière était utilisée pour aider l’opérateur lors des réglages de volume
entre les différentes pistes, un problème crucial de la diffusion sonore par de multiples haut-parleurs
(selon les salles, le système permettait la diffusion de la bande-son sur un nombre de haut-parleurs
situé entre trente et quatre-vingts !). Voir Garity et Hawkins (1941) pour plus de détails sur les spé-
cifications techniques du système et Plumb (1942) pour une proposition d’améliorations techniques
par rapport au format originel. Bien que les avancées technologiques aient été remarquables, le
système rencontra certains problèmes qui stoppèrent sa généralisation : nouveauté du matériel et
coût de l’installation et de l’utilisation, arrivée de la Seconde Guerre mondiale et taille imposante
des différentes machines, qui dépassait largement celle nécessaire à l’époque pour la diffusion mono.
Par exemple, le système Mark VIII, utilisé au Broadway Theater de New York pour la première mon-
diale le 13 novembre 1940 faisait près de dix mètres de long et contenait plus de quatre cents lampes.
Voir Garity et Jones (1942) pour un résumé des avantages et des inconvénients liés au format
Fantasound.
Les années 1950 virent l’apparition de multiples nouveaux formats de film cinéma, en grande par-
tie en raison de la concurrence engendrée par la popularité croissante de la télévision. Pour lutter con-
tre celle-ci, et continuer à attirer les foules dans les salles, les studios décidèrent de produire des
films ambitieux et coûteux, qui, outre des sujets « spectaculaires » (péplums, films historiques ou
de guerre, etc.) et l’utilisation systématique de la couleur, proposaient une image élargie par rapport
au format standard 1,33:1 et une diffusion de la bande-son sur plusieurs haut-parleurs. Le premier
des nouveaux formats à apparaître fut en 1952 le Cinerama, qui utilisait trois films projetés l’un à
côté de l’autre sur un écran incurvé et un quatrième film contenant les sept pistes magnétiques de
son stéréo. Il est à noter que l’enregistrement s’effectuait grâce un ensemble de cinq microphones
directement sur le lieu de tournage. L’ingénieur du son Hazard Reeves avait conçu ce système afin
que la position du son (dialogues, effets, etc.) corresponde avec l’image. Pour augmenter l’impression
de submersion, il développa un système de diffusion comprenant sept groupes de haut-parleurs :
cinq derrière l’écran, deux à gauche et à droite, et un à l’arrière de la salle. Très peu de salles étaient
compatibles et seule une petite dizaine de films furent réalisés dans ce format, qui disparut au début
des années 1960. Le format CinemaScope, lancé en 1953, connut un plus grand succès. Il utilisait un
procédé d’anamorphose optique basé à l’origine sur une lentille mise au point par l’astronome et
inventeur Henri Chrétien. Ce procédé permettait de fixer sur la pellicule une image deux fois plus
large que la normale en la « compressant » dans sa largeur lors du tournage, puis en l’étirant pour
lui redonner un aspect normal lors de la projection. Voir American Cinematographer (1953) pour
plus de détails sur le principe de ce procédé. Même s’il fut prévu à l’origine de placer les pistes sons
sur un film magnétique séparé, les quatre pistes furent finalement intégrées sur le film principal,
après réduction de la taille de l’image, ce qui évitait aux exploitants de devoir s’équiper d’une machine
supplémentaire. Le format était stéréo, avec trois pistes pour des groupes de haut-parleurs situés
au centre, à gauche et à droite derrière l’écran, à la moitié et à un tiers de la largeur totale de celui-ci.
Un quatrième groupe de haut-parleurs, alimenté par une piste magnétique de dimensions réduites,
était placé dans la salle, pour les effets « surround ». Cette piste contenait, au moment où des effets
devaient être diffusés, une fréquence de 12 kHz, qui servait de contrôle et indiquait aux amplifica-
teurs d’appliquer du gain lorsque la tension d’entrée dépassait 0,025 V. Bien entendu, ce signal de
contrôle était retiré du signal envoyé vers les haut-parleurs d’effets grâce à un système de filtrage
passe-bas. Certaines installations fonctionnaient selon un principe inverse (la présence de la fré-
quence de contrôle indiquant de couper le gain des amplificateurs), mais le principe restait le même :
il s’agissait d’un interrupteur automatique qui permettait de se débarrasser de la quantité de souffle
produite par la bande magnétique de petite taille et jugée inacceptable (Sponable et coll., 1953).
En plus du Cinerama et du CinemaScope, les studios de productions ou des inventeurs indépen-
dants conçurent de nombreux autres formats pour tenter de les concurrencer : VistaVision,
SuperScope, Todd-AO, Dimension 150, Technirama, Ultra Panavision, Super Panavision 70, etc.
Leur étude détaillée dépasse le cadre de ce livre. Dans certains cas, pour limiter le coût et permettre
aux exploitants de salles de ne pas avoir à trop investir, les films étaient distribués accompagnés de
la technique traditionnelle utilisée pour la bande-son (enregistrement mono directement sur le
film optique), et dans d’autres cas avec un format de pseudo stéréo appelé Perspecta. N’utilisant
qu’une seule piste sur support optique, cette technique contenait — en plus de la bande-son normale
— trois sons de contrôle basses fréquences à 30, 35 et 40 Hz. Ceux-ci permettaient de déclencher
des effets envoyés vers trois groupes de haut-parleurs placés derrière l’écran (Fine, 1954). Il ne
s’agissait bien sûr pas de stéréo, mais d’une sorte d’automatisation de la diffusion sonore entre les
voies. Une telle technique ne fonctionnait correctement qu’aux moments où les effets sonores étaient
seuls sur la bande-son. Avec de la musique ou des dialogues, les résultats n’étaient pas satisfaisants,
car les sons étaient tous envoyés en même temps dans le même groupe de haut-parleurs, ce qui
n’est pas perçu comme étant naturel. Quoi qu’il en soit, les développements du cinéma permirent
d’habituer une grande partie du public au son stéréo et surround : un domaine de recherche qui ne
cessera de provoquer des améliorations et qui, en plus de constituer une partie importante de l’équi-
pement des salles de cinéma et des particuliers, permit de développer un intérêt pour la spatialisa-
tion dans le domaine de la musique à proprement parler.
✦ Quadriphonie
Les ondes sonores reflétées qui surviennent lors de l’enregistrement seront reproduites avec une sensation
de direction et sonneront de façon plus naturelle qu’avec un système de reproduction non directionnel.
Si des difficultés surviennent dans la reproduction, celles-ci peuvent être surmontées en employant une
seconde paire de haut-parleurs espacés différemment et possédant un réseau de modification différent
de celui de la première paire. (Blumlein, 1931)
Les systèmes quadriphoniques ou Quad, lancés au début des années 1970, ont constitué l’une des
premières tentatives de commercialisation d’un équipement destiné aux particuliers et permettant
la reproduction du son à travers de multiples haut-parleurs. Pourquoi y a-t-il eu à cette époque un
intérêt pour aller au-delà de la stéréo, au moment où celle-ci commençait à peine à se répandre ?
Si les experts s’accordaient pour considérer que la stéréo ne constituait pas un système de diffusion
sonore parfait, quels étaient précisément les griefs retenus contre elle ? Pour comprendre cela, expli-
quons rapidement comment fonctionne le principe de localisation de l’azimut, et les raisons pour
lesquelles la stéréo ne permet pas de recréer une illusion spatiale idéale.
La localisation d’azimut est complexe, mais fonctionne principalement grâce à deux mécanismes
auditifs permettant au cerveau de reconstituer un espace sonore horizontal : les différences de phase
survenant aux fréquences basses, et les différences d’intensité survenant aux fréquences aiguës, avec
une bande de transition située généralement aux alentours de 1 500 Hz (Rayleigh, 1907). Cependant,
lors d’une reproduction d’enregistrement par des haut-parleurs, il s’avère qu’utiliser uniquement
des différences de phase sur les fréquences basses pour fournir des informations d’azimut n’est
pas suffisant, et des différences d’intensité doivent donc être utilisées entre les deux canaux. Mal-
heureusement, une telle solution brouille à son tour la précision de localisation, car les différences
d’intensités appliquées sur les fréquences aiguës ne correspondent plus à leur état naturel. La stéréo
doit donc adopter un compromis afin de minimiser cette décorrélation entre l’image spatiale créée
par les fréquences basses et celle créée par les fréquences aiguës. Un autre problème majeur ren-
contré avec la stéréo est son incapacité à reproduire une image spatiale au-delà des haut-parleurs.
Bien qu’il soit possible de déphaser un des canaux pendant un court moment afin de créer l’illusion
que la source provient effectivement d’un angle supérieur à celui des haut-parleurs, cette technique
ne peut pas être appliquée de façon très pratique pour une application courante.
La diffusion de musique par quatre haut-parleurs discrets fut imaginée dès le début des
années 1950 aux studios de la RTF. Pierre Schaeffer, assisté de Jacques Poullin, y conçut un système
de contrôle de la diffusion du son pour quatre haut-parleurs disposés en forme de tétraèdre, baptisé
Potentiomètre d’espace et constitué de quatre grands cerceaux entourant l’interprète qui utilisaient
des bobines à induction et réagissaient aux gestes. La transition vers une utilisation grand public
de la diffusion sonore par quatre canaux discrets ne fut cependant rendue possible qu’au début des
années 1970. La quasi-totalité des supports de l’époque étant au maximum stéréo, un matriçage des
données était obligatoire, car il fallait parvenir à stocker quatre canaux sur des supports conçus à
l’origine pour deux. La technique la plus couramment utilisée était connue sous le nom de
« 4:2:4 », ce qui signifie que quatre canaux sont encodés en deux canaux sur le support, puis déco-
dés en quatre canaux au moment de la lecture. Bien entendu, un tel processus de matriçage, bre-
veté dès la fin des années 1960 (Scheiber, 1969) et réutilisé par la suite dans de nombreux systèmes,
entraînait une perte de qualité inévitable par rapport aux quatre canaux d’origine. Plusieurs socié-
tés s’intéressèrent à ce procédé et développèrent chacune des formats propriétaires. Ces derniers
n’étaient malheureusement pas compatibles et souffraient d’une offre trop diversifiée (les enregis-
trements étaient vendus sous la forme de disques vinyles, de cartouches huit pistes, de bandes
magnétiques, etc.) et de défauts qui ne furent résolus qu’après que le grand public eut fini par se
désintéresser de ce format. De plus, la technologie Quad, utilisant le même principe que la stéréo,
à savoir les différences d’intensité, en possédait également les faiblesses. Il est bien connu que si
deux haut-parleurs sont éloignés d’un angle supérieur à 60 degrés, l’auditeur entend un « trou »
dans le milieu, et l’image située entre eux devient presque inexistante. Comme dans un système Quad
les haut-parleurs étaient placés autour de l’auditeur à des angles égaux de 90 degrés chacun, l’image
était extrêmement difficile à obtenir, à moins d’être placé dans un « cône de vigilance » très étroit
situé au centre exact du cercle imaginaire délimité par les quatre haut-parleurs. Pour toutes ces
raisons, le format Quad disparut rapidement au milieu des années 1970.
7.4.2 Formats de son surround

Le principal acteur de la « démocratisation » du son surround fut la société Dolby, qui s’était fait
connaître grâce à ses systèmes de réduction du bruit dès les années 1960. Elle commença à déve-
lopper des formats de son surround au milieu des années 1970, en commençant par le Dolby Ste-
reo, un procédé utilisant le système de matriçage de Peter Scheiber. La figure 7.15 montre le
schéma de fonctionnement de base d’un système de matriçage. Le principe de matriçage est au
cœur d’un grand nombre de formats de diffusion sonore multicanaux. Si les déphasages restent
toujours de 90° et –90°, les facteurs d’atténuation connaissent une multitude de possibilités.
Un autre facteur important de ces formats est qu’ils sont pour la plupart accompagnés d’un système
de réduction du bruit par compression-extension (Dolby A puis Dolby SR) lorsqu’il s’agit de formats
analogiques ou qu’ils sont encodés pour réduire la quantité de données sur le support, lorsqu’il
s’agit de formats numériques. Voir le chapitre 3 pour une présentation du fonctionnement d’un
compresseur-extenseur. Les codecs numériques les plus courants sont AC-3 (Dolby Digital), DTS
Coherent Acouctics (DTS), ATRAC (SDDS) et MLP ou Meridian Lossless Packing (Meridian Audio).
Ce dernier est utilisé sur les DVD-Audio, et est appelé « sans perte », car s’il compresse les données
audio, il n’en supprime aucune, et permet de retrouver le signal originel à tout moment. Les autres
codecs numériques sont dits « avec perte », car ils suppriment des données en se basant sur des
principes psychoacoustiques. Signalons enfin le format Delta Modulation (Kodak CDS), aujourd’hui
Canal Canal
gauche gauche
Signaux identiques
Canal Canal Canal
central gauche
Déphasage 90° central
-3dB total
Canal Canal Canal

surround droite surround
-3 dB total Signaux identiques
Déphasage -90°
déphasés de 180°
Canal Canal
droite droite
Figure 7.15 – Principe de fonctionnement d’un système de matriçage « 4:2:4 »

utilisé dans le format Dolby Stereo. Les canaux gauche et droite sont transmis sans modifications.
Les canaux central et surround sont atténués, en général de –3 dB, mais cette valeur peut varier.
Ce dernier est de plus déphasé de 90° pour le canal gauche total et de –90 dB pour le canal droite
total. Lors du décodage, les canaux gauche et droite sont transmis sans modifications, les signaux
identiques sur les deux canaux sont transmis sur le canal central, et les signaux identiques, mais
déphasés de 180° sont transmis vers le canal surround.
disparu, et qui enregistrait sans perte les différences entre échantillons successifs au lieu d’enre-
gistrer les valeurs de chacun d’entre eux. Voir le chapitre 1 pour une présentation de la compression
des données audio et des formats les plus courants.
Le tableau 7.2 montre les formats surround les plus courants, en particulier ceux développés pour
la diffusion sonore en salles de cinéma ou pour l’utilisation chez des particuliers. Voir Hull (1999)
pour un historique du développement des technologies au sein de la société Dolby. Ces formats de
diffusion n’étant pas directement liés à la musique, les expliquer en détail dépasserait le cadre de
ce livre. Il existe quand même, en raison de l’existence de ces formats, des applications plus spécifi-
quement musicales, en particulier dans les domaines de l’enregistrement, du mixage et de l’écoute.
Bien entendu, l’une des clés pour obtenir un signal multicanal de haute qualité est d’être capable
d’effectuer un enregistrement exploitant réellement ce format, et différant donc d’un enregistrement
stéréo traditionnel par couple. En effet, il importe de tenir compte de la captation du canal central,
qui ne saurait être uniquement un mélange des canaux gauche et droite avant, mais également de
l’ambiance de la salle pour les canaux surround. Si les pistes ne sont pas suffisamment différentes,
l’avantage de posséder un format multicanal sera en quelque sorte perdu. En plus de la prise de son
avec plusieurs microphones (en général 6 micros répartis entre l’avant et l’arrière de la salle), il
existe maintenant des microphones contenant plusieurs capsules et accompagnés d’un processeur
d’effets qui permettent à eux seuls de reproduire l’ambiance d’une salle. Lors de l’étape de mixage,
de nombreux choix artistiques doivent être pris en ce qui concerne le placement des voix et des ins-
truments dans tel ou tel canal, l’équilibre à respecter entre eux et les effets à appliquer. Certains ingé-
nieurs du son apprécient de pouvoir jouer avec de la réverbération pour modifier l’espace sonore,
tandis que d’autre préfèrent ne pas trop modifier le mixage, en considérant que le format surround
est en lui-même suffisamment spectaculaire pour qu’il ne faille pas trop alourdir la musique par
un excès d’effets. Voir Holman (1997, 2000), Haidant (2001, 2002), Gandolfi (2002) et Dolby (2005)
pour plus de renseignements sur l’enregistrement, le mixage et le traitement du son dans les formats
surround.
En ce qui concerne l’écoute de musique, il existe de plus en plus d’enregistrements disponibles en
format « surround » (généralement sur support Super Audio CD ou DVD-Audio). Si certains ont réel-
lement été enregistrés dans ce format lors d’un concert (musique classique ou jazz, par exemple),
la plus grande partie résulte d’un travail de remasterisation effectuée en studio grâce à des machines
dédiées, à partir d’une musique mono ou stéréo. Il existe également sur le marché des récepteurs
équipés de fonctions DSP du type Dolby Pro Logic II ou DTS Neo : 6 qui effectuent des calculs pour
« exploser » un signal stéréo en format 5.1, afin de permettre l’écoute d’un support analogique ou
numérique deux canaux en situation de diffusion par plusieurs haut-parleurs. Il est probable que
des modifications seront apportées dans les années qui viennent aux formats de diffusion multicanal
adressés au grand public. Certains ont proposé d’augmenter encore le nombre de haut-parleurs
par souci de réalisme : système 10.2 de Tomlinson Holman ou système 22.2 pour la vidéo et la télé-
vision à ultra haute définition (UHD) de la NHK (Japan Broadcasting Corporation), mais ces pro-
positions restent pour l’instant à l’état de prototype et il est difficile de savoir si les audiophiles et
les amateurs de cinéma seront prêts à investir de nouveau dans des équipements coûteux.
7.4.3 Ambisonie et synthèse par champ d’onde
Au-delà de la diffusion par haut-parleurs traditionnelle, jouant sur l’intensité et éventuellement sur
des effets de filtrage et de réverbération, comme cela est le cas pour la stéréo ou les systèmes sur-
round, il convient de signaler un ensemble de techniques basées sur un même postulat : le principe
de Huygens. Appliqué à l’origine à l’optique et permettant entre autres d’expliquer la diffraction,
celui-ci propose une analyse de la propagation d’onde qui est la suivante : chaque point d’une onde
Tableau 7.2 – Principaux formats de son surround.
Nom Support Année Canaux support/diffusion Notes
Fantasound Analogique (film optique) 1940 3/5.0 (LF, CF ; RF, LS, RS) Applications : cinéma. Système discret
CHAPITRE 7 – LA
(canaux surround obtenus par variations

d’amplitude).
Cinerama Analogique (film magnétique) 1952 7/7.0 (LF, MLF, CF, MRF, RF, LS, RS) Applications : cinéma. Système discret.
CinemaScope Analogique (film magnétique) 1953 4/4.0 (LF, CF, RF, MS) Applications : cinéma. Système discret.
SPATIALISATION
Todd-AO Analogique (film magnétique) 1955 6/6.0 (LF, MLF, CF, MRF, RF, MS) Applications : cinéma. Système discret.
Quadriphonie Analogique (bande magnétique 1970 2/4.0 (LF, RF, LS, RS) Applications : particuliers. Système matricé.
et disque vinyle)
Dolby Stereo Analogique (film optique) 1976 2/4.0 (LF, CF, RF, MS) Applications : cinéma. Système matricé.
Dolby « Baby Boom » Analogique (film magnétique) 1977 6/4.2 (LF, CF, RF, MS, 2 LFE) Applications : cinéma. Système discret.
Dolby « Split Surround » Analogique (film magnétique) 1979 6/5.1 (LF, CF, RF, LS, RS, LFE) Applications : cinéma. Système discret.
Dolby Surround Analogique (cassette audio, VHS) 1982 2/3.0 (LF, RF, MS) Applications : particuliers. Système matricé.
Dolby Surround Pro Logic Analogique (cassette audio, VHS) 1987 2/4.0 (LF, CF, RF, MS) Applications : particuliers. Système matricé.
LC Concept Numérique (disque magnéto-optique 1990 6/5.1 (LF, CF, RF, LS, RS, LFE) Applications : cinéma. Système discret.
puis CD-Rom)
Kodak CDS Numérique (film optique) 1990 6/5.1 (LF, CF, RF, LS, RS, LFE) Applications : cinéma. Système discret.
Dolby Digital Numérique (film optique pour le cinéma 1992 6/5.1 (LF, CF, RF, LS, RS, LFE) Applications : cinéma et particuliers.
ou DVD pour les particuliers) Système discret.
DTS Numérique (CD-Rom pour le cinéma 1993 6/5.1 (LF, CF, RF, LS, RS, LFE). Applications : cinéma et particuliers.
ou DVD pour les particuliers) Certaines variantes permettent Système discret. Certaines variantes
du 6.1 ou 7.1 sont matricées.
SDDS Numérique (film optique) 1993 8/7.1 (LF, MLF, CF, MRF, RF, LS, RS, LFE). Applications : cinéma. Système discret.
Peut également lire en 5.1 ou en 4.0
145
146
Tableau 7.2 (suite)– Principaux formats de son surround.
Nom Support Année Canaux support/diffusion Notes
Dolby Digital Surround EX Numérique (film optique pour le cinéma 1999 6/6.1 (LF, CF, RF, LS, CS, RS, LFE) Applications : cinéma et particuliers.
ou DVD pour les particuliers) Système matricé.
Dolby Surround Pro Logic II Analogique (cassette audio, VHS) 2000 2/5.1 (LF, CF, RF, LS, RS, LFE) Applications : particuliers. Système matricé.
et numérique (CD, DVD)
Dolby Surround Pro Logic IIx Analogique (cassette audio, VHS) 2003 2 ou 5.1/7.1 (LF, CF, RF, LS, RS, LB, RB, Applications : particuliers. Système matricé.
et numérique (CD, DVD) LFE)
Note : les canaux correspondent aux abréviations suivantes : LF (avant gauche), MLF (avant gauche médian), CF (avant central), MRF (avant droite médian), RF (avant droite), MS
(surrond mono), LS (surround gauche), CS (surround central), RS (surround droite), LB (arrière gauche), RB (arrière droite), LFE (effets basses fréquences). Un système discret
possède autant de pistes que nécessaire à la diffusion du son, tandis qu’un système matricé comprend une étape d’encodage (afin de réduire le nombre de pistes sur le support)
et de décodage (pour reconstituer le nombre de pistes originel).
ENVIRONNEMENT
ET OUTILS
en progression est la source fictive d’un nouveau train d’ondes et l’onde en progression peut en fait
être conçue comme la somme de toutes les ondes provenant des points déjà traversés.
Le système Ambisonics fut formalisé par Michael Gerzon et Peter Fellgett au milieu des
années 1970, en s’appuyant sur le postulat qu’un système de diffusion utilisant l’intensité du son pour
définir un champ sonore (comme la stéréo, la quadriphonie, et même les systèmes 5.1 d’aujourd’hui)
n’est pas capable de recréer une image fantôme correctement et ne peut donc fonctionner qu’à une
seule position appelée « cône de vigilance ». Une image fantôme est le son apparaissant au milieu
de deux haut-parleurs lorsqu’il est diffusé par ceux-ci avec une intensité égale. Le cône de vigilance
est le point où le système de diffusion est calibré de façon optimale et permet donc la meilleure
reconstitution de l’espace sonore (le sommet bien connu du triangle dans le cas de la stéréo). Au
contraire, l’ambisonie permet d’encoder et de décoder n’importe quel type de son avec certaines
caractéristiques :
• Son surround total, y compris avec la hauteur (périphonie) sur quatre canaux.
• Absence de cône de vigilance (l’auditeur peut se déplacer sans que son écoute soit trop dis-
tordue).
• Les images peuvent apparaître à d’autres endroits que les haut-parleurs.
• Absence de disposition spécifique pour les haut-parleurs (ceux-ci peuvent être déplacés sans
modifier la qualité de diffusion et chacun d’entre eux est utilisé pour créer le champ acous-
tique).
Voir Gerzon (1975) et Fellgett (1975) pour une présentation du format Ambisonics d’origine.
Celui-ci, appelé Ambisonics de premier ordre ou B-format, définit l’information sonore grâce à quatre
canaux : la coordonnée d’amplitude instantanée W, et les trois coordonnées spatiales X, Y et Z.
Les équations qui définissent ces canaux — simulant une captation d’espace acoustique grâce à
trois microphones bidirectionnels et à un microphone omnidirectionnel — sont les suivantes :
X = cos ( A ) × cos ( B ) ( avant – arrière )
Y = sin ( A ) × sin ( B ) ( gauche – droite )
Z = sin ( B ) ( haut – bas )
W = 0,707 ( avant + arrière + gauche + droite + haut + bas )
où A est l’angle dans le sens contraire des aiguilles d’une montre depuis la position avant centrale
et B est l’élévation.
Ainsi, tout son peut être placé à l’intérieur d’une sphère imaginaire, simplement en multipliant son
signal par les coordonnées fournies ci-dessus. Lorsqu’il s’agit de définir une source en mouvement,
d’autres équations fournissent les coefficients d’échelonnage nécessaires (Malham, 1998).
Afin de rendre cette description compatible avec les supports stéréo, un format fut créé, appelé UHJ.
Celui-ci matrice les canaux X, Y et W au sein de deux canaux, grâce à des coefficients et à du
déphasage obtenu au moyen de filtres passe-tout sur toute la largeur de bande audio. On obtient alors
une description d’un champ acoustique horizontal qui peut être enregistré sur disque, bande
magnétique, CD ou bien transmis par voie radiophonique. Il est également possible d’ajouter un
troisième canal favorisant la précision de la reproduction horizontale, ainsi qu’un quatrième permet-
tant d’intégrer les informations de hauteur du plan Z. La plupart des enregistrements Ambisonics
disponibles dans le commerce sont bien évidemment encodés au format UHJ. Voir Gerzon (1985)
pour une description détaillée de ce format, ainsi que pour des explications sur sa mise en œuvre.
En plus de la captation directe par un microphone spécialisé ou par un jeu de microphones tradi-
tionnels, il est également possible d’utiliser une source multipiste afin de lui appliquer un mixage
ambisonique. Dans la plupart des cas, le résultat était historiquement encodé en UHJ afin d’assurer à
la musique une possible exploitation commerciale, mais certaines productions furent encodées en
B-format complet, c’est-à-dire comprenant les informations de hauteur. Si du matériel analogique
de mixage au format Ambisonics a existé dès la fin des années 1970, il semble maintenant que le sup-
port privilégié pour les outils d’encodage prenne la forme de modules d’extension dédiés, accessi-
bles depuis un programme d’édition logiciel multipiste. L’avantage de cette solution est que la sta-
tion de travail peut également inclure des décodeurs afin de permettre une écoute de contrôle
instantanée.
En raison de la faible distribution des décodeurs sur le marché et avec l’avènement des nouveaux
supports autorisant le stockage de plusieurs pistes, une réflexion s’engagea pour trouver un moyen
de transmettre un enregistrement Ambisonics par le biais d’un système 5.1, et le G-format fut créé
(Gerzon et Barton, 1992). Pour sa mise en œuvre, un nouveau type de décodeur est utilisé en stu-
dio qui encode le signal sur tout support compatible 5.1 (DVD-Video avec AC-3, film cinéma, CD
multicanal avec encodage DTS ou MLP, DVD-Audio ou SACD), ce qui élimine totalement la nécessité
de posséder un décodeur sur le lieu d’écoute. De plus, il peut être envisagé d’utiliser des canaux
d’un système 5.1 (effets basses fréquences et/ou central avant) afin de diffuser un champ acoustique
avec informations de hauteur dans un environnement ou les haut-parleurs correspondants auraient
préalablement été surélevés. Signalons qu’il est tout à fait possible d’ajouter une version UHJ en plus
de la version G-format, et de reconstituer (en retirant le filtrage effectué par le décodeur et en modi-
fiant légèrement le contenu des canaux) un mixage B-format à partir d’un mixage G-format (Elen,
1998).
Si la théorie et la pratique liées à l’ambisonie jusqu’à récemment se limitaient à des calculs de pre-
mier ordre, une partie de la recherche actuelle en matière de diffusion sonore ambisonique porte
sur le développement et l’utilisation de calculs d’ordre plus élevés, comportant davantage de canaux.
En effet, la précision de la reconstruction d’un espace acoustique augmente considérablement avec
ce type de calculs, et permettrait d’améliorer sensiblement la qualité de la diffusion ambisonique,
en particulier dans des espaces de grande taille. Voir Bamford (1995) et Daniel (2000) pour des
explications sur la théorie et les possibilités de ces techniques.
Signalons enfin une technique basée elle aussi sur le principe de propagation de front d’onde de
Huygens et qui utilise comme solutions la fonction de Green : la synthèse par champ d’onde. Elle
repose sur deux postulats de base. Tout d’abord, un nombre infini de haut-parleurs (une « ligne »
acoustique linéaire) peut recréer un front d’onde acoustique en pondérant et en retardant les signaux
qu’ils émettent de façon appropriée. Ensuite, un champ de pression acoustique émis par une source à
l’extérieur d’un volume peut être reconstitué à l’intérieur de celui-ci si la pression et le gradient de
direction du champ de pression à sa surface sont connus. Pour des applications pratiques, le volume
est simplifié en une forme circulaire, et la ligne acoustique est remplacée par un grand nombre de
haut-parleurs placés les uns à côté des autres sur un plan horizontal, en général à une distance de
10 à 20 cm chacun. Les haut-parleurs pondérés et retardés peuvent effectuer deux types de rendus
acoustiques : rendu de modèle par calculs de dérivées à partir de sources ponctuelles ou d’ondes
planes, et rendu de données par l’utilisation de réponses impulsionnelles contenant les vélocités des
sources en plus des valeurs de pression sonore. Voir Rabenstein et Spors (2005) pour une explication
de cette technique. Les implémentations existantes connaissent cependant quelques défauts : aucun
haut-parleur ne peut être considéré comme une source monopole parfaite, et l’acoustique propre au
lieu d’écoute comporte nécessairement ses propres réactions acoustiques. Ces deux facteurs entraî-
nent des distorsions lors de la reproduction par rapport au modèle théorique. Petrausch, Spors et
Rabenstein (2005) proposent des solutions pour tenter de remédier à ces défauts.
Cette technique a fait l’objet de recherches menées par un consortium européen formé par des
entreprises, des instituts de recherche et des universités, en vue d’applications dans le domaine du
multimédia. En associant la synthèse par champ d’onde au format MPEG-4, le but souhaité est de
pouvoir « transporter » un espace virtuel ou réel en un autre lieu, en l’accompagnant de données
visuelles. Voir Carrouso (2001) pour une présentation de ce système.
Chapitre 8
La réverbération
8.1 Réverbération
La réverbération est effet acoustique apparaissant naturellement. Nous l’entendons dans les grandes
églises, les salles de concert, et dans d’autres espaces ayant des plafonds élevés et des surfaces
réfléchissantes. Les sons émis dans ces espaces sont renforcés par des milliers d’échos très proches
se réfléchissant sur le plafond, les murs et le sol. La plupart de ces échos arrivent jusqu’à nos oreilles
après s’être reflétés sur plusieurs surfaces, et nous les entendons donc après que le signal originel
a atteint nos oreilles. L’oreille fait la distinction entre son direct (originel) et son reflété, car celui-ci est
en général plus faible en amplitude, légèrement retardé, et filtré en passe-bas en raison de l’absorp-
tion des hautes fréquences par l’air et par les surfaces réfléchissantes (figure 8.1). La myriade
d’échos fusionne dans notre oreille en un « halo » acoustique prolongé qui suit le son originel.
Un enregistrement par microphone d’un instrument dans une salle de concert est entouré par une
enveloppe de réverbération de la salle. Ceci est en particulier le cas lorsque le microphone est
omnidirectionnel. Pour les enregistrements effectués dans de petits espaces de studio, on peut
désirer ajouter de la réverbération, car sans elle une voix ou un ensemble sonnent de façon « sèche »,
et manquent « d’espace » ou de « profondeur ».
Certains sons synthétisés ont peu ou presque pas d’espace intrinsèque. Ces signaux « morts »
acoustiquement peuvent être améliorés par la panoramisation spatiale, de l’écho et de la réverbé-
ration.
Mais l’espace n’est pas seulement un truc de cosmétique pour les sons. La profondeur spatiale peut
être utilisée pour isoler des éléments de premier plan et d’arrière-plan dans une architecture com-
positionnelle. Plus encore, la réverbération n’est pas un effet monolithique ; il existe de nombreuses
couleurs et qualités de réverbération — autant en fait qu’il existe d’espaces naturels et de réverbéra-
teurs synthétiques. Aucun type de réverbération (naturel ou synthétique) n’est idéal en musique.
La plupart des unités de réverbération électronique simulent plusieurs types de réverbération.
Source sonore
Son direct
Sons
Auditeur réfléchis
Figure 8.1 – La réverbération est causée par les réflexions du son

sur les surfaces d’un espace. La ligne foncée est le trajet du son direct ; toutes les autres lignes
représentent des réflexions sonores qui parviennent plus tard à l’auditeur en raison de leurs trajets
plus longs.
Certaines tentent (souvent grossièrement) de simuler des salles de concert connues, tandis que
d’autres créent des images spatiales bizarres qui seraient impossibles à dupliquer dans une vraie
salle.
8.1.1 Propriétés de la réverbération
Des salons et des salles de concert sonnant de façon resplendissante ont été construits depuis l’Anti-
quité, mais leurs propriétés acoustiques de base n’ont pas été comprises d’un point de vue scienti-
fique avant le dix-neuvième siècle. Les travaux pionniers sur l’analyse des espaces réverbérants furent
effectués par Wallace Sabine (1868-1919), qui donna des conseils pour la construction (sur une
structure préexistante) du Symphony Hall de Boston en 1900. Celui-ci était le premier espace d’inter-
prétation conçu selon des principes acoustiques rigoureux et scientifiques. Sabine observa que la
réverbération d’une salle dépend de son volume, de sa géométrie, et de la réflectivité de ses surfaces
(Sabine, 1922). Il n’est pas surprenant que les grandes salles ayant des surfaces réfléchissantes aient
des temps de réverbération longs, et que les petites salles ayant des surfaces absorbantes aient des
temps de réverbération courts. Les surfaces lisses et dures comme le verre, le chrome et le marbre
tendent à réfléchir toutes les fréquences de façon uniforme, tandis que les surfaces absorbantes
comme les rideaux épais, la mousse et les tapis épais tendent à absorber les hautes fréquences.
La géométrie des surfaces de la salle détermine l’angle des réflexions sonores. Les murs non paral-
lèles dispersent les fronts d’onde suivant des modèles complexes de dispersion, et les petites irré-
gularités telles que les garnissages plastiques, les échancrures, les colonnes et les statues tendent à
diffuser les réflexions, créant un effet de réverbération plus riche et plus dense.
Sabine a également observé que l’humidité influe sur le temps de réverbération dans les grandes
salles, l’air humide tendant à absorber les hautes fréquences.
✦ Réponse impulsionnelle d’une salle
L’une des façons de mesurer la réverbération d’une salle est de déclencher une explosion très courte
(une impulsion) et de tracer la réponse de la salle dans le temps. Ce tracé, lorsqu’il est corrigé pour
le spectre de l’explosion, montre la réponse impulsionnelle de la salle. Comme nous l’avions men-
tionné au chapitre 4, les circuits ont également une réponse impulsionnelle, ce qui fait de la mesure
de la réponse impulsionnelle un outil très fréquemment utilisé, à la fois dans la conception d’un
circuit et d’une salle de concert. La réverbération naturelle possède en général une enveloppe de
réponse impulsionnelle similaire à celle montrée à la figure 8.2. La construction de la réverbération
suit une courbe quasi exponentielle qui atteint un pic en moins d’une demi-seconde et chute plus
ou moins lentement.
2.
Le son direct
1. atteint l'auditeur
Impulsion
originelle 4.
3. Réverbération
Premières fusionnée
réflexions
Amp.
0 25 50 - 100 1600
Temps en millisecondes
Figure 8.2 – Enveloppe de la réponse impulsionnelle d’une salle réverbérante.

Les composants de la réverbération sont constitués du préretard (montré sous la forme du retard de
25 ms avant que le son atteigne l’auditeur), les premières réflexions, et la réverbération fusion-
En général, un intervalle de temps irrégulier entre les pics est souhaitable dans une salle de concert.
Des pics espacés régulièrement indiquent du « tintement » — fréquences résonantes dans la salle
— qui peut être dérangeant.
✦ Temps de réverbération
Une autre mesure importante de la réverbération est le temps de réverbération ou RT60. Le terme
RT60 fait référence au temps nécessaire à la réverbération pour chuter de 60 dB par rapport à son
amplitude pic (1/1 000 de son énergie pic). Les durées typiques de RT60 pour les salles de concert
s’étendent de 1,5 à 3 s. Le point RT60 du tracé de la figure 8.3 est à 2,5 s.
0
-10
Point
-20
RT60
-30
-40
-50
Amp.
-60
0 0.5 1.0 1.5 2.0 2.5
Fréquence
Figure 8.3 – Le temps de réverbération correspond au point

où celle-ci descend en dessous de –60 dB par rapport à son niveau maximal.
8.1.2 Réverbération artificielle : origines

Les premières tentatives de réverbération artificielle pour les enregistrements transmettaient le
son à travers une chambre d’écho acoustique, puis mélangeaient le signal réverbéré avec le signal
originel. De grands studios d’enregistrement utilisent encore une salle séparée comme chambre
d’écho. Ils placent une enceinte d’un côté de la pièce réfléchissante et un microphone de haute qualité
de l’autre côté. Le son devant être réverbéré est projeté par l’enceinte et capté par le microphone
(figure 8.4). Une chambre d’écho offre une ambiance acoustique unique, créée par une pièce, une
enceinte et un microphone spécifiques. Lorsque toutes ces conditions sont en sympathie, la qualité
de la réverbération peut être excellente. Un défaut de l’approche par chambre d’écho (en dehors
des caractères pratiques de la construction d’un tel espace) est que la réverbération ne peut pas
être démesurément variée.
La façon la plus habituelle pour ajouter de la réverbération est d’utiliser une unité de réverbération
ou réverbérateur. Avant que les réverbérateurs numériques ne soient introduits au milieu des
années 1970, les réverbérateurs étaient des dispositifs électromécaniques contenant deux trans-
ducteurs (entrée et sortie) et un support réverbérant comme un long ressort ou une plaque en
métal. Le son à réverbérer était transmis du transducteur vers le support. Le support transmettait
le son vers le transducteur de sortie mélangé avec des myriades d’échos causées par les vibrations
/réflexions du signal à l’intérieur du support. Le résultat était amplifié et mélangé avec le signal ori-
ginel pour créer un effet de réverbération artificielle assez « colorée ». Les meilleurs réverbérateurs
à plaque produisaient des réverbérations relativement propres et diffuses, mais ils étaient limités
par un RT60 de seulement quelques secondes et par un modèle de réverbération fixe.
8.1.3 Algorithmes de réverbération numérique

Les réverbérateurs numériques utilisent des retards temporels, des filtres et du mixage pour obtenir
l’illusion d’un son dispersé à l’intérieur d’une salle. D’un point de vue du traitement du signal, un
réverbérateur est un filtre dont la réponse impulsionnelle ressemble à celle d’une salle. Manfred
Schroeder des Bell Telephone Laboratories (1961, 1962, 1970) fut le premier à implémenter un algo-
rithme de réverbération artificielle sur un ordinateur numérique. Ses programmes de réverbération
absorbaient des heures de calculs sur les ordinateurs les plus puissants de l’époque. Les unités de
réverbération modernes sont compactes et fonctionnent en temps réel. Des molettes et des boutons
de contrôle sur leurs façades permettent aux musiciens d’appeler une grande variété d’effets. La
plupart des réverbérateurs peuvent être contrôlés par MIDI.
Panneau de diffusion sonore
Haut-parleur Microphone
Source
sonore
Bus Bus de
d'envois retours
d'effets d'effets
Mélangeur
Somme des signaux "humide" et "sec"
Figure 8.4 – Pour créer un effet d’ambiance acoustique, le son peut être envoyé
dans une chambre d’écho par un haut-parleur. Le son reflété indirect est capté par un microphone
à l’autre bout de la chambre. Dans l’idéal, la chambre est de forme irrégulière. Pour augmenter et
rendre aléatoires les réflexions, la chambre doit être équipée de panneaux de diffusion sonore.
Ceux-ci contiennent de nombreuses anfractuosités disposées à intervalles inégaux. Lorsque les ondes
sonores les atteignent, elles sont reflétées à différents temps de retard, selon l’anfractuosité qu’elles
frappent. L’effet de diffusion tend à éliminer les ondes stationnaires (fréquences résonantes dans
la salle) qui apparaissent avec des murs parallèles.
✦ Parties de la réverbération
L’effet de réverbération peut être divisé en trois parties, montrées plus haut dans la figure 8.2 :
• Le son direct (non réfléchi) voyage en ligne droite et arrive en premier aux oreilles de l’audi-
teur.
• Les premières réflexions discrètes frappent l’auditeur juste après le son direct.
• Les réverbérations fusionnées contiennent des milliers d’échos proches, mais demandent du
temps pour se construire puis pour disparaître.
Les unités de réverbération du commerce fournissent en général des contrôles qui permettent de
manipuler ces différentes parties de façon plus ou moins indépendante. Sur ces unités, l’équilibre
entre son réverbéré et son direct est parfois appelé le rapport humide/sec — le son réverbéré est
appelé « humide » — et le retard juste avant les premières réflexions est appelé le préretard.
Une simulation efficace de la réverbération naturelle nécessite une haute densité d’échos. Certains
des premiers réverbérateurs numériques ne produisaient pas plus de 30 échos par seconde, tandis
que dans les vraies salles de concert, une densité de plus de 1 000 échos par seconde n’est pas rare.
De nombreux réverbérateurs actuels offrent un contrôle permettant aux utilisateurs d’ajuster la
densité d’échos pour atteindre l’effet désiré, depuis des échos discrets jusqu’à un modèle de réverbé-
ration dense et fusionnée.
Les premières réflexions discrètes d’une salle de concert peuvent être simulées grâce à une ligne
à retard à bascules. Il s’agit simplement d’une unité de retard qui peut être « basculée » en plusieurs
points pour sortir plusieurs versions du signal d’entrée, chacune ayant des retards différents. Voir
le chapitre 6 pour une explication des lignes à retard à bascules.
Le son luxuriant de la réverbération fusionnée nécessite une densité d’échos supérieure à ce qu’une
ligne à retard à bascules est capable de fournir efficacement. De nombreux algorithmes différents
pour la réverbération fusionnée existent, mais ils mettent en général tous en jeu une variation des
algorithmes originels de Schroeder, présentés maintenant.
8.1.4 Réverbérateurs élémentaires
Schroeder appelait les blocs de construction des réverbérateurs élémentaires, dont il existe deux
formes : les filtres en peigne récursifs et les filtres passe-tout, qui ont été présentés tous les deux au
chapitre 4.
✦ Filtres en peigne récursifs
Comme cela est expliqué au chapitre 4, un filtre en peigne récursif ou à réponse impulsionnelle infinie
(IIR) contient une boucle de réinsertion dans laquelle un signal d’entrée est retardé de R échan-
tillons et multiplié par une amplitude ou un facteur de gain g, puis renvoyé pour être ajouté au dernier
signal d’entrée (figure 8.5a).
Lorsque le retard R est petit (moins de 10 ms environ), l’effet du filtrage en peigne est avant tout
spectral. C’est-à-dire qu’il crée des pics et des creux dans la réponse fréquentielle du signal d’entrée.
Lorsque R est supérieur à 10 ms, il crée une série d’échos retardés, comme montré à la figure 8.5b.
(a) g
× D
Signal
d'entrée + Signal
de sortie
(b)
Amp.
D 3D 5D . . .
Temps
Figure 8.5 – Un filtre en peigne récursif pour la réverbération.

(a) Circuit d’un filtre en peigne avec les coefficients D (nombre d’échantillons à retarder) et g (quan-
tité de réinjection). (b) Réponse impulsionnelle, sous forme d’une série d’échos.
Les échos chutent exponentiellement, et donc pour un nombre maximal d’échos (temps de chute
le plus long), g est presque réglé sur 1. Le temps nécessaire pour que la sortie du filtre en peigne
chute de 60 dB est spécifié par la formule suivante (Moore, 1990) :
temps_de_chute = ( 60 ⁄ – Gainboucle ) × Retardboucle
où Gainboucle est le gain g exprimé en décibels = 20 × log10 (g), et Retardboucle est le retard R exprimé
en secondes = R/T, où T est le taux d’échantillonnage. Ainsi, si g = 0,7, Gainboucle = –3 dB.
✦ Filtres passe-tout
Les filtres passe-tout transmettent toutes les fréquences des signaux stables de façon égale (voir le
chapitre 4). Mais ils « colorent » les signaux transitoires raides en introduisant des retards dépen-
dants de la fréquence. Lorsque le temps de retard est suffisamment long (entre 5 et 100 ms), le filtre
passe-tout montré à la figure 8.6a possède une réponse impulsionnelle comme celle montrée à la
figure 8.6b : une série d’impulsions d’écho en chute exponentielle, comme un filtre en peigne ayant
(a) g
× 1-g
2
x[n] + D × + y[n]
×
-g
(b) g
2
g
3
g
4
g
g5
g6 g 7
Amp.
D 2D 3D . . .
Temps
Figure 8.6 – Un réseau passe-tout de premier ordre.

(a) En ajoutant –g fois l’entrée dans la sortie du retard, un filtre en peigne est transformé en filtre
passe-tout. (b) La réponse impulsionnelle d’un filtre passe-tout possède une série d’impulsions
d’échos en chute exponentielle. Ceci fait du filtre d’impulsion un élément de base des réverbérateurs.
un long retard. L’espacement uniforme entre les impulsions suggère que lorsqu’un son transitoire
court est appliqué, le filtre résonne avec une période égale au temps de retard du filtre. Ceci explique
pourquoi les filtres passe-tout ne sont pas « incolores » lorsqu’ils traitent des sons ayant des attaques
raides et des transitoires en chute.
✦ Patchs de réverbération
Nous avons établi que les filtres en peigne récursifs et les filtres passe-tout peuvent générer une série
d’échos en chute. Pour une réverbération luxuriante, il est nécessaire d’interconnecter un certain
nombre de réverbérateurs élémentaires pour créer une densité d’écho suffisante pour que les échos
fusionnent. Lorsque les réverbérateurs élémentaires sont connectés en parallèle, leurs échos s’ajou-
tent. Lorsqu’ils sont connectés en série, chaque écho généré par une unité déclenche une série
d’échos dans l’unité suivante, ce qui crée une densité d’échos bien plus grande. Le nombre d’échos
en série est le produit du nombre d’échos de chaque unité.
Dans les conceptions de Schroeder, les filtres en peigne sont interconnectés en parallèle pour mini-
miser les anomalies spectrales. Par exemple, une fréquence qui passe à travers un filtre en peigne
peut être atténuée par un autre. Les filtres passe-tout sont généralement connectés en série. En raison
de la distorsion de phase qu’ils introduisent, connecter les filtres passe-tout en parallèle peut aboutir
à une réponse d’amplitude non uniforme en raison des effets d’annulations de phases.
La figure 8.7 montre deux réverbérateurs proposés par Schroeder. Dans la figure 8.7a, les filtres en
peigne en parallèle initient un train d’échos qui sont additionnés et envoyés dans deux filtres passe-
tout en série. Dans la figure 8.7b, cinq filtres passe-tout font que la densité d’échos est multipliée
par chaque unité. Si chaque passe-tout ne génère que quatre échos audibles, le résultat final sera de
1 024 échos à la sortie du passe-tout numéro 5.
Le son caractéristique d’un système de réverbération numérique de ce type dépend du choix des
temps de retard R (ceux-ci déterminent l’espacement des échos) et des facteurs d’amplitude g
(ceux-ci déterminent la chute ou le temps de réverbération) pour chacun des réverbérateurs élémen-
taires que ce système comprend. Le temps de retard est également appelé temps de bouclage.
Pour les réverbérations sonnant naturellement, il est important de choisir des temps de retard qui
soient relativement premiers entre eux (c’est-à-dire n’ayant pas de diviseur commun) (Moorer,
1977, 1979c). Pourquoi cela ? Considérez deux filtres en peigne, où le temps de retard du premier
est de 10 ms et celui du second est de 12,5 ms. La longueur de leurs lignes à retard est respectivement
de 800 et de 1 000 échantillons, à un taux d’échantillonnage de 40 kHz. Comme les longueurs de
ces lignes à retard sont divisibles toutes les deux par 200, un réverbérateur construit à partir de ces
deux unités n’aura pas de chute douce. Aux multiples de 200 ms, les échos coïncident pour aug-
menter l’amplitude à ce point, causant une sensation d’échos discrets ou de « secousses » régulières
dans la chute. Lorsque les temps de retard sont ajustés à 10,025 et 24,925 ms, la longueur de leurs
lignes à retard est respectivement de 799 et 997. Maintenant, la première coïncidence d’échos n’appa-
raît pas avant (799 × 997)/40 000 kHz = 19,91 s. Voir Moorer (1979c) pour une présentation montrant
comment régler ces paramètres.
Comme on peut le supposer, des temps de retard plus courts sont en corrélation avec le son d’espaces
plus petits. Pour une grande salle de concert, le réverbérateur de la figure 8.7a utilise des temps de
retard du filtre en peigne de l’ordre de 50 ms avec un rapport de retard « le plus long : le plus court »
de 1,7:1. Pour un effet de petite pièce carrelée, les temps de retard du filtre en peigne peuvent être
établis aux environs de 10 ms. Les filtres passe-tout ont des temps de bouclage relativement courts
de 5 ms ou moins. Le temps de réverbération des filtres passe-tout doit être court (moins de 100 ms),
car leur fonction est d’augmenter la densité de la réverbération globale, et non pas sa durée.
(a) (b)
Signal
d'entrée Signal d'entrée
Passe-tout
1
Peigne Peigne Peigne Peigne Passe-tout

1 2 3 4 2
Passe-tout
+
3
Passe-tout
Passe-tout 4
1
Passe-tout Signal
de sortie
2 réverbéré
Signal de sortie
réverbéré
Figure 8.7 – Conceptions originelles des réverbérateurs de Schroeder.

(a) Filtres en peigne parallèles dirigés vers deux étapes de filtrage passe-tout.
(b) Quatre étapes de filtrage passe-tout en série.
✦ Simulation des premières réflexions
Les algorithmes de réverbération de Schroeder peuvent être caractérisés comme des modèles de
retard recirculant à bascules (RRB). Comme nous l’avons expliqué plus haut, le réverbérateur est en
général divisé en plusieurs parties de filtres en peigne et passe-tout, qui génèrent des densités
d’échos suffisantes pour créer une simulation raisonnable de réverbération globale. Le modèle RRB
est efficace, mais il ne simule que des réverbérations globales génériques, et non pas les propriétés
acoustiques spécifiques d’un espace de concert réel.
En 1970, Schroeder étendit ses algorithmes de réverbérateur originels pour incorporer une ligne à
retard multibascules pour simuler les premières réflexions qui sont entendues dans une salle avant
le départ du son réverbérant fusionné. Voir le chapitre 6 pour plus de détails sur les lignes à retards
multibascules. Cette conception, qui a été adoptée dans la plupart des réverbérateurs du com-
merce, est montrée à la figure 8.8. Ainsi, pour simuler une salle de concert particulière, une façon
Signal d'entrée
a1
a2
× Réverbérateur
global
Ligne à retard
multibascules ×
an
+
Signal de sortie
réverbéré
Figure 8.8 – Dans les dernières conceptions de Schroeder,

une ligne à retard multibascules simulait les premières réflexions du son dans une salle de concert.
directe d’améliorer le modèle RRB de base est de greffer la réponse mesurée des premières réflexions
de la salle sur le réverbérateur global générique (Moorer, 1979c). Une extension supplémentaire
consiste à filtrer en passe-bas la réverbération globale selon les caractéristiques mesurées d’absorp-
tion sonore de la salle.
Une autre considération importante dans la conception de réverbération est que le son se présentant
à chaque oreille peut être mutuellement incohérent. C’est-à-dire que l’algorithme de réverbération
devrait être légèrement différent (sans corrélation) pour chaque canal de traitement.
8.1.5 Effets de réverbération fictive
Les buts du compositeur de musique électronique s’étendent bien au-delà de la simulation d’espaces
réverbérants naturels. Un réverbérateur peut évoquer de nombreux effets spatiaux « fictifs » inha-
bituels qui ne sont pas censés être réalistes. Un exemple bien connu est la réverbération « à seuil »
qui explose rapidement du point de vue de la densité d’échos, puis se coupe de façon soudaine. La
réverbération à seuil était utilisée sur les caisses claires dans les années 1980 et devint rapidement
un cliché de la musique de variété. D’autres effets incluent une réverbération « grésillante » obtenue
en appliquant un filtre passe-haut au son réverbéré, et son opposé, une réverbération assourdie, obte-
nue en appliquant un filtre passe-bas raide. En manipulant les paramètres d’un réverbérateur, on peut
créer des combinaisons étranges telles que des salles minuscules ayant des temps de réverbération
longs. Le tableau 8.1 fait la liste des paramètres disponibles sur de nombreux réverbérateurs du
commerce.
Tableau 8.1 – Paramètres typiques des réverbérateurs.
Paramètre Description
Type de réverbération Choix entre « Hall », « Chambre », « Plaque » ou « À seuil »
Taille Établit les temps de retard à l’intérieur des réverbérateurs élémentaires
Préretard Contrôle le moment de départ de l’effet
Retard d’entrée Fait que l’effet précède la cause (le son humide précède le son sec)
Temps de réverbération Établit la longueur d’extinction
Diffusion Détermine la densité d’écho
Mixage Rapport entre le son d’entrée et le son réverbéré en sortie
Filtre passe-haut Ne réverbère que les octaves supérieures du son, créant un effet de réverbéra-
tion « grésillante »
Filtre passe-bas Ne réverbère que les octaves inférieures du son, créant un effet de réverbération
« assourdie »
La partie sur la réverbération avec la convolution, expliquée plus loin dans ce chapitre, présente un
autre type de réverbération non réaliste utilisant la technique de synthèse granulaire asynchrone
présentée au chapitre 22.
8.2 Modelage d’espaces sonores

L’étude de la réverbération continue d’évoluer. Les algorithmes décrits dans la partie précédente sur
la réverbération sont un point de départ pour les conceptions présentées ici. Cette partie explique
plusieurs approches d’une réverbération plus réaliste qui a été développée ces dernières années.
Parmi celles-ci, il y a des extensions des algorithmes de base de Schroeder, des modèles géométri-
ques, de la réverbération par la convolution, de la réverbération par guides d’onde, et de la réver-
bération multiflux.
Plusieurs de ces techniques représentent une approche par modèles physiques de la réverbération.
Voir le chapitre 26 pour une introduction à la théorie des modèles physiques dans le contexte de la
synthèse du son. Ces méthodes très gourmandes en calculs modèlent la diffusion des ondes acous-
tiques dans des espaces réels. En dehors de la création de modèles plus réalistes, ils offrent la pos-
sibilité de simuler des espaces imaginaires. Dans cette catégorie, nous incluons des salles dont les
caractéristiques et la géométrie changent dans le temps — telles qu’une salle de concert élastique
qui « s’étire » et « se rétrécit » au cours d’une phrase — ou des espaces impossibles tels qu’un cabinet
avec un temps de réverbération long. Ainsi, le but de ces techniques n’est pas toujours une réver-
bération réaliste, mais plutôt une transformation spatiale spectaculaire.
8.2.1 Extensions des algorithmes de réverbération de Schroeder

Dans les algorithmes de réverbération de Schroeder standards, les filtres passe-tout génèrent une
série d’échos ayant une chute exponentielle. Une extension du modèle de Schroeder est de substituer
au filtre passe-tout normal un filtre passe-tout oscillant dans la conception de Schroeder. Dans ce cas,
la réponse impulsionnelle du filtre passe-tout est un train d’impulsions ayant une amplitude en
Figure 8.9 – La réponse impulsionnelle d’un réverbérateur élémentaire passe-tout oscillant.
forme de sinusoïde amortie (figure 8.9). Ceci modèle le cas d’une salle « sonnant bien » ayant un
modèle de réverbération légèrement ondulant (Chowning et coll., 1974 ; Moorer, 1979c).
8.2.2 Modelage géométrique d’espaces sonores

Une autre option de l’approche RRB est de construire un modèle physique de la géométrie d’une salle
en utilisant un système de conception assistée par ordinateur (CAO). Les enceintes qui projettent
le son constituent une « fenêtre acoustique » dans la pièce simulée qui les entoure.
Dans la conception de F.R. Moore (1983), chaque source sonore devient un vecteur ayant une posi-
tion, une direction, une magnitude et une dispersion ajustables. En commençant par la projection
d’un vecteur sonore dans une pièce, l’ordinateur trace les trajets de réflexions sonores (Moore, 1983).
Dans un modèle géométrique complet, l’algorithme de réverbération devrait modeler les modèles
de réflexion de centaines de rayons sonores simulés. Selon le détail du modèle, cette approche peut
être extrêmement gourmande en calcul. Par besoin d’efficacité, Moore utilisa une approche géo-
métrique pour ne modeler que les premières réflexions d’une salle simulée. Il utilisa le modèle RRB
standard de Schroeder pour la réverbération globale.
Un problème d’une approche géométrique trop simple de la réverbération a été montré par Moorer
(1979). Une telle approche ne parvient pas à prendre en compte la diffusion des rayons sonores qui
apparaît dans les salles réelles. La diffusion apparaît, car aucune surface n’est à 100 pour cent lisse
ou réflective, ce qui signifie que les ondes sonores se dispersent et que leur énergie est partiellement
absorbée à chaque point de réflexion. Ainsi, un certain nombre de méthodes tentent d’améliorer le
modèle par traçage de rayons en modelant explicitement la diffusion sonore. Elles peuvent insérer
une fonction de dispersion stochastique à chaque point de réflexion. La réverbération par réseau
de guides d’onde, présentée plus loin, est une autre tentative pour modeler explicitement la diffusion
sonore.
8.2.3 Réverbération par la convolution

Un moyen précis, mais gourmand en calculs pour simuler la réverbération d’un espace donné, est
de convolver la réponse impulsionnelle d’un espace avec le signal à réverbérer. Voir le chapitre 5 et
Smith (1985a) pour plus de détails sur la convolution. On peut concevoir la réverbération sous forme
d’un type de filtre, où la longueur (en échantillons) de la réponse impulsionnelle correspond au
temps de réverbération (en échantillons) de la salle simulée. La réponse impulsionnelle d’une salle
est obtenue en enregistrant la réponse de la salle à un son explosif extrêmement bref. Cet ensemble
d’échantillons est ensuite convolvé avec le signal à réverbérer.
Le chapitre 5 fait la distinction entre convolution directe et convolution rapide. La convolution

directe n’est pas pratique pour la réverbération, car elle entraîne une quantité de calculs énorme.
Par exemple, à un taux d’échantillonnage de 48 kHz et pour une longueur de réponse impulsionnelle
de trois secondes, chaque échantillon de chaque canal du signal d’entrée doit être multiplié et addi-
tionné 48 000 × 3 fois. Pour une seconde de son d’entrée, ceci se traduit de la façon suivante :
144 000 × 48 000 = 6 912 000 000
Multiplications/additions Échantillons Multiplications/additions
par échantillon par seconde par seconde et par canal
(réponse impulsionnelle)
Ainsi, réverbérer une seconde de son stéréophonique par convolution demanderait 13,824 milliards
de multiplications/additions. Calculer cela en temps réel demande un niveau de capacité n’existant
que dans les superordinateurs très coûteux. Sur un support de traitement du signal ajusté à 100 mil-
lions de multiplications/additions par seconde dans une application usuelle, par exemple une carte
insérable dans un ordinateur personnel, ce calcul demanderait environ deux minutes et huit secondes,
soit un facteur de 138:1 comparé au temps réel.
Ainsi, la seule réverbération par convolution pratique utilise la convolution rapide, en tirant avantage
des accélérations offertes par la transformée de Fourier rapide (FFT). Voir le chapitre 5 pour des
détails sur la convolution rapide.
✦ Réverbération granulaire
Le roulement du tonnerre a été attribué aux échos parmi les nuages ; et si l’on considère qu’un nuage
est une collection de particules d’eau… et que chacune est capable de refléter le son, il n’existe pas
de raison pour laquelle les sons très [forts] ne devraient pas être réverbérés… à partir d’un nuage.
(Sir John Herschel, cité dans Tyndall, 1875)
Cette partie décrit un effet de réverbération qui peut être accompli en convolvant un son d’entrée
arbitraire avec un nuage de grains sonores.
Il est bien connu que les nuages dans l’atmosphère effectuent un effet de réverbération. Les scien-
tifiques acoustiques français du dix-neuvième siècle Arago, Mathieu et Prony, dans leurs expériences
sur la vélocité du son, ont observé que dans un ciel parfaitement clair les explosions de canons étaient
toujours uniques et courtes. Au contraire, lorsque le ciel était couvert ou lorsqu’un grand nuage
occupait une partie du ciel, les coups de canon étaient fréquemment accompagnés de « roulements »
longs et continus similaires au tonnerre (Tyndall, 1875). Voir Uman (1984) pour une analyse de
l’acoustique du tonnerre.
En supposant que le processus de fonctionnement de la convolution est compris, il n’est pas surpre-
nant d’apprendre que la convolution d’un son avec un nuage de particules sonores crée un effet de
coup dispersé, « éclaboussé dans le temps », similaire à la réverbération atmosphérique. L’éclabous-
sure temporelle commence avec un nuage de grains sonores plus ou moins dense généré par la
technique de synthèse granulaire asynchrone (AGS), décrite au chapitre 22. L’AGS disperse les grains
statistiquement à l’intérieur d’une région définie dans le plan temps/fréquence. Dans la convolution,
cette masse de grains peut être imaginée comme étant la réponse impulsionnelle d’une zone définis-
sant un nuage cumulus. La « réflexion » virtuelle effectuée par chaque grain disperse le son d’entrée
dans le temps ; c’est-à-dire qu’il ajoute des retards multiples espacés irrégulièrement. Si chaque
grain était une impulsion d’un seul échantillon, les échos seraient des copies conformes de l’entrée
originelle. Comme chaque grain peut contenir des centaines d’échantillons, cependant, chaque
écho est localement éclaboussé temporellement.
(a)
5.4
(b)
2.09
(c)
7.4
(d)
Temps 7.4
Figure 8.10 – Réverbération par convolution granulaire.

(a) Entrée : « Moi, Alpha Soixante ». (b) Réponse impulsionnelle granulaire, constituée de 1 000
grains sinusoïdaux de 9 ms centrés à 14 000 Hz avec une largeur de bande de 5 000 Hz. (c) Convo-
lution de (a) et (b). (d) Mélange de (a) et de (c) dans une proportion de 5:1, ce qui crée une réver-
bération autour de la parole.
Les effets d’éclaboussure temporelle peuvent être divisés en deux catégories de base, qui dépendent
principalement de l’attaque du son d’entrée. Si l’entrée commence par une attaque raide, chaque
grain génère un écho de cette attaque. Si le nuage de grains n’est pas continu, ces échos sont irré-
gulièrement espacés dans le temps. Si l’entrée possède une attaque douce, cependant, l’éclabous-
sure temporelle elle-même est adoucie en une sorte de réverbération colorée étrange (figure 8.10).
La « couleur » de la réverbération et des échos est déterminée par le spectre des grains, qui est un
facteur de durée, d’enveloppe, et de forme d’onde de chaque grain. Voir le chapitre 22 pour plus de
détails sur les paramètres des grains.
8.2.4 Réverbération par guides d’onde

Un guide d’onde est un modèle de calcul d’un support dans lequel les ondes voyagent. Les physiciens
ont longtemps utilisé les réseaux de guides d’onde pour décrire le comportement des ondes dans les
espaces résonants (Crawford, 1968). L’approche par réseau de guides d’onde à la réverbération est
construite avec un ensemble de lignes à retard bidirectionnelles (Smith, 1985c, 1984a, b ; Garnett et
Mont-Reynaud, 1988 ; le chapitre 26 présente plus en détail les guides d’onde dans le contexte de la
synthèse du son). Chaque ligne à retard contient une onde se propageant dans une direction et
retournant à la jonction centrale lorsqu’elle atteint la fin de la ligne. En connectant plusieurs guides
d’onde en réseau, on peut construire un modèle d’un milieu acoustique, tel que le modèle de
réflexion d’une salle de concert.
= Jonction
Sortie1
Signal
d'entrée
Sortie2
Figure 8.11 – Un réseau par guides d’onde avec trois ports et six nœuds.
Ce guide d’onde propage l’énergie vers ses sorties, ce qui signifie qu’il est un réseau ouvert finissant
par perdre son énergie, comme cela est le cas dans une salle de concert réverbérante.
Dans la réverbération par guides d’onde, les longueurs des lignes à retard individuelles des guides
d’onde sont différentes les unes des autres pour simuler les différents temps d’écho à l’intérieur d’une
salle. À la jonction des guides d’onde multiples, l’énergie est dispersée entre elles, causant un effet
de diffusion typique des sons réverbérants fusionnés (figure 8.11). Dans un réseau fermé, une fois
que le signal est introduit, il recircule librement dans tout le réseau sans perte d’énergie. Pour obtenir
un effet de réverbération, on doit introduire de petites pertes d’énergie d’amplitude à l’intérieur du
réseau pour obtenir le temps de réverbération désiré. Les entrées et les sorties du signal peuvent
être placées n’importe où dans le réseau.
Les réseaux par guides d’onde sont des modèles de réverbération efficaces. Un réseau à N jonctions
nécessite N multiplications et 2N–1 additions pour générer un échantillon de sortie. Le nombre de
jonctions N dépend du système à modeler. Un modèle de boîte résonante peut nécessiter huit inter-
sections, tandis qu’un modèle d’une réponse de réverbération d’une salle complexe peut nécessiter
des centaines de jonctions, puisque tout endroit où le signal peut se disperser nécessite une jonction.
La structure d’un réseau en guides d’onde permet d’être sûr qu’il n’y aura aucun débordement
numérique ou aucune oscillation à l’intérieur du réseau. De plus, la propriété importante de dis-
persion diffuse des rayons sonores (Moorer, 1979), qui n’est presque pas prise en compte par un
modèle géométrique simple, est bien simulée par un réseau par guides d’onde. Un effet de « murs
en mouvement » peut être obtenu en variant doucement les longueurs des lignes à retard.
8.2.5 Réverbération multiflux

La réverbération multiflux peut être appréhendée comme étant un compromis entre les approches
détaillées, mais gourmandes en calcul (telles que le modelage géométrique ou la réverbération par
convolution), et le modèle RRB efficace, mais global. La réverbération multiflux sépare le signal
réverbéré en plusieurs flux, chacun modelant la réverbération locale émanant d’une petite partie
spatiale de la pièce virtuelle. Chaque flux est implémenté avec un réseau RRB (filtres en peigne et
filtres passe-tout) réglé pour cette partie de la pièce.
Le système de « réverbérateur spatial » développé à la Northwestern University dans les
années 1980, utilise l’approche de multiflux et la combine avec deux autres processus : (1) un modèle
Signal
d'entrée
Traitement
F des réflexions
M
flux
réverbérants
R R R
D D D D
+ +
N
canaux
de sortie
Figure 8.12 – Vue simplifiée d’un « réverbérateur spatial »

d’après Kendall, Martens et Decker (1989). Ce système modèle un espace en additionnant les contri-
butions de M réverbérateurs locaux, qui génèrent finalement N canaux de sortie. F est un « préfiltre »
qui impose au spectre des changements en raison de la distance et de l’absorption de l’air. R est un
flux réverbérant local, qui modèle la réverbération d’un sous-espace de la pièce totale. D est un diri-
geur qui filtre le son selon sa position dans l’espace virtuel. Le système implémenté possède deux
processeurs de réflexion indépendants, et des alimentations croisées dans les flux réverbérants.
des réflexions de la pièce et (2) les indications de position causées par les réflexions du son sur les
pavillons, les épaules et le torse supérieur (Kendall et Martens, 1984 ; Kendall et coll., 1986 ; Kendall,
Martens et Decker, 1989). Les réflexions de premier et de second ordre déterminent les temps de
retard de chaque flux de réverbération indépendant. Ensuite, après avoir réverbéré chaque flux
séparément, un « dirigeur » filtre chaque flux pour imposer des indications supplémentaires comme
sa position dans un espace virtuel tridimensionnel (figure 8.12).
L’utilisateur du système peut spécifier les caractéristiques d’un espace virtuel en termes acoustiques
comme les dimensions de la salle, la position du son, la position de l’auditeur, l’absorption sonore
des murs, et ainsi de suite. Pour simuler un modèle de réverbération d’une salle, chacune des direc-
tions principales de la réverbération est traitée sous forme d’un flux séparé, avec jusqu’à dix-huit
flux dans une implémentation (Kendall, Martens et Decker, 1989). Comme le montre la figure 8.12,
le nombre des flux de réverbération est indépendant du nombre de canaux de sortie utilisés fina-
lement pour projeter le son.
Le concept des flux de réverbération séparés était également présent dans la recherche de réverbéra-
tion quadriphonique effectuée par le MIT au début des années 1980 (Stautner et Puckette, 1982).
Dans ce travail, les sorties de l’enceinte répondaient spatialement au canal d’entrée de la source.
Par exemple, un son direct émanant de l’enceinte avant gauche était entendu comme se réverbé-
rant dans deux enceintes adjacentes puis finalement dans l’enceinte arrière droite opposée.
Chapitre 9
Reconnaissance de la hauteur
9.1 Analyse de hauteur, de rythme et de forme d’onde :

origines
Les efforts pour décrire et mesurer les propriétés du son musical datent de l’Antiquité. Les anciens
textes védantiques reconnaissent la notion d’équivalence d’octave et divisent celle-ci en 22 intervalles
appelés shrutis (Framjee, 1958 ; Daniélou, 1958). Cette échelle, que les Grecs appelaient Enarmo-
nikos, était considérée par les peuples helléniques comme la base de toutes les échelles musicales.
Pythagore (~ 580-500) établit une correspondance entre les hauteurs musicales et les divisions de
la longueur d’une corde, ce qui le conduisit à décrire les intervalles et les échelles musicales en termes
de rapports arithmétiques. Les Grecs développèrent également un ensemble de modèles rythmiques
ou « modes » qui servirent de base rythmique à la majeure partie de la musique européenne du
Moyen Âge. Bien que la notation musicale évolua lentement par la suite, elle ne constituait pas une
base de mesures acoustiques précises.
Avant l’invention des outils électroniques tels que les amplificateurs audio, les oscillateurs et les
oscilloscopes, les mesures acoustiques étaient limitées aux propriétés les plus basiques du son. En
1636, Galilée (1564-1642) et Marin Mersenne (1588-1648) attribuèrent expérimentalement la
hauteur à la fréquence d’une forme d’onde. Mersenne et Pierre Gassendi (1592-1655) effectuèrent
la première tentative visant à déterminer la vitesse à laquelle les ondes sonores se déplacent. Aux
alentours de 1700, Joseph Sauveur (1653-1716) inventa une méthode pour compter les vibrations
acoustiques. Il fabriqua le terme les harmoniques pour décrire les sons plus élevés qui accompagnent
un son fondamental.
Le diapason, qui vibre à une hauteur constante, fut inventé en 1711 par l’Anglais John Shore, un
trompettiste et luthiste. En 1830, Félix Savart développa une technique de mesure de la hauteur qui
utilisait des roues dentelées rotatives. Savart appuyait une anche contre différentes roues pour déter-
miner les fréquences précises des sons en se basant sur le nombre de dents et la vitesse de rotation
(Beranek, 1949). Travaillant dans un laboratoire calme de l’île Saint-Louis à Paris, l’acousticien
d’origine allemande Rudolf Koenig (1832-1901) construisit un tonomètre de précision, couvrant
tout le domaine de l’audition, pour mesurer la hauteur des sons grâce au battement résonant de
154 diapasons (Miller, 1916 ; Wood, 1940).
Les premiers instruments de précision pour mesurer l’intensité des ondes sonores étaient la roue
phonique de La Cour (1878) et le disque Raleigh (1882), appelé ainsi par référence au grand acous-
ticien britannique lord J. W. S. Rayleigh (1842-1919). Le premier appareil de mesure électronique
du niveau sonore n’apparut que lorsque George W. Pierce en construisit un en 1908, deux ans après
l’invention de la lampe à triode par Lee De Forest (1873-1961).
9.1.1 Premières images du son

L’un des problèmes auxquels les premiers acousticiens durent faire face dans leur étude du son fut
que les formes d’onde peuvent être entendues et non vues. Ils imaginèrent des méthodes ingénieuses
pour parvenir à voir le son. L’une d’entre elles mettait en jeu la modulation d’un bec Bunsen avec
du son et l’observation de l’effet sur la flamme. Les premières tentatives recensées de l’analyse des
flammes sonores furent sans doute celles effectuées par le Dr Higgens en 1777 (Tyndall, 1875).
Rudolf Koenig construisit des instruments de précision pour générer des images sonores qu’il appela
des flammes manométriques (figure 9.1). Pour plus de détails, voir Mayer (1878) ; Poynting et
Thomson (1900) ; Beranek (1949).
En plaçant un tube résonant autour d’un bec Bunsen, John Tyndall (1820-1893) fit « chanter » les
flammes. Il décrivit également des expériences avec ce qu’il appelait des flammes nues sensibles
— non entourées par des tubes. Tyndall analysa les modèles des flammes sonores selon leurs
« queues », leurs « ailes » et leurs « fourches ». D’autres supports pour représenter les formes d’onde
sonores incluaient une fumée modulée par le son et des jets d’eau haute pression.
Des images plus directes des formes d’onde sonores apparurent à la moitié du dix-neuvième siècle.
Le Kaleidophone Wheatstone (1827) projetait les mouvements vibratoires sur un écran. Ceci con-
duisit Jules Lissajous (1857) à développer ses courbes de Lissajous, qui indiquaient à la fois l’inter-
valle de fréquence et la différence de phase entre deux signaux vibrants. Le Phonautograph Scott-
Koenig (1857) était un diaphragme placé à l’extrémité d’un cornet acoustique. Attaché au dia-
phragme, il y avait un stylet qui traçait sa vibration sur un papier fumé fixé sur un cylindre en rota-
tion (figure 21.2). Le Phonodeik (1916) de D.C. Miller était en grande avance dans le traçage de
formes d’onde dans le domaine temporel, car il écrivait sur un film optique se déplaçant à une
vitesse de 13,3 m/s.
9.1.2 Premiers enregistreurs de son

Les premiers enregistreurs de son provenaient des efforts pour capturer graphiquement le son.
Inspiré du Phonautograph, le Phonograph de Thomas Edison (1878) inscrivait les formes d’onde
sonores sur des cylindres à feuilles d’étain qui permettaient des lectures ultérieures des sons. Une
année plus tard, Edison les remplaça par des cylindres de cire. Un certain nombre de chercheurs con-
çurent des méthodes pour photographier les formes d’onde sonore inscrites sur les cylindres du
phonographe (Miller 1916). Un autre appareil d’enregistrement, le système Gramophone d’Émile
Berliner (1887), utilisait des disques rotatifs laqués, qui devinrent finalement le support choisi. Le
Telegraphone de Valdemar Poulsen (1900) fut le premier système d’enregistrement audio à utiliser
les signaux magnétiques. Dans le Telegraphone, un fil métallique tournait d’une bobine rotative à
une autre bobine tout en passant devant une tête d’enregistrement. En 1924, Kurt Stille développa
un système d’enregistrement qui fut amélioré dans les années suivantes et conduisit à la fabrication
du Magnetophon par la société AEG à partir de 1935. La transition vers le support magnétique fut
bien sûr au centre du développement de la technologie des ordinateurs numériques. Et c’est cette
(a)
(b)
Figure 9.1 – Flammes manométriques pour l’analyse de formes d’onde.

(a) Appareillage. Les sons captés par le cornet modulent la flamme du bec Bunsen à l’intérieur de
la boîte. Lorsque celle-ci est tournée, les miroirs situés à l’extérieur projettent la flamme sous forme
d’une bande continue comportant des arêtes vives ou dents, correspondant à la hauteur et au spectre
du son d’entrée. (b) Images de flamme des voyelles [OU], [O] et [A] par Rudolf Koenig, chantées sur
les hauteurs Do 1 (en bas de chaque groupe), Sol 1 (au milieu de chaque groupe) et Do 2 (en haut
de chaque groupe) (d’après Tyndall, 1875).
(a)
(b)
Figure 9.2 – La version de Rudolph Koenig du Phonoautograph

pour l’enregistrement d’images des formes d’onde sonores. (a) Appareillage. (b) Enregistrements.
capacité à stocker les données acoustiques — même momentanément en mémoire vive — qui a
conduit au véritable progrès de l’analyse du son.
9.2 Reconnaissance de la hauteur et du rythme

dans les systèmes MIDI
La reconnaissance de hauteur et de rythme commence de l’un de ces deux points de départ possibles :
analyse de formes d’onde sonore brutes ou analyse des flux de messages MIDI. Évidemment, cette
dernière est l’approche la plus facile. Lorsqu’un musicien joue d’un outil d’entrée tel qu’un clavier
ou un contrôleur de cuivre, les détections de hauteur et d’événement sont effectuées électromécani-
quement par l’outil d’entrée lui-même. Un microprocesseur à l’intérieur de l’outil d’entrée contrôle
constamment l’état des touches, des boutons, et des autres surfaces de contrôle de l’instrument.
Lorsqu’un musicien joue, l’état de ces contrôles change, et le microprocesseur détecte ces événe-
ments. Il génère un message de note MIDI contenant le temps de départ et de fin de chaque événe-
ment et la hauteur MIDI associée au contrôle modifié. Ces messages peuvent être dirigés par un
câble MIDI du contrôleur vers les programmes d’analyse fonctionnant sur un ordinateur. Ces pro-
grammes n’ont qu’à analyser les messages MIDI pour obtenir l’information de hauteur et de minu-
tage. À partir de là, ils peuvent procéder directement aux formes supérieures d’analyse.
Cela dit, il reste des contrôleurs pour lesquels le problème de la détection de hauteur reste important.
Les instruments à cordes posent de sérieux problèmes aux détecteurs de hauteur, nécessitants un
schéma combinant plusieurs stratégies à la fois (une combinaison de capteurs acoustiques et électro-
mécaniques). Et comment déduit-on la « hauteur » de signaux émis par un transducteur cérébral ?
Seul un schéma plutôt indirect semble possible.
L’analyse commençant par des formes d’onde est le noyau central de ce chapitre sur la reconnais-
sance de la hauteur. Les systèmes MIDI ne font face à ce problème que lorsque le flux de données
provient d’un convertisseur hauteur-MIDI (PMC). Un PMC tente d’émettre des valeurs de hauteur
MIDI qui correspondent à la hauteur des sons qui y entrent (Fry, 1992). Le chapitre sur la reconnais-
sance du rythme commence aussi avec l’analyse de formes d’onde sonores, mais aborde ensuite
des problèmes tels que le suivi du tempo et la transcription de partition qui peuvent également être
appliqués aux systèmes MIDI.
9.3 Le problème de la détection de hauteur

La largeur de perception de l’oreille est bien supérieure à celle de l’œil ; alors que la première s’étend
sur onze octaves, la seconde ne couvre qu’un peu plus d’une octave. (John Tyndall, 1875)
Nous pouvons définir un détecteur de hauteur (DH) ou estimateur de hauteur comme un algorithme
logiciel ou un appareil qui prend un signal sonore en entrée et essaie de déterminer la période de
hauteur fondamentale de ce signal. C’est-à-dire qu’il tente de trouver la fréquence qu’un auditeur
humain accepterait comme étant de même hauteur que le signal d’entrée (en supposant qu’il existe
une telle fréquence). En raison du fait que le concept de hauteur est ambigu dans de nombreux sons,
et que la perception humaine de hauteur n’est pas complètement comprise, les DH ne peuvent
réussir qu’avec un nombre limité de sons. Cela n’a aucun sens de tenter de trouver la « hauteur »
d’un son percussif bruiteux tel qu’un crash de cymbale, des impulsions brèves, des grondements
sourds ou des masses sonores complexes. En fait, si nous examinons attentivement les traces fré-
quentielles des sons d’instruments traditionnels, nous nous apercevons que leur hauteur n’est
jamais parfaitement fixe et comporte de nombreuses microvariations. Dans de nombreuses appli-
cations musicales, par exemple en concert, la tâche des DH est d’ignorer ces microvariations et de
localiser la fréquence centrale. Ainsi, ce que l’on demande à un DH comporte une difficulté inhé-
rente. Il doit être précis, mais pas trop, tout comme l’auditeur humain.
Au-delà de la détection de hauteur se tient le vaste univers de l’interprétation de hauteur dans un
contexte musical, ou analyse compositionnelle. Ce niveau d’analyse sort du cadre de ce chapitre, mais
nous discuterons de quelques problèmes dans la partie sur l’analyse du contexte musical.
9.3.1 Applications de détection de hauteur

Les applications musicales de détection de hauteur sont extrêmement nombreuses. Une des pre-
mières applications provenait des besoins des ethnomusicologues de capturer les mélodies ornées
des cultures musicales du monde entier, comme les chants indiens. Ces mélodies microtonales éla-
borées ne peuvent pas correctement être représentées par la notation musicale traditionnelle. Un
outil d’un tel genre, appelé le Melograph Seeger, lisait la sortie de 100 filtres passe-bande à tiers
d’octave toutes les quatre millisecondes et cherchait le maximum. Le premier maximum est censé
contenir le fondamental. Après traitement, le Melograph produisait un graphique en deux parties
(a)
(b)
Temps
Figure 9.3 – Tracé mélodique de deux secondes par un chanteur indien

similaire à celui d’un Melograph. Le temps se déplace horizontalement.
(a) Tracé de la hauteur fondamentale. (b) Tracé de l’amplitude (d’après Gjerdingen, 1988).
ou mélogramme (figure 9.3) montrant la fréquence fondamentale et l’amplitude en fonction du

temps (Seeger, 1951 ; Moorer, 1975). La technique du Melograph Seeger continue à être mise à jour
en utilisant la technologie informatique pour fournir différentes vues du mouvement mélodique
(Gjerdingen, 1988).
Une autre application de l’estimation de hauteur appartient au domaine de la transformation du son.
Les programmes d’édition du son incluent souvent des routines d’estimation de hauteur utilisées
comme guides pour les opérations de déplacement de hauteur et d’échelonnage temporel. Une
autre application de studio est de transcrire un solo joué sur un instrument acoustique tel qu’un
saxophone, par exemple, dans un programme de notation musicale. Des processus avancés comme
la séparation de deux voix simultanées commencent par une détection de hauteur (Maher, 1990).
En concert, les DH peuvent aider un synthétiseur à suivre l’interprétation d’un instrumentiste ou
d’un chanteur. Lorsque l’instrumentiste joue dans un microphone, le signal est envoyé à un détecteur
de hauteur qui génère des messages de note MIDI correspondants aux hauteurs jouées. Ces mes-
sages peuvent commander au synthétiseur de faire écho aux hauteurs que l’instrumentiste est en
train de jouer. Des scénarios d’interprétation plus sophistiqués sont possibles si l’on interpose un
ordinateur entre le détecteur de hauteur et le synthétiseur. Dans ce cas, le logiciel tournant sur l’ordi-
nateur peut commander au synthétiseur d’harmoniser ou de créer des variations des hauteurs de
l’instrumentiste. L’ordinateur peut commander au synthétiseur de rester silencieux sauf s’il est
déclenché par des indications spécifiques jouées par l’interprète.
9.3.2 Difficultés de la détection de hauteur

La perception humaine de hauteur est un phénomène complexe (Goldstein, 1973 ; Moorer, 1975 ;
Hermes, 1992). Nos oreilles perçoivent les hauteurs musicales même en présence de signaux brui-
teux. Nous pouvons suivre plusieurs hauteurs simultanément (sinon l’harmonie et le contrepoint
seraient indéchiffrables) et également détecter des déviations de hauteur légères, mais expressives
(vibrato, mélisme, intervalles microtonaux). Il est même possible de faire entendre des hauteurs
qui ne sont pas là (c’est-à-dire des fréquences fondamentales rendues implicites par la présence de
leur série harmonique — un effet entendu avec n’importe quel petit haut-parleur), et des trajectoires
de hauteur illusoires (par exemple les sons Shepard — des sons qui semblent monter et descendre
de façon continue). De nombreux sons ne fournissent pas de sensation particulière de hauteur. Les
mécanismes grâce auxquels nous détectons la hauteur ne sont pas complètement compris, car ils
impliquent du traitement cognitif et des facteurs subjectifs tels qu’entraînement et familiarité, ainsi
que des mécanismes de l’oreille interne.
Certains DH tentent d’émuler un modèle théorique des mécanismes humains de détection de hau-
teur, mais la majorité des appareils mettent en jeu des techniques plus simples choisies principa-
lement pour leur efficacité de calcul. L’efficacité est particulièrement importante dans les DH, car
ils doivent travailler en temps réel pour identifier la hauteur jouée. De toute façon, aucun détecteur
de hauteur n’est précis à 100 pour cent, bien que certaines méthodes très gourmandes en calculs
(souvent en temps différé) soient dignes de confiance lorsque le signal d’entrée est contraint de
diverses manières.
✦ Transitoires d’attaque
Le premier problème auquel les DH doivent faire face est de trier les transitoires d’attaque d’un son.
L’analyse détaillée de l’attaque de nombreux instruments révèle des formes d’onde chaotiques et
instables. Si une fréquence fondamentale est présente dans l’attaque, elle est probablement obscurcie
par du bruit et des partiels inharmoniques. Certains instruments peuvent avoir besoin de 100 ms ou
plus pour s’établir sur une hauteur stable ; cette période d’instabilité embrouille les DH (Fry, 1992).
✦ Fréquences basses
Les détecteurs de hauteur commençant par une analyse spectrale ont en général des difficultés
avec les sons graves, nécessitant l’utilisation de DH dans le domaine temporel (Lyon et Dyer, 1986).
N’importe quel DH a des problèmes à identifier les hauteurs basses en temps réel. Afin de déter-
miner la période de la hauteur fondamentale, au moins trois cycles de la forme d’onde fixe doivent
être échantillonnés avant que l’analyse puisse commencer. Pour une hauteur basse fréquence, par
exemple un La à 55 Hz, trois cycles nécessitent 54 ms pour être échantillonnés. Si l’on ajoute à cela
la durée du transitoire d’attaque et de l’algorithme de détection de hauteur lui-même, un retard
perceptible est alors inévitable.
✦
Fréquences hautes
Les hautes fréquences peuvent également poser des problèmes à certains DH en temps réel. Lorsque
la fréquence s’élève, une période de hauteur est représentée par moins d’échantillons. La résolution
avec laquelle la hauteur peut être déterminée dans le domaine temporel est directement influencée
par la longueur de la période de hauteur ou le nombre d’échantillons de retard utilisés pour la com-
paraison d’un signal avec le précédent (Amuedo, 1984).
✦ Pistage myope de hauteur
Tous les DH commencent avec une analyse d’un grain temporel durant entre 20 et 50 ms ; ainsi, leur
analyse est basée sur un segment temporel étroit. Au contraire, la perception humaine de hauteur
n’est pas localisée dans le temps. Les prévisions modèlent la perception de hauteur ; c’est-à-dire que
nous estimons la hauteur en nous basant sur le contexte musical. Comme les DH ne se basent que sur
des détails locaux, ils peuvent suivre avec myopie des détails non pertinents produits non intention-
nellement, tels que l’instabilité au commencement d’une note ou d’un vibrato excessif.
✦ Ambiance acoustique
L’ambiance acoustique dans laquelle un instrument ou une voix sont entendus influe sur la précision
de la détection de hauteur. Un enregistrement de studio effectué près du microphone et compressé
peut exagérer les incidents de jeu ou les bruits du chant, tels que les grattements de l’archet, les clics
de clés, ou les sons soufflés, qui encombrent le signal entendu par le DH. Au contraire, les sons baignés
dans la réverbération et dans l’écho brouillent les premières notes sur le commencement des notes
suivantes. Si l’analyse est effectuée en temps différé, toute tentative pour supprimer de l’ambiance
peut aider le DH. Voir Beauchamp, Maher et Brown (1993) et la description dans la partie sur la
détection de hauteur dans le domaine fréquentiel.
9.4 Méthodes de détection de hauteur

La majorité des algorithmes DH proviennent de la recherche sur la reconnaissance et la synthèse
de la parole. L’importance du problème est reflétée dans le nombre de méthodes complexes qui ont été
développées (Gold, 1962 ; Noll, 1967 ; Schafer et Rabiner, 1970 ; Moorer, 1973 ; Rabiner et coll.,
1976 ; Hess, 1983 ; Amuedo, 1984 ; Fry, 1992 ; Hermes, 1992 ; Hutchins et Ku, 1982 ; Hutchins,
Parola et Ludwig, 1982 ; Beauchamp, Maher et Brown 1993). Nous pouvons classifier la plupart des
méthodes de détection de hauteur en cinq catégories générales : domaine temporel, autocorrélation,
filtre adaptatif, domaine fréquentiel et modèles de l’oreille humaine, présentées dans les prochaines
parties.
9.4.1 Détection de la période fondamentale d’une hauteur

dans le domaine temporel
Les méthodes de période fondamentale considèrent le signal d’entrée comme une amplitude fluc-
tuante dans le domaine temporel, comme le signal qui apparaît sur l’écran d’un oscilloscope. Ils
tentent de trouver des éléments répétitifs dans la forme d’onde qui peuvent donner des indications
sur sa périodicité. Un terme peut-être plus adéquat pour ces types de détecteurs de hauteur pourrait
être « détecteurs de périodicité » (Moorer, 1975).
Un type de détecteur de hauteur tente de trouver des périodicités dans la forme d’onde en regardant
les passages par zéro répétitifs. Un passage par zéro est un point où l’amplitude de la forme d’onde
passe du positif au négatif, ou vice-versa. Par exemple, une sinusoïde traverse le seuil d’amplitude
zéro au milieu et à la fin de son cycle. En mesurant l’intervalle entre les passages par zéro et en
comparant les intervalles successifs, le DH en déduit une fréquence fondamentale (figure 9.4). Une
variation de la détection par passage par zéro est de mesurer les distances entre les pics (Hermes,
1992). En général, les DH par passages par zéro et par pics sont relativement simples et peu coûteux,
mais ils sont également moins précis que les méthodes plus élaborées (Voelkel, 1985 ; Hutchins et Ku,
1982). Ceci en raison du fait que d’autres fréquences, bien que n’étant pas la fréquence de hauteur,
peuvent générer des formes d’onde qui passent par zéro ou présentent des pics. Dans la figure 9.4b,
par exemple, pour suivre la fréquence fondamentale visuellement évidente, le DH doit ignorer les
trois ou quatre passages par zéro rapides et de faible amplitude causés par le composant de haute
fréquence à chaque passage par zéro principal.
Des prétraitements par des filtres peuvent améliorer la précision des DH dans le domaine temporel.
Kuhn (1990) a proposé une amélioration de la méthode par passage par zéro de base qui fait tra-
verser le signal d’entrée dans une banque de filtres. Ensuite, l’algorithme vérifie l’amplitude des sorties
des filtres et n’effectue une détection par passage par zéro que sur la sortie des deux filtres les plus
bas ayant une amplitude significative après filtrage.
(a)
× × × × × × ×
Temps
(b)
× × × × × × ×
Figure 9.4 – Détecteur de hauteur par passage par zéro.

(a) En mesurant l’intervalle entre les passages par zéro (marqués ⊗), nous obtenons une indica-
tion sur la plus petite période du signal. (b) Pour les signaux ayant une fondamentale forte, cette
méthode est efficace si l’on ne tient pas compte de la présence de composants de hautes fréquences,
pour peu que le DH ignore les variations de faible amplitude rapides au point zéro causées par les
composants de hautes fréquences.
Finalement, en ce qui concerne exclusivement les signaux parlés et chantés, un électroglottographe

ou laryngographe a été utilisé avec succès. Ces méthodes obligent un chanteur à porter un tour du
cou sensible aux impulsions émises par les cordes vocales. Cette méthode n’est cependant pas sen-
sible à la parole dévoisée (murmurée) et peut générer des erreurs avec certaines voyelles nasales
(Hermes, 1992). Elle a également les mêmes problèmes que n’importe quel DH en temps réel pour
traiter les attaques de note (Fry, 1992).
9.4.2 Détection de hauteur par autocorrélation

Les fonctions de corrélation comparent deux signaux. Le but des routines de corrélation est de trouver
des « similitudes » (dans son sens mathématique précis) entre deux signaux. Les fonctions de cor-
rélation comparent les signaux point par point ; ainsi, la sortie de la fonction de corrélation est elle-
même un signal. Si la fonction de corrélation est de 1, les deux signaux sont exactement corrélés
en ce point. Si elle est de 0, alors les deux signaux sont non corrélés.
Les méthodes d’autocorrélation comparent un signal avec des versions de lui-même retardées par
des intervalles successifs, tandis que les méthodes de corrélation croisée comparent deux signaux
différents sur un certain nombre de retards temporels ou décalages. Le but de la comparaison de

plusieurs versions retardées d’un signal est de trouver des modèles répétitifs — des indicateurs de
périodicité dans le signal. C’est cette détection de périodicité qui nous intéresse ici.
Les détecteurs de hauteur par autocorrélation emmagasinent une partie du signal d’entrée dans
une mémoire tampon (Moorer, 1975 ; Rabiner, 1977 ; Brown et Puckette, 1987). Lorsque davantage
du signal d’entrée pénètre, le détecteur tente de faire correspondre une partie de la forme d’onde
entrante avec une partie de la forme d’onde stockée. Si le détecteur trouve une correspondance à
l’intérieur d’un critère donné d’erreur, cela indique une périodicité, et le détecteur mesure l’inter-
valle temporel entre les deux parties pour estimer la périodicité. La figure 9.5 montre le schéma d’un
détecteur de hauteur par autocorrélation.
Signal y[n] Somme Algorithme

Fenêtrage des Hauteur
d'entrée de décision estimée
x[n] produits de hauteur
Retard de
m échantillons y[n-m]
Figure 9.5 – Schéma d’autocorrélation.

Le signal d’entrée est fenêtré, et le segment fenêtré est comparé avec des versions de lui-même
retardées d’un échantillon, de deux échantillons, et ainsi de suite jusqu’à m échantillons. La corréla-
tion la plus forte est estimée comme étant dominante, c’est-à-dire comme étant la hauteur fonda-
mentale.
Différents algorithmes par autocorrélation existent (Moorer, 1975). Pour un retard donné ou temps
de décalage, une fonction typique par autocorrélation est la suivante :
N
autocorrélation [ décalage ] = ∑ signal [ n ] × signal [ n + décalage ]
n=0
où n est l’index d’échantillon d’entrée, et 0 < décalage = N. Le degré auquel les valeurs de signal aux
différents temps n sont identiques aux valeurs du même signal retardé par échantillons de décalage
détermine la magnitude d’autocorrélation [décalage]. La sortie d’une autocorrélation montre la
magnitude pour différents temps de décalage.
L’autocorrélation d’une sinusoïde illustre ce principe. Dans la figure 9.6, cas (a), le décalage = 0, et
les deux fonctions sont identiques. Ainsi, la fonction d’autocorrélation normalisée par la puissance
de la sinusoïde est 1. La fonction d’autocorrélation est tracée au bas de la figure 9.6. Supposons
maintenant que la sinusoïde est retardée d’un quart de période. Comme le montre le cas (b),
la somme des produits de signal [n] et signal [n + décalage] sur une période est 0. Dans le cas (c),
le retard est d’une demi-période, et la corrélation est –1. Dans le cas (d), le retard est de trois quarts
de période, et la corrélation est 0. Finalement, dans le cas (e) le retard est une période complète, et
la corrélation est donc de 1. Nous voyons ainsi que l’autocorrélation d’une sinusoïde est elle-même
une sinusoïde avec des maxima aux multiples entiers de la période de la sinusoïde d’entrée.
Pour des signaux plus complexes, les routines de DH cherchent les pics récurrents dans l’autocor-
rélation, indiquant des périodicités (pouvant être cachées) dans la forme d’onde d’entrée (figure 9.7).
(a) (b) (c) (d) (e)
(a) (e)
(b) (d)
(c)
Fonction
d'autocorrélation
Figure 9.6 – L’autocorrélation d’une sinusoïde est elle-même une sinusoïde.

O indique le signal d’origine et R le signal retardé. Le texte explique les cas (a) à (e). La fonction
d’autocorrélation est tracée dans la partie inférieure.
La détection de hauteur par autocorrélation est plus efficace entre les moyennes fréquences et les
basses fréquences. Elle a donc été très utilisée dans les applications de reconnaissance de la parole
où l’étendue de hauteur est limitée. Dans les applications musicales, où l’étendue de hauteur est plus
large, le calcul direct de l’autocorrélation nécessite plusieurs millions d’opérations de multiplica-
tions/additions par seconde de son en entrée. Une façon de calculer l’autocorrélation d’un signal
est de le segmenter d’une façon particulière et d’appliquer une transformée de Fourier rapide à chaque
segment ; ceci permet une accélération significative du calcul direct. Voir par exemple Rabiner et
Gold (1975) pour des détails sur cet algorithme.
9.4.3 Détecteurs de hauteur à filtre adaptatif

Un filtre adaptatif opère, comme son nom l’indique, par autoréglage, selon le signal d’entrée. Une
stratégie de détection de hauteur basée sur un filtre adaptatif envoie le signal d’entrée dans un fil-
tre passe-bande étroit. Le signal non filtré et le signal filtré sont ensuite envoyés dans un circuit de
détecteur de différence. La sortie du circuit de détecteur de différence est réinjectée pour contrôler
la fréquence centrale du filtre passe-bande (figure 9.8). Ce contrôle force le filtre passe-bande à
converger vers la fréquence du signal d’entrée. Le test de convergence mesure la différence entre la
sortie du filtre y(n) et l’entrée du filtre x(n). Lorsque la différence est proche de zéro, le système
prend une décision de hauteur.
Une autre technique à filtre adaptatif est la méthode en peigne optimum (Moorer, 1973). Cette
méthode cherche à déterminer un filtre en peigne qui minimise son signal d’entrée. Le chapitre 4
présente les filtres en peigne. Afin de minimiser le signal d’entrée, les creux du filtre en peigne doivent
être accordés sur la fréquence dominante de l’entrée. Ainsi, on a trouvé la hauteur dominante en
cherchant le filtre en peigne optimum. Cette méthode est principalement applicable aux sons ayant
une forte fondamentale et des harmoniques espacés régulièrement.
Voir Lane (1990), Hush et coll. (1986) et Hutchins (1982-1988) pour plus de détails sur les détecteurs
de hauteur à filtre adaptatif.
(a)
(b)
Figure 9.7 – Les fonctions d’autocorrélation des signaux périodiques

sont elles-mêmes des fonctions périodiques du temps. (a) Autocorrélation d’un signal avec cinq har-
moniques, y compris le fondamental avec une période de 6,7 ms, soit 149 Hz (proche d’un Ré 3).
L’autocorrélation est périodique, mais ses amplitudes d’harmoniques sont différentes de l’entrée.
Remarquez le pic correspondant au fondamental. (b) Autocorrélation d’un signal n’ayant que trois
harmoniques : le cinquième, le sixième et le septième. L’autocorrélation est périodique avec une
période de 6,7 ms, égale à la fondamentale manquante (hauteur implicite) de la forme d’onde
(d’après Moorer, 1975).
Fréquence centrale estimée courante
Signal Filtre y [n ] Test

d'entrée passe-bande de convergence Estimation
x [n ] de hauteur
Figure 9.8 – Détecteur de hauteur basé sur un schéma de filtre adaptatif.

Remarquez la boucle de réinjection entre l’estimation et le filtre.
9.4.4 Détection de hauteur dans le domaine fréquentiel

Les méthodes de détection de hauteur dans le domaine fréquentiel (DF) dissèquent le signal d’entrée
en fréquences qui constituent le spectre global. Le spectre montre la force des divers composants
fréquentiels contenus dans le signal. Le but est d’isoler la fréquence ou « hauteur » dominante du
spectre.
Une approche DF typique analyse des segments successifs du signal d’entrée en utilisant une trans-
formée de Fourier à court terme (STFT). Voir le chapitre 11 pour plus de détails sur l’analyse de
Fourier. Les détecteurs de hauteur DF cherchent des pics dans le spectre correspondants aux fré-
quences proéminentes. Après avoir trouvé les pics, le détecteur de hauteur doit décider quelles fré-
quences sont fondamentales (en général perçues comme des hauteurs) et quelles fréquences sont
plus ou moins des harmoniques ou des partiels étrangers (Kay et Marple, 1981). Un détecteur de
hauteur DF rapide en temps réel peut simplement sélectionner la fréquence la plus forte comme
hauteur. Un détecteur plus sophistiqué examinera les relations harmoniques impliquant une fré-
quence fondamentale. Cette fondamentale peut ne pas être le composant le plus fort, mais il peut être
la hauteur perçue de façon proéminente en raison du « renforcement » des multiples harmoniques.
Un des problèmes avec les détecteurs de hauteur basés sur une STFT est que celle-ci divise la largeur
de bande audio en un ensemble de canaux ou casiers fréquentiels espacés de façon égale où chaque
canal est à n Hz de ses voisins. Comme la perception humaine de la hauteur est principalement
logarithmique, ceci signifie que les hauteurs basses peuvent être suivies de façon moins précise que
les hauteurs élevées. Par exemple, un analyseur ayant une résolution fréquentielle de 20 Hz peut
résoudre des microtons dans le registre situé entre 10 et 20 kHz, mais offre une résolution de moins
d’un demi-ton en dessous du Do moyen. Une résolution précise de hauteur à l’extrémité inférieure
du spectre demande davantage de canaux d’analyse. Comme le montre le chapitre 13, le prix payé
pour augmenter le nombre des canaux d’analyse est une perte de la résolution temporelle. Des
méthodes alternatives peuvent être mieux adaptées au suivi de la hauteur dans les basses fréquences.
Voir le chapitre 13 pour une présentation de ces problèmes.
✦ Analyse par vocodeur de phase pisteur

Le vocodeur de phase pisteur (VPP) est à l’opposé des canaux de fréquence fixe de la STFT, car il offre
la possibilité de fréquences changeantes (McAulay et Quatieri, 1986 ; voir également le chapitre 11).
Le VPP commence avec des données générées par la STFT puis génère un ensemble de pistes, dont
chacune représente un partiel proéminent du spectre. Les pistes peuvent changer de fréquence
dans le temps, par interpolation entre les bandes d’analyse fixes. Une réduction de données est impli-
cite dans le processus de pistage ; comme seuls les partiels proéminents sont pistés, le VPP génère
une version « assainie » de l’entrée qui atténue les bruits étrangers et l’ambiance.
Maher (1990) et Beauchamp, Maher et Brown (1993) ont développé un détecteur de hauteur DF qui
commence par la sortie d’un VPP. Leur système lit les fréquences pistées et les compare de plusieurs
manières aux fréquences harmoniques d’une fondamentale hypothétique. L’hypothèse ayant la plus
petite différence globale devient la hauteur fondamentale estimée.
La figure 9.9 montre trois tracés générés par ce système. Dans la figure 9.9a, le système piste de façon
précise une version synthétisée par ordinateur de la Partita III de J. S. Bach. La figure 9.9b montre
comment l’interprétation se dégrade lorsqu’elle est effectuée sur un enregistrement du violon en
studio. Les pics entre les notes indiquent des points où le système est embrouillé par les bruits de
l’archet. La figure 9.9c montre une dégradation supplémentaire causée par « l’effet d’accord » (dans
lequel les notes précédentes continuent de sonner en présence des nouvelles notes) lors de l’analyse
de l’enregistrement de violon dans un espace réverbérant.
(a)
(b)
(c)
Figure 9.9 – Tracés générés par pistage de la hauteur dans le domaine fréquentiel
des hauteurs estimées des huit premières mesures de la Partita III de J.-S. Bach. L’axe vertical est
divisé en demi-tons de l’échelle tempérée, de Do 4 à Do 7. L’axe horizontal est le temps. (a) Hauteurs
synthétisées par ordinateur. (b) Enregistrement de studio. (c) Enregistrement réverbérant
(d’après Beauchamp, Maher et Brown, 1993).
Lors d’une étape supplémentaire pour améliorer l’efficacité d’un tel système, les auteurs appliquèrent
le même algorithme à une version des enregistrements de violon qui avaient été assainis par le VPP.
Au cours de sa réduction de données, le VPP élimine certains bruits et crépitements, dont le bruit
de grattement de l’archet et de la réverbération. Lorsque le DH est utilisé sur des versions resynthé-
tisées, son efficacité devient plus précise.
✦ Analyse cepstrale
Une méthode de détection de hauteur dans le domaine fréquentiel couramment utilisé dans la
recherche sur la parole est la technique cepstrale, qui a d’abord été utilisée dans l’analyse de la parole
(Noll, 1967 ; Schafer et Rabiner, 1970). L’analyse cepstrale a souvent été appliquée en conjonction
avec la technique de codage prédictif linéaire (CPL), décrite au chapitre 24. Le terme « cepstre » a
été formé en inversant les quatre premières lettres de « spectre ». Une façon simple de décrire le
cepstre est de dire qu’il tend à séparer un composant harmonique fort du reste du spectre. C’est un
modèle raisonnable de nombreux sons vocaux et instrumentaux dont les spectres peuvent être
considérés comme la somme d’une excitation (les impulsions vibratoires originelles, en général à
la hauteur du son) et de résonances (la partie filtrée d’un son créé par le corps d’un instrument ou
par le conduit vocal). Le chapitre 26 sur la synthèse par modèles physiques explique le concept
d’excitation/résonance.
Techniquement, le cepstre est la transformée de Fourier inverse du spectre de Fourier de magnitude
logarithmique (figure 9.10). Il s’agit de la valeur absolue du logarithme (décimal) de la sortie de la
transformée de Fourier discrète.
Signal d'entrée
Échantillons
FFT
Spectre
abs()
Spectre de magnitude
log()
logarithmique
IFT
Échantillons
Cepstre
Figure 9.10 – Schéma du calcul cepstral.
Le résultat du calcul cepstral est une séquence temporelle, comme le signal d’entrée lui-même. Si
le signal d’entrée possède une période de hauteur fondamentale forte, elle apparaît dans le cepstre
sous forme de pic. En mesurant la distance temporelle entre le temps 0 et le temps du pic, on trouve
la période fondamentale de cette hauteur (figure 9.11).
Comment fonctionne l’analyse cepstrale pour la parole ? Le cepstre sert à séparer deux spectres
superposés : l’excitation d’impulsion glottale (cordes vocales) et la résonance du conduit vocal.
L’excitation peut être conçue comme une séquence d’impulsions quasi périodiques. La transformée
de Fourier de ces impulsions est un spectre en lignes où les lignes sont espacées aux harmoniques
de la fréquence originelle (voir les lignes étroites entortillées de la figure 9.12). Le fait de prendre
la magnitude logarithmique n’influe pas sur la forme générale de ce spectre. La transformée de
Figure 9.11 – Tracé cepstral d’une note de trompette solo

enregistrée dans une grande salle réverbérante. La note est 396 Hz. Le pic marqué par un astérisque
indique la période du signal, environ 2,52 ms, ce qui correspond à la hauteur détectée. Remarquez
comme le pic cepstral apparaît clairement, même en présence de réverbération (d’après Moorer,
1975).
Magnitude
logarithmique
2 kHz 3 kHz
Fréquence
Figure 9.12 – Séparation cepstrale de la réponse impulsionnelle d’une corde vocale

et de la réponse impulsionnelle du conduit vocal. L’application de la fonction logarithmique sépare
le trait ondulé étroit (correspondant à l’excitation) du spectre représenté par la ligne grasse ondu-
lante (correspondant à la réponse impulsionnelle ou résonance).
Fourier inverse produit une autre forme d’onde quasi périodique d’impulsions. Au contraire, le
spectre de la réponse du conduit vocal (agissant comme un filtre) est une fonction de fréquence
variant lentement, représentée par la ligne grasse ondulante de la figure 9.12. Le fait d’appliquer la
magnitude logarithmique et la transformée de Fourier inverse produit une forme d’onde ayant une
amplitude significative pendant seulement quelques échantillons, en général moins que la période
de la hauteur fondamentale. On peut voir que la réponse impulsionnelle chute en fonction de 1/n,
puis que son cepstre chute en fonction de 1/n2. Ainsi, le cepstre agglomère la réponse impulsionnelle
en une explosion courte au commencement de l’onde cepstrale, et il agglomère la hauteur en une
série de pics à la période de la fréquence fondamentale (voir la figure 9.11).
Le calcul cepstral possède de nombreuses applications, car il tend à éliminer la réponse impulsion-
nelle de l’excitation. En d’autres termes, le cepstre tend à déconvolver les deux spectres convolvés
(Smith, 1981). Voir le chapitre 5 pour une explication de la convolution. Nous disons bien « tend à »,
car pour des signaux musicaux, la déconvolution est rarement parfaite. Les opérations de magni-
tude logarithmique dans le processus cepstral tendent à agglomérer ces deux composants presque
séparés du spectre. Grâce à des opérations élaborées que nous n’aborderons pas ici, chacun de ces
éléments peut être filtré afin que le cepstre contienne une information spectrale associée soit au
timbre, soit à la hauteur. Pour plus de détails, voir Noll (1967) ; Schafer et Rabiner (1970) ; Rabiner
et Gold (1975) ; Rabiner et coll. (1976).
Une autre application du cepstre se trouve dans l’analyse/resynthèse de la parole. L’absence de pic
dans le cepstre indique que le son analysé est dévoisé — c’est-à-dire que c’est une consonne avec
du souffle sans hauteur, comme « f » ou « s », contrairement à une voyelle voisée comme « a ».
9.4.5 Détecteurs de hauteur basés sur les modèles de l’oreille

Après des décennies d’études systématiques, la science de l’audition converge vers une compré-
hension détaillée des mécanismes du système auditif humain. Une direction dans l’analyse du son
est d’attacher cette connaissance au train de la technologie des superordinateurs en ayant comme but
d’obtenir de nouveaux aperçus de la microstructure du son (Hermes, 1992 ; Slaney et Lyon, 1992).
Une des applications de ces modèles est la détection de hauteur. Les DH récents combinent des
algorithmes basés sur les théories de la perception avec des modèles de mécanismes connus du
système auditif humain. Les théories de Licklider sur la perception de hauteur ont anticipé les
implémentations modernes de cette approche (Licklider, 1951, 1959).
La figure 9.13 montre la structure globale d’un tel DH, qui se divise en trois sous-modèles : oreille
externe et moyenne, cochlée et système nerveux central. La première étape consiste en un filtrage
basé sur les réponses des oreilles externes et moyennes. L’étape suivante transforme le signal d’entrée
en une représentation dans le domaine fréquentiel grâce à une banque de filtres passe-bande. Vient
ensuite une étape de transduction dans laquelle l’énergie de la membrane basilaire est transformée
en une série de probabilités de déclenchements de nerfs et donc, par conséquent, en un train de
Signal d'entrée
Filtrage préliminaire Modèle de l'oreille

du spectre externe et moyenne
Décomposition en bande
de fréquences
Transduction neurale Modèle de la cochlée
Génération de pointes
Modèle du système
Détection d'intervalles
nerveux central
Estimation de hauteur
Figure 9.13 – Schéma d’un détecteur de hauteur

basé sur un modèle du système auditif humain.
pointes dans le domaine temporel (Meddis, Hewitt et Schackleton, 1990). Jusqu’à ce moment, le
processus est basé sur des données scientifiques bien connues. L’étape suivante est la partie la plus
spéculative : elle modèle le traitement des pointes entrantes par le système nerveux central. Le but
est de mesurer la période entre les pointes et d’estimer leur intervalle de fréquence maximum ou
hauteur. Ces étapes finales sont une sorte de DH à autocorrélation ou de DH dans le domaine tem-
porel. L’avantage de combiner les méthodes DF et DT de cette façon est que la « contamination »
inharmonique est éliminée lorsque les canaux du domaine fréquentiel sont convertis en pointes
dans le domaine temporel.
9.4.6 Détection de hauteur polyphonique
Toutes les difficultés de la détection de hauteur sont encore augmentées avec un son harmonique
en présence de bruit ou de plusieurs autres sons harmoniques. Voilà la tâche difficile rencontrée
dans la transcription polyphonique, c’est-à-dire la génération d’une partition écrite à partir d’un
signal acoustique. La plupart des théories sur la perception humaine de la hauteur ne s’attachent
qu’à l’écoute d’une seule hauteur. On en sait beaucoup moins sur les mécanismes permettant aux
gens d’entendre en polyphonie.
Les tentatives pour la détection de hauteur polyphonique s’appliquent en général aux techniques
d’analyse dans le domaine fréquentiel à l’intérieur d’un mécanisme de recherche et de décision. La
tâche principale est de séparer les lignes mélodiques individuelles d’un spectre contenant de nom-
breux pics d’amplitude, où ceux-ci peuvent être soit des hauteurs fondamentales, soit des harmo-
niques forts. Afin de déterminer quels pics sont probablement des hauteurs fondamentales, l’analyse
doit examiner les données à partir de différentes perspectives et pondérer les différents facteurs en
estimant les résultats (Moorer, 1975 ; Maher, 1990). Les techniques dérivées de la recherche sur
l’intelligence artificielle sont fréquemment employées, telles que la recherche pilotée par prévision
à travers des listes de fréquences proéminentes. On dit des systèmes qu’ils sont pilotés par prévision
lorsqu’ils utilisent de la connaissance sur le domaine analysé pour piloter la stratégie de recherche
(Moorer, 1975 ; Terhardt, 1982 ; Chafe et coll., 1982, 1985 ; Foster et coll., 1982 ; Strawn, 1980,
1985a, b ; Maher, 1990). Voir la partie sur les systèmes comprenant le signal au chapitre 13. En raison
des algorithmes supplémentaires pour le regroupement de données, pour la recherche, et pour la
prise de décision, le temps de calcul de la détection de hauteur polyphonique est bien supérieur à
celui nécessaire dans le cas de la détection monophonique.
9.4.7 Analyse du contexte musical
Dans de nombreuses situations d’interprétation, il est nécessaire d’aller au-delà de la détection
moyenne de hauteur vers l’analyse de hauteur — l’examen de la mélodie et de l’harmonie dans le
sens le plus large du terme. C’est-à-dire qu’après avoir isolé les hauteurs apparues, que peut-on
dire sur leur signification musicale, qu’implique celle-ci ? Un autre nom de cette tâche est l’analyse
du contexte musical. Un exemple d’analyse du contexte musical est l’identification de la tonalité et
de la clef d’une pièce de musique tonale (Chafe et coll., 1982 ; Holtzman, 1977). À partir de cette ana-
lyse, le but suivant pourrait être d’assigner les noms de notes corrects (Fa dièse ou Sol bémol, par
exemple) pour des besoins de transcription de partition.
Dans les systèmes d’interprétation interactifs, l’ordinateur est censé répondre de façon appropriée
à l’interprète humain. Il doit donc discerner très rapidement le contexte musical. Différents algo-
rithmes pour l’analyse rapide des accords et de la mélodie ont été développés. Ils sont en général
adaptés aux besoins stylistiques des compositeurs qui utilisent le système (Chabot, Dannenberg et
Bloch, 1986 ; Roads, 1985b ; Rowe, 1992a, b). Au-delà de ces algorithmes rapides se tient le vaste
domaine de l’analyse du style musical assistée par ordinateur, un sujet qui dépasse le cadre de ce livre.
Chapitre 10
Reconnaissance du rythme
L’une des pratiques de base acquises dans les conservatoires de musique est de pouvoir jouer des
rythmes écrits en notation musicale traditionnelle. Une pratique apparentée consiste à reconnaître
des rythmes joués, et de les transcrire en notation. Il existe une longue période de pratique entre un
débutant et une personne maîtrisant parfaitement ces pratiques. Transcrire des rythmes de musique
semble être une tâche mécanique de comptage, quelque chose qui serait facile à apprendre à une
machine. Lorsque l’on s’y attache, le problème est beaucoup plus difficile qu’il ne pourrait en avoir
l’air à première vue. De plus, la pratique des dictées rythmiques est en elle-même simplifiée, car
celles-ci sont basées sur la reconnaissance de rythmes liés métriquement. De nombreux rythmes
existent sans une métrique régulière, et n’importe quel type de groupement rythmique (y compris
ceux n’ayant pas de relation métrique simple) peut apparaître à l’intérieur d’une structure métrique.
Le problème global de la reconnaissance du rythme reste donc ouvert. Une bonne introduction à
la théorie du rythme musical se trouve dans Yeston (1976), qui cite des théories plus anciennes, en
commençant par l’Antiquité.
La reconnaissance du rythme d’un signal acoustique par une machine transforme des échantillons
d’entrée en une liste d’événements sonores individuels. Elle assigne à ces événements des valeurs
de durée de note (blanche, noire, etc.), puis groupent les notes en unités musicales plus larges :
groupements de notes, triolets, mesures, et peut-être phrases, tout en déterminant également la
métrique. Ces tâches sont de façon inhérente problématiques, en partie parce que l’interprétation
humaine de partitions musicales n’est jamais parfaitement précise, et également parce que la nota-
tion musicale est ambiguë. C’est-à-dire que des rythmes identiques ou presque similaires peuvent
être écrits de façons différentes. Comme dans la détection de hauteur, un reconnaisseur de rythme
doit ignorer les variations « insignifiantes » afin d’extraire le rythme « essentiel ». Par exemple, il doit
réaliser qu’un léger staccato sur une ronde n’est pas une liaison de blanche-noire-croche-double-
triple-quadruple. Ceci est lié au problème de la quantification dans les séquenceurs, mais ce pro-
blème est bien plus aigu lorsque l’on commence par un signal acoustique, car dans ce cas, le système
doit trouver la liste de notes, alors même que le tempo n’est pas au départ connu.
Les systèmes essayant de segmenter la musique en phrases rythmiques sont embarrassés au départ
par le fait que le concept de « phrase » dépend du contexte et du style. De plus, les musicologues
experts ne sont pas toujours d’accord sur la structure de phrase d’une pièce de musique donnée.
La diversité des méthodes pour la reconnaissance du rythme fait penser à la situation de la détection
de hauteur, avec cependant une différence importante. La recherche en détection de hauteur bénéficie
d’années de mise au point dans le domaine plus large de la parole et du traitement du signal, tandis
que la recherche en reconnaissance de rythme est propre à la communauté musicale. Une exception
est la recherche effectuée par Selfridge et Neisser (1960) pour analyser le code Morse par ordinateur.
Il y a donc eu dans ce domaine moins de recherches et de standardisations. Pour résumer, différentes
tâches et styles de musique nécessitent différentes approches ; et il n’y a donc pas un problème de
la reconnaissance du rythme, mais plusieurs.
10.1 Applications de reconnaissance du rythme

La reconnaissance du rythme à partir de sources acoustiques possède un intérêt dans des applica-
tions telles que le pistage de tempo en situation de concert, l’estimation de la métrique, et comme
composant de la transcription automatique de musique. Elle a également des applications dans la
musicologie et dans les études d’interprétation musicale.
Les algorithmes de pistage de tempo tentent de « taper du pied » sur la pulsation d’un signal acous-
tique, qui peut varier en fonction du rubato ou de changements abrupts de tempo. Ceci est utile dans
une situation de concert lorsque l’accompagnement de l’ordinateur essaie de suivre l’interprétation
d’un instrumentiste ou d’un chanteur humain.
L’analyse de la liste de notes en unités rythmiques individuelles peut s’adapter à volonté selon les
besoins spécifiques d’une application musicale. Un système d’improvisation interactif peut ne lire
que quelques formules ou indications rythmiques pour déclencher sa réponse. Sa mémoire est à
court terme, et lorsqu’il ne trouve pas le modèle qu’il recherche, il se déplace et jette son entrée pré-
cédente. Un programme d’accompagnement cherche continuellement à faire concorder les modèles
rythmiques entrants avec ceux de la partition stockée dans sa mémoire. Il tente de s’accrocher ferme-
ment à la pulsation afin de rester « en rythme ». Un système de transcription en partition imprimée
doit arranger toutes ses données d’entrée. Il tente de trouver la métrique, d’établir les limites des
mesures, et d’assigner les valeurs de durée correctes à toutes les notes. La transcription automatique
complète de musique à partir d’une source acoustique en partition imprimée est un problème d’intel-
ligence artificielle, car le système doit employer une batterie de méthodes d’analyse, puis effectuer
des sélections de différentes hypothèses à chaque étape. Non seulement, les durées et les silences
doivent être précisément représentés, mais des cas spécifiques comme les triolets, les ornements,
les appoggiatures, et les notes pointées doivent être rendus dans un style naturel de notation. Une
analyse de hauteur et d’amplitude simultanée peut aider l’analyseur de rythme à effectuer l’assigna-
tion correcte de note. De nombreux problèmes de recherche subsistent dans ce domaine, particuliè-
rement pour la transcription de la polyphonie.
10.2 Niveaux de reconnaissance du rythme

L’analyse du rythme peut avoir lieu sur trois niveaux :
• Niveau inférieur : détection d’événement.
• Niveau médian : transcription en notation.
• Niveau supérieur : analyse du style.
Dans le cas du niveau inférieur, l’entrée est un signal acoustique brut qui doit être converti sous forme
numérique puis segmenté en une liste de départs et de fins pour des événements musicaux discrets.
Dans le cas du niveau médian, le flux d’entrée est déjà segmenté et codé, comme dans le cas des
données MIDI provenant d’un clavier. La tâche ici est de convertir la liste de notes en une partition
musicale à partir des données segmentées. L’assignation de notes et le groupement de notes sont
les principales sous-tâches de ce niveau. L’analyse du rythme au niveau supérieur tombe dans le
domaine de la théorie compositionnelle ou de l’analyse de style, selon l’application. Comme la
musique peut être analysée en structures de niveau supérieur de façons innombrables (Roads,
1985d, e), nous ne présenterons ici que les deux premiers niveaux.
10.3 Détection d’événement

L’analyse du rythme au niveau inférieur est centrée sur la détection d’événement — l’isolation
d’événements individuels dans un flux d’échantillons et la détermination de leurs durées.
10.3.1 Mise au seuil de l’amplitude
Pour une musique monophonique simple enregistrée dans une pièce non réverbérante, la détection
d’événements peut être résolue grâce aux techniques dans le domaine temporel comme la mise au
seuil de l’amplitude (Foster et coll., 1982 ; Schloss, 1985). Dans cette méthode, le système lit la forme
d’onde entrante en regardant les enveloppes d’amplitude des événements, et en particulier les courbes
d’attaque et de chute les plus évidentes. Si elle trouve une enveloppe d’attaque dépassant un seuil
d’amplitude donné, cela indique le départ d’un événement. Cette méthode peut être améliorée en
prétraitant le son avec des filtres passe-haut pour faire ressortir les transitoires (points où les départs
et les chutes raides apparaissent).
Quoi qu’il en soit, les tracés d’amplitude peuvent être trompeurs en tant qu’indications de départ
et de durée d’événements. Certains signaux musicaux sont de façon inhérente difficiles à segmenter
grâce aux seules techniques dans le domaine temporel. Ceci inclut par exemple les attaques liées de
cordes frottées ; les nouvelles notes brouillées par les notes précédentes prolongées ou par la réverbé-
ration, ou des signaux polyphoniques tels que des accords. Dans ces cas, une enveloppe d’amplitude
continue peut appréhender plusieurs événements simultanément, et même obscurcir des événements
accentués jouant un rôle rythmique significatif (Foster et coll., 1982). Par exemple, lorsqu’un vibra-
phone est joué avec la pédale sostenuto enfoncée, le tracé d’amplitude n’est plus un guide pour les
temps d’attaque des notes (figure 10.1). Dans de tels cas, les changements de hauteur et de spectre
constituent d’excellentes indications pour les nouveaux événements.

Ainsi, une combinaison de techniques dans le domaine temporel et dans le domaine fréquentiel
peut être plus efficace (Chafe et coll., 1985 ; Piszczalski et Galler, 1977 ; Piszczalski et coll., 1981 ;
Foster et coll., 1982). Par exemple, un segmenteur dans le domaine fréquentiel basé sur un modèle
adaptatif à autorégression (AR) réussit là où une simple mise au seuil d’amplitude échoue (Makhoul,
1975 ; Foster et coll., 1982). L’autorégression détecte les changements dans la périodicité du signal,
ce qui la rend sensible aux changements de hauteur. Les attaques répétées de la même note ne sont
cependant pas reconnues par le modèle AR. L’AR et la mise au seuil d’amplitude fonctionnent bien
ensemble, car l’AR est sensible à la fréquence et la mise au seuil est sensible à l’amplitude. Voir une
explication des techniques AR au chapitre 13.
(a)
(b)
Figure 10.1 – Un cas problématique pour la détection d’un événement

dans le domaine temporel. (a) Séquence de notes. (b) Signal dans le domaine temporel généré par
un vibraphone jouant ces notes avec la pédale de sostenuto enfoncée.
10.3.2 Séparation des voix dans la musique polyphonique

Séparer les temps de départ des sources ou des voix individuelles dans la musique polyphonique
est difficile. Au-delà d’un certain niveau de complexité, c’est tout simplement impossible. Personne
n’a encore essayé de segmenter chaque note de chaque instrument dans une partie de tutti jouée
par un ensemble de chambre. Pour un petit nombre d’instruments distincts, le problème est envisa-
geable, à la condition d’une puissance de traitement suffisante (Moorer, 1975 ; Foster et coll., 1982 ;
Wold, 1987). En dehors des méthodes déjà mentionnées, les stratégies suivantes ont été employées
pour la séparation de sources polyphoniques :
• Isolation par filtrage des instruments sonnant à des registres différents (comme un piccolo
et un tuba).
• Utilisation de la position spatiale comme indication, si les sources sont nettement séparées
dans un enregistrement multipiste.
• Comparaison du signal d’entrée avec des spectres de référence (modèle spectral connu d’un
instrument) pour séparer certains sons joués des autres ; cette référence peut être basée sur
le modèle physique d’un instrument (Wold, 1987).
• Découverte de modèles de vibrato et de trémolo communs (modulations d’amplitude et de
fréquence) dans un spectre, indiquant quels partiels ont été joués par un instrument en par-
ticulier. Ces modèles sont appelés critères de cohérence de source dans la recherche psycho-
acoustique (Chafe et Jaffe, 1986).
• Identification du modèle caractéristique d’attaque des instruments individuels ; même au
départ d’un accord, car les instruments partent rarement exactement de façon synchrone.
Comme les systèmes employés peuvent appliquer plusieurs stratégies dans la détection d’événement,
la question devient de savoir quand essayer une approche particulière. Lorsque plusieurs techniques
sont employées en combinaison, le système a besoin d’un moyen pour pondérer les résultats obtenus
par les différentes méthodes et pour décider d’une réponse spécifique. Pour plus de détails sur ce
sujet, voir la partie sur les systèmes de compréhension du signal au chapitre 13.
10.4 Transcription
Toute séquence donnée de valeurs de note est par principe infiniment ambiguë, mais cette ambiguïté
est rarement apparente pour l’auditeur. (H.C. Longuet-Higgins, 1976)
La transcription — le niveau médian de la reconnaissance du rythme — débute à partir du moment
où une liste d’événements discrets est assemblée. Les reconnaisseurs de rythme basés sur le MIDI
commencent de ce point. La transcription comprend des sous-tâches de pistage du tempo, d’assi-
gnation de valeur de rythme, de regroupement de note, de détermination de la métrique, d’établis-
sement des limites de mesure, et probablement de tri de la structure de phrase de base. Nous traitons
chacune de ces sous-tâches séparément, mais en pratique elles peuvent très bien interagir.
Le but ultime de la transcription n’est pas nécessairement la préparation d’une partition en vue d’une
impression. Elle peut être effectuée pour analyser des données pour alimenter un programme de
composition interactif, un système d’accompagnement, un programme d’analyse musicologique,
ou un modèle d’écoute musicale. Comme ces buts diffèrent, les méthodes d’analyse de la partition
peuvent être différentes dans chaque cas.
10.4.1 Pistage du tempo

Le pistage du tempo essaie de trouver la « pulsation » — une impulsion perçue qui marque des
intervalles de temps de durées égales. Dans un programme de notation musicale du commerce, ce
problème est résolu en faisant jouer le musicien avec un son de métronome généré par le pro-
gramme. Bien que ce soit une méthode d’entrée de données convenable, nous considérerons ici le
problème plus complexe du pistage du tempo sans référence de métronome, qui correspond à la
tâche de pistage d’interprétations musicales réelles (Rowe, 1975 ; Pressing et Lawrence, 1993).
La première étape du pistage du tempo est de mesurer les distances temporelles entre les événements.
Cette mesure peut être utilisée pour établir une grille métrique hiérarchique. La pulsation est en
général un dénominateur commun des durées mesurées. Ceci traite les sons de façon directe, mais
les variations de tempo faussent la grille et rendent difficile l’estimation initiale de la pulsation de
base. S’il existe des syncopes dans le modèle rythmique, le pisteur de tempo doit également se rendre
compte que la pulsation ne change pas en présence des notes en contretemps. L’une des façons de
réduire la complexité de cette tâche est de lire une fenêtre de durée finie, par exemple cinq secondes
(Miller, Scarborough et Jones, 1992). Un mécanisme historique ayant une mémoire de forme décli-
nante des pulsations passées suit la même idée (Dannenberg et Mont-Reynaud, 1987 ; Allen et
Dannenberg, 1990). Une mémoire courte ignore les événements passés, permettant des fluctuations
rapides de tempo, mais tend à être instable. Une mémoire longue fixe le tempo, mais ignore les
changements rapides de tempo.
La figure 10.2 montre un pisteur de tempo poursuivant deux stratégies en parallèle. La partie supé-
rieure gauche de la figure 10.2 montre les procédures qui extraient les « événements importants ».
Ceux-ci servent d’ancrages structurels dans la musique. L’heuristique appliquée ici est que les
rythmes ou les accents mélodiques reconnus facilement surviennent normalement à des points
structurellement importants, tels que sur des pulsations fortes. La durée d’un ancrage à l’autre est
donc souvent une relation simple. Comme cela n’est pas toujours vrai, la partie supérieure droite de
la figure 10.2 montre les procédures utilisant une méthode indépendante de pistage des fluctuations
de tempo. Ces modèles recherchent des éléments répétitifs dans les durées successives et effectuent
Données brutes hauteur/temps
Recherche
des « événements importants » Recherche de périodicités
Accents Accents Autres Train Statistiques

agogiques mélodiques accents d'impulsions de durée
Liste Liste
des événements des durées
importants importantes
Unité
de référence
d'estimation
Ancrages Durées
structurels structurelles
d'estimation d'estimation
Pistage
du tempo
Valeurs
de notes
hypothétiques
Figure 10.2 – Le pisteur de tempo de Mont-Reynaud.

Voir le texte pour une explication.
des statistiques sur les durées les plus fréquentes. Les durées les plus significatives sont en général
en relation simple les unes par rapport aux autres et dans les durées d’ancrage à ancrage. En combi-
nant ces deux approches, les décisions de pistage du tempo sélectionnent une hypothèse raison-
nable au sujet du tempo en cours. La flexibilité de l’approche est montrée en présence des syncopes
— les ancrages se font à contretemps, mais les durées significatives pistent toujours le tempo.
Réciproquement, lorsque les ancrages donnent des indications fortes, des ajustements importants
de tempo sont effectués.
Une autre famille d’approches du pistage du tempo est basée sur les stratégies connectionnistes
(D’Autilia et Guerra, 1991 ; Rowe, 1992a, b). Dans ces systèmes, un réseau de nœuds, représentant
l’étendue temporelle entre deux événements, interagissent les uns les autres. Ils altèrent leurs valeurs
pour devenir des multiples rationnels plus simples les uns par rapport aux autres. Dans l’idéal, ces
valeurs définissent une grille métrique.
10.4.2 Assignation des durées de note

Pour une pulsation fixe, chaque événement détecté peut être assigné à une durée métrique. Ceci
serait simple si les interprétations étaient mécaniquement parfaites, mais les interprétations musi-
cales expressives montrent des variations considérables dans les durées de notes censées être éga-
les (Chafe et coll., 1982 ; Clarke, 1987 ; Clynes et Nettheim, 1982 ; Clynes et Walker, 1982). Les accents
agogiques, qui allongent la durée des notes importantes, abondent dans la musique interprétée.
Pour rendre la déduction de la durée métrique plus facile, le programme d’analyse peut quantifier
les durées des notes, c’est-à-dire les arrondir à une durée métrique comme une croche ou une double.
Les programmes de notation sollicitent généralement des indications des interprètes avant la trans-
cription, leur demandant par exemple de stipuler la plus petite valeur de note jouée, ce qui calibre
la grille de quantification. Même dans ce cas, Desain et Honig (1992c) montrent dans une étude
comparative que les stratégies de quantification basées sur une grille simple telle que celles utilisées
dans les programmes de notation de musique du commerce peuvent conduire à des transcriptions
pathologiques. La figure 10.3, tirée de leur article, montre ce qui se passe lorsqu’un programme
quantifie un triolet d’après une grille basée sur la soixante-quatrième de noire. Un problème est que
la note appelée A est jouée plus courte que la note B, alors que la notation montre l’inverse. Des
stratégies de quantification alternatives existent, dont celles basées sur les modèles connectionnistes,
mais toutes semblent avoir leurs propres limitations.
Figure 10.3 – Effets délétères de la quantification.

(a) Musique écrite de façon appropriée. (b) Transcription par un programme d’édition du commerce
utilisant une quantification basée sur une grille de quadruple croche.
10.4.3 Regroupement en éléments

L’étape suivante dans la reconnaissance est la subdivision de la liste de notes en groupes de notes
ou éléments rythmiques. La figure 10.4a montre le point de départ de processus de regroupement :
une liste de durées de notes sans indication quant aux limites de mesure ou à la signature tempo-
relle. Comment le programme reconnaît-il que des barres de mesure doivent être insérées après les
notes 1, 7 et 14, comme à la figure 10.4b ? Comment détermine-t-il que l’interprétation la plus musi-
cale des deuxièmes, troisièmes et quatrièmes notes d’entrée est le triolet ?
Différents programmes d’application musicale peuvent regrouper les notes selon divers critères.
Un système de notation, par exemple, peut regarder les groupes de notes à regrouper, telles qu’une
série de croches. Un programme qui tente de modeler l’écoute humaine peut essayer de construire
(a)
(b)
Figure 10.4 – Un problème de groupement rythmique.

(a) Séquence de notes sous la forme utilisée par un analyseur de rythme.
(b) Interprétation plausible de (a).
une hiérarchie de phrases. Le regroupement des notes par mesures nécessite certaines hypothèses
au sujet de la métrique, et nous aborderons donc ce sujet dans la prochaine partie.
La reconnaissance d’éléments rythmiques est dominée par les techniques de recherche et compa-
raison (Rowe, 1975 ; Mont-Reynaud, 1985b ; Mont-Reynaud, et Goldstein, 1985). Les théories quasi
grammaticales de l’analyse du rythme, telles que celles que l’on trouve dans Lerdahl et Jackendoff
(1983), Longuet-Higgins (1976, 1987), et Longuet-Higgins et Lee (1983) ont servi de guide aux algo-
rithmes d’analyse. Par exemple, Rosenthal (1988) cite cinq règles tirées de Lerdahl et Jackendorff
et présente une traversée étape par étape de ces règles appliquées à des rythmes musicaux simples.
Nous en faisons ici la liste pour donner un exemple de règles de regroupement typiques.
1. Les groupes commencent sur les notes accentuées.
2. Ne pas former de groupes d’un seul événement.
3. Les événements de courte durée tendent à être regroupés avec les événements suivants de
durée longue.
4. Une limite de groupement sépare les événements de durée longue des événements de durée
courte suivants.
5. Les groupes situés au même niveau hiérarchique devraient être aussi égaux que possible en
durée.
Ces théories, doit-on souligner, proviennent de musique écrite, et non nécessairement jouée. Ainsi,
en pratique, de tels algorithmes sont en général embellis par des règles empiriques tirées de l’expé-
rience. Des règles plus compliquées, par exemple, prennent en compte les éléments de hauteur et
d’amplitude afin de résoudre deux hypothèses rythmiques compétitives (Katayose et Inokuchi,
1989 ; Katayose et coll., 1989).
Les méthodes connectionnistes ont été utilisées comme solution de remplacement aux classificateurs
d’éléments basés sur des règles (Desain et Honing, 1989, 1992b, 1992c ; Linster, 1992).
10.4.4 Estimation des limites de métrique et de mesure

La métrique est un rapport entre deux niveaux temporels. L’un est la période de pulsation (par
exemple, une noire égale une seconde), et l’autre est une période plus grande basée sur un nombre
fixe de pulsations — la mesure. La métrique impose en général une structure d’accents sur les pul-
sations, une structure qui tend à articuler la mesure. Déterminer la métrique peut être divisé en deux
problèmes. Le premier consiste à trouver la métrique perçue basée sur des éléments récurrents
divisibles par un entier n (par exemple, double, triple, quadruple, quintuple). C’est en général le
but des programmes de composition interactifs et des modèles d’écoute. Le deuxième problème
est d’estimer la signature temporelle exacte de la pièce (par exemple, 2/4 et non pas 4/4), ce qui est
le problème rencontré lors de la transcription en partition imprimée.
En raison des ambiguïtés des relations rythmiques, l’estimation de la métrique perçue et la subdi-
vision de la musique en mesures ne sont pas évidentes (Rosenthal 1992). La stratégie de Rosenthal
fut de déployer des agents spécialisés multiples, chacun rassemblant des statistiques sur le placement
et les durées des notes, sur les accents et les éléments caractéristiques de hauteurs et de rythmes.
Chaque agent proposait une hypothèse, et un programme de gestion choisissait parmi les multiples
hypothèses proposées. Il faisait cela en notant que certains agents étaient plus dignes de confiance
que d’autres (et donc, possédaient plus de poids) et que lorsque plusieurs agents étaient d’accord sur
une hypothèse, il y avait des chances pour qu’elle soit correcte. Miller, Scarborough et Jones (1992)
comparent la stratégie basée sur des règles et la stratégie connectionniste dans l’estimation de la
métrique. La première est quelque peu rigide, et ses forces et ses faiblesses sont prévisibles. La stra-
tégie connectionniste, étant plus flexible, peuvent prendre en main des situations qui font échouer
les méthodes basées sur des règles, telles que des estimations en présence de variations de tempo.
Mais parfois l’approche connectionniste fait une estimation vague, ce qui montre la difficulté géné-
rale de la prédiction et de l’interprétation de la sortie des analyseurs connectionnistes.
L’estimation de la signature temporelle exacte est assez difficile, en partie parce que de nombreuses
signatures temporelles peuvent sonner à l’identique. Par exemple, une mélodie donnée peut être
jouée en 1/2, 2/2, 2/4, 4/4, 4/8, 8/8, etc., et sonner de façon identique, à la condition que le tempo
soit ajusté en conséquence. Assigner une signature temporelle propre à un rythme nécessite la con-
naissance du style dans lequel la pièce a été composée. Par exemple, une pièce composée au dix-hui-
tième siècle à Vienne aura beaucoup de chance d’être limitée pour le choix de la signature tempo-
relle. Globalement, le mieux que peuvent faire les programmes actuels est de faire une estimation
culturelle, basée sur le style de la musique. Pour les compositions de musique contemporaine avec
des changements fréquents de signature temporelle, le problème est bien évidemment plus difficile.
Encore une fois, dans les programmes de notation du commerce, la signature temporelle peut être
spécifiée par le musicien, pour que le programme n’ait pas à faire face à ce problème.
10.5 Récupération
De nombreux facteurs peuvent embrouiller un reconnaisseur de rythme : une interprétation irré-
gulière, une ambiguïté rythmique, un passage de faible amplitude où les départs de notes ne sont
pas clairs, ou simplement un trou dans la capacité du reconnaisseur à analyser un type particulier
de passage. Ainsi, un reconnaisseur de rythme pratique doit essayer de récupérer doucement après
un point de confusion, de se rattraper comme le ferait un musicien humain. Ce sujet est complexe,
et les stratégies de récupération dépendent de la tâche effectuée. Comme le soulignent Allen et
Dannenberg (1990), si le système maintient des hypothèses multiples de l’interprétation, il aura en
premier lieu moins tendance à se trouver complètement confus.
Chapitre 11
Analyse spectrale :
méthodes de Fourier
Le musicien créatif ne sera-t-il pas un maître plus puissant s’il est également informé de la science pure
des méthodes et des matériaux de son art ? Ne sera-t-il pas capable de mélanger les couleurs sonores
avec une plus grande habileté s’il comprend la nature des ingrédients et des effets qu’ils produisent ?
(Dayton C. Miller, 1916)
Tout comme une image peut être décrite comme un mélange de couleurs (fréquences dans la partie
visible du spectre électromagnétique), un objet sonore peut être décrit comme un mélange de vibra-
tions acoustiques élémentaires. L’une des façons de disséquer le son est de considérer la contribution
des différents composants, chacun correspondant à un certain taux de variation dans la pression
d’air. Jauger l’équilibre existant entre ces composants s’appelle l’analyse spectrale.
Une définition correcte du spectre est la suivante : « une mesure de la distribution de l’énergie du
signal en fonction de la fréquence ». Une telle définition peut sembler directe, mais il n’existe pas
de définition plus générale et plus précise du spectre. Ceci parce que différentes techniques d’analyse
mesurent des propriétés qu’elles appellent toutes « spectre » avec des résultats plus ou moins diver-
gents. Sauf pour des cas isolés de test, la pratique de l’analyse spectrale n’est pas une science exacte
(voir Marple, 1987, pour une présentation plus approfondie). Les résultats sont typiquement une
approximation du spectre réel, et l’analyse spectrale peut donc plus précisément être appelée esti-
mation spectrale.
L’analyse spectrale évolue rapidement. L’étendue de ce chapitre, bien qu’étant large, ne peut tenir
compte de toutes les approches possibles. Après avoir montré la nature technique de ce sujet, notre
but principal dans ce chapitre sera de faire ressortir le côté musical d’un concept parfois obscur.
11.1 Applications de l’analyse spectrale

Les tracés spectraux révèlent la microstructure des sons vocaux, instrumentaux et synthétiques
(Moorer, Grey et Strawn, 1978 ; Piszczalski, 1979a, b ; Dolson, 1983, 1986 ; Stautner, 1983 ; Strawn,
1985a, b). Ils constituent ainsi des outils essentiels pour l’acousticien et le psychoacousticien (Ris-
set et Wessel, 1982).
Les musicologues s’appuient de plus en plus sur les sonagrammes et sur d’autres techniques d’ana-
lyse du son pour étudier l’interprétation musicale et la structure de la musique électronique (Cogan,
1984). Ceci inclut la transcription automatique de musique — du son à la partition — soit en notation
musicale commune, soit sous une forme graphique (Moorer, 1975 ; Piszczalski et Galler, 1977 ;
Chafe et coll., 1982 ; Foster et coll., 1982 ; Haus, 1983 ; Schloss, 1985).
L’analyse spectrale en temps réel est une sorte « d’oreille » pour les systèmes de musique interactifs.
L’analyse spectrale révèle l’énergie fréquentielle caractéristique des sons vocaux et instrumentaux,
aidant ainsi à identifier les timbres et à séparer des sources multiples jouant simultanément (Maher,
1990). Comme les montrent les chapitres 9 et 10, les résultats de l’analyse spectrale sont souvent
précieux en reconnaissance de hauteur et de rythme.
Mais les musiciens ne souhaitent pas seulement analyser des sons ; ils veulent modifier les données
d’analyse et resynthétiser des variantes des sons originels. De plus en plus de techniques de trans-
formation du son débutent par une étape d’analyse, dont la compression et expansion temporelle,
le déplacement de fréquences, la convolution (filtrage et effets de réverbération), et de nombreux
types de synthèse croisée — création d’hybrides entre deux sons. Les techniques basées sur une ana-
lyse spectrale permettent une transformation continue entre les sons « naturels » et « synthétiques »
lors de la resynthèse des sons analysés (Gordon et Grey, 1977 ; Risset, 1985a, b ; Serra, 1989). Pour
plus de détails sur l’analyse/resynthèse, voir les chapitres 19 et 24.
11.2 Tracés spectraux

Il existe de nombreuses stratégies pour mesurer et tracer les spectres. Cette partie examine les straté-
gies appartenant à deux catégories de base : statique (cliché d’un spectre) et variant dans le temps
(film d’un spectre dans le temps).
11.2.1 Tracés spectraux statiques
Les tracés statiques capturent une image immobile du son. Ces clichés soniques projettent une image
bidimensionnelle de l’amplitude en fonction de la fréquence. L’analyse mesure l’énergie moyenne
dans chaque région fréquentielle sur la période temporelle du segment analysé. Cette période tempo-
relle ou fenêtre peut varier d’un bref instant à plusieurs secondes ou plus. Nous parlerons plus tard
des compromis des différentes longueurs de fenêtre.
Un type de tracé statique est le spectre discret ou en ligne, où une ligne verticale représente chaque
composant fréquentiel. Pour un son principalement harmonique, l’analyse la plus claire est syn-
chrone à la hauteur. Ce type d’analyse mesure l’amplitude des harmoniques d’un son dont la hauteur
peut être précédemment déterminée. La figure 11.1a montre le spectre en ligne d’une partie fixe d’un
son de trompette, mesurée grâce à une technique synchrone à la hauteur. Remarquez qu’à l’instant
où ce spectre a été mesuré, le troisième harmonique possède une amplitude plus forte que le fonda-
mental.
La figure 11.1b montre un autre spectre de trompette tracée sur une échelle d’amplitude logarith-
mique (dB). Une telle échelle compresse le tracé en une bande verticale plus étroite. En traçant le
contour des pics, on peut voir la forme formantique globale.
(a)
(b)
(c)
Figure 11.1 – Tracés spectraux statiques.

(a) Tracé d’un spectre en ligne amplitude en fonction de la fréquence d’une partie entretenue d’un
son de trompette. Chaque ligne représente la force d’un harmonique de la fréquence fondamentale
309 Hz. Échelle d’amplitude linéaire. (b) Spectre du son de trompette de (a) tracé sur une échelle
logarithmique (dB), qui compresse le tracé en une bande verticale plus étroite. (c) Tracé spectral sous
forme continue, montrant les pics formantiques pour le phonème « ah ». Échelle d’amplitude linéaire
(avec l’aimable autorisation de A. Piccialli, Département de Physique, université de Naples).
La figure 11.1c montre le spectre d’un son vocal « a » sous forme continue, où les points discrets
mesurés par l’analyseur ont été remplis par interpolation graphique. Les composants sinusoïdaux
individuels sont cachés, mais la forme globale du spectre est claire.
Chaque type de tracé spectral statique possède ses propres avantages, selon le signal étant analysé
et le but de l’analyse.
11.2.2 Spectre de puissance

On peut dériver le spectre de puissance à partir du spectre d’amplitude. Les physiciens définissent
la puissance comme le carré de l’amplitude d’un signal. Ainsi, le spectre de puissance est le carré
du spectre d’amplitude. Les représentations spectrales montrent parfois la puissance plutôt que
l’amplitude, car celle-ci est en meilleure corrélation avec la perception humaine. Une autre mesure
est la densité spectrale de puissance, qui s’applique aux spectres continus comme le bruit. Une défi-
nition simple de la densité spectrale de puissance est la suivante : spectre de puissance à l’intérieur
d’une largeur de bande spécifiée (Tempelaars, 1977).
11.2.3 Tracés spectraux variants dans le temps

Les détails du spectre, même d’un seul son instrumental, changent constamment, et les tracés sta-
tiques sans aspect temporel ne représentent donc qu’une portion d’une forme sonore en évolution.
Un spectre variant dans le temps montre les mélanges de fréquences changeants pendant la durée
d’un événement. Il peut être tracé sous forme d’un graphe tridimensionnel du spectre en fonction du
temps (figure 11.2). Ces tracés alignent essentiellement une série de tracés statiques les uns à la
suite des autres.
La figure 11.3 montre deux autres formats d’affichage d’une analyse variant dans le temps. La
figure 11.3a est une photographie immobile d’un affichage en chute d’eau — un tracé spectral dans
lequel l’axe temporel se déplace en temps réel. Le terme affichage en chute d’eau vient du fait que
ce type de tracé montre des ondes d’énergie fréquentielle ascendante et descendante sous un aspect
fluide. La figure 11.3b montre une mélodie vocale.
Une autre façon d’afficher un spectre variant dans le temps est de tracer un sonagramme ou spec-
trogramme — un outil commun en analyse de la parole, où il était à l’origine appelé parole visible
(Potter, 1946). Un sonagramme montre le contenu d’un signal avec la fréquence en fonction du temps,
où les fréquences sont tracées verticalement, le temps horizontalement, et les amplitudes des fré-
quences dans le spectre apparaissant selon la teinte foncée du tracé. C’est-à-dire que les composants
fréquentiels intenses sont tracés en foncé, tandis que les composants fréquentiels doux sont tracés
en clair (figure 11.4). Nous parlerons plus en détails de la représentation sonagramme plus loin.
11.3 Modèles derrière les méthodes d’analyses spectrales

Il ne semble pas y avoir de paradigme général ou optimal pour analyser ou synthétiser n’importe quel
type de son. On doit scruter le son — quasi périodique, somme de composants inharmoniques, bruiteux,
évoluant rapidement ou lentement — et examiner également quels sont les éléments du son pertinents
pour l’oreille. (Jean-Claude Risset, 1991)
Aucune méthode d’estimation spectrale n’est idéale pour toutes les applications musicales. L’analyse
de Fourier — l’approche la plus répandue — est en fait une famille de techniques différentes qui
continuent d’évoluer. Un certain nombre de méthodes autres que Fourier continue également d’être
développé, comme nous le verrons au chapitre 13.
(a) Amplitude
200 ms
Temps
0
0 5 kHz
Fréquence
(b)
Amplitude
200 ms
Temps
0
0 5 kHz
Fréquence
(c)
Amplitude
200 ms
Temps
0
0 5 kHz 16 kHz
Fréquence
Figure 11.2 – Spectres variants dans le temps tracés sur une échelle d’amplitude linéaire.
Le temps se déplace de l’avant vers l’arrière. (a) Sinusoïde à 1 kHz.
(b) Flûte jouant Flatterzunge à une hauteur de Mi 4. (c) Triangle, frappé une fois.
Toute technique d’analyse du son devrait être vue comme l’ajustement des données d’entrée dans
un modèle hypothétique. Les méthodes basées sur l’analyse de Fourier modèlent les sons d’entrée
sous forme d’une somme de sinusoïdes liées harmoniquement — ce qu’elles peuvent être ou non.
D’autres techniques modèlent le signal d’entrée sous forme d’un signal excitateur filtré par des réso-
nances, sous forme d’une somme de sinusoïdes amorties exponentiellement ou d’ondes carrées,
sous forme d’une combinaison de sinusoïdes liées inharmoniquement, sous forme d’un ensemble
de pics formantiques avec ajout de bruit, ou sous forme d’un ensemble d’équations représentant un
(a)
(b)
Figure 11.3 – Images fixes d’affichage en temps réel en « chute d’eau » (waterfall).
(a) Son de trompette synthétique. Le temps se déplace de l’arrière vers l’avant, avec l’instant le
plus récent au premier plan. L’échelle fréquentielle est logarithmique, et placée de gauche à droite.
La fréquence fondamentale est approximativement de 1 kHz. L’amplitude est tracée verticalement sur
une échelle logarithmique en dB. (b) Mélodie vocale. Le temps vient vers le spectateur, avec l’instant
le plus récent au premier plan. Les fréquences graves sont sur la gauche (avec l’aimable autorisation
de A. Peevers, Center for New Music and Arts Technologies, université de Californie, Berkeley).
Figure 11.4 – Tracé sonagramme d’une frappe de tam-tam.

L’axe vertical est la fréquence, et l’axe horizontal le temps. Ce sonagramme utilise 1 024 points de
données d’entrée et une fenêtre Hamming. Le tracé a une résolution fréquentielle de 43 Hz et une
résolution temporelle de 1 ms. La largeur de bande d’analyse s’étend de 0 à 22 kHz, et la gamme
dynamique mesuré est –10 à –44,5 dB, tracé sur une échelle d’amplitude linéaire.
certain comportement d’un instrument traditionnel. D’innombrables autres modèles sont conce-
vables. Comme nous le verrons plus loin en détail, les variations d’efficacité parmi les différentes
méthodes peuvent souvent être attribuées au niveau de concordance entre le modèle présumé et le
processus analysé. Il est ainsi important de choisir la méthode d’analyse appropriée pour une appli-
cation musicale particulière.
11.4 Spectre et timbre

Le terme « timbre » est un fourre-tout pour un champ de phénomènes. Tout comme les termes vagues
« sonorité » et « Klangideal » (Apel, 1972), il pourrait un jour être remplacé par un vocabulaire plus
précis des qualités sonores. La classification de timbre musical est une science ancienne. L’antique
civilisation chinoise développa des descriptions écrites sophistiquées du timbre, comprenant une
taxonomie des sources instrumentales (métal, pierre, argile, peau, fils de soie, bois, courge et bam-
bou), et des prises en compte élaborées des différents « touchés » (formes d’attaques, impulsions
et vibratos) impliqués dans le jeu des fils de soie de l’instrument classique chhin (Needham, Ling
et Girdwood-Robinson, 1962). En fait, une des techniques de jeu principales du chhin est la pro-
duction de différents timbres à la même hauteur.
Le spectre et le timbre sont des concepts liés, mais ils ne sont pas équivalents. Le spectre est une
propriété physique qui peut être caractérisée comme une distribution d’énergie en fonction de la
fréquence. Comment mesurer cette énergie précisément est une autre question ! La psychoacous-
tique utilise le terme « timbre » pour désigner les mécanismes perceptuels classifiant le son en
familles. Par cette définition, le timbre a aussi peu à voir avec la perception qu’avec les signaux
sonores. Il est certainement plus facile de parler du timbre dans le royaume des sons vocaux et ins-
trumentaux traditionnels, là où la majeure partie de la recherche du passé s’est étendue. Seules
quelques tentatives ont été faites pour classifier l’univers du son en dehors de cette catégorie, la plus
héroïque d’entre elles étant les études de Pierre Schaeffer (1977). Voir également Schaeffer, Reibel
et Ferreyra (1967).
Un timbre commun groupe les sons joués par un instrument à différentes hauteurs, intensités et
durées. Peu importe les notes que l’instrument joue, car par exemple nous pourrons toujours dire
que c’est un piano. La perception humaine sépare chacun des sons d’un instrument des sons d’un
autre instrument joué à la même hauteur, intensité et durée. Personne n’a beaucoup de problèmes
à séparer un son de marimba d’un son de violon joué à la même hauteur, intensité et durée. Bien sûr,
un seul instrument peut également émettre de nombreux timbres, par exemple le grand nombre
de sonorités obtenues avec des saxophones joués à différentes intensités.
De nombreux facteurs informent sur la perception de timbre. Ceci inclut l’enveloppe d’amplitude
(en particulier la forme d’attaque), les ondulations dues au vibrato et au trémolo, les structures
formantiques, la sonie perçue, la durée, et l’enveloppe spectrale variant dans le temps (contenu fré-
quentiel dans le temps) (Schaeffer, 1977 ; Risset, 1991 ; McAdams et Bregman, 1979 ; McAdams,
1987 ; Gordon et Grey, 1977 ; Grey, 1975, 1978 ; Barrière, 1991).
Lors de l’identification du timbre d’une source instrumentale, la partie d’attaque d’un son est plus
importante perceptuellement que la partie d’état fixe (entretenue) (Luce, 1963 ; Grey, 1975). Les
familles d’instruments traditionnels tels que les anches, les cuivres, les cordes et les percussions
ont chacune des « signatures » d’attaque caractéristiques extrêmement importantes lors de la
reconnaissance des sons qu’ils fabriquent.
L’amplitude et la durée ont une influence sur la perception du timbre. Par exemple, les proportions
de fréquences dans le spectre d’un son de flûte à 60 dB peuvent être équivalentes à celles d’un son
amplifié à 120 dB, mais nous n’entendrons ce dernier que comme une explosion forte. De façon
similaire, une explosion sonore durant 30 ms peut avoir la même forme d’onde périodique qu’un
son durant 30 secondes, mais les auditeurs trouveront difficile de dire si elles représentent la même
source.
La clé est que le spectre n’est pas la seule indication du timbre perçu. En examinant attentivement
la forme d’onde dans le domaine temporel, on peut glaner beaucoup d’informations sur le timbre
d’un son, sans avoir à le soumettre à une analyse spectrale détaillée.
11.5 Analyse spectrale : origines

Au dix-huitième siècle, les scientifiques et les musiciens savaient bien que de nombreux sons musi-
caux étaient caractérisés par des vibrations harmoniques autour d’un son fondamental, mais ils ne
possédaient pas de technologie pour analyser ces harmoniques de façon systématique. Sir Isaac
Newton inventa le terme « spectre » en 1781 pour décrire les bandes de couleur montrant les dif-
férentes fréquences passant à travers un prisme en verre.
En 1822, l’ingénieur français Joseph Fourier (1768-1830) publia sa thèse décisive Théorie analytique
de la chaleur. Dans ce traité, il développait la théorie selon laquelle les vibrations complexes peuvent
être analysées comme une somme de nombreux signaux simples simultanés. En particulier, Fourier
prouva que toute fonction périodique peut être représentée sous forme d’une addition infinie de
termes sinus et cosinus. En raison de la relation par rapport entier entre les fréquences sinusoïdales
de l’analyse de Fourier, elle devint connue sous le nom d’analyse harmonique. En 1843, Georg Ohm
(1789-1854) de l’Institut Polytechnique de Nuremberg fut le premier à appliquer la théorie de Fourier
aux signaux acoustiques (Miller 1935). Plus tard, le scientifique allemand Hermann von Helmholtz
(1821-1894) devina que le timbre instrumental est largement déterminé par la série harmonique
de Fourier de la partie statique des sons instrumentaux (Helmholtz, 1863). Helmholtz développa
une méthode d’analyse harmonique basée sur des résonateurs mécanico acoustiques.
En traduisant le terme de Helmholtz Klangfarbe (« couleur sonore »), le physicien britannique John
Tyndall inventa le terme Clang-tint pour décrire le timbre comme un « mélange de deux ou plusieurs
sons » et effectua des expériences afin de visualiser les signaux sonores, telles que les « flammes
chantantes » et les « jets d’eau chantants » (Tyndall, 1875).
11.5.1 Analyse spectrale mécanique

Les analyseurs de formes d’onde mécanique manipulés manuellement furent développés à la fin
du dix-neuvième siècle et au début du vingtième (Miller, 1916). Backhaus (1932) développa un
système d’analyse pour un seul harmonique à la fois. Il était constitué d’un microphone à carbone
connecté à l’entrée d’un filtre passe-bande ajustable. La sortie du filtre était dirigée vers un ampli-
ficateur, dont la sortie était à son tour connectée à un stylo et à un enregistreur à tambour. Backhaus
ajustait le filtre à la fréquence de l’harmonique étudié et demandait à l’instrumentiste de jouer une
note. Lorsque le musicien jouait, Backhaus mettait en route un tambour tandis qu’un stylo traçait
la sortie du filtre pour cette fréquence sur un rouleau de papier. Le tracé résultant était pris pour
représenter le comportement d’un seul harmonique. Meyer et Buchmann (1931) développèrent un
système similaire.
Les avances dans la conception des oscilloscopes dans les années 1940 permirent une nouvelle
vague de recherche. Les scientifiques photographiaient les formes d’onde à partir de l’écran de l’oscil-
loscope puis traçaient manuellement leurs contours dans des analyseurs de Fourier mécaniques.
Une avancée théorique fut décrite dans le célèbre article de Norbert Wiener sur l’analyse harmonique
généralisée (Wiener 1930), qui déplaçait l’intérêt principal de l’analyse de Fourier des composants
harmoniques à un spectre continu. Parmi d’autres résultats, Wiener montra en analogie avec la
lumière blanche, que le bruit blanc était composé de toutes les fréquences en quantités égales.
Blackman et Tukey (1958) décrivirent une implémentation de l’approche de Wiener en utilisant

des données échantillonnées. Après l’apparition des ordinateurs au début des années 1950,
l’approche Blackman-Tukey était la méthode d’analyse spectrale la plus populaire jusqu’à l’intro-
duction de la transformée de Fourier rapide (FFT) en 1965, parfois créditée à Cooley et Tukey (1965).
Voir Singleton (1967) et Rabiner et Gold (1975) pour plus de détails sur l’histoire de la FFT.
La plupart des analyses préinformatiques, telles que celles de Miller (1916) et de Hall (1937) fai-
saient la moyenne des caractéristiques variant dans le temps d’un son instrumental. Comme dans
la recherche de Helmholtz, ces études supposaient que le spectre statique (partie entretenue de la
note) jouait un rôle dominant dans la perception du timbre. Comme nous l’avons mentionné plus tôt,
il est maintenant reconnu que la première demi-seconde de la partie d’attaque d’un son est plus
importante perceptuellement que la partie statique pour l’identification d’une note instrumentale.
Les contributions pionnières de Dennis Gabor à l’analyse du son (1946, 1947) ont eu un impact
retardé, mais sont maintenant considérées comme essentielles, particulièrement parce qu’il a pré-
senté une méthode d’analyse de signaux variants dans le temps. Dans les théories de Gabor, le son
peut être analysé simultanément dans le domaine temporel et fréquentiel en unités appelées des
quanta — appelés maintenant des grains, ou ondelettes, ou fenêtres, selon le système d’analyse uti-
lisé. Voir le chapitre 22 pour plus de détails sur les grains. Les fenêtres sont présentées plus loin dans
ce chapitre et l’analyse par ondelettes au chapitre 13.
11.5.2 Analyse spectrale basée sur ordinateur

Les premières expériences d’analyse informatique des sons d’instruments de musique nécessitaient
des efforts héroïques. Les convertisseurs analogique-numérique et les ordinateurs étaient rares, la
théorie n’était pas encore développée et les programmes d’analyse devaient être programmés à
partir de zéro sur des cartes perforées (figure 11.5). Malgré ces obstacles, l’analyse et la synthèse
basées sur ordinateur et développées dans les années 1960 permirent des résultats plus détaillés que
ceux fournis par les modèles analogiques. Aux Bell Telephone Laboratories, Max Mathews et Jean-
Claude Risset analysèrent des cuivres en utilisant un programme d’analyse synchrone à la hauteur
(Mathews, Miller et David, 1961 ; Risset, 1966 ; Risset et Mathews, 1969). L’analyse synchrone à la
hauteur brise la forme d’onde d’entrée en segments pseudo-périodiques, puis estime la hauteur de
chacun d’entre eux. La taille du segment d’analyse est ajustée selon la période de hauteur estimée. Le
spectre de Fourier harmonique est ensuite calculé sur le segment d’analyse comme si le son était
périodique ; c’est-à-dire comme si la hauteur était quasi constante d’un bout à l’autre du segment
d’analyse. Ce programme générait des fonctions d’amplitude variantes dans le temps pour chaque
harmonique d’une fondamentale donnée. La recherche doctorale de Luce (1963) au Massachusetts
Institute of Technology implémentait une autre approche synchrone à la hauteur pour l’ana-
lyse/resynthèse des sons instrumentaux.
Figure 11.5 – James Beauchamp effectuant des expériences d’analyse du son

à l’université de l’Illinois, vers 1966.
Plusieurs années après, Peter Zinovieff et ses collègues du EMS, à Londres, développèrent un ana-
lyseur/resynthétiseur de Fourier en temps réel hybride (analogique-numérique) pour les sons
musicaux (Grogorno, 1984).
✦ Analyse par filtre hétérodyne
L’étape suivante dans l’analyse informatique des sons musicaux mit en jeu les filtres hétérodynes
(Freedman, 1965, 1967 ; Beauchamp, 1969, 1975 ; Moorer, 1973, 1975). L’approche par filtre hétéro-
dyne est efficace pour résoudre les harmoniques (ou quasi harmoniques) d’une fréquence fonda-
mentale donnée. Ceci implique que la fréquence fondamentale est estimée lors d’une étape précé-
dente d’analyse. Le filtre hétérodyne multiplie une forme d’onde entrante par une sinusoïde ou une
onde cosinus aux fréquences harmoniques puis additionne les résultats sur une courte période
temporelle pour obtenir des données d’amplitude et de phase.
La figure 11.6a montre l’opération de la méthode hétérodyne. Le signal d’entrée est multiplié par
une sinusoïde d’analyse. Dans la figure 11.6a, la fréquence des deux signaux concorde exactement,
et l’énergie est ainsi complètement positive, indiquant une forte énergie à la fréquence d’analyse.
À la figure 11.6b, les deux fréquences ne sont plus identiques, et nous obtenons donc une forme
d’onde qui est fondamentalement symétrique autour de l’axe d’amplitude. Lorsque le filtre hétéro-
dyne additionne cette forme d’onde sur une courte période temporelle, elle s’annule au fond elle-
même.
Après une période d’expérimentation dans les années 1970, les limites de la méthode hétérodyne
devinrent bien connues. Moorer montra que l’approche par filtre hétérodyne est embrouillée par
(a) 1.0
-1.0
Temps
(b) 1.0
-1.0
Temps
Figure 11.6 – Analyse par filtre hétérodyne.

(a) Produit d’un signal d’entrée (sinusoïde à 100 Hz) et d’un signal d’analyse (également une sinu-
soïde à 100 Hz). Le résultat est entièrement positif, indiquant une forte énergie à 100 Hz. (b) Produit
d’un signal d’entrée (une sinusoïde à 200 Hz) et d’un signal d’analyse (une sinusoïde à 100 Hz). Le
résultat est dispersé en énergie positive et négative, n’indiquant pas de forte énergie à 100 Hz dans
le signal d’entrée.
les temps rapides d’attaque (moins de 50 ms) et les changements de hauteur (par exemple le glis-
sando, le portamento et le vibrato) supérieurs à deux pour cent (environ un quart de ton). Bien que
Beauchamp (1981) ait implémenté une version pisteuse d’un filtre hétérodyne qui pouvait suivre les
trajectoires de fréquence (similaire dans l’esprit au vocodeur de phase pisteur présenté plus loin),
l’approche hétérodyne a été supplantée par d’autres méthodes.
✦ La saga du vocodeur de phase
L’une des techniques les plus populaires pour l’analyse/resynthèse des spectres est le vocodeur de
phase (VP). James Flanagan et Roger Golden aux Bell Telephone Laboratories développèrent le pre-
mier programme VP en 1966. Il était à l’origine conçu comme une méthode de codage pour
réduire la largeur de bande des signaux parlés. Bien loin de compresser les données audio, le VP cause
une explosion de données ! C’est-à-dire que la quantité de données d’analyse brutes est bien supé-
rieure à la quantité de données du signal d’origine.
Le VP est gourmand en calcul. Les premières implémentations nécessitaient tellement de temps de
calcul que le VP ne fut utilisé dans aucune application pratique pendant des années. Travaillant au
Massachusetts Institute of Technology, Portnoff (1976, 1978) développa un VP relativement efficace,
prouvant qu’il pouvait être implémenté en utilisant la FFT. Il expérimenta des transformations
sonores de la parole telles que la compression et l’expansion temporelle. Ceci conduit à l’article
célèbre de Moorer sur l’application du VP dans la musique informatique (Moorer 1978).
Au cours des années 1970 et 1980, l’analyse spectrale effectuée par un ordinateur produisit des
aperçus significatifs dans la microstructure des sons instrumentaux et vocaux (Moorer, Grey et Snell,
1977 ; Moorer, Grey et Strawn, 1978 ; Piszczalski, 1979a, b ; Dolson, 1983 ; Stautner, 1983 ; Strawn,
1985b). Dans les années 1990, l’analyse spectrale a évolué, passant d’une spécialité technique ésoté-
rique à un outil familier dans le studio du musicien — pour l’analyse, la transcription, et la transfor-
mation du son. Les prochaines parties présentent les différentes formes de l’analyse spectrale,
dont la transformée de Fourier à court terme et le vocodeur de phase. Bien que les méthodes de
Fourier prédominent dans l’analyse spectrale, d’autres méthodes ont gagné du terrain ces derniè-
res années. Nous survolerons donc également ces techniques « sans la méthode de Fourier » au
chapitre 13. Pour un survol technique de l’analyse spectrale écrit dans un style anecdotique, voir
Robinson (1982).
11.6 Le spectre de Fourier à court terme

La transformée de Fourier (FT) est une procédure mathématique qui relie n’importe quelle forme
d’onde (analogique) continue dans le temps à la somme de Fourier correspondante d’une série infinie
de sinusoïdes élémentaires, chacune ayant une amplitude et une phase spécifique. En d’autres termes,
la FT transforme ses signaux d’entrée en représentations spectrales correspondantes. Pour adapter
l’analyse de Fourier au monde pratique des signaux échantillonnés, de durées finies et variantes
dans le temps, les chercheurs ont façonné la FT en transformée de Fourier à court terme ou STFT
(Schroeder et Atal, 1962 ; Flanagan, 1972 ; Allen et Rabiner, 1977 ; Schafer et Rabiner, 1973b).
11.6.1 Fenêtrage du signal d’entrée
En préparation à l’analyse spectrale, la STFT impose une séquence de fenêtres temporelles au signal
d’entrée (figure 11.7). C’est-à-dire qu’il brise le signal d’entrée en segments « à court terme » (brefs)
limités dans le temps par une fonction de fenêtrage. Une fenêtre n’est rien de plus qu’un type spé-
cifique d’enveloppe conçue pour l’analyse spectrale. La durée de la fenêtre est en général de l’ordre
de 1 ms à 1 seconde, et les segments se superposent parfois. En analysant séparément le spectre de
Signal d'entrée
Extraction d'un segment
×
Multiplication
par fonction
de fenêtrage
Fonction
de fenêtrage
Segment fenêtré
Figure 11.7 – Fenêtrage d’un signal d’entrée.
chaque segment fenêtré, on obtient une séquence de mesures qui constitue un spectre variant dans le
temps.
Le processus de fenêtrage est la source de l’adjectif « à court terme » dans « transformée de Fourier
à court terme ». Malheureusement, le fenêtrage a un effet secondaire de distorsion de la mesure
spectrale. Ceci en raison du fait que l’analyseur spectral ne mesure pas purement le signal d’entrée,
mais plutôt le produit du signal d’entrée et de la fenêtre. Le spectre résultant est la convolution des
spectres des signaux d’entrée et de fenêtre. Nous verrons plus loin les implications de cela. Le chapitre 5
explique la convolution.
11.6.2 Opération de la STFT

Après le fenêtrage, la STFT applique la transformée de Fourier discrète (DFT) sur chaque segment
fenêtré. Nous nous contenterons de dire ici que la DFT est un type d’algorithme de transformée de
Fourier qui peut manipuler des signaux échantillonnés ou discrets dans le temps. Sa sortie est un
spectre discret en fréquence, c’est-à-dire une mesure de l’énergie d’un ensemble de fréquences
spécifiques espacées de façon égale.
La transformée de Fourier rapide ou FFT, mentionnée plus haut dans la partie historique, est sim-
plement une implémentation efficace de la DFT. Ainsi, la plupart des applications pratiques de la STFT
appliquent l’algorithme FFT sur chaque segment fenêtré. La figure 11.8 montre un diagramme de
la STFT.
Chaque bloc de données généré par la FFT est appelé une image, en analogie avec les images suc-
cessives d’un film. Chaque image contient deux choses : (1) un spectre de magnitude qui décrit
l’amplitude de chaque composant fréquentiel analysé, et (2) un spectre de phase qui montre la
valeur de phase initiale pour chaque composant fréquentiel. Tous les tracés des figures 11.1 à 11.4
sont des tracés de spectres de magnitude.
Signal d'entrée
échantillonné
... ...
Fenêtrage
Segment
fenêtré
FFT
Spectre de Spectre
magnitude de phase
Figure 11.8 – Vue globale d’une transformée de Fourier à court terme (STFT).
(a)
(b)
(c)
(d)
Figure 11.9 – Signaux STFT.

(a) Forme d’onde d’entrée. (b) Segment fenêtré. (c) Spectre de magnitude tracé de 0 à –80 dB.
(d) Spectre de phase tracé de –π à π (d’après Serra, 1989).
Nous pourrions visualiser chacun de ces deux spectres comme des histogrammes où chaque ligne
verticale représenterait chaque composant fréquentiel le long de l’abscisse. La ligne verticale
représente l’amplitude dans le cas d’un spectre de magnitude, et la phase de départ (entre –π et π)
dans le cas d’un spectre de phase (figure 11.9). Le spectre de magnitude est relativement facile à
lire. Lorsque le spectre de phase est « normalisé » à l’intérieur du domaine compris entre –π et π,
il est appelé la représentation de phase enroulée. Pour de nombreux signaux, il apparaît à l’œil sous
forme d’une fonction aléatoire. Une projection de phase non enroulée peut être visuellement plus
compréhensible.
Pour résumer, l’application de la STFT sur un flux d’échantillons d’entrée aboutit à une série d’images
construisant un spectre variant dans le temps.
11.6.3 Resynthèse par superposition-addition des données d’analyse
Pour resynthétiser le signal originel dans le domaine temporel, la STFT peut reconstruire chaque
segment de forme d’onde fenêtré à partir de ses composants spectraux en appliquant la transformée
de Fourier discrète inverse (IDFT) sur chaque image. L’IDFT prend chaque composant de magni-
tude et de phase et génère un signal temporel correspondant ayant la même enveloppe que la fenêtre
d’analyse.
Puis, en superposant et en additionnant ces fenêtres resynthétisées, en général à leurs points –3 dB
(voir le chapitre 24 pour une explication de ce terme), on obtient un signal qui est une approxima-
tion proche du signal originel. La figure 11.10 montre le processus de superposition-addition sous
une forme schématique.
Trames spectrales superposées

Signal resynthétisé
Figure 11.10 – Resynthèse par superposition-addition.

Les zones grises indiquent des trames spectrales superposées. Remarque : pour conserver une
certaine clarté visuelle, nous ne montrons que cinq trames. Dans la pratique, il est courant d’utiliser
plus de 100 trames par seconde de son analysé.
Nous utilisons la qualification « approximation proche » de façon à comparer les implémentations

pratiques de la STFT et la théorie mathématique. En théorie, la resynthèse avec la STFT est une
opération d’identité, faisant une réplique de l’échantillon d’entrée à chaque échantillon (Portnoff,
1976). S’il s’agissait d’une opération d’identité en pratique, nous pourrions copier les signaux
grâce à la STFT n’importe quel nombre de fois sans aucune perte de données. Cependant, même
les bonnes implémentations de la STFT perdent une petite quantité d’information. Cette perte peut
ne pas être audible après un passage à travers la STFT.
✦ Limites de la resynthèse par superposition-addition
La resynthèse avec la méthode complète de superposition-addition (OA pour Overlap-Add) est d’une
utilité limitée du point de vue de la transformation musicale. Ceci en raison du fait que le processus
OA est conçu pour le cas où les fenêtres s’additionnent parfaitement d’une constante. Comme l’ont
montré Allen et Rabiner (1977), toute transformation additive ou multiplicative gênant le critère
d’addition parfaite lors de l’étape finale de l’OA provoque des effets secondaires qui seront proba-
blement audibles. L’expansion temporelle, par exemple, en étirant la distance entre les fenêtres,
peut introduire du filtrage en peigne ou des effets de réverbération, selon le nombre de canaux fré-
quentiels ou casiers utilisés lors de l’analyse. En utilisant de la parole ou du chant comme source,
de nombreuses transformations ont pour résultats des voix robotiques ou résonantes, d’utilisation
limitée.
L’une des façons de diminuer ces artefacts non désirés est de stipuler un grand nombre de super-
positions parmi les fenêtres successives lors de l’étape d’analyse, comme cela est expliqué dans la
prochaine partie. La méthode de resynthèse par « superposition-addition améliorée » est une
autre stratégie pour venir à bout de ces problèmes (George et Smith, 1992 ; voir également la des-
cription plus loin dans ce chapitre).
11.6.4 Pourquoi des fenêtres superposées ?

La motivation amenant à l’utilisation de fenêtres d’analyse superposées peut être confuse. Après
tout, la théorie dit que l’on peut analyser un segment de n’importe quelle longueur et resynthétiser
exactement à partir des données d’analyse. On peut bien évidemment analyser en un passage Le sacre
du printemps de Stravinsky en utilisant une fenêtre d’une longueur de 30 minutes, puis recons-
truire la pièce entière à partir de cette analyse. Ceci étant le cas, pourquoi briser l’analyse en petits
segments superposés ?
Les raisons sont multiples. L’analyse d’un son monaural échantillonné à 44,1 kHz et durant 30 minutes
aboutirait à un spectre de plus de 79 millions de points. Une inspection visuelle de ce spectre
énorme pourrait éventuellement nous donner toutes les fréquences apparaissant sur une durée de
30 minutes, mais ne nous dirait pas précisément à quel moment elles apparaissent ; cette information
temporelle est noyée profondément dans la combinaison des spectres de magnitude et de phase,
mais elle est cachée à l’œil. La première utilité du fenêtrage est donc d’aider la visualisation du spectre.
En limitant l’analyse à de courts segments (moins d’un dixième de seconde, en général), chaque
analyse trace moins de points, et nous savons donc plus précisément à quel moment ces fréquences
apparaissent.
Une seconde raison pour utiliser des enveloppes à court terme est de conserver de la mémoire.
Considérez l’analyse d’un gros morceau de son de 30 minutes avalé d’un seul trait. En supposant
des échantillons 16 bits, nous aurions besoin d’un ordinateur ayant au moins 79 millions de mots
16 bits de mémoire vive, simplement pour contenir l’entrée lorsque l’ordinateur calcule la FFT. En
brisant l’entrée en segments de la taille d’une bouchée, il devient plus facile de calculer la FFT sur
un petit segment à la fois.
Une troisième raison pour utiliser les fenêtres à court terme est que l’on peut obtenir les résultats
plus rapidement. Dans le cas du Sacre du printemps, il faudrait autrement attendre 30 minutes, ne
serait-ce que pour lire le signal d’entrée, plus tout le temps nécessaire au calcul d’une FFT sur un
signal d’entrée de 79 millions de points. Fenêtrer le signal permet d’obtenir des résultats initiaux
seulement quelques millisecondes après que l’entrée a été lue, ce qui permet aux applications d’effec-
tuer une analyse en temps réel.
Ces trois raisons expliquent la segmentation, mais pourquoi superposer les fenêtres ? Comme
nous l’avons expliqué plus tôt, les fenêtres lisses en forme de cloche minimisent la distorsion appa-
raissant lors du fenêtrage. Et bien sûr, les fenêtres en forme de cloche doivent se superposer de
quelque façon que ce soit afin de capturer le signal sans coupures. Mais une superposition supé-
rieure à celle dictée par le critère d’addition parfaite est souvent désirable. Comment cela se fait-il ?
Augmenter le facteur de superposition revient à suréchantillonner le spectre, et protège des artefacts
de retournement pouvant survenir dans des transformations telles que l’étirement temporel et la
synthèse croisée. Un facteur de superposition de huit ou plus est recommandé lorsque le but est de
transformer le signal d’entrée.
Nous parlerons plus loin des critères de base pour le choix d’une fenêtre et le réglage de sa longueur.
11.6.5 Resynthèse par banque d’oscillateurs

La resynthèse additive sinusoïdale (SAR) (ou resynthèse par banque d’oscillateurs) diffère de
l’approche par superposition-addition. Plutôt que d’additionner des sinusoïdes à chaque image
— comme dans le modèle de resynthèse OA — la SAR applique une banque d’oscillateurs pilotés
par des enveloppes d’amplitude et de fréquence ayant la longueur des images (figure 11.11). Ceci
implique que les données d’analyse sont converties précédemment en de telles enveloppes. Heureu-
sement, la conversion de données d’analyse (magnitude et phase) en données de synthèse (ampli-
tude et fréquence) prend peu de temps de calcul.
L’avantage du modèle SAR est que les enveloppes sont bien plus robustes lors d’une transformation
musicale que les images spectrales brutes. À l’intérieur de limites larges, on peut étirer, contracter,
rééchelonner, ou déplacer les enveloppes sans se soucier des artefacts du processus de resynthèse ;
Enveloppes
de fréquence ...
Enveloppes
d'amplitude ...
Oscillateurs
sinusoïdaux
1 2 3 ... N
...
Unité
de sommation +
Signal de sortie
Figure 11.11 – Resynthèse par banque d’oscillateurs.

Les données d’analyse ont été converties en un ensemble d’enveloppes continues d’amplitude et
de fréquence. Le nombre d’oscillateurs nécessaires pour la resynthèse s’accroît et diminue selon la
complexité du son.
le critère d’addition parfaite du modèle OA peut être ignoré. Un désavantage de la SAR est qu’elle
n’est pas aussi efficace que les méthodes OA du point de vue du calcul.
Un vocodeur de phase pisteur peut être considéré comme une méthode SAR, car il construit éga-
lement des enveloppes fréquentielles pour la synthèse additive sinusoïdale. Nous parlerons plus en
détail de cette approche dans la partie sur le vocodeur de phase.
11.6.6 Fréquences d’analyse

On peut concevoir la STFT comme l’application d’une banque de filtres à des intervalles de fréquence
espacés de façon égale sur le signal d’entrée fenêtré. Les fréquences sont espacées à de multiples
entiers (harmoniques) de :
fréquence d’échantillonnage
----------------------------------------------------------
N
où N est la taille du segment analysé. Comme nous le verrons plus tard, la valeur de N est en général
supérieure au nombre réel d’échantillons sonores analysés ; nous supposons pour l’instant qu’ils sont
de la même longueur. Ainsi, si la fréquence d’échantillonnage est de 50 kHz et la longueur de fenêtre
de 1 000 échantillons, les fréquences d’analyse sont espacées à des intervalles de 50 000/1 000
= 50 Hz, en commençant à 0 Hz. L’analyseur à 0 Hz mesure le décalage de courant continu ou DC
du signal, une constante qui peut déplacer le signal entier au-dessus ou en dessous du point central
d’amplitude zéro.
Les signaux audio sont limités en bande à la moitié du taux d’échantillonnage (25 kHz dans ce cas),
et nous nous soucions seulement de la moitié des casiers d’analyse. Comme nous l’avons men-
tionné précédemment, un casier est un canal fréquentiel dans le langage du traitement du signal.
La résolution effective de fréquence de la STFT est ainsi N/2 casiers étalés uniformément sur toute
la largeur de bande audio, en commençant à 0 Hz et en s’achevant à la fréquence de Nyquist. Dans
notre exemple, le nombre de casiers de fréquence audio utilisables est de 500, espacés de 50 Hz.
11.6.7 Incertitude temps/fréquence

Toutes les analyses spectrales fenêtrées sont embarrassées par un principe d’incertitude fonda-
mental entre la résolution temporelle et la résolution fréquentielle, découvert tout d’abord par des
physiciens quantiques comme Werner Heisenberg au début du vingtième siècle (Robinson, 1982).
Ce principe signifie que, si nous souhaitons une haute résolution dans le domaine temporel (si nous
voulons savoir précisément à quel moment un événement apparaît), nous sacrifions de la résolution
fréquentielle. En d’autres termes, nous pouvons dire qu’un événement est apparu à un moment
précis, mais nous ne pouvons pas dire exactement quelles fréquences il contenait. À l’inverse, si nous
souhaitons une haute résolution dans le domaine fréquentiel (nous voulons connaître la fréquence
précise d’un composant), nous sacrifions de la résolution temporelle. C’est-à-dire que nous ne
pouvons voir précisément le contenu fréquentiel que sur un long intervalle de temps. Il est important
de comprendre cette relation afin d’interpréter les résultats de l’analyse de Fourier.
✦ La périodicité implique l’infinité

L’analyse de Fourier commence par la prémisse abstraite que, si un signal ne contient qu’une seule
fréquence, alors ce signal doit être une sinusoïde de durée infinie. La pureté de la fréquence
— périodicité absolue — implique l’infinité. Dès qu’on limite la durée de cette sinusoïde, la seule
façon dont l’analyse de Fourier peut prendre cela en compte est de considérer le signal comme une
somme de nombreuses sinusoïdes de durées infinies se supprimant les unes les autres pour aboutir
à une sinusoïde de durée limitée ! Bien que cette caractéristique de la fréquence simplifie les
mathématiques, elle ne s’accorde pas avec nos expériences les plus basiques du son. Comme Gabor
(1946) l’a montré, si le concept de fréquence n’est utilisé que pour se référer à des signaux infini-
ment longs, alors le concept de changement de fréquence est impossible !
Pourtant, nous comprenons l’un des aspects de la représentation abstraite de Fourier grâce à une
expérience imaginée. En utilisant un éditeur de son, imaginez que nous nous approchions de la limite
du domaine temporel d’un système numérique. Dans le plus court « instant » temporel, nous voyons
un point d’échantillonnage individuel (le rectangle ombragé marqué O dans la figure 11.12a).
Nous savons exactement à quel moment cet échantillon apparaît, et nous avons donc une résolution
temporelle élevée. Mais nous ne voyons pas de quelle forme d’onde il pourrait faire partie ; il pourrait
faire partie d’une onde à n’importe quelle fréquence à l’intérieur du domaine de Nyquist du système.
Lorsque nous nous éloignons (figure 11.12b), nous avons davantage d’échantillons à analyser, et
nous savons donc mieux quelles fréquences ils peuvent représenter. Mais comme l’analyse de Fourier
calcule le spectre d’un segment entier à la fois, les affichages de spectre de longs segments laissent
une incertitude quant à savoir à quel moment une fréquence particulière est apparue. Encore une
fois, la précision fréquentielle n’est possible qu’au prix d’une imprécision temporelle.
La conception de filtre offre davantage d’indications. Souvenez-vous, d’après le chapitre 4, que le
nombre d’étapes de retard influence la pente du filtre. Afin d’isoler une bande très étroite, telle qu’un
seul composant fréquentiel, nous avons besoin de bords extrêmement raides dans la réponse du
filtre. Ceci nécessite de regarder dans le passé lointain du signal afin d’extraire une fréquence pure.
Une autre façon de dire cela est qu’un tel filtre possède une longue réponse impulsionnelle. Voir le
chapitre 4 pour une explication de la réponse impulsionnelle.
✦ Compromis temps/fréquence
La FFT divise l’espace fréquentiel audible en N/2 casiers fréquentiels, où N est la longueur en échan-
tillons de la fenêtre d’analyse. Il existe donc un compromis entre le nombre de casiers fréquentiels
et la longueur de la fenêtre d’analyse (figure 11.13). Par exemple, si N est de 512 échantillons, alors
le nombre de fréquences pouvant être analysées est limité à 256. Si l’on suppose un taux d’échan-
tillonnage de 44,1 kHz, nous obtenons 256 casiers espacés uniformément sur la largeur de bande
entre 0 Hz et la fréquence de Nyquist 22,05 kHz. Augmenter le taux d’échantillonnage ne fait
qu’élargir la largeur de bande mesurable. Cela n’augmente pas la résolution fréquentielle de l’analyse.
Le tableau 11.1 montre l’équilibre en résolution temporelle et résolution fréquentielle. Si nous sou-
haitons une précision temporelle élevée (disons 1 ms ou environ 44 échantillons à un taux d’échan-
tillonnage de 44,1 kHz), nous devons nous satisfaire de 44/2 ou 22 casiers fréquentiels. En divisant
la largeur de bande audio de 0 à 22,05 kHz en 22 casiers fréquentiels, nous obtenons 22,05/22 ou
environ 1 000 Hz de résolution fréquentielle. C’est-à-dire que si nous souhaitons savoir exactement à
quel moment un événement apparaît sur une échelle de 1 ms, alors notre résolution fréquentielle
est limitée à l’échelle grossière de bandes fréquentielles de 1 000 Hz de large. En sacrifiant davantage
de résolution temporelle, et en élargissant l’intervalle d’analyse à 30 ms, on peut apercevoir des fré-
quences à l’intérieur d’une largeur de bande de 33 Hz. Pour une haute résolution en fréquence (1 Hz),
on doit étirer l’intervalle temporel jusqu’à 1 seconde (44 100 échantillons) !
En raison de cette limite dans la STFT fenêtrée, les chercheurs examinent des hybrides d’analyse dans
le domaine temporel et dans le domaine fréquentiel, l’analyse multirésolution, ou des méthodes
autres que celles de Fourier, afin de tenter de résoudre les deux dimensions à de hautes résolutions.
Les prochaines parties présentent ces approches.
(a) 1.0
10 µsec
0.5
o
Amp. 0
-0.5
-1.0
Temps
(b) 140 µsec

1.0
0.5
Amp. 0
-0.5
-1.0
Temps
Figure 11.12 – Incertitude fréquentielle sur une petite échelle temporelle.

(a) La boîte grisée O représente un zoom vers une période d’échantillonnage précise dans un sys-
tème ayant une bonne résolution temporelle (une période d’échantillonnage de 10 μs implique un
taux d’échantillonnage de 100 kHz). Aucune information fréquentielle n’est révélée à cette résolu-
tion temporelle ; il est impossible de savoir de quelle forme d’onde plus grande cette zone peut
faire partie. Ainsi, une estimation fréquentielle à partir d’un échantillon ou de quelques-uns ne
peut être que très difficile. (b) S’éloigner jusqu’à une échelle temporelle de 140 μs fournit une bien
meilleure image de la forme d’onde globale et de la période fréquentielle locale.
(a) 0 Casiers d'analyse TE/2
1 2
1.0 Fenêtre étroite
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Échantillons d'entrée
(b) 0 Casiers d'analyse TE/2
1 2 3 4 5 6 7 8
1.0 Fenêtre large
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Échantillons d'entrée
Figure 11.13 – Relation de la taille d’une fenêtre et du nombre de casiers

d’analyse fréquentielle. (a) Une fenêtre étroite de quatre échantillons ne peut trouver que deux fré-
quences. (b) Une fenêtre plus large de seize échantillons divise le spectre en huit casiers.
Tableau 11.1 – Résolution temps/fréquence dans une analyse spectrale fenêtrée.
Longueur de la fenêtre temporelle Résolution fréquentielle

(en ms) (largeur de bande d’analyse) (en Hz)
1 1 000
2 500
3 330
10 100
20 50
30 33
100 10
200 5
300 3
1 000 (1 s) 1
2 000 0,5
3 000 0,3
11.6.8 Fréquences entre les casiers d’analyse

La STFT ne connaît qu’un ensemble discret de fréquences espacées à des intervalles égaux sur toute
la largeur de bande audio. L’espacement de ces fréquences dépend de la longueur de la fenêtre
d’analyse. Cette longueur est effectivement la « période fondamentale » de l’analyse. Un tel modèle
travaille bien sur les sons harmoniques ou quasi harmoniques où les harmoniques sont bien alignés
sur les casiers d’analyse. Mais qu’arrive-t-il aux fréquences situées entre les casiers d’analyse de la
STFT ? C’est le cas des sons inharmoniques tels que les gongs ou des sons bruiteux comme les caisses
claires.
Appelons la fréquence à analyser f. Lorsque f coïncide avec le centre du canal d’analyse, toute son
énergie est concentrée dans ce canal, et elle est donc mesurée avec précision. Lorsque f est proche,
mais ne coïncide pas précisément avec le centre, l’énergie est dispersée dans tous les autres canaux
d’analyse, avec cependant une forte concentration autour de f. La figure 11.14 montre trois clichés
d’une fréquence balayée de 2 à 3 Hz, ce qui peut être généralisé aux autres étendues fréquentielles.
(a)
f = 2 Hz
1 2 3 4 5 6 7 8 9
(b)
f = 2.5 Hz
(c)
f = 3 Hz
Mag.
Fréquence
Figure 11.14 – Trois « clichés » STFT d’un son passant de 2 à 3 Hz.

La STFT dans ce cas possède des casiers d’analyse espacés à des intervalles de 1 Hz. Lorsque la
fréquence d’entrée est de 2,5 Hz, elle tombe entre deux casiers fréquentiels de l’analyseur espacés
de façon égale, et l’énergie est répartie sur le spectre tout entier (d’après Hutchins, 1984).
La fuite des composants situés entre les casiers dans tous les casiers d’analyse est une source connue
de manque de fiabilité des estimations spectrales produites par la STFT. Lorsque plus d’un compo-
sant est situé entre les casiers, des effets de battement (annulation et renforcement périodiques)
peuvent apparaître dans les tracés de fréquence et d’amplitude. Le résultat est que l’analyse montre
une énergie fluctuante dans des composants fréquentiels qui ne sont pas physiquement présents
dans le signal d’entrée.
✦ Signification des échos parasites
Si le signal est resynthétisé directement à partir des données d’analyse, les composants fréquentiels
externes et les effets de battement ne posent aucun problème ; ils constituent des artefacts bénins
de l’analyse STFT qui sont résolus dans la resynthèse. Les effets de battement sont globalement la
façon dont la STFT représente un spectre variant dans le temps dans le domaine fréquentiel. Lors
de la resynthèse, certains composants s’ajoutent par construction et d’autres s’ajoutent par destruc-
tion (ils s’annulent les uns les autres), pour que le résultat resynthétisé soit une approximation pro-
che du signal originel. Encore une fois, il s’agit en théorie d’une identité, mais de petites erreurs se
glissent dans les applications pratiques.
Le battement et les autres anomalies sont inoffensifs lorsque le signal est directement resynthétisé,
mais ils gênent les tentatives d’inspections visuelles du spectre, ou ils le transforment. Pour cette
raison, les artefacts de l’analyse sont appelés échos parasites. Dolson (1983) et Strawn (1985a) testent
la signification des échos parasites dans l’analyse de sons d’instruments de musique. Gerzon (1991)
présente une théorie d’analyseurs spectraux à « superrésolution » qui permettent d’améliorer la
résolution temporelle et fréquentielle, au prix d’un nombre d’échos parasites plus élevé, qui selon
Gerzon, possèdent une certaine signification perceptuelle.
11.6.9 Techniques de resynthèse alternatives
Deux solutions de remplacement aux techniques standards de resynthèse méritent ici une brève
mention. La première est une méthode adaptative qui offre une résolution améliorée et des transfor-
mations plus robustes ; la seconde offre une vitesse de resynthèse beaucoup plus rapide.
L’analyse-par-synthèse/superposition-addition (ABS/OLA) raffine la STFT avec resynthèse par super-
position-addition en incorporant une procédure d’analyse d’erreur (George et Smith, 1992). Cette
procédure compare le signal originel avec le signal resynthétisé. Lorsque l’erreur dépasse un certain
seuil donné, la procédure ajuste les amplitudes, les fréquences et les phases dans l’image d’analyse
afin de se rapprocher du signal originel. Ce processus adaptatif peut apparaître de façon répétée
jusqu’à ce que le signal soit plus ou moins précisément reconstruit. La méthode ABS/OLA peut donc
ainsi gérer les transitoires d’attaque, les spectres inharmoniques, et des effets tels que le vibrato
avec une précision supérieure à la méthode par superposition-addition. Elle permet également des
transformations musicales plus robustes. Comme nous le verrons plus loin, une méthode appelée
le vocodeur de phase pisteur possède les mêmes avantages.

La méthode « FFT-1 » est un hybride spécial de resynthèse par superposition-addition et de resyn-
thèse par banque d’oscillateurs optimisé pour le temps réel. La méthode est ainsi nommée, car la
resynthèse est effectuée par FFT inverse, qui est parfois abrégée en FFT–1. Elle commence par des
données de resynthèse par banque d’oscillateurs précédemment calculées. Elle convertit ensuite
ces données grâce à un algorithme efficace en un modèle par superposition-addition en passant
par des étapes de réduction de données et d’optimisation qui accélèrent nettement la resynthèse.
Voir Rodet et Depalle (1992) et le brevet français n° 900935 pour plus de détails.
11.7 La représentation sonagramme

Un sonagramme, sonagraphe ou spectrogramme est une technique d’affichage spectrale bien connue
en recherche sur la parole, ayant été utilisée pendant des décennies pour analyser les prononciations.
Un sonagramme montre un aperçu du spectre de plusieurs secondes de son. Ceci permet à l’utili-
sateur de voir les éléments généraux tels que les départs de notes ou de phonèmes, les pics forman-
tiques, et les transitions majeures. Un utilisateur entraîné peut lire un sonagramme de parole.
Voir Cogan (1984) pour un exemple de l’utilisation des sonagrammes dans l’analyse de musique.
La représentation sonagramme a également été employée comme interface pour l’édition de spectre
(Eckel, 1990).
Le sonagramme originel était le système de Backhaus (1932), décrit plus haut dans la partie sur les
origines de l’analyse spectrale ; voir également Koenig et coll. (1946). Dans les années 1950, le
Sonagraphe Kay était un outil standard pour faire des sonagrammes. Il était constitué d’un certain
nombre de filtres passe-bande analogiques étroits et d’un système d’enregistrement qui imprimait
des barres foncées sur un rouleau de papier. Les barres se rétrécissaient en fonction de l’énergie
sortant de chaque filtre. Les sonagrammes actuels sont généralement implémentés avec la STFT.
La figure 11.4 montrait un sonagramme, représentant un signal sonore sous forme d’un affichage
bidimensionnel du temps en fonction de la « fréquence + amplitude ». La dimension verticale indique
la fréquence (les fréquences aiguës étant situées en haut du diagramme) et le niveau de gris indique
l’amplitude, les parties foncées indiquant une plus grande intensité.
11.7.1 Paramètres de sonagramme

Les paramètres du sonagramme moderne sont les mêmes que ceux de la STFT, à l’exception de
certains paramètres d’affichage. Les réglages de ces différents paramètres produisent une grande
différence dans l’image de sortie :
1. Étendue des amplitudes et type d’échelle utilisée, qu’elle soit linéaire ou logarithmique.
2. Étendue des fréquences et type d’échelle utilisée, qu’elle soit linéaire ou logarithmique.
3. Avance temporelle de la fenêtre d’analyse, également appelée taille de saut (en échantillons)
ou facteur de superposition de fenêtres. Ceci détermine la distance temporelle entre deux
colonnes successives dans l’affichage de sortie. Nous parlerons plus en détail de ce paramètre
dans la partie sur le vocodeur de phase.
4. Nombre d’échantillons à analyser et taille de la fenêtre d’analyse FFT ; la résolution du temps
et de la fréquence dépendent de ces paramètres.
5. Nombre de canaux fréquentiels à afficher, ce qui détermine le nombre de rangées dans la sor-
tie graphique et possède un rapport avec l’étendue et l’échelle du domaine fréquentiel ; ceci
ne peut excéder la résolution imposée par la taille de la fenêtre.
6. Type de fenêtre — voir la présentation dans la partie sur le vocodeur de phase.
Le paramètre 4 inclut deux paramètres : la taille de la fenêtre FFT est en général supérieure au
nombre réel d’échantillons sonores analysés, la différence étant remplie avec des échantillons de
valeurs nulles. Voir la partie sur les paramètres d’analyse du vocodeur de phase. Ces paramètres ont
un effet important sur l’affichage. Une fenêtre courte produit un affichage orienté verticalement,
indiquant le départ temporel précis des événements, mais brouillant la lecture des fréquences
(figure 11.15a). Une longueur de fenêtre moyenne résout plutôt bien les éléments temporels et fré-
quentiels, indiquant la présence de fréquences formantiques (figure 11.15b). Une fenêtre longue
(a)
(b)
(c)
Figure 11.15 – Compromis temps-fréquence dans l’analyse et l’affichage

d’un sonagramme. Tous les affichages montrent un son de parole échantillonné à 44,1 kHz. (a) La
longueur de la fenêtre d’analyse est de 32 échantillons, la résolution temporelle de 0,725 ms, et la
résolution fréquentielle de 1 378 Hz. (b) La longueur de la fenêtre d’analyse est de 1 024 échantillons,
la résolution temporelle de 23,22 ms, et la résolution fréquentielle de 43,07 Hz. (c) La longueur de
la fenêtre d’analyse est de 8 192 échantillons, la résolution temporelle de 185,8 ms, et la résolution
fréquentielle de 5,383 Hz (sonagrammes fournis par Gerhard Eckel en utilisant son programme
SpecDraw).
génère un affichage orienté horizontalement, et les bandes fréquentielles individuelles deviennent

claires, mais leur position dans le temps est brouillée sur l’axe horizontal (figure 11.15c).
Le sonagramme de parole devait être modifié pour gérer les demandes plus strictes de la musique.
Les sonagrammes musicaux tendent à être plus longs que les sonagrammes de parole, comprenant
des parties ou des pièces entières. La gamme dynamique de la musique est plus large que celle de
la parole. Comme Lunden et Ungvary (1991) le soulignent, les sonagrammes de parole sont orientés
vers une représentation physique précise du spectre, tandis que les musiciens sont plus intéressés
par une vue perceptuelle en accord avec ce que nous entendons. L’affichage cochléogramme, expliqué
au chapitre 13, peut constituer une image perceptuelle plus précise. Pour une analyse critique des
sonagrammes traditionnels du point de vue de la précision, voir Loughlin, Atlas et Pitton (1992).
11.8 Le vocodeur de phase

Le vocodeur de phase est devenu au fil des années un outil incroyablement populaire d’analyse du
son, étant inclus dans des logiciels largement distribués. Gordon et Strawn (1985) et Moore (1990)
contiennent des codes annotés pour les vocodeurs de phase pratiques. On peut concevoir le VP
comme un outil passant un signal d’entrée fenêtré à travers une banque de filtres passe-bande en
parallèle répandus à intervalles égaux sur toute la largeur de bande audio. Ces filtres mesurent
l’amplitude et la phase d’un signal sinusoïdal dans chaque bande fréquentielle. Par une opération
suivante, ces valeurs peuvent être converties en deux enveloppes : une pour l’amplitude de la sinu-
soïde, et l’autre pour sa fréquence. Ceci correspond au cas de la resynthèse par banque d’oscillateurs
expliquée plus tôt. Diverses implémentations du VP offrent des outils pour modifier ces enveloppes,
permettant des transformations musicales des sons analysés.
En théorie, l’analyse et la resynthèse par le VP sont un clonage échantillon par échantillon (Portnoff,
1976). En pratique, il existe en général une légère perte d’information, qui peut ne pas être audible
après un seul passage d’analyse/resynthèse. Dans tous les cas, l’utilisation du VP par un musicien
met inévitablement en jeu une modification des données d’analyse avant resynthèse. Ceci parce
que le compositeur ne recherche pas un clone de l’entrée à la sortie, mais une transformation
musicale qui maintient une sensation d’identité de la source. C’est-à-dire que, si le signal d’entrée
est une voix parlée, on souhaite en général que la sortie sonne comme une voix parlée, même après
transformation. On peut également utiliser le VP pour des distorsions radicales qui détruisent
l’identité du signal d’entrée, mais on peut aussi trouver des algorithmes de distorsion efficaces, tels
que les modulations présentées au chapitre 25.
Voir le chapitre 24 pour une description du premier vocodeur. Pour plus de détails sur les VP, dont
des descriptions d’implémentations pratiques, voir Portnoff (1976,1978, 1980) ; Holtzman (1978) ;
Moorer (1978) ; Moore (1990) ; Dolson (1983, 1986) ; Gordon et Strawn (1985) ; Strawn (1985b) ;
Strawn (1987) ; Serra (1989) ; Depalle et Poirot (1991) ; Erbe (1992) ; Walker et Fitz (1992) ; Beau-
champ (1993).
11.8.1 Paramètres de vocodeur de phase

La qualité d’une analyse VP donnée dépend des réglages de paramètres choisis par l’utilisateur.
Ces réglages doivent être ajustés selon la nature des sons analysés et le type de résultats escomptés.
Les principaux paramètres du VP sont les suivants :
1. Taille d’image — nombre d’échantillons d’entrée analysés simultanément.
2. Type de fenêtre — sélection d’une forme de fenêtre parmi les types standards (voir présen-
tation plus loin).
3. Taille de FFT — nombre réel d’échantillons envoyés dans l’algorithme FFT ; en général, la plus
proche puissance de deux qui soit le double de la taille d’image, où l’unité de la taille de FFT
utilisée est le point, comme dans « FFT de 1 024 points » (équivalent de « FFT de 1 024 échan-
tillons »).
4. Taille de saut ou facteur de superposition — avance temporelle d’une image à l’autre.
Nous présentons maintenant chaque paramètre l’un après l’autre. Puis dans la partie suivante,
nous donnerons des règles empiriques pour le réglage de ces paramètres.
✦ Taille d’image
La taille d’image (en échantillons) est un facteur important pour deux raisons. La première est qu’elle
détermine un aspect du compromis dans la résolution temps/fréquence. Plus la taille d’image est
grande, plus le nombre de casiers fréquentiels est élevé, mais plus faible est la résolution temporelle,
et vice-versa. Si nous tentons d’analyser des sons dans les octaves les plus basses avec une grande
précision fréquentielle, de grandes tailles d’images sont inévitables. Comme la FFT calcule le contenu
spectral moyen à l’intérieur d’une image, le temps de départ de tous les changements spectraux à
l’intérieur d’une image est perdu lorsque le spectre est tracé ou transformé. Si le signal est simple-
ment resynthétisé, l’information temporelle est restaurée. Pour les sons de hautes fréquences, de
petites images suffisent, qui sont également plus précises en résolution temporelle.
La seconde raison pour laquelle la taille d’image est importante est que les grandes FFT sont plus
lentes à calculer que les petites FFT. Selon la règle empirique qui veut que le temps de calcul d’une
FFT est proportionnel à N × log2(N), où N est la longueur du signal d’entrée (Rabiner et Gold,
1975), il faut par exemple plus de mille fois plus de temps pour calculer une FFT de 32 768 points
qu’une FFT de 64 points. Le temps de latence d’une longue FFT peut être trop coûteux dans un sys-
tème en temps réel.
✦ Type de fenêtre
La plupart des VP permettent la possibilité d’utiliser l’un des types d’une famille de fenêtres stan-
dards, dont la Hamming, la Hanning (ou Hann ; voir Marple, 1987), la gaussienne tronquée, la
Blackman-Harris et la Kaiser (Harris, 1978 ; Nuttall, 1981). Toutes sont quasiment en forme de
cloche, et toutes fonctionnent relativement bien pour l’analyse/resynthèse musicale. Pour des
analyses où la précision est importante (par exemple pour cataloguer systématiquement des spectres
pour des sons instrumentaux), le choix de la fenêtre d’analyse peut être plus critique. Ceci parce que
le fenêtrage introduit de la distorsion, et que chaque type de fenêtre « courbe » les tracés d’analyse
de façon légèrement différente.
✦ Taille de FFT et remplissage par des zéros
Le choix de la taille de FFT dépend de la transformation que l’on prévoit d’appliquer au son d’entrée.
Un cas sûr pour la synthèse croisée est la plus proche puissance de deux du double de la taille
d’image. Par exemple, une taille d’image de 128 échantillons prescrirait une taille de FFT de 256. Les
autres 128 échantillons de la FFT sont mis à zéro — un processus appelé remplissage par des zéros.
✦ Taille de saut
La taille de saut est le nombre d’échantillons que l’analyseur saute, le long de la forme d’onde d’entrée,
à chaque fois qu’il effectue une nouvelle mesure spectrale (figure 11.16). Plus elle est courte, plus les
fenêtres successives se superposent. Ainsi, certains VP spécifient ce paramètre comme un facteur
de superposition qui décrit combien de fenêtres d’analyse se superposent. En dehors de la façon
Figure 11.16 – Tailles variables de saut pour des fenêtres d’analyse

ayant une longueur de huit échantillons. h1 et h2 sont les temps de départ de chaque fenêtre.
(a) Fenêtres non superposées lorsque taille de saut = taille de fenêtre. (b) Fenêtres superposées
lorsque la taille de saut est inférieure à la taille de fenêtre. Dans ce cas, la taille de saut est de quatre
échantillons.
dont elle est spécifiée, la taille de saut est en général une fraction de la taille d’image. Une certaine
quantité de superposition (par exemple huit fois) est nécessaire pour s’assurer d’une resynthèse
précise. Davantage de superpositions peuvent améliorer la précision lorsque les données d’analyse
vont être transformées, mais le coût en calcul est proportionnellement plus grand.
11.8.2 Valeurs de paramètres typiques

Aucun réglage de paramètres de VP n’est idéal pour tous les sons. Mais lorsque les paramètres sont
réglés à l’intérieur d’un certain domaine, une variété de sons instrumentaux traditionnels peut être
analysée et resynthétisée avec une fidélité raisonnable. Voici quelques règles empiriques pour le
réglage de paramètres de VP pouvant servir de point de départ pour des analyses plus « person-
nalisées » :
1. Taille d’image — assez grande pour capturer quatre périodes de la plus basse fréquence
d’intérêt (Depalle et Poirot, 1991). Ceci est particulièrement important si le son est étiré tem-
porellement ; une taille d’image trop petite signifie que les explosions de hauteur individuelles
sont mises de côté, ce qui change la hauteur tout en conservant les formants.
2. Type de fenêtre — n’importe quel type standard sauf rectangulaire.
3. Taille de FFT — le double de la taille d’image, en échantillons.
4. Taille de saut — si les données d’analyse vont être distordues temporellement, la taille de saut
recommandée est le huitième de la taille d’image, en échantillons (par exemple, superposition
fois huit). En général, le critère technique minimum est que toutes les fenêtres s’ajoutent par
une constante, c’est-à-dire que toutes les données sont pondérées de façon égale. Ceci implique
typiquement une superposition au point –3 dB du type particulier de fenêtre choisie, à partir
de laquelle on peut trouver la taille de saut.
11.8.3 Fermeture de fenêtre

Une fois n’est jamais assez. (S. Lawrence Marple, 1987)
N’importe quel réglage de taille de fenêtre aboutit à une analyse influencée par les harmoniques de
la période définie par cette taille de fenêtre. Les composants fréquentiels tombant en dehors des
casiers fréquentiels associés à une taille de fenêtre donnée seront estimés de façon incorrecte. Ainsi,
certaines procédures d’analyse spectrale traitent le même signal à travers l’analyseur de façon
répétée avec différents réglages pour la taille de fenêtre. Une procédure commençant par une résolu-
tion temporelle élevée et une résolution fréquentielle faible, et travaillant progressivement vers une
résolution temporelle faible et une résolution fréquentielle élevée est appelée fermeture de fenêtre
(Marple, 1987).
Certains analyseurs STFT tentent d’estimer la hauteur du signal afin de déterminer la taille de
fenêtre optimale. Comme nous l’avons mentionné précédemment, l’analyse synchrone à la hauteur
travaille bien si le son à analyser possède une structure harmonique de base.
11.8.4 Vocodeur de phase pisteur

De nombreuses implémentations du VP sont appelées vocodeurs de phase pisteurs (VPP), car ils
suivent ou pistent les pics les plus proéminents du spectre au cours du temps (Dolson, 1983 ; McAulay
et Quatieri, 1986 ; Quatieri et McAulay, 1986 ; Serra, 1989 ; Maher et Beauchamp, 1990 ; Walker et Fitz,
1992). Contrairement au vocodeur de phase ordinaire, dans lequel les fréquences de resynthèse
sont limitées aux harmoniques de la fenêtre d’analyse, le VPP suit les changements de fréquences.
Le résultat du pistage de pics est un ensemble d’enveloppes d’amplitude et de fréquence pilotant
une banque d’oscillateurs sinusoïdaux lors de l’étape de resynthèse.
Le processus de pistage ne suit que les composants fréquentiels les plus proéminents. Pour ces
composants, le résultat est une analyse plus précise que celle effectuée avec une banque de filtres
espacés de façon égale (l’implémentation traditionnelle de la STFT). L’autre bénéfice est que le pro-
cessus de pistage crée des enveloppes de fréquence et d’amplitude pour ces composants, ce qui les
rend plus robustes dans une transformation que les images superposées-additionnées. Un désavan-
tage est que la qualité d’analyse peut dépendre de façon plus prononcée des réglages de paramètres
appropriés que dans la STFT normale.
✦ Opération du VPP
Un VPP effectue les étapes suivantes :

1. Calcule la STFT en utilisant la taille d’image, le type de fenêtre, la taille de FFT et la taille de
saut spécifiée par l’utilisateur.
2. Dérive le spectre de magnitude élevé au carré en dB.
3. Trouve les nombres de casiers des pics dans le spectre.
4. Calcule la magnitude et la phase de chaque pic fréquentiel.
5. Assigne chaque piste à une piste fréquentielle en concordant les pics de l’image précédente
avec ceux de l’image courante (voir la description du pistage de pic plus loin).
6. Applique n’importe quelle modification désirée aux paramètres d’analyse.
7. Si une resynthèse additive est demandée, il génère une sinusoïde pour chaque piste fréquen-
tielle et additionne tous les composants sinusoïdaux pour créer un signal de sortie ; l’ampli-
tude, la phase et la fréquence instantanées de chaque composant sinusoïdal sont calculées
en interpolant des valeurs d’une image à l’autre (ou en utilisant les méthodes de resynthèse
alternatives expliquées plus tôt).
✦ Pistage de pic
Le vocodeur de phase pisteur suit les trajectoires fréquentielles les plus proéminentes dans le spectre.
Comme d’autres aspects de l’analyse du son, la méthode précise de pistage de pic devrait dépendre
du son. L’algorithme de pistage travaille mieux lorsqu’il est accordé au type de son analysé
— parole, spectre harmonique, spectre inharmonique lisse, bruiteux ; etc. Cette partie explique
brièvement le pistage sous forme d’un guide pour le réglage des paramètres d’analyse.
La première étape dans le pistage de pic est l’identification de celui-ci. Un contrôle simple établissant
la hauteur de pic minimale concentre le processus d’identification sur les régions les plus significa-
tives du spectre (figure 11.17a). Le reste de l’algorithme tente d’appliquer un ensemble de guides
fréquentiels avançant dans le temps (figure 11.17b). Les guides ne sont que des hypothèses ; l’algo-
rithme décidera plus tard quels guides sont confirmés comme pistes fréquentielles. L’algorithme
continue les guides en trouvant le pic le plus proche en fréquence de sa valeur courante. Les alter-
natives sont les suivantes :
• S’il trouve une concordance, le guide continue.
• Si un guide ne peut être continué au cours d’une image, il est considéré comme « endormi ».
• Si le guide ne se réveille pas après un certain nombre d’images — qui peut être spécifié par
l’utilisateur —, il est effacé. Il est possible d’activer une hystérésis de guide qui continue à
pister un guide situé légèrement en dessous d’un domaine d’amplitude spécifié. L’hystérésis
adoucit le problème audible des guides « basculants » qui descendent légèrement en dessous
du seuil, sont coupés par le pisteur de pics, puis réapparaissent (Walker et Fitz, 1992). Avec
l’hystérésis, le guide est synthétisé à sa valeur réelle, qui peut être inférieure au domaine
d’amplitude, au lieu d’être synthétisé avec une valeur d’amplitude nulle.
• S’il existe un conflit entre des guides, le guide le plus proche gagne, et le « perdant » cherche
un autre pic à l’intérieur d’une déviation de pic maximale, une largeur de fréquence spécifiée
par l’utilisateur.
• Si certains pics ne sont pas pris en compte par les guides courants, un nouveau guide apparaît.
Le processus de fenêtrage peut compromettre la précision du pistage, particulièrement dans les
formes d’onde se déplaçant rapidement telles que les transitoires d’attaque. Traiter les sons ayant
une attaque raide avec un ordre temporel inversé aide l’algorithme de pistage (Serra, 1989). Ceci
donne une chance aux pisteurs de partiels de s’accrocher aux trajectoires fréquentielles stables avant
de rencontrer le chaos de l’attaque, ce qui aboutit à moins de distorsion. Les données peuvent être
de nouveau inversées en ordre normal avant resynthèse.
La prochaine partie explique l’étape 6, la modification des enveloppes d’analyse VPP.
(a)
• •
• • •
• • • • • • •
• •
• • •
Fréq. • •
• •
Temps
Trame
courante
(b)
1 • ×Effacé
2 • • • •
Endormi
3• • • • •Actif • •
5
•Nouveau
•
Fréq. • • •
• •Actif •
4 •
Trames
Figure 11.17 – Identification de pic et pistage.

(a) Isolation d’un ensemble de pics spectraux. (b) Alignement des guides fréquentiels sur les pics.
Le Guide 1 du haut ne s’est pas réveillé après trois trames, et il est donc effacé. Le Guide 2 est
toujours endormi. Les Guides 3 et 4 sont actifs. Le Guide 5 commence à partir d’un nouveau pic.
11.8.5 Édition des enveloppes d’analyse

Changer les paramètres de resynthèse crée des transformations dans le son. En modifiant la taille
de saut lors de la lecture, par exemple, on peut implémenter des effets de compression et expansion
temporelles. En raison du modèle sinusoïdal latent, cependant, lorsqu’une compression temporelle
est effectuée sur une attaque complexe ou un son bruiteux, des sinusoïdes individuelles émergent
et la qualité bruiteuse est perdue. La synthèse par modèles spectraux de Serra (1989), décrite plus
loin, s’adresse à ce problème.
Pour créer des transformations musicales sophistiquées, on doit éditer les données d’analyse géné-
rées par le VPP — les courbes de fréquence, d’amplitude et de phase (Moorer, 1978 ; Dolson, 1983 ;
Gordon et Strawn, 1985). Ce processus laborieux de transmutation est grandement aidé par des
procédures automatiques de réduction de données et des programmes d’édition graphiques.
Voir le chapitre 19 pour plus d’informations sur la réduction de données en synthèse additive.
Le tableau 19.1 du chapitre 19 fait une liste des effets musicaux rendus possibles en modifiant les
données spectrales VP.
11.8.6 Synthèse croisée avec le vocodeur de phase

Une autre possibilité de transformation sonore avec moins d’édition est la synthèse croisée. La syn-
thèse croisée n’est pas une technique, mais prend un certain nombre de formes. La forme la plus
commune utilise les fonctions de magnitude d’un spectre pour contrôler les fonctions de magni-
tude d’un autre. C’est-à-dire que la force de chaque composant fréquentiel dans le son A échelonne
la force du composant fréquentiel correspondant dans le son B. Ceci est implémenté en multipliant
chaque point du spectre A par chaque point correspondant du spectre B. Un autre terme pour ce
type de synthèse croisée est le filtrage par convolution (voir le chapitre 5 pour plus de détails sur la
convolution). Musicalement, la synthèse croisée est plus efficace lorsqu’un des sons filtrés possède
une grande largeur de bande, comme une source bruiteuse. En utilisant un vocodeur de phase avec
deux entrées, la synthèse croisée est fondamentalement automatique (Depalle et Poirot, 1991). Un
autre type de synthèse croisée utilise les fonctions de magnitude d’un son avec les fonctions de
phase d’un autre pour créer un effet de son hybride (Boyer et Kronland-Martinet, 1989).
Les guides musicaux de la synthèse croisée avec le VP sont pratiquement les mêmes que ceux de la
synthèse croisée avec la convolution rapide. Voir le chapitre 5 pour plus de détails sur ces guides.
11.8.7 Coût en calcul du vocodeur de phase

Le vocodeur de phase est l’une des opérations les plus gourmandes en calcul disponible pour les
musiciens, particulièrement lorsqu’un pistage est effectué. Le vocodeur de phase pisteur absorbe
de grandes quantités de la puissance de l’ordinateur, même si l’on utilise un algorithme FFT efficace.
Le VP génère également une grande quantité de données d’analyse ; dans certains cas, il s’agit de
plusieurs fois la taille des données d’échantillonnage analysées. Une panoplie de techniques peut être
appliquée pour réduire le calcul et l’espace de conservation. Par exemple, les enveloppes générées
par le VPP peuvent être calculées à un taux d’échantillonnage inférieur. Ceci ne pose pas de pro-
blème de compromis sur la qualité audio, car ces fonctions de contrôle tendent à changer plus len-
tement que le taux d’échantillonnage audio. Avant resynthèse, elles peuvent être restaurées au taux
d’échantillonnage originel par interpolation. D’autres méthodes de réduction de données peuvent
également être appliquées ; voir la présentation sur la réduction de données au chapitre 19.
11.8.8 Précision de la resynthèse

La précision de la resynthèse complètement basée sur les méthodes de Fourier est limitée par la
résolution des procédures d’analyse. Les petites distorsions introduites par les arrondissements
numériques, le fenêtrage, le pistage de pic, le sous-échantillonnage des fonctions d’enveloppe et
d’autres aspects de l’analyse introduisent des erreurs. Dans un VP correctement implémenté, lorsque
les paramètres d’analyse sont proprement ajustés par un ingénieur habile et qu’aucune modification
n’est effectuée sur les données d’analyse, l’erreur est perceptuellement négligeable.
Le VP pisteur, d’un autre côté, interprète les données d’analyse brutes en construisant ses pistes. Il
écarte toute information ne contribuant pas à une piste. Ce déplacement peut abandonner des parties
significatives de l’énergie sonore, particulièrement de l’énergie bruiteuse, transitoire. Ceci peut être
démontré en soustrayant la version resynthétisée du signal originel pour produire un signal résiduel
(Strawn, 1987a ; Gish, 1978, 1992 ; Serra, 1989). On peut considérer ce résiduel ou cette différence
comme l’erreur d’analyse/resynthèse. Il est commun de se référer à la partie quasi harmonique
resynthétisée comme la partie « propre » du signal et à l’erreur ou au composant bruiteux comme
la partie « sale » du signal. Pour de nombreux sons (ceux ayant des transitoires rapides comme les
cymbales), les erreurs sont relativement audibles. C’est-à-dire que le signal « propre » sonne arti-
ficiellement « assaini » ou sinusoïdal, et que le signal « sale », lorsqu’il est entendu séparément,
contient les impuretés manquantes. Voir la partie sur l’analyse de sons inharmoniques et bruiteux
plus loin.
Par souci d’efficacité, certains VP possèdent une option d’écartement d’information de phase, ne
sauvegardant que les données d’amplitude et de fréquence. Ceci aboutit à une réduction de données
et à des économies correspondantes de temps de calcul, mais dégrade également la précision de la
resynthèse. En absence des données de phase appropriées, une forme d’onde resynthétisée ne res-
semble pas au signal originel, bien qu’il ait le même contenu fréquentiel de base (Serra, 1989). Dans
certains sons fixes, un réarrangement des phases peut ne pas être audible. Mais pour une repro-
duction haute qualité des sons transitoires et quasiment fixes, les données de phase aident à rassem-
bler les composants changeants et de courte durée dans l’ordre approprié, et sont donc importantes.
11.8.9 Sons problématiques
Le VP traite mieux les sons harmoniques, statiques ou changeants lentement. Des transformations
telles que la compression et l’expansion temporelle sur ces sons donnent des effets sonnants naturel-
lement. Certains sons, cependant, sont de façon inhérente difficiles à modifier avec les techniques
VP. Parmi ceux-ci, les sons bruiteux tels que les voix rauques ou comportant du souffle, les moteurs,
tout son changeant rapidement sur une échelle temporelle de quelques millisecondes, et les sons
contenant du bruit de salle. Les transformations sur ces types de sons peuvent donner des échos, des
battements, des résonances non souhaitées et des effets de réverbération colorés. Ils sont principale-
ment dus aux distorsions de phase apparaissant lorsque les données d’analyse sont transformées.
11.8.10 Analyse de sons inharmoniques et bruiteux
Des démonstrations prouvent que les vocodeurs de phase pisteurs peuvent analyser et resynthétiser
de nombreux sons inharmoniques, dont les chants d’oiseaux (Serra et Smith, 1990), et des sons de
percussion accordés (gongs, marimba, xylophone, etc.). Mais comme le VPP est basé sur l’analyse
de Fourier, il doit traduire les signaux inharmoniques et bruiteux en combinaisons de fonctions
sinusoïdales périodiques. Particulièrement pour les signaux bruiteux, ceci peut être un processus
coûteux en stockage et en temps de calcul. Synthétiser une simple bande bruiteuse, par exemple,
nécessite un amalgame changeant constamment de douzaines de sinusoïdes. Stocker les fonctions
de contrôle de ces sinusoïdes remplit une grande quantité d’espace. Dans certains VPP, cela peut
prendre jusqu’à dix fois le nombre d’octets des échantillons sonores originels. Resynthétiser les
sinusoïdes demande une quantité énorme de calcul. De plus, comme les transformations permises
par le VPP sont basées sur un modèle sinusoïdal, les opérations sur les sons bruiteux donnent souvent
des clusters de sinusoïdes qui ont perdu leur qualité bruiteuse.
✦ Techniques déterministes et stochastiques
Pour gérer de tels signaux, le VPP a été amélioré pour le rendre plus efficace dans les applications
musicales. Serra (1989) ajouta du bruit filtré au modèle sinusoïdal inharmonique dans la synthèse
par modèles spectraux (SMS). Voir également le chapitre 19 et Serra et Smith (1990). Comme le montre
la figure 11.18, la SMS réduit les données d’analyse en un composant déterministe (composants de
bande étroite proéminents du son originel) et un composant stochastique. Le composant détermi-
Forme d'onde en entrée
STFT
Pistage de pics
Enveloppes de magnitude
et de fréquence
Synthèse additive
Signal resynthétisé
STFT
du signal resynthétisé
− Résidu
Estimation Générateur
d'enveloppe spectrale de bruit
pseudoaléatoire
Enveloppes Phase
spectrales aléatoire
Génération
de spectre complexe
Spectre complexe
ISTFT
Signal Signal
déterministe stochastique
Figure 11.18 – Partie d’analyse de la technique de synthèse

par modèle spectral de X. Serra. La partie déterministe suit strictement une approche de synthèse
additive sinusoïdale. La partie stochastique du signal provient de la différence entre la resynthèse
de la partie déterministe (quasi harmonique) et la STFT de la forme d’onde d’entrée. Le système
simplifie chaque composant résiduel en lui appliquant une enveloppe. La représentation sous
forme d’enveloppe rend plus facile la modification de la partie stochastique par le musicien. La
resynthèse de la partie stochastique utilise ensuite ces enveloppes avec un composant de phase
aléatoire — équivalent d’un bruit blanc filtré.
niste piste les composants fréquentiels les plus proéminents dans le spectre. La SMS resynthétise
ces fréquences pistées avec des sinusoïdes. Le pistage ne suit que les composants fréquentiels les
plus proéminents, écartant le reste de l’énergie dans le signal. Ainsi, la SMS analyse également le
résidu (ou résiduel), qui est la différence entre le composant déterministe et le spectre originel. Ceci
est utilisé pour synthétiser le composant stochastique du signal. Le résiduel est analysé et approximé
par une collection d’enveloppes spectrales simplifiées. On peut concevoir la resynthèse comme le
passage de bruit blanc à travers des filtres contrôlés par ces enveloppes. Dans cette implémentation,
cependant, la SMS utilise des sinusoïdes ayant des valeurs de phase aléatoires, ce qui est équivalent
à l’interprétation du bruit filtré.
La représentation SMS, utilisant des enveloppes spectrales et des sinusoïdes, plutôt qu’une banque
de filtres, rend plus facile la modification de la partie stochastique afin de transformer le son. Les
opérations graphiques sur les enveloppes sont intuitives pour un musicien, tandis que les changements
de coefficients de filtrage conduisent à des complications techniques. Un problème avec la SMS est
que le lien perceptuel entre les parties déterministes et stochastiques est délicat ; éditer les deux
parties séparément peut conduire à une perte de fusion perçue entre eux.
Chapitre 12
Analyse spectrale : méthodes

par décomposition atomique
Bob L. Sturm
La décomposition atomique est fondamentalement l’équivalent analytique de la synthèse granu-

laire. Tout comme l’analyse de Fourier montre comment on peut construire un son en utilisant un
ensemble de sinusoïdes, les méthodes par décomposition atomique montrent comment on peut le
construire en utilisant un ensemble d’atomes. Ceci fait des méthodes par décomposition atomique
de puissants outils pour l’analyse, la synthèse et la visualisation du son et des signaux musicaux.
Nous examinons tout d’abord le contexte et les fondamentaux de la théorie de l’approximation, qui
constitue une fondation pour la décomposition atomique. Puis nous abordons deux classes princi-
pales de méthodes par décomposition atomique. Nous inspectons enfin plusieurs applications de
méthodes par décomposition atomique pour l’analyse sonore, la visualisation et la synthèse.
12.1 Fondamentaux
12.1.1 Théorie de l’approximation
Les ordinateurs possèdent une mémoire limitée d’où une précision finie, et sont donc incapables
d’acquérir ou de reconstruire exactement des signaux ou des données du monde réel. Le succès
des ordinateurs dépend donc de façon cruciale de l’approximation. La théorie de l’approximation
(Hamming, 1987 ; Christensen et Christensen, 2004) fournit des méthodes et des garanties théo-
riques pour exprimer des signaux du monde réel à partir d’une précision finie. Approximer un
signal implique de le décomposer en un nombre fini de fonctions.
Par exemple, l’analyse de Fourier montre comment nous pouvons exprimer un signal y(t) — à la
condition qu’il satisfasse à des conditions particulières — en utilisant un nombre infini de
sinusoïdes :
∞ ∞
∫
i2πft
y(t) = Y ( f )e df = ∫ Y ( f ) ( cos 2πft + i sin 2πft ) df
–∞ –∞
où Y(f) est l’amplitude complexe de la sinusoïde de fréquence f (en Hz). Comme nous ne pouvons
pas évaluer cette expression avec une mémoire finie, nous devons choisir quelles sinusoïdes
conserver parmi le nombre infini de sinusoïdes. L’expression exacte de y(t) ci-dessus devient donc
une approximation utilisant un nombre fini N de sinusoïdes :
N
y(t) ≈ ∑ an cos ( 2πfn t + ϕn )
n=1
où an est l’amplitude réelle de la sinusoïde ayant une fréquence de fn (en Hz), et une phase de ϕn
(en radians). La théorie de l’approximation nous indique quelles N sinusoïdes conserver pour
garantir que notre approximation de y(t) possède la précision désirée.
Il existe de nombreuses autres façons par lesquelles nous pouvons décomposer, et donc approxi-
mer notre signal y(t). Par exemple, la décomposition de Fourier ci-dessus utilise des sinusoïdes
qui existent pendant une durée infinie. L’analyse de Fourier à court terme par contre décompose
un signal sous forme d’une somme de sinusoïdes « localisées dans le temps », ou de sinusoïdes qui
existent pendant une durée finie à un moment spécifique. Dans un cas extrême, nous pouvons
réduire la durée d’une sinusoïde pour qu’elle devienne un seul dirac à un endroit donné du temps.
Lorsque nous décomposons un signal en utilisant une collection de diracs espacés de façon uni-
forme dans le temps, nous effectuons fondamentalement un échantillonnage uniforme dans le
domaine temporel. Le théorème de Nyquist est alors une conséquence de la théorie de l’approxima-
tion, qui nous guide lorsque nous espaçons ces diracs dans le temps afin que nous puissions
reconstruire le signal analogique à partir de sa décomposition « dirac ». L’analyse par ondelettes
fournit d’autres décompositions (Mallat, 2009).
12.1.2 Bases et dictionnaires

La décomposition d’un signal fournit des moyens par lesquels nous pouvons utiliser des ordina-
teurs pour le stocker, analyser son contenu, le modéliser, et modifier ses caractéristiques. La théorie
de l’approximation nous indique comment construire une décomposition à partir d’une collection
de fonctions que nous souhaitons utiliser, par exemple sinusoïdes, diracs et ondelettes. Du coup,
un aspect clé de l’approximation et de la décomposition est la façon dont on sélectionne une col-
lection de fonctions.
Un type important de collection est une base : une collection de fonctions telles que tout signal de
l’espace couvert par la collection peut être exactement représenté par une somme unique des fonc-
tions de la collection. Par exemple, la base de Fourier est l’ensemble infini de toutes les sinusoïdes
complexes avec des fréquences allant de l’infini négatif à l’infini positif. L’analyse de Fourier mon-
tre comment nous pouvons exprimer tout signal (s’il satisfait à certaines conditions) sous forme
d’une somme infinie unique par rapport à la base de Fourier. Dans un domaine discret de dimen-
sion N, la base de Fourier discrète (base sinusoïde) est un ensemble de N sinusoïdes complexes dis-
crètes, chacune ayant une longueur N. L’analyse de Fourier montre comment nous pouvons expri-
mer toute séquence complexe de longueur N sous forme d’une somme unique de ces N fonctions.
Ceci conduit à la transformée de Fourier discrète, qui est implémentée grâce à la transformée de
Fourier rapide. Une autre base pour le même espace est l’ensemble des N fonctions delta Kronecker
(base dirac). Ceci est simplement l’ensemble de toutes les séquences uniques de longueur N
constituées uniquement de zéros à l’exception d’un seul 1. Nous pouvons ainsi décomposer
CHAPITRE 12 – ANALYSE SPECTRALE : MÉTHODES PAR DÉCOMPOSITION ATOMIQUE 235
n’importe quelle séquence de longueur N sous forme d’une somme unique dans la base sinusoïde
ou la base dirac.
Lorsque nous combinons des collections de fonctions, telles que la base sinusoïde avec la base
dirac, nous formons une collection plus grande nommée un dictionnaire (Mallat, 1993 ; Elad,
2010). Nous appelons chaque élément de la collection un atome. La décomposition d’un signal sur
un dictionnaire est nommée décomposition atomique (Chen et coll., 1998 ; Donoho et Huo, 2001).
Lorsqu’un dictionnaire contient plus d’atomes que nécessaire pour représenter n’importe quel
signal dans l’espace couvert par les atomes, nous nommons le dictionnaire surcomplet. Une base
est nommée complète. Fondamentalement, un dictionnaire surcomplet produit un nombre infini
de décompositions possibles d’un signal.
Une métaphore utile d’un dictionnaire et d’une décomposition atomique est la suivante (Mallat,
1993) : chaque atome d’un dictionnaire peut décrire une structure spécifique dans un signal. Cer-
tains atomes ont des significations similaires, et d’autres sont sans rapport. Lorsque nous aug-
mentons le nombre d’atomes dans un dictionnaire, nous enrichissons le vocabulaire avec lequel
nous pouvons décrire un signal de manière significative. La décomposition atomique d’un signal
sur un dictionnaire implique donc de trouver les atomes qui le décrivent ou l’expliquent « le
mieux » pour les buts que nous recherchons.
Pour rendre ces explications plus concrètes, considérons les bases sinusoïde et dirac ci-dessus.
Nous pouvons voir qu’elles fournissent des informations complètement différentes sur un signal.
Une séquence de longueur finie décomposée sur la base sinusoïde nous donne des indications à
propos de son contenu fréquentiel — quelles fréquences sont présentes ou absentes dans le
signal —, mais rien à propos de son contenu temporel — quels diracs sont présents ou absents
dans le signal. Au contraire, une séquence de longueur finie décomposée sur la base dirac fournit
des informations à propos de son contenu temporel, mais aucune information à propos de son
contenu fréquentiel. Du coup, lorsque nous souhaitons décomposer un signal sur une base, nous
devons décider quelles informations nous voulons, par exemple fréquence ou temps, puis choisir
la base appropriée. Cependant, que se passe-t-il si notre signal possède certaines structures de
type sinusoïdales et certaines structures de type dirac, comme nous le voyons en haut à gauche de
la figure 12.1 (voir plus loin) ? Exprimer ce signal dans une seule base peut limiter notre analyse ;
cependant, nous pouvons combiner les bases sinusoïde et dirac pour former un dictionnaire, puis
décomposer le signal sur cette collection de fonctions plus grande.
Lorsque nous combinons de nombreuses bases pour former un dictionnaire, nous augmentons la
richesse potentielle de nos décompositions, mais nous détruisons également l’unicité de la décom-
position. Avec une base, il existe une et une seule décomposition d’un signal. Si nous combinons
deux bases, nous avons alors un nombre infini de décompositions possibles. Ceci peut ajouter une
complexité considérable au processus de décomposition, car le problème devient de trouver la
« meilleure » décomposition parmi un nombre infini de possibilités. Nous devons donc définir ce
que nous voulons dire par « meilleure ».
12.1.3 Parcimonie et erreur

Un qualificatif important de « meilleure » est la parcimonie (sparsity), ou le nombre d’atomes que
nous sélectionnons dans un dictionnaire pour qu’ils soient dans la décomposition du signal. Il
existe un nombre infini de possibilités, mais il n’en existe qu’une seule qui utilise le plus petit nom-
bre d’atomes. Cette décomposition est donc la plus parcimonieuse possible. La caractéristique de
parcimonie semble également se trouver dans la nature. Il existe des preuves soutenant l’hypo-
thèse que même le système auditif des mammifères opère en utilisant un principe de parcimonie
(Lewicki, 2002 ; Smith et Lewicki, 2005). La deuxième qualité importante de « meilleure » est
l’erreur d’approximation, c’est-à-dire l’éloignement de notre approximation par rapport au signal
original. Nous souhaitons trouver une approximation qui est précise.
Du coup, la « meilleure » décomposition atomique est celle qui utilise le plus petit nombre d’ato-
mes, mais produit le moins d’erreurs. La parcimonie et l’erreur d’approximation, cependant, sont
en désaccord l’une avec l’autre. Afin de créer une approximation précise d’un signal, nous pouvons
avoir besoin d’utiliser un grand nombre d’atomes ; mais pour créer une décomposition très parci-
monieuse, nous pouvons avoir besoin d’accepter une grande quantité d’erreurs. Le nombre de
façons dont nous pouvons gérer ce compromis, et les complexités de calculs impliquées motivent
la création de nombreux algorithmes pour la décomposition atomique du signal. Dans la partie
suivante, nous présentons une vue globale des deux classes principales de méthodes.
12.2 Méthodes
Il existe deux classes principales de méthodes de décomposition parcimonieuse. Tout d’abord, la
décomposition gloutonne décompose de façon itérative un signal jusqu’à ce que certains critères
fixés à l’avance soient rencontrés. Ces méthodes requièrent des calculs simples, mais peuvent
échouer à produire des solutions « idéales ». La deuxième classe principale de méthodes, l’optimi-
sation, pose le problème de décomposition sous forme d’une minimisation de certaines fonctions
en fonction de contraintes données. Ces méthodes requièrent des calculs complexes, mais peuvent
produire des solutions qui sont plus parcimonieuses et précises que les méthodes gloutonnes.
Kereliuk et Depalle (2011) proposent un examen plus approfondi de ces méthodes pour le
domaine audio.
12.2.1 Décomposition gloutonne

La décomposition gloutonne applique une approche itérative simple à la décomposition (Tropp,
2004 ; Mallat, 2009 ; Elad, 2010). À chaque étape, un tel algorithme trouve un atome « optimal »
dans le dictionnaire, l’ajoute au modèle de signal, le retire du résidu (ou erreur d’approximation),
et répète le processus. L’algorithme construit le résidu en soustrayant chaque atome qu’il sélec-
tionne dans le résidu précédent, en commençant par le signal original. L’algorithme répète ce pro-
cessus jusqu’à ce qu’il ait sélectionné un nombre d’atomes fixé à l’avance, ou que l’énergie rési-
duelle passe en dessous d’un seuil fixé à l’avance. L’algorithme le plus simple, nommé poursuite
adaptative (matching pursuit) (Mallat et Zhang, 1993), définit l’atome « optimal » comme celui
étant le mieux corrélé avec le résidu. L’algorithme de poursuite adaptative a en fait été
« découvert » plusieurs fois (Friedman et Tukey, 1974 ; Huber, 1985). La figure 12.1 montre plu-
sieurs étapes de la décomposition par poursuite adaptative avec un dictionnaire d’atomes de
Gabor et de diracs pour un signal avec et sans bruit.
Il existe une grande variété de méthodes de décomposition gloutonne, comme la poursuite adap-
tative orthogonale (Pati et coll., 1993 ; Tropp, 2004), les moindres carrés orthogonaux (Blumensath et
Davies, 2007), la poursuite adaptative psychoacoustique (Heusdens et coll., 2002), et la poursuite
adaptative cyclique (Christensen et Jensen, 2007 ; Sturm et Christensen, 2010). Ces méthodes
prennent des approches légèrement différentes pour sélectionner les atomes, et peuvent produire
des meilleures décompositions, mais au prix d’une augmentation de la complexité de calculs par
rapport à l’algorithme de poursuite adaptative de base. Des méthodes gloutonnes approximatives,
telles que la poursuite de gradient (Blumensath et Davies, 2008) et la sélection d’atomes stochasti-
que (Peel et coll., 2012), essaient de réduire cette complexité tout en produisant des décomposi-
tions acceptables.
Figure 12.1 — Nous voyons le signal original propre

(en haut à gauche) et le signal corrompu par du bruit (en haut à droite).
Les cinq formes d’onde en dessous sont les atomes sélectionnés par la poursuite adaptative à par-
tir d’un dictionnaire d’atomes de Gabor (fenêtres gaussiennes modulées) et d’impulsions dirac. Les
formes d’onde finales r(5) montrent le résidu résultant (le signal initial avec les cinq atomes sont
retirés). Les tracés temps-fréquence en bas de chaque figure sont le wivigramme de la décompo-
sition, constitués d’une superposition des distributions de Wigner-Ville des atomes individuels
sélectionnés par la poursuite adaptative et de la transformée de Fourier à court terme (STFT). La
localisation temps-fréquence de chaque wivigramme est nettement supérieure à celle de la STFT.
Certaines méthodes gloutonnes tentent de tirer avantage d’une connaissance antérieure du signal.
Par exemple, la poursuite adaptative harmonique (Gribonval et Bacry, 2003) utilise un diction-
naire d’atomes qui peut modéliser de façon efficace un contenu harmonique. La poursuite adapta-
tive moléculaire (Daudet, 2006) modélise des structures tonales et transitoires en construisant des
« molécules » d’atomes pendant la décomposition. La poursuite adaptative stéréo (Gribonval,
2002) tire avantage de correspondances entre les canaux audio. Ces méthodes permettent de cons-
truire des représentations riches de sens et des moyens pour accéder à leur contenu (voir section
12.3 « Applications »).
Un gros avantage des méthodes de décomposition gloutonne est qu’elles ne requièrent que des cal-
culs simples. Les dictionnaires peuvent avoir des milliards d’atomes, et peuvent même être virtuel-
lement illimités (Goodwin, 1997 ; Goodwin et Vetterli, 1999 ; Gribonval, 1999, 2001). Le Matching
Pursuit Toolkit (Krstulovic et Gribonval, 2006) fournit une bibliothèque logicielle gratuite pour la
décomposition de signaux audio enregistrés sur des dictionnaires définis par l’utilisateur.
Un désavantage des méthodes gloutonnes est qu’elles ne considèrent pas la solution globale. Un
algorithme glouton sélectionne chaque atome sur la base de sa similarité au résidu, quel que soit
ce qui a été sélectionné auparavant et ce qui sera sélectionné par la suite. S’il sélectionne mal un
atome, il peut alors sélectionner de nombreux autres atomes pour corriger la faute, ceux-ci ne ser-
vant plus à modéliser quoi que ce soit dans le signal (Sturm et coll., 2008 ; Sturm, 2009 ; Sturm et
Shynk, 2010). Les méthodes gloutonnes peuvent donc échouer à produire le « meilleur » modèle
en ce qui concerne la parcimonie et l’erreur d’approximation désirée.
12.2.2 Optimisation
Les méthodes d’optimisation sont extrêmement importantes dans divers domaines (Boyd et
Vandenberghe, 2004). Par exemple, une société peut souhaiter trouver une façon de maximiser
son profit en fonction d’une quantité finie de ressources. Ou un service de livraison peut souhaiter
minimiser les coûts en carburant tout en maximisant le nombre de livraisons effectuées. Pour la
décomposition parcimonieuse, nous pouvons appliquer des méthodes d’optimisation pour pro-
duire des solutions en équilibrant simultanément les besoins pour la parcimonie et l’erreur
d’approximation. Nous pouvons définir le problème comme étant de trouver une approximation
d’un signal en utilisant pas plus d’un certain nombre d’atomes, tout en produisant la plus petite
erreur d’approximation possible. Ou d’une autre façon, nous pouvons définir le problème comme
étant de tenter de trouver l’approximation d’un signal qui est située à l’intérieur d’une certaine
erreur d’approximation, en utilisant le plus petit nombre d’atomes. Résoudre ces problèmes
requiert en fait des calculs qui ne sont pas réalisables (Davis et coll., 1997), mais tout devient beau-
coup plus facile si nous assouplissons la contrainte de parcimonie en la remplaçant par une fonc-
tion qui favorise la parcimonie, mais aide aux calculs, par exemple la somme des magnitudes de
tous les atomes sélectionnés dans un dictionnaire plutôt que le compte des atomes sélectionnés
(Chen et coll., 1998).
Le principe de débruitage de poursuite de base (Chen et coll., 1998) pose le problème de l’optimi-
sation comme le fait de minimiser l’erreur au carré en fonction d’une contrainte sur la somme des
magnitudes des atomes sélectionnés. Ceci peut être résolu par des méthodes d’optimisation
convexes (Tibshirani, 1996 ; Chen et al., 1998 ; Boyd et Vandenberghe, 2004 ; Figueiredo et coll.,
2007 ; Elad, 2010). Se démarquant des méthodes gloutonnes, les méthodes d’optimisation conve-
xes, sur le fond, « réduisent » ou raffinent une solution plutôt qu’elles ne la construisent (Chen et
coll., 1998). La complexité nécessaire pour résoudre les problèmes d’optimisation augmente avec
la taille du dictionnaire cependant, et il est donc rare de voir de telles méthodes appliquées en uti-
lisant des dictionnaires constitués de milliards d’atomes.
12.3 Applications
Nous présentons maintenant certaines applications de la décomposition atomique dans les domai-
nes de l’analyse, de la modélisation, de la visualisation, et de la synthèse du son et de la musique.
Des vues globales plus générales sont présentées dans Plumbley et coll. (2009) et Sturm et coll.
(2009).
12.3.1 Modélisation et analyse du son

La décomposition atomique peut être appliquée à la modélisation et à l’analyse du son pour pro-
duire des descriptions concises et informatives de la variété du contenu dans les signaux audio.
Ravelli et coll. (2008) utilisent une décomposition atomique gloutonne avec un dictionnaire huit
fois surcomplet à transformée en cosinus discrète modifiée (MDCT) pour produire de l’audio
compressé possédant une meilleure fidélité qu’une compression standard à des débits très faibles.
Heusdens et coll. (2002), Christensen et Jensen (2007) appliquent des approches gloutonnes à du
codage audio basé sur la perception, tandis que Christensen et Sturm (2011) appliquent des
méthodes d’optimisation dans le même domaine.
La décomposition atomique fournit des méthodes adaptatives pour décomposer ou modéliser des
sons à des niveaux de contenu qui peuvent être supérieurs aux fréquences localisées dans le temps,
par exemple des structures tonales et transitoires (Daudet, 2006), des atomes harmoniques spéci-
fiques à un instrument (Leveau et coll., 2008), ou des hauteurs multiples (Adalbjörnsson, 2014).
La poursuite adaptative moléculaire de Daudet (2006) décompose un signal audio musical en
structures transitoires et en structures tonales. Cette séparation permet du traitement de niveau
supérieur sans interférence entre les deux, par exemple visualisation et synthèse. La recherche de
Leveau et coll. (2008) assemble des dictionnaires d’atomes harmoniques (Gribonval et Bacry,
2003) spécifiques à des instruments de musique en particulier. La décomposition atomique d’un
enregistrement de musique avec ces dictionnaires résulte donc en une représentation de niveau
intermédiaire qui peut alors être utilisée pour identifier et retranscrire les instruments joués. La
décomposition atomique peut également être considérée comme un extracteur de caractéristi-
ques, et être utilisée sous la forme d’une étape pour décrire le contenu d’un enregistrement musi-
cal au sein d’applications d’indexation et de récupération (Lyon et coll., 2010 ; Ravelli et coll.,
2010).
Motivés par les célèbres travaux de Lewicki (2002) et de Smith et Lewicki (2005a, 2005b), Blumensath
et Davies (2006), et Abdallah et Plumbley (2006) appliquent de l’approximation parcimonieuse
pour l’apprentissage de dictionnaires à partir de signaux musicaux. Les atomes résultants sont liés
au contenu musical note par note, qui peut être spécifique à des instruments, par exemple piano,
guitare et voix. Ces résultats sont tout à fait remarquables, car ils apparaissent indépendamment
de toute information musicologique. En d’autres termes, cette procédure trouve de façon indépen-
dante une manière concise de décrire des enregistrements musicaux (enregistrements monopho-
niques de nombreuses voix), et parvient à un résultat ayant une signification musicale (notes,
tempi et dynamiques). De telles méthodes peuvent être utilisées pour aider à séparer des sources
dans un enregistrement, et pour retranscrire des enregistrements musicaux.
12.3.2 Visualisation du son
En plus de l’analyse et de la modélisation, la décomposition atomique d’un son fournit des moyens
pour le visualiser. Puisqu’une décomposition atomique est une somme d’atomes, nous pouvons
visualiser un son en additionnant des visualisations des atomes individuels. Par exemple, si cha-
que atome dans un dictionnaire a une énergie centrée à un endroit dans le temps et dans les fré-
quences, nous pouvons créer un diracgramme d’un son en plaçant un point dans le domaine
temps-fréquence pour chaque atome de sa décomposition (Smith et Lewicki, 2005b ; Manzagol et
al., 2008). Le haut de la figure 12.2 montre une représentation en diracgramme de la composition
musicale Pictor Alpha de Curtis Roads (2004), que nous décomposons avec le Matching Pursuit
Toolkit (Krstulovic et Gribonval, 2006) en utilisant un dictionnaire de 5 535 059 atomes de Gabor.
Ce dictionnaire contient des atomes de Gabor de longueur 4, 8, 16, 32, 64, 128, 256, 512 et 1 024
échantillons.
Un atome de Gabor est une sinusoïde localisée dans le temps, ou par équivalence, une fenêtre gaus-
sienne déplacée dans le temps et modulée. Le physicien et lauréat du prix Nobel Dennis Gabor fait
référence à un tel atome sous le nom de « quanta acoustique » (1947), car son énergie est concen-
trée au maximum en temps et en fréquence. En fait, la transformée de Fourier à court terme peut
être considérée comme les magnitudes de la projection d’un signal sur un dictionnaire d’atomes
de Gabor d’une seule durée.
Mallat et Zhang (1993) utilisent un dictionnaire d’atomes de Gabor dans leur décomposition d’un
signal de parole, puis visualisent la parole en additionnant les distributions de Wigner-Ville des
atomes individuels — une visualisation que nous nommons un wivigramme (Sturm et coll. 2009).
La distribution de Wigner-Ville possède une résolution temps-fréquence supérieure à celle fournie
par le spectrogramme (Cohen, 1989 ; Preis et Georgopoulos, 1999 ; Pielemeier et coll., 1996 ; Mallat,
2009). Le milieu de la figure 12.2 montre un wivigramme de la décomposition par poursuite
Figure 12.2 — Nous décomposons les sept premières secondes

de Pictor Alpha (Curtis Roads, 2004) avec le Matching Pursuit Toolkit
(Krstulovic et Gribonval, 2006) et un dictionnaire de 5 825 779 atomes de Gabor.
Haut : représentation diracgramme. Milieu : représentation wivigramme. Bas : projection sur un
dictionnaire de transformée de Fourier à court terme.
adaptative des sept premières secondes de Pictor Alpha, en utilisant 5 000 atomes. En comparaison
avec la projection du même signal, mais sur un dictionnaire d’atomes de transformée de Fourier à
court terme, nous pouvons voir une plus grande clarté en temps et en fréquence. D’autres techni-
ques exploitant la parcimonie peuvent également améliorer la visualisation du son dans le plan
temps-fréquence (Gardner et Magnasco, 2006 ; Kereliuk et Depalle, 2013).
Un wivigramme peut également fournir une interface pour modifier une décomposition atomi-
que, comme montré à la figure 12.3. Avec un tel affichage, nous pouvons effectuer de nombreuses
opérations sur les atomes dans la décomposition, comme sélectionner, supprimer, modifier, etc.
Par exemple, si nous sélectionnons tous les atomes courts dans la décomposition d’un signal, nous
pouvons modifier son contenu transitoire ; et si nous sélectionnons les atomes longs, nous pou-
vons modifier son contenu tonal. Ceci constitue une des motivations pour la poursuite adaptative
moléculaire (Daudet, 2006).
Figure 12.3 — Copie d’écran de l’application preuve de concept SCATTER.

Nous avons chargé les résultats de notre décomposition par poursuite adaptative d’un signal musi-
cal en utilisant un dictionnaire Gabor multi-échelle. La fenêtre principale montre la représentation
wivigramme, avec la resynthèse dans le domaine temporel au-dessus. Grâce aux outils situés à
gauche, nous pouvons sélectionner des atomes ou des régions d’atomes spécifiques à ajuster. Ici,
un groupe d’atomes a été sélectionné avec l’outil lasso et déplacé en temps et en fréquence. Le
panneau de droite montre une variété d’options pour la sélection, permettant par exemple de ne
sélectionner que les atomes de notre groupe ayant une durée ou une amplitude minimale.
12.3.3 Synthèse sonore

Comme l’approximation parcimonieuse peut être considérée comme une technique de régression
(Huber, 1985 ; Tibshirani, 1996), une application évidente de la décomposition atomique est le
débruitage. Dans ce cas, on peut définir le « bruit » comme toutes les structures dans un signal qui ne
sont pas similaires aux atomes dans un dictionnaire. Nous pouvons voir cela à la figure 12.1, où les
atomes sélectionnés pour le signal bruiteux sont presque les mêmes que pour le signal propre. Mallat
et Zhang (1993) montrent un exemple simple de débruitage de la parole en utilisant un dictionnaire
d’atomes de Gabor. Dörfler et coll. (2010), et Siedenburg et Dörfler (2011) ont conçu certaines appro-
ches avancées du débruitage utilisant la décomposition atomique. D’autres possibilités sont le décli-
page audio (Adler et coll., 2012) et la réparation d’autres corruptions (Kereliuk, 2012).
Comme la décomposition atomique est une synthèse granulaire à l’envers, elle incite à de nom-
breuses possibilités uniques pour la synthèse et la modification du son (Sturm et coll., 2009 ; Kere-
liuk, 2012). Si nous pouvons décrire chaque atome grâce à des paramètres significatifs, comme
l’échelle, la fréquence et le déplacement temporel, nous pouvons sélectionner des composants très
spécifiques d’une décomposition atomique pour la resynthèse, comme dans la figure 12.3. Ne reti-
rer que les atomes courts dans une décomposition peut retirer tous les transitoires. Nous pouvons
donc concevoir ce processus sous la forme d’une sorte de filtrage atomique. Nous pouvons égale-
ment resynthétiser graduellement un son en augmentant la densité atomique (coalescence
sonore), ou faire évaporer un son en diminuant la densité (désintégration sonore).
La manipulation paramétrique implique de changer les paramètres des atomes utilisés dans une
décomposition atomique. Par exemple, nous pouvons déplacer en hauteur ou étirer dans le temps
un enregistrement sonore en ajustant les déplacements de fréquence et de temps des atomes de sa
décomposition (Sturm et coll., 2006). Si les atomes courts modèlent les transitoires dans un signal,
on peut préserver leur information en n’ajustant que les tailles des atomes plus longs. D’autres
effets uniques peuvent être obtenus, comme de changer aléatoirement les déplacements de temps
d’atomes (jitter), ou en augmentant les échelles d’atome (« saignement »). Nous pouvons créer
d’autres effets originaux en substituant un dictionnaire à un autre, ou en effectuant un morphing
entre des décompositions (Collins et Sturm, 2011).
Bien qu’une décomposition atomique rende le son malléable au niveau atomique, des problèmes
peuvent survenir lorsqu’une « énergie sombre » (Sturm et coll., 2008) devient audible. Transfor-
mer les atomes d’une décomposition peut rompre des relations fragiles entre des atomes ajoutés
par une décomposition pour corriger ses « erreurs ». Ceci renforce le fait que la décomposition ato-
mique est une approximation, en désaccord avec des besoins pour une transformation du son de
« haute qualité ». Néanmoins, comme pour d’autres techniques de synthèse, la décomposition ato-
mique peut avoir des caractéristiques qui favorisent des types particuliers de qualités sonores, par
exemple le feu (Kersten et Purwins, 2012), l’eau ou d’autres textures.
12.4 Conclusion : études avancées

Deux exemples de sujets avancés sont de savoir comment choisir un dictionnaire (Tosic et Fros-
sard, 2011) et comment apprendre un dictionnaire. Lewicki (2002), Smith et Lewicki (2005a, b),
Blumensath et Davies (2006), et Abdallah et Plumbley (2006), montrent tous comment apprendre
des dictionnaires pour le codage audio et pour certains aspects de la description de musique. Aha-
ron et coll. (2006) présentent un algorithme général pour apprendre des dictionnaires surcom-
plets. Savoir quels algorithmes ou dictionnaires sont « meilleurs » dépend des objectifs spécifiques
d’une application, par exemple synthèse ou analyse.
Il reste encore beaucoup à explorer dans la décomposition atomique des signaux audio et musi-
caux (Plumbley et coll., 2009). Ces méthodes requièrent beaucoup plus de calculs et sont plus
complexes que les techniques d’analyse standards, comme celles basées sur la transformée de
Fourier ; mais avec des capacités de calculs en constante augmentation, la décomposition atomi-
que en temps réel est presque devenue une réalité. Par exemple, le Matching Pursuit Toolkit
(Krstulovic et Gribonval, 2006) peut fonctionner à quatre fois le temps réel. Cependant, il faut rap-
peler que la latence dépend de la façon dont le signal est lié aux atomes dans un dictionnaire. S’il
existe une relation forte, nous pouvons produire une bonne approximation en n’utilisant que quel-
ques atomes. Si la relation est très faible, il peut alors falloir utiliser des millions d’atomes pour
produire une approximation de qualité équivalente.
Chapitre 13
Analyse spectrale :
autres méthodes
13.1 Analyse du son sans la méthode de Fourier

Cette partie examine les problèmes rencontrés avec l’analyse spectrale de Fourier traditionnelle
et présente brièvement plusieurs méthodes alternatives, dont l’analyse autorégressive, l’analyse
de source et de paramètre, et l’analyse en termes d’autres fonctions orthogonales en dehors des
sinusoïdes.
13.1.1 Critiques de l’analyse spectrale de Fourier

L’analyse spectrale basée sur les méthodes classiques du baron de Fourier a des limites fondamen-
tales pour les signaux de durée finie ; tout d’abord, une résolution fréquentielle limitée (incapacité
à distinguer deux fréquences proches), particulièrement sur un petit nombre d’échantillons, et

ensuite, des « fuites » dans le domaine spectral qui apparaissent comme effets secondaires du fenê-
trage implicite dans les FFT (Gish, 1978 ; Kay et Marple, 1981). L’analyse de Fourier est un moyen
inefficace d’analyse des sons bruiteux, car elle suppose que ceux-ci sont constitués de combinaisons
de sinusoïdes liées harmoniquement. Le principe de périodicité inhérent aux méthodes de Fourier
peut introduire des erreurs lorsque des phénomènes transitoires complexes sont analysés.
Pour tenter d’alléger les limites de l’approche FFT, de nombreuses méthodes alternatives d’analyse
spectrale ont été proposées. La figure 13.1 montre la multiplicité des méthodes et la diversité des
résultats pouvant être obtenues à partir de trois sinusoïdes et d’une bande de bruit filtré, montrées
en (a). Les méthodes de Fourier sont montrées en (b), (c) et (g). Elles ne peuvent résoudre les sinu-
soïdes ou même séparer les sinusoïdes du bruit. Une technique comme celle montrée en (k) mesure
précisément les trois sinusoïdes, mais décrit ensuite la bande bruiteuse comme une somme de
cinq sinusoïdes ! Évidemment, il n’existe pas de technique de mesure spectrale « universelle » ;
tout dépend de ce que l’on recherche.
(a) (b) (c)
(d) (e) (f)
(g) (h) (i)
(j) (k) (l)
Figure 13.1 – Différentes mesures de spectre pour un même son d’entrée.

Dans les descriptions, « PSD » signifie densité spectrale de puissance (power spectrum density).
L’échelle horizontale reste toujours la fréquence, de 0 à la moitié de la fréquence d’échantillonnage.
L’échelle verticale est l’amplitude, de 0 dB en haut jusqu’à –40 dB en bas, tracée de façon linéaire.
(a) Source en entrée, constituée de trois sinusoïdes et d’une bande de bruit. (b) Périodogramme
avec une FFT à remplissage de double zéro. (c) PSD Blackman-Tukey. (d) PSD autorégressive avec
approche Yule-Walker. (e) PSD autorégressive avec approche Burg. (f) PSD autorégressive avec
approche par moindres carrés. (g) PSD par moyenne mouvante. (h) PSD ARMA avec approche
Yule-Walker étendue. (i) Décomposition de ligne Pisarenko. (j) PSD Prony. (k) Prony spécial avec
approche Hildebrand. (l) Capon ou probabilité de maximum.
13.2 Analyse par banque de filtres à Q constant

Différentes méthodes d’analyse spectrale peuvent être regroupées sous la rubrique des techniques
par banque de filtres à Q constant — appliquées à la recherche audio depuis la fin des années 1970
(Petersen, 1980 ; Petersen et Boll, 1983 ; Schwede, 1983 ; Musicus, Stautner et Anderson, 1984). Dans
cette famille se trouvent ce que l’on appelle les transformées auditives (Stautner, 1983) et la trans-
formée fréquentielle à Q borné (Mont-Reynaud, 1985a ; Chafe et coll., 1985). La transformée en onde-
lettes, présentée dans la prochaine partie, peut également être classifiée comme une technique à
Q constant.
Au chapitre 24 il est dit que le Q peut être défini pour un filtre passe-bande comme le rapport entre
sa fréquence centrale et sa largeur de bande. Dans une banque de filtres à Q constant, chaque filtre
possède un Q identique ou similaire. Ainsi, la largeur de bande des filtres hautes fréquences est bien
plus large que les filtres basses fréquences, car, comme les intervalles de musique, les analyseurs
à Q constant travaillent sur une échelle fréquentielle logarithmique. Par exemple, une banque de
filtres à tiers d’octave est un outil à Q constant.
13.2.1 Comparaison de l’analyse à Q constant et de l’analyse de Fourier

traditionnelle
L’analyse fréquentielle logarithmique par banque de filtres à Q constant est différente des analyseurs
habituels de Fourier. L’analyse de Fourier divise le spectre en un ensemble de casiers fréquentiels
espacés de façon égale, où le nombre de casiers est la moitié du nombre d’échantillons pris comme
entrée (pour les signaux réels, les composants fréquentiels négatifs reproduisent les composants
fréquentiels positifs). Dans l’analyse de Fourier, la largeur d’un casier est constamment égale au
taux de Nyquist divisé par le nombre de casiers. Par exemple, pour une FFT à 1 024 points à un
taux d’échantillonnage de 48 kHz, la largeur d’un casier est de 24 000/1 024, ou 23,43 Hz.
Lorsque les résultats de la FFT sont traduits sur une échelle logarithmique (comme celle des octaves
musicales), il est clair que la résolution est pire dans les octaves inférieures. Séparer deux sons de
basse fréquence Mi 1 (41,2 Hz) et Fa 1 (43,65 Hz) qui sont séparés d’un demi-ton nécessite une
grande fenêtre temporelle (c’est-à-dire 214 ou 16 384 échantillons). Mais utiliser la même résolution
à de hautes fréquences est inutile, car les êtres humains ont de grandes difficultés à distinguer deux
sons situés à 2,45 Hz l’un de l’autre dans l’octave située entre 10 et 20 kHz. Il existe donc un défaut
d’adaptation entre le continuum logarithmique de fréquences que nous entendons et l’échelle fré-
quentielle linéaire de l’analyse FFT. Le problème est abordé par des méthodes comme la transformée
à Q constant, dans laquelle la largeur de bande varie proportionnellement à la fréquence. C’est-à-dire
que les bandes d’analyse sont étroites pour les basses fréquences et larges pour les hautes fréquences
(figure 13.3). Ainsi, dans l’analyse à Q constant, la longueur de la fenêtre d’analyse varie selon la
fréquence analysée. Les longues fenêtres analysent les basses fréquences, et les fenêtres courtes
analysent les hautes fréquences.
Les banques de filtres à Q constant n’évitent pas la relation incertaine entre temps et fréquence,
évoquée au chapitre 11, mais l’incertitude temporelle est concentrée sur les octaves inférieures, où
les bandes d’analyse sont étroites, et où donc les fenêtres et les réponses impulsionnelles du filtre sont
longues. Comme les transitoires sonores (attaques) tendent à contenir des composants hautes fré-
quences, une réponse à Q constant possède l’avantage de localisation temporelle dans les hautes
fréquences avec une localisation fréquentielle dans les basses fréquences.
Un autre élément attractif des techniques à Q constant est que l’oreille humaine possède une réponse
fréquentielle ressemblant à la réponse du Q constant, particulièrement au-dessus de 500 Hz (Scharf,
Figure 13.2 – Comparaison de l’espacement des filtres

dans les méthodes à Q constant et de Fourier. En n’utilisant que 43 filtres (seulement 19 sont
montrés), la méthode à Q constant parvient à une résolution fréquentielle de 1/4 d’octave entre
20 Hz et 21 kHz. (b) Un espacement de filtres de Fourier, avec une bande tous les 46 Hz. En uti-
lisant presque douze fois plus de filtres (512 dont seulement 8 sont montrés), les méthodes de Fou-
rier ne possèdent cependant pas la résolution dans les basses fréquences des méthodes à Q cons-
tant. La méthode de Fourier aura une résolution de 46 kHz sur toute la largeur de bande audio,
même dans les octaves les plus hautes où l’oreille ne peut pas précisément percevoir de telles dif-
férences.
1961, 1970). C’est-à-dire que le système auditif effectue une sorte d’analyse par banque de filtres
avec une largeur de bande dépendante de la fréquence. Ces largeurs de bande auditives mesurées sont
d’une nature tellement fondamentale qu’elles sont appelées bandes critiques (voir le chapitre 16
pour plus de détails sur les bandes critiques). La figure 13.3 trace les fréquences centrales en fonction
des largeurs de bande pour une banque de 23 filtres passe-bande utilisés dans ce que l’on appelle
la transformée auditive, qui était basée sur une approximation des données de largeurs de bande
critiques par Stautner (1983). Pour améliorer la résolution fréquentielle, Stautner utilisa également
une version avec 42 filtres entre 79 et 3 177 Hz.
13.2.2 Implémentation de l’analyse à Q constant

La méthode d’implémentation de l’analyse à Q constant utilise une banque de filtres où la largeur
de bande d’un filtre est proportionnelle à sa fréquence centrale (Stautner, 1983). En mesurant la
sortie de plusieurs douzaines de filtres de ce type, nous devrions être capables d’estimer le spectre
d’un signal d’entrée relativement précisément. Le problème principal de l’approche directe est qu’elle
ne tire pas avantage des efficacités de la FFT pour ses calculs. Ainsi, une partie de la recherche s’est
attachée à construire une analyse à Q constant basée sur des données générées par une analyse FFT
Fréquence centrale du filtre Largeur de bande
4000
3500
3000
2500
2000
1500
1000
500
Fréq.
0
0 2 4 6 8 10 12 14 16 18 20 22
Canaux d'analyse
Figure 13.3 – Tracé de la fréquence centrale et de la largeur de bande

pour ce que l’on appelle la transformée auditive développée par Stautner (1983). Le tracé montre les
données pour 23 canaux d’analyse dont les fréquences centrales vont de 99 à 3 806 Hz et les largeurs
de bande de 80 à 700 Hz, ce qui ressemble à la réponse des bandes critiques de l’oreille humaine.
traditionnelle (Nawab, Quatieri et Lim, 1983), ou des méthodes telles que le « gondolage de fré-
quence » d’un filtre fixe implémenté avec la FFT (Musicus, 1984).
Les algorithmes à Q constant peuvent ne pas être aussi efficaces que ceux basés sur la transformée
de Fourier rapide, mais l’espacement logarithmique des canaux d’analyse permet que le nombre
de canaux soit inférieur avec les méthodes à Q constant, tout en maintenant la même résolution
perceptuelle que dans la STFT. Le nombre de canaux d’analyse dans la STFT varie en général entre
plusieurs centaines et plusieurs milliers. Le nombre de canaux de filtres à Q constant nécessaires
pour couvrir la même gamme est souvent inférieur à cent.
Un autre élément des banques de filtres à Q constant est la faculté d’inversion. L’existence d’une
banque de filtres à Q constant n’implique pas nécessairement une méthode de resynthèse. Certaines
implémentations fournissent cette possibilité, d’autres non.
13.3 Analyse par ondelettes

La transformée en ondelettes (TO) fut à l’origine développée par les scientifiques de l’université de
Marseille pour des applications en physique et en acoustique (Dutilleux, Grossmann et Kronland-
Martinet, 1988 ; Kronland-Martinet et Grossmann, 1991 ; Evangelista, 1991 ; Boyer et Kronland-
Martinet, 1989 ; Kronland-Martinet, 1988 ; Strang, 1989 ; Kussmaul, 1991 ; Vetterli, 1992). Une onde-
lette est un signal qui forme une sinusoïde avec une attaque et une chute douces. Le terme ondelette
n’est cependant pas nouveau, il a été utilisé dans la physique du début du vingtième siècle pour
décrire les paquets d’énergie émis par les processus atomiques (Crawford, 1968 ; Robinson, 1982).
D’un point de vue musical, la TO peut être considérée comme un cas spécial du paradigme de filtre
à Q constant. Les ondelettes injectent la notion d’une représentation à « court terme » ou « granu-
laire » à l’intérieur du modèle de filtre à Q constant. La TO représente et manipule des sons liés à une
grille temps-fréquence ou plan. Chaque rectangle de cette grille représente son produit d’incertitude.
Le centre de chaque grille est le temps moyen d’occurrence et le centre spectral. Une telle grille est
également implicite dans les méthodes à Q constant, mais elle est rarement utilisée de façon expli-
cite. Lors de l’analyse de musique avec la TO, on établit la grille selon les buts de l’analyse et on déforme
la grille selon les buts de la resynthèse.
Dans la théorie de l’ondelette, tout signal d’entrée peut être exprimé sous forme d’une somme d’onde-
lettes ayant une durée, une fréquence, une phase initiale et un temps de départ précis. L’ondelette
prototype pour la musique possède une enveloppe gaussienne (voir le chapitre 22), mais d’autres
types d’enveloppes d’ondelettes peuvent être définis. Ainsi, l’ondelette est similaire au grain présenté
(a) 100 ms
(b) 10 ms
(c) 1 ms
Figure 13.4 – Dilatation d’ondelettes élémentaires à différentes fréquences.

La durée de l’ondelette se compresse dans les hautes fréquences afin que le nombre de cycles de
l’ondelette reste le même. (a) Ondelette de 100 Hz. (b) Ondelette de 4 kHz. (c) Ondelette de 10 kHz.
au chapitre 22, et aux segments fenêtrés de la transformée de Fourier à court terme présentés au
chapitre 11. L’aspect particulier de l’ondelette ne dépend pas de la fréquence qu’elle contient, car elle
contient toujours un certain nombre de cycles. Ceci implique que la taille (durée) de la fenêtre
d’ondelette s’étire ou se compresse selon la fréquence analysée (figure 13.4). Cet étirement et cette
compression sont appelés dilatation dans la littérature spécialisée et sont généralement spécifiés
comme un facteur de 1/fréquence.
L’implication de la taille de fenêtre dilatante est que la TO échange la résolution fréquentielle pour
une résolution temporelle pour les hautes fréquences, et échange la résolution temporelle pour une
résolution fréquentielle pour les fréquences basses. Ainsi, la TO peut simultanément détecter des
temps de départ précis signalés par des transitoires de hautes fréquences, et résoudre le spectre des
basses fréquences.
13.3.1 Opération de l’analyse par ondelettes

La TO multiplie le signal d’entrée par une grille d’ondelettes analysantes, où la grille est bornée par la
fréquence sur un axe, et par le facteur de dilatation temporelle sur l’autre (figure 13.5). L’opération
du processus de multiplication est équivalente à une banque de filtres. En fait, une façon de concevoir
les ondelettes est de s’imaginer que chacune représente la réponse impulsionnelle d’un filtre passe-
bande.
La dilatation de cette réponse impulsionnelle correspond à un échelonnage fréquentiel inverse.
Ainsi, la durée de chaque ondelette correspond à la fréquence centrale d’un filtre ; plus l’ondelette
est longue, plus la fréquence centrale est basse.
La TO fenêtre simultanément le signal d’entrée et mesure l’énergie du signal d’entrée à la fréquence
de chaque ondelette analysante. Le résultat est une autre grille où l’énergie de chaque cellule reflète
l’énergie temps-fréquence du signal originel. La sortie de la TO est, comme dans l’analyse de Fourier
à court terme, un spectre en deux parties, avec une partie représentant la magnitude à une fréquence
donnée et l’autre partie représentant la phase.
L’échelle de fréquence de la grille d’analyse est en général logarithmique. Ceci signifie que la fré-
quence de chaque ondelette analysante est liée aux autres par un intervalle musical logarithmique
tel qu’une quinte, une tierce, ou tout autre intervalle, selon la façon dont le système est réglé. L’uti-
lisation d’une échelle logarithmique n’est cependant pas obligatoire, car la TO peut être alignée sur
n’importe quelle échelle de fréquence arbitraire. Bien sûr, la durée des ondelettes est échelonnée
selon leur fréquence.
Le calcul direct de la transformée en ondelettes est une tâche coûteuse en calculs, similaire au calcul
de la transformée de Fourier discrète. Différentes propositions ont été avancées pour réduire le travail
nécessaire aux calculs de la transformée en ondelettes (Dutilleux, Grossmann et Kronland-Martinet,
1988 ; Mallat, 1989 ; Evangelista, 1991). Voir la littérature pour des détails sur ces algorithmes.
13.3.2 Tracé d’ondelettes

Un produit secondaire de la recherche dans l’analyse par ondelettes est une méthode d’affichage
utilisée par le groupe de Marseille et montrée à la figure 13.6. On peut la considérer comme un tracé
spectral traditionnel projeté dans le temps et renversé. Une autre façon de la voir est comme une sorte
de sonagramme : tracé horizontal du temps, et tracé vertical des fréquences, avec les fréquences
basses en bas et les fréquences élevées en haut.
La différence entre un tracé sonagramme et ce tracé d’ondelettes est le modèle de localisation tempo-
relle qu’ils projettent. Les ondelettes courtes détectent des transitoires brefs, localisés dans le temps.
Ces ondelettes se tiennent au sommet d’un triangle placé sur un plan fréquence-temps (figure 13.7a).
Ondelettes Fourier
320 320
160 260
80 180
40 100
20 20
Temps Temps
Figure 13.5 – Comparaison d’une représentation en ondelette

et d’une transformée de Fourier à court terme sur le même plan temps/fréquence. La grille d’onde-
lette à gauche possède une résolution temporelle plus fine dans la partie supérieure du spectre,
tandis que la résolution de la transformée à court terme reste constante.
Les ondelettes longues détectent les basses fréquences ; elles se tiennent à la base du triangle,
brouillées dans le temps. Ce triangle est le domaine d’influence dans le temps des ondelettes. Le
domaine d’influence pour les fréquences est une bande horizontale constante, comme dans le spectro-
gramme (figure 13.7b). Plus la bande est foncée, plus la magnitude à l’intérieur de ce domaine
fréquentiel est forte.
Bien sûr, cette technique de tracé n’est que l’une des nombreuses façons de projeter les données
générées par la TO. Dans le travail du groupe de Marseille, les images de coefficients (magnitude)
et de phase sont tracées. Le spectre de phase est parfois appelé scalagramme. La phase n’est tracée
qu’au-dessus d’un certain seuil de magnitude pour éviter une estimation non viable.
Si la grille fréquentielle est alignée sur un intervalle de musique, l’affichage projette un fort indica-
teur foncé lorsque le signal d’entrée contient cet intervalle. Ceci est montré à la figure 13.8 pour une
TO configurée pour la détection d’octave. Les quatre exemples d’octaves montrent des triangles
foncés. Dans ce cas, on peut dire que l’ondelette analysante est la somme de deux ondelettes plus
simples séparées en fréquence par une octave.
(a) (b)
Figure 13.6 – Trois sinusoïdes superposées montrées dans un tracé d’ondelettes.

Le tracé d’ondelettes possède deux parties : la magnitude, à gauche, et la phase. Sur chacune, le
temps s’écoule de gauche à droite. L’axe vertical représente la fréquence sur une échelle logarith-
mique. Au sommet de chaque partie se trouve une représentation standard dans le domaine tem-
porel de la forme d’onde, servant de référence. (a) Dans la magnitude, la teinte foncée indique
l’énergie. Remarquez les « pointeurs » haute fréquence indiquant le temps de départ de chaque
sinusoïde. (b) Le diagramme de phase montre directement le déplacement de la forme d’onde. Les
« monts » en forme d’U suivent les pics de la forme d’onde. Les changements apparaissent sous
forme de surfaces chaotiques, et les « pointeurs » montrent également les instants de changements
(d’après Arfib, 1991).
f(0)
(a)
Fréq.
Temps
(b)
Fréq.
Figure 13.7 – Domaines d’influence de l’ondelette.

(a) Temps. (b) Fréquence. Voir le texte pour une explication.
Figure 13.8 – Magnitude de la transformée en ondelettes

correspondant à la partition écrite dans le bas. Les triangles foncés, qui indiquent un maximum,
apparaissent lorsque les octaves sont jouées (d’après Kronland-Martinet et Grossman, 1991).
13.3.3 Resynthèse par ondelettes

Comme dans la STFT, la resynthèse par ondelettes peut être effectuée de deux façons : superposition-
addition et additive. Chaque méthode conduit à certains types de transformations. Dans le cas de
la méthode par superposition-addition, nous avons besoin d’autant d’oscillateurs qu’il existe d’onde-
lettes superposées. Dans la resynthèse additive, le nombre d’oscillateurs est constant, car chaque
composant fréquentiel est assigné à son propre oscillateur.
13.3.4 Transformation sonore avec les ondelettes

Plusieurs transformations musicales basées sur l’analyse/resynthèse par ondelettes sont apparues
(Boyer et Kronland-Martinet, 1989). Une transformation évidente est d’effectuer un type de filtrage
en supprimant certains canaux de fréquence lors de la resynthèse. L’espacement logarithmique des
canaux fréquentiels rend plus facile l’extraction de certains accords musicaux à partir d’un son.
Lorsque cette technique est appliquée à la voix parlée, par exemple, elle donne l’impression d’une
personne parlant « harmoniquement ». Un autre effet est de former une synthèse croisée utilisant
les composants d’amplitude d’un son et les composants de phase d’un autre pour créer un son
hybride.
D’autres types de transformations incluent le changement de la géométrie de la grille fréquentielle,
en ajoutant ou en multipliant un facteur d’échelonnage sur toutes les fréquences lors de la resyn-
thèse. Les effets de compression/expansion temporelle sont également possibles (déformation de
la grille temporelle). Dans les déformations fréquentielles et temporelles, les composants de phase
doivent être multipliés par le même facteur d’échelonnage que l’opération de hauteur ou de temps
(quel que soit celui qui est modifié). Ceci est appelé le désenroulement de phase ; voir Arfib (1991)
pour une présentation du désenroulement de phase dans la transformée en ondelettes. Kronland-
Martinet (1988) décrit une méthode de déplacement des hauteurs basée sur la distorsion non linéaire
des valeurs de phase lors de la resynthèse.
13.3.5 Séparation du bruit et du spectre harmonique par ondelettes en peigne
La transformée en ondelettes en peigne, développée à l’université de Naples, trie les transitoires, les
sons sans hauteur et les changements de hauteur à partir de signaux quasi périodiques (Evangelista,
1992 ; Piccialli et coll., 1992). La TO en peigne commence par un segment fenêtré du son. La période
de hauteur fondamentale est estimée, et un filtre en peigne est adapté sur le segment, avec les pics
alignés sur les harmoniques de la fondamentale. Le filtre en peigne passe au crible l’énergie dans
le spectre harmonique. Une analyse par ondelettes est ensuite effectuée sur ce signal harmonique
« propre ». Lorsque la TO inverse est soustraite au signal originel, le résiduel ou partie « sale » du
signal reste (figure 13.9). La partie sale inclut les transitoires d’attaque et les détails qui donnent
son identité et son caractère au son.
Lorsque les parties propres et sales sont séparées, on peut effectuer une sorte de synthèse croisée
en greffant la partie sale d’un son sur la partie propre d’un autre. Ce type de séparation est similaire
dans le concept — mais non dans l’implémentation — à la technique utilisée dans la synthèse par
modèles spectraux de Serra (1989), décrite au chapitre 11.
13.3.6 Comparaison de l’analyse par ondelettes et des méthodes de Fourier
Les méthodes de Fourier traditionnelles mesurent l’énergie moyenne le long d’une fenêtre dont la
durée reste constante, quel que soit le composant fréquentiel analysé. Ceci tend à délocaliser la vue
du temps de départ des transitoires de hautes fréquences. Au contraire, la TO offre une vue multi-
résolution d’un signal musical, car l’analyse temporelle fine est effectuée avec des ondelettes courtes
et de hautes fréquences, tandis que l’analyse fréquentielle fine utilise des ondelettes longues et de
basses fréquences. Une cymbale crash reste invisible pour une ondelette « lente » (basse fréquence),
mais sera détectée par une explosion d’ondelettes très « rapides ». Ainsi, la TO est bien adaptée à
l’étude des transitoires ou des temps de départ des signaux musicaux. Comme le montre la
figure 13.10, le tracé TO montre une grande sensibilité temporelle dans les hautes fréquences.
Dans les applications où l’efficacité de calcul est primordiale, les méthodes basées sur la FFT ont un
avantage sur les méthodes par ondelettes ou à Q constant de résolution similaire. Des optimisations
de la TO ont cependant été développées pour le cas de grilles fréquentielles strictement logarith-
miques (Dutilleux, Grossmann et Kronland-Martinet, 1988). Voir également Shensa (1992) pour
plus de détails sur les techniques par ondelettes rapides.
Figure 13.9 – Séparation par ondelettes du bruit et du spectre harmonique.

Tracés amplitude (verticale) en fonction du temps (horizontal). La partie supérieure est le son de
guitare d’origine. La partie du milieu est le résidu bruiteux après transformée en ondelettes en pei-
gne, qui comprend la partie d’attaque caractéristique de la note. La partie du bas montre la resyn-
thèse à partir de la partie quasi harmonique de la méthode par ondelettes en peigne (avec l’aima-
ble autorisation de Gianpaolo Evangelista, université de Naples).
Figure 13.10 – Détection de transitoires par ondelettes.

Le graphique du haut montre une erreur dans le signal temporel. Le graphique du bas montre la
représentation par ondelettes. Les ondelettes hautes fréquences font précisément ressortir le moment
de l’erreur. Celle-ci est invisible aux ondelettes basses fréquences (bande horizontale inférieure)
(d’après Kronland-Martinet, 1988).
13.4 Analyse du signal par distribution de Wigner-Ville

La distribution de Wigner-Ville (WD) fut tout d’abord appliquée dans les années 1930 à des problè-
mes de physique quantique (Wigner, 1932). Dans les applications acoustiques, le but de la WD
n’est pas l’analyse du son en soi, mais l’analyse du système. En d’autres termes, l’entrée de la WD
n’est pas nécessairement un son, mais la réponse d’un haut-parleur, d’un transducteur ou d’un circuit
à un son. La WD caractérise ensuite la réponse temps-fréquence de ce système. D’un point de vue
théorique, la WD est directement liée aux autres méthodes de Fourier comme le sonagramme. Pour
des détails sur les mathématiques de la WD, voir Janse et Kaizer (1983, 1984), Preis et coll. (1987)
et Gerzon (1991).
13.4.1 Interprétation des tracés de distribution de Wigner-Ville

L’entrée typique de la WD est, soit la réponse impulsionnelle, soit la réponse amplitude-fréquence
du système analysé. Voir le chapitre 24 pour une définition de la réponse amplitude-fréquence. La
sortie est un tracé de la fréquence en fonction du temps. Les mesures d’ingénierie telles que le retard
de groupe, la fréquence et la puissance instantanées, la distorsion transitoire et le spectre peuvent
être trouvés à partir d’un tracé WD, qui peut être affiché en deux ou trois dimensions. Pour un tracé
en deux dimensions, la zone située sous la coupure horizontale d’une fréquence donnée fournit la
valeur de la réponse fréquentielle (magnitude au carré) à cette fréquence (figure 13.11a). Le centre
de gravité de cette coupure horizontale (le point sur lequel toute la zone pourrait être concentrée
pour produire le même « poids » sur l’axe vertical) donne le temps de retard de groupe pour cette
(a) (b)
+ +
0 0
Fréq. Fréq.
- -
Temps Temps
Figure 13.11 – Interprétation des tracés de distribution de Wigner-Ville.

fréquence. Ceci est montré sous forme d’un point noir à la figure 13.11a. De façon similaire, la zone
située en dessous d’une coupure verticale à un temps donné produit la puissance instantanée de
l’enveloppe du signal à ce temps (figure 13.11b), où le centre de gravité de cette coupure est égal à
la fréquence instantanée (point noir dans la figure 13.11b). Dans ce cas, les points sont symétriques à
la fois sur l’axe des x et des y et les centres de gravité sont donc situés au centre. Dans les signaux
réels, ils varient lorsque le signal varie. Lorsque la puissance instantanée et la fréquence instantanée
sont tracées dans le temps, les effets de modulation d’amplitude et de fréquence sur le signal peuvent
être révélés.
Janse et Kaizer (1983, 1984) présentent des tracés en trois dimensions et des guides pour interpréter
la WD. En particulier, ils comparent les tracés de systèmes idéaux (filtres idéaux, par exemple)
avec des appareils réels comme des haut-parleurs.
13.4.2 Limites de la distribution de Wigner-Ville

En pratique, la WD est basée sur des données échantillonnées et fenêtrées, et elle est parfois appelée
pseudodistribution de Wigner-Ville (Janse et Kaizer, 1983). Des distorsions connues sont introdui-
tes par l’échantillonnage et le fenêtrage, comme cela est le cas dans d’autres techniques d’analyse.
Celles-ci ont des effets relativement mineurs.
Un problème plus important avec la WD est qu’elle est non linéaire. C’est-à-dire que la WD de
l’addition de deux signaux n’est pas la somme de leurs WD individuelles. Par exemple, une seule
sinusoïde à 100 Hz passée à travers la WD apparaîtra sous forme d’un composant fréquentiel indi-
viduel, tout comme une seule sinusoïde à 300 Hz. Mais si l’on fait passer la somme de deux sinu-
soïdes à 100 et 300 Hz à travers la WD, nous voyons un troisième composant à 200 Hz — la diffé-
rence entre les deux fréquences. Cet écho parasite représente une fréquence qui n’est pas présente
dans l’entrée. Les échos parasites rendent l’inspection visuelle des tracés WD difficiles pour les
signaux musicaux.
La pertinence de la WD par rapport à la perception humaine du son est limitée. Son tracé décrit
graphiquement des distorsions de phase perceptibles (voir le chapitre 25). Nous pouvons voir cela
à la figure 13.12. L’axe des x de la figure 13.12 montre le temps de 0 à 5 ms. L’axe des y montre une
distribution temps-fréquence, située de –6,25 à +6,25 kHz, où les fréquences négatives sont des
images en inversion de phase des fréquences positives. L’allongement de certaines fréquences le
long de l’axe des x montre clairement les effets du retard de groupe en fonction de la fréquence.
(a)
(b)
Figure 13.12 – Comparaison de tracés de distribution de Wigner-Ville

pour deux filtres passe-bas. L’écartement des points sur l’axe temporel est de 5 ms. (a) Filtre avec
distorsion de phase. L’allongement des fréquences le long de l’axe temporel est une indication nette
de distorsion de phase. Il y a une forte différence audible entre les deux filtres. (b) Filtre avec phase
linéaire (sans distorsion) (d’après Preis et coll., 1987).
Pour des détails sur la façon dont ces tracés ont été calculés, voir Janse et Kaizer (1984) et Preis et coll.
(1987).
13.5 Analyse spectrale par autorégression

L’autorégression (AR), le codage prédictif linéaire (CPL), et les méthodes d’entropie maximum
(MEM) constituent une famille de techniques équivalentes essentielles pour la conception d’un filtre
correspondant au spectre d’un signal d’entrée (Makhoul, 1975 ; Burg, 1967 ; Atal et Hanauer, 1971 ;
Flanagan, 1972 ; Markel et Gray, 1976 ; Cann, 1978, 1979, 1980 ; Moorer, 1979a ; Dodge, 1985 ;
Lansky, 1987 ; Lansky et Steiglitz, 1981 ; Hutchins, 1986a). Il est donc possible de les appliquer
comme méthodes d’analyse spectrale. Nous traiterons ici les trois méthodes sous la rubrique de l’AR.
Le chapitre 24 décrit un système CPL musical pratique avec édition.
L’un des avantages des méthodes AR par rapport aux méthodes de Fourier est qu’elles peuvent
estimer un spectre à partir d’une petite quantité de données d’entrée ; elles ont ainsi un potentiel
de résolution temps/fréquence amélioré. Mais la forme d’analyse spectrale effectuée par les AR n’est
pas directement comparable à l’analyse de Fourier. Le modèle AR suppose que le spectre est le
résultat d’un signal excitateur (tel que les impulsions glottales émises par le conduit vocal) appliqué
à un résonateur (par exemple le reste du conduit vocal). L’AR estime la forme du spectre global de
la résonance plutôt que l’énergie présente à un certain nombre de fréquences isolées. La figure 13.1d
montre cet effet.
La méthode AR prend plusieurs échantillons d’entrée puis utilise l’échantillon le plus récent comme
référence. Il tente de « prédire » cet échantillon à partir d’une somme d’échantillons passés pondérée
par des coefficients de filtrage. L’un des effets secondaires est que l’algorithme AR adapte un filtre
inverse au spectre du signal d’entrée. C’est cet effet secondaire qui est intéressant d’un point de vue
musical. Lorsque le filtre inverse est lui-même inversé — une procédure banale —, la réponse du
filtre résultante est une estimation du spectre du signal d’entrée.
La méthode AR prédit la téième valeur d’un signal selon l’équation suivante :
p
signal [ t ] = ∑ { coeff [ t ] × signal [ t – i ] } – bruit [ t ]

t–i
C’est-à-dire que la valeur prédite signal[t] est calculée en convolvant le nombre p de coefficients de
filtrage prédictif avec les p valeurs connues de signal. La convolution est décrite au chapitre 5. Le
choix de p est complexe. Une valeur trop faible produit un spectre exagérément lissé ; une valeur
trop élevée introduit des pics parasites. Ce paramètre doit donc être ajusté selon l’application (Kay
et Marple, 1981). Des méthodes interactives pour le choix de p existent. La qualité d’adaptation de la
prédiction peut être mesurée lorsque p augmente en partant d’une petite valeur. Lorsqu’il n’existe
plus d’amélioration possible dans l’adaptation, le processus s’arrête.
En général, bruit[t] est censé être un signal piloté par bruit blanc filtré pour produire un spectre
épousant le signal d’entrée. Plusieurs algorithmes utilisant des méthodes de régression linéaire
peuvent calculer les coefficients du filtre à partir d’un bloc de données — d’où le terme « auto-
régression ». Ce processus est effectué par des opérations de matrices décrites dans la littérature
spécialisée en ingénierie (Burg, 1967 ; Makhoul, 1975 ; Markle, 1972 ; Markel et Gray, 1976 ; Bowen
et Brown, 1980). Voir Kay et Marple (1981) pour une comparaison de ces méthodes.
✦ Analyse autorégressive mouvante moyenne
La méthode AR est un modèle efficace pour les spectres lisses et continus ayant des pics pointus,
mais pas de creux profonds. Ainsi, elle ne modèle pas bien les sons comme les voyelles nasales
— où il y a des trous dans le spectre — ou des impulsions percussives (caisse claire, cymbales, etc.)
où l’erreur de prédiction est élevée. Un meilleur choix pour ces types de sons peut être une géné-
ralisation de la méthode AR appelée la méthode autorégressive mouvante moyenne (ARMA). L’ARMA
calcule un échantillon en combinant des valeurs d’entrée passées et des valeurs de sortie passées.
Ainsi, un filtre ARMA possède des pôles et des zéros et une précision potentiellement plus élevée
que l’approche AR. Les filtres ARMA sont cependant beaucoup plus gourmands en calculs.
13.5.1 Analyse de source et de paramètre

Dans certains types d’analyse, notamment l’AR, l’analyse cepstrale (décrite au chapitre 9) et
l’approche par modèles physiques (décrite au chapitre 26), le but de l’analyse n’est pas simplement
de faire le pointage des fréquences présentes dans un signal, mais plutôt de retrouver l’information
de source, telle que les paramètres d’excitation et de résonance nécessaires à la resynthèse de ce son.
Cette approche est utile pour certains sons possédant un grand intérêt musical, tels que des frappes
de caisse claire ou de cymbales. Ces types de sons transportent une grande quantité d’information
sur leur source, telle que leur taille, leur poids, leur géométrie, et le matériau à partir duquel ils ont été
fabriqués. Une autre application de l’analyse de source et de paramètre est la séparation de sources
sonores multiples. En fait, la motivation scientifique pour ces techniques a été leur utilisation pour
séparer un signal du bruit ou pour décomposer plusieurs signaux mélangés (Kashino et Tanaka,
1993).
✦ Estimation de paramètres
Toute analyse du son est une forme d’estimation de paramètres qui tente d’analyser le signal entrant
en termes de réglages de paramètres nécessaires pour faire une approximation de ce son avec une
méthode de synthèse donnée (Tenney, 1965 ; Justice, 1979 ; Mian et Tisato, 1984). Par exemple,
nous pouvons concevoir l’analyse de Fourier comme une méthode d’estimation de paramètres
pour une resynthèse sinusoïdale, car elle calcule toutes les fréquences, les amplitudes et les phases
nécessaires à l’approximation du son d’entrée.
En théorie, l’estimation de paramètres peut être appliquée à n’importe quelle technique de synthèse.
En pratique, la simulation réussie d’un son donné par une méthode arbitraire de synthèse n’est pas
garantie. De nombreuses tentatives pour développer des analyses d’estimation de paramètres pour
la synthèse par modulation de fréquence, par exemple, ont donné des approximations grossières
du son originel. Il n’existe pas de technique d’analyse/resynthèse universelle. Certaines techniques
n’ont pas été conçues pour créer des types spécifiques de sons.
Certains types d’estimation de paramètres emploient des algorithmes de traitement du signal
adaptatifs qui tentent de minimiser l’erreur entre le signal entrant et la simulation en ajustant les
paramètres du modèle de simulation. Dans un système en temps réel, les mesures et les ajustages
doivent être faits à l’intérieur de la période temporelle d’un seul échantillon, ce qui oblige à faire
des compromis par rapport à des solutions mathématiquement idéales.
Le chapitre 26 présente le sujet de l’analyse de source pour la synthèse par modèles physiques,
et nous renvoyons donc le lecteur à cette présentation.
13.6 Analyse par d’autres fonctions

La méthode de Fourier empile des sinusoïdes pour reproduire un signal d’entrée donné. Mais les
sinusoïdes ne sont qu’un élément d’une grande classe de fonctions pouvant être utilisées pour
décomposer puis reproduire une fonction d’entrée donnée. Les fonctions de Walsh (ondes carrées)
et les exponentielles complexes (sinusoïdes dont l’enveloppe d’amplitude décroît) ne sont que deux
exemples de base. On peut concevoir un nombre infini d’autres fonctions, mais comme ces deux
exemples possèdent des propriétés spéciales et ont déjà été appliqués à la musique, nous les pré-
sentons maintenant.
13.6.1 Fonctions de Walsh

Le principal avantage de l’analyse de Walsh est que son unité de base — l’impulsion binaire ou
onde carrée — semble naturelle à implémenter dans les systèmes numériques, apparemment plus
naturelle que la sinusoïde, par exemple. Un désavantage de l’analyse de Walsh est qu’elle brise un
signal en une combinaison de ce que l’on appelle séquences qui ne sont pas directement liées au
domaine fréquentiel. Comme le chapitre 19 présente les fonctions Walsh plus en détail, nous ren-
voyons le lecteur à cette présentation.
13.6.2 Méthode de Prony

Les sinusoïdes amorties sont les éléments de base de ce qui est appelé la méthode d’analyse de Prony
(Kay et Marple, 1981 ; Marple, 1987 ; LaRoche et Rodet, 1989). Par sinusoïdes amorties, nous parlons
de sinusoïdes ayant une attaque rapide, mais atténuée abruptement, en général par une chute
exponentielle. La technique a été appelée comme cela d’après Gaspard de Prony, qui développa à
l’origine une méthode pour analyser l’expansion de différents gaz (Prony, 1795). La version moderne
de cette technique a évolué, et elle est similaire aux méthodes AR décrites précédemment.
La méthode de Prony est maintenant une famille de techniques apparentées qui modèle un signal
d’entrée sous forme d’une combinaison de sinusoïdes amorties accompagnées de bruit (Kay et
Marple, 1981). Comme les techniques AR, la méthode de Prony fait une estimation d’un ensemble
de coefficients basée sur les échantillons d’entrée passés. Mais au lieu de piloter un filtre, comme
dans les méthodes AR, les coefficients pilotent ici la fréquence, le facteur d’amortissement, l’ampli-
tude, et la phase d’un ensemble de sinusoïdes amorties qui font une approximation du signal
d’entrée. La méthode de Prony est transformée en technique d’analyse spectrale en prenant la FFT
d’un signal de sortie émis par la méthode de Prony. Un avantage de la méthode de Prony par rapport
aux techniques AR est qu’elle produit de l’information de phase, ce qui permet une resynthèse plus
précise. Voir Marple (1987) pour une description algorithmique de la méthode.
Dans la musique informatique, la méthode de Prony a été appliquée lors de l’étape d’analyse du
système de synthèse CHANT (d’Alessandro et Rodet, 1989 ; voir le chapitre 28) et dans un système
expérimental d’analyse/resynthèse conçu par LaRoche (1989a, b). LaRoche l’utilisait pour analyser
et resynthétiser des sons percussifs amortis, comme le glockenspiel, le vibraphone, le marimba,
les sons graves de piano et le gong. Selon lui, les résultats étaient moins prometteurs avec des sons
aigus de piano ou avec des cymbales.
Dans sa comparaison de la méthode de Prony et de l’analyse de Fourier, LaRoche (1989a) note qu’en
général la première est la plus « sensible » des deux. Les utilisateurs doivent méticuleusement
ajuster les paramètres d’analyse, ou bien l’estimation spectrale résultante aura peu de ressemblance
avec le spectre réel (LaRoche, 1989a). Au contraire, le paramètre premier dans les méthodes de
Fourier est la fenêtre. Les résultats de l’analyse de Fourier peuvent être incomplets et imprécis, mais
ils ne sont jamais totalement incohérents.
Lorsque les paramètres de la méthode de Prony sont correctement réglés, celle-ci a peu de difficulté
à tenir compte des partiels inharmoniques et peut résoudre de multiples sinusoïdes très proches. Au
contraire, l’analyse de Fourier divise arbitrairement le spectre en partiels harmoniques espacés de
façon égale et amasse des sinusoïdes proches sous forme d’un pic de type formantique global dans
le spectre. La méthode de Prony est limitée pour n’analyser que 50 partiels à la fois, car au-delà de
cette limite les polynômes utilisés pour la calculer ne convergent plus vers une solution. Et la méthode
de Prony est plus intensive en calculs que l’analyse de Fourier. En résumé, avec la méthode de Prony
nous avons une méthode d’analyse efficace pour résoudre certaines classes de signaux, en particulier
les sons percussifs comportant peu de composants sinusoïdaux, sous réserve qu’elle soit précisément
ajustée en amont.
13.7 Modèles d’audition

On peut regrouper les méthodes d’analyse du son autour de deux pôles : celles qui tentent d’émuler le
comportement connu du système auditif humain, et celles qui ne le font pas. Les modèles d’audition
appartiennent à la première catégorie, et les techniques inspirées des mathématiques comme la dis-
tribution de Wigner-Ville à la seconde. Les modèles d’audition commencent en général d’une forme
d’analyse spectrale, mais la sortie de cette étape est simplement le point de départ d’un post-traite-
ment plus ou moins élaboré selon un modèle de calcul des mécanismes auditifs (Mellinger, 1991).
Les buts du modelage d’audition sont de deux ordres : (1) vues plus claires des signaux musicaux
davantage en accord avec ce que nous percevons, et (2) compréhension plus profonde des méca-
nismes auditifs humains en utilisant des modèles lors d’expériences de simulation. Nous présentons
ici brièvement deux modèles d’audition, respectivement le cochléagramme et le corrélogramme.
13.7.1 Cochléagrammes
La cochlée est un minuscule organe ressemblant à un coquillage dans l’oreille interne qui transmet
les vibrations entrantes sous forme d’impulsions nerveuses transmises au cerveau. Chaque empla-
cement dans la longueur de la cochlée répond aux vibrations proches d’une fréquence centrale
propre à cet emplacement. Les scientifiques de l’audition ont mesuré le taux de déclenchement
moyen des neurones le long de la cochlée et ont déterminé qu’ils sont liés à différentes fréquences
perçues par l’oreille.
Un modèle logiciel de la réponse de la cochlée aux signaux entrants est appelé un cochléagramme
(Slaney et Lyon, 1992). Au lieu de tracer la fréquence sur l’axe vertical comme le spectrogramme,
le cochléagramme trace l’emplacement cochléaire. C’est-à-dire qu’il représente la réponse des dif-
férentes parties de la cochlée par rapport au son entrant. Lorsque le cochléagramme est tracé avec
une résolution grossière, il ressemble à une représentation de sonagramme, mais avec des départs
mis en valeur. Une différence plus importante entre le sonagramme et le cochléagramme peut être
vue à la figure 13.13. Cette vue rapprochée d’une image cochléagramme haute résolution révèle la
mise en place temporelle des impulsions glottales individuelles d’un signal parlé. Ainsi, le cochléa-
gramme permet d’étudier à la fois la mise en place temporelle (départs) de faible niveau et le spectre.
Figure 13.13 – Cochléagramme étendu de la diphtongue américaine « ree ».

Les lignes horizontales indiquent les trois premiers trajets formantiques. La ligne verticale indique
les impulsions glottales, qui sont légèrement en pente en raison du retard naturel à travers la
cochlée (d’après Slaney et Lyon, 1992).
13.7.2 Corrélogrammes
Les corrélogrammes furent introduits au début des années 1950 par Licklider (1951, 1959), mais ce
n’est qu’au début des années 1990 qu’ils devinrent pratiques d’un point de vue de calcul. Le corré-
logramme part d’un modèle de la cochlée puis effectue une autocorrélation des signaux émis par
chaque canal du cochléagramme (Slaney et Lyon, 1992). Cette autocorrélation est effectuée
« image par image » ou par fenêtres, 30 à 120 fois par seconde, selon l’application.
Le tracé résultant est une fonction tridimensionnelle de la fréquence, du temps et du retard d’auto-
corrélation. Le corrélogramme est une image animée « dans le temps ». Les corrélogrammes de
Slaney peuvent être vus sur bande vidéo ou sous forme de films numériques projetés sur ordina-
teur personnel (Slaney et Lyon, 1991a, b).
La position le long de la cochlée est tracée sur l’axe vertical, avec les hautes fréquences placées dans
la partie supérieure de l’image. L’axe horizontal montre le retard temporel d’autocorrélation. Comme
dans un sonagramme conventionnel, les zones sombres représentent des amplitudes élevées. Les
sons procurant une forte sensation de hauteur et de structure harmonique apparaissent sous forme
de lignes verticales aux moments de retards d’autocorrélation lorsqu’un grand nombre de cellules
cochléaires se déclenchent en même temps. Voir Slaney et Lyon (1992) pour une application du
corrélogramme à la détection de hauteur. Lorsque la hauteur s’élève, la ligne verticale dominante
se déplace vers la gauche jusqu’à un retard représentant la période plus courte. Les bandes hori-
zontales représentent de grandes quantités d’énergie dans une bande fréquentielle, par exemple
un formant. Les sons bruiteux et inharmoniques n’apparaissent que comme des bandes horizontales,
sans lignes de hauteur verticales.
Le chapitre 9 montrait que l’autocorrélation d’une sinusoïde est elle-même une sinusoïde ayant des
pics espacés à des périodes sous-harmoniques de la période fondamentale f, c’est-à-dire f, f/2, f/3,…
De façon similaire, une seule sinusoïde passée à travers un corrélogramme apparaît sous forme
d’une série de lignes verticales, correspondantes aux sous-harmoniques « virtuels » de la période fon-
damentale, située quant à elle sur la position la plus à gauche. Nous n’entendons pas nécessairement
ces sous-harmoniques ; ils sont des artefacts de la recherche naturelle de périodicité de la fonction
d’autocorrélation.
La figure 13.14 montre trois images d’un film corrélogramme, respectivement à 0, 600 ms et 2 s.
Dans ce cas, nous pouvons voir la frappe d’un carillon. Il y a au départ de nombreux harmoniques,
et le son est riche. Les différents harmoniques chutent à des vitesses différentes, comme cela est
montré dans la deuxième image. Dans la dernière, il ne reste plus que deux composants.
L’avantage du corrélogramme est qu’il présente un tracé sensible au temps, fournissant simultané-
ment une information de hauteur et de formant. La dimension horizontale ou de retard représente
la hauteur, et la dimension verticale représente le spectre. Le calcul du corrélogramme est une opé-
ration très gourmande en calcul. Le corrélogramme a récemment été utilisé comme base de resyn-
thèse (Slaney, Naar et Lyon, 1994).
13.8 Systèmes comprenant le signal

Il est devenu fréquent dans l’analyse du signal de voir des applications combinant des outils de
traitement du signal de bas niveau et des techniques logicielles provenant de la recherche en intel-
ligence artificielle (Nii et coll., 1982 ; Roads, 1985d ; Oppenheim et Nawab, 1992). Le but de ce domaine
de recherche est de dépasser l’analyse brute du signal pour passer à une compréhension du signal
plus profonde (CS). Nous parlons bien sûr vaguement, car il existe de nombreux types et niveaux
de « compréhension ». Mais pour des besoins pratiques, nous pouvons dire qu’un système comprend
(a)
(b)
(c)
Figure 13.14 – Corrélogrammes d’une frappe de carillon.

(a) Départ. (b) 600 ms. (c) 2 s. Les courbes en U, particulièrement évidentes dans (a), proviennent
de divisions successives de la grille dans le temps — comme si vous regardiez les pics d’une bande
de fréquences, avec les fréquences basses (et donc des pics plus espacés) dans la partie inférieure
(d’après Slaney et Lyon, 1992).
un signal musical s’il peut reconnaître celui-ci en tant qu’élément musical ou en tant que collection
d’éléments et s’il peut lier son analyse à des concepts musicaux au-dessus du niveau acoustique.
Nous pouvons diviser les systèmes musicaux CS en deux groupes : ceux qui tentent de simuler les
habiletés d’écoute des auditeurs humains entraînés (y compris les modèles du système auditif
humain), et ceux qui ne tentent pas d’émuler les habiletés d’écoute. Dans la première catégorie,
nous incluons les systèmes d’accompagnement expressif en temps réel, la classification de timbre
instrumental (séparation de source), et la transcription de musique à partir de sources polyphoniques.
Dans la seconde catégorie, nous incluons les tâches fastidieuses de réduction de données d’analyse
et d’extraction de la musique sur un bruit de fond. Un système pour la compréhension des signaux
musicaux peut englober de nombreux niveaux d’expertise. Mais nous nous contenterons dans
cette partie d’aborder les aspects généraux et de citer quelques exemples typiques.
13.8.1 Reconnaissance d’élément

Contrairement aux méthodes de traitement du signal purement numériques, qui transforment des
données d’une représentation à une autre par une opération mathématique globale, les systèmes
CS appliquent une reconnaissance d’élément pilotée par prévision pour rechercher et identifier des
paysages musicaux (Mont-Reynaud et Goldstein, 1985 ; Chafe et coll., 1982, 1985 ; Foster et coll.,
1982 ; Strawn, 1980, 1985a, b ; Dannenberg et Mont-Reynaud, 1987). Nous disons qu’elles sont
« pilotées par prévision », car elles ont été programmées pour rechercher des éléments typiques.
Par exemple, dans un système de transcription automatique qui commence d’une source acoustique,
l’analyse regarde tout d’abord les notes de musique. Après avoir segmenté les notes, il peut essayer
d’identifier leur timbre à partir d’une liste de modèles spectraux d’instruments analysés auparavant,
ou essayer de grouper les notes en éléments musicaux plus grands comme des triolets et des mesures
selon des règles de regroupement rythmique conventionnelles.
Les processus bas niveau de reconnaissance d’éléments sont souvent basées sur des indications
provenant d’études sur l’audition et la psychologie humaine. En utilisant de telles indications, ils
peuvent ou non essayer d’émuler l’intégralité des mécanismes d’audition humains et la cognition
musicale. La reconnaissance d’éléments de haut niveau est plus une question de suivi de règles con-
ventionnelles de style, qui sont bien plus dépendantes de la culture. Un système de classification de
hauteur développé pour la syntaxe rigide de la musique dodécaphonique viennoise serait proba-
blement perdu s’il était placé en face des nuances du chant indien classique.
13.8.2 Structure et stratégie de contrôle

Dans un traitement du signal ordinaire, la stratégie d’analyse n’est pas sujette à changement. Par
exemple, toutes les analyses de Fourier à court terme suivent la même séquence d’opérations. Au
contraire, un système CS peut prévoir une stratégie initiale qui est évaluée périodiquement, ce qui
peut altérer le cours de cette stratégie et prendre une approche différente si nécessaire. Ainsi, la struc-
ture et la stratégie de contrôle du système d’analyse sont un problème central dans la conception. Ceci
détermine la façon dont le travail est distribué parmi les différents agents d’analyse du système, et
comment ils communiquent entre eux. Parfois, une zone de mémoire commune appelée un tableau
noir est utilisée par les différents agents pour poster les résultats des stratégies d’analyse en com-
pétition. Cette information peut être utilisée par d’autres agents ou par une procédure de gestion de
prise de décision qui sélectionne les différentes hypothèses qui lui sont fournies (Mont-Reynaud,
1985b).
L’interaction entre les différents niveaux et composants d’un système d’analyse est un facteur crucial
d’efficacité (Minsky, 1981 ; Rosenthal, 1988). Par exemple, si l’analyse de rythme du niveau médian
peut établir un contexte métrique à partir d’événements précédemment détectés, cette connaissance
peut informer les détecteurs d’événements de bas niveau pour dire là où les événements suivants
risquent de se produire. Ou bien la connaissance du spectre des instruments joués dans une texture
polyphonique peut améliorer l’efficacité d’un système tentant de sélectionner les lignes individuelles
vocales dans la texture. D’un autre côté, Maher (1990) évoque les problèmes apparaissant lors de
la coordination de stratégies multiples.
En dehors des tâches clairement définies comme la transcription ou la réduction de données, un
domaine en évolution est la création de programmes d’analyse de musique de haut niveau (Brink-
man, 1990 ; Castine, 1993). De tels systèmes peuvent assister ou prendre en main certaines des
tâches inintéressantes des musicologues et des théoriciens de la musique. Enfin, ces programmes
devraient être capables de comprendre suffisamment bien la structure d’une composition pour
l’expliquer ou en créer des variations. Si la connaissance musicale requise pour de telles tâches n’est
pas préprogrammée, un sous-système d’apprentissage substantiel doit être incorporé au système.
13.8.3 Exemples de systèmes comprenant le signal
Les systèmes comprenant le signal commencent par la recherche décisive effectuée par J.A. Moorer
à l’université de Stanford pour créer un « scribe musical » (Moorer, 1975). La figure 13.15 montre
la stratégie suivie par Moorer. La figure 13.16 compare une partition originale avec la partition
transcrite par son système. Le travail de transcription automatique de musique de Moorer fut suivi
rapidement par celui de Piszczalski et Galler (1977).
Un exemple plus restreint de CS est l’interprétation de « l’explosion d’information » générée par des
systèmes tels que le vocodeur de phase (voir la présentation sur le vocodeur de phase au chapitre 11).
Les données d’analyse brutes (enveloppes d’amplitude et de fréquence pour chaque canal d’analyse)
générées par le vocodeur de phase peuvent prendre plusieurs fois l’espace mémoire du signal
d’entrée originel. Ces données sont pénibles à éditer et à interpréter manuellement. Les algorithmes
de réduction de données utilisant des méthodes de reconnaissance d’éléments peuvent être appli-
qués pour que les données soient manipulées par l’utilisateur sous une forme simplifiée, sans perte
significative de fidélité (Strawn, 1980, 1985b). Pour accomplir cette tâche, le système doit compren-
dre quelles parties de l’enveloppe sont importantes dans la perception humaine, et lesquelles ne le
sont pas.
Dans les années 1980, un autre système de transcription automatique de musique fut développé à
l’université de Stanford (Chowning et coll., 1984 ; Chowning et Mont-Reynaud, 1986). Ce système
analysait des interprétations enregistrées de musique (essentiellement des mélodies du dix-huitième
siècle) et tentait d’effectuer une transcription automatisée en partition musicale typique de cette
époque. Les interprétations déviaient de la partition originelle, et donc l’une des tâches du système
de transcription était de retrouver la partition originelle, et non ce qui était réellement joué. Ceci
nécessitait à la fois des processus analytiques de bas niveau et une connaissance des idiomes de la
notation du dix-huitième siècle. Une combinaison d’opérations bas niveau et haut niveau est
caractéristique des systèmes CS.
Une démonstration impressionnante des CS fut le WABOT-2 (figure 13.17), un robot construit par
un groupe d’étudiants et de professeurs à l’université Waseda (Tokyo), puis amélioré par la Sumitomo
Corporation au Japon (Matsushima et coll., 1985 ; Roads, 1986b). Le robot fut montré à des millions
de visiteurs à la Tsukuba World Expo en 1985 et 1986. WABOT-2 comprenait des signaux parlés,
des signaux musicaux, et des partitions visuelles. Il pouvait répondre à des requêtes exprimées en
japonais, et il pouvait lire la notation musicale. En mémorisant une partition placée devant son œil
de robot, WABOT-2 prévoyait son interprétation. Il pouvait également accompagner un chanteur
humain. Si le chanteur s’éloignait de l’intonation ou du rythme originel, le robot faisait des ajuste-
ments sur la hauteur de l’orgue et sur le rythme de l’accompagnement pour tenter de suivre le
chanteur (Roads, 1986b).
Enregistrement d'une interprétation

de musique
Détection préliminaire de hauteur
Filtres passe-bande accordés
Variation Amplitude
fréquentielle par bande
par bande
Estimation de la qualité
Enveloppes Enveloppes
de fréquence d'amplitude
Inférence de note
Liste de notes
Groupement de mélodies
Liste de voix Liste de voix

inférieure supérieure
Éditeur de partitions
Partition imprimée
Figure 13.15 – Stratégie d’un scribe automatique de musique

développé par James A. Moorer.
Figure 13.16 – Comparaison d’une partition originelle et d’une transcription

à partir d’une interprétation acoustique effectuée par le système de Moorer. La longueur des notes
les plus longues est sous-estimée, et il manque une note dans l’avant-dernière mesure. Le chan-
gement le plus apparent, cependant, provient du fait que la guitare était accordée d’un demi-ton
trop haut. L’esprit littéral de l’ordinateur a fidèlement retranscrit la partition un demi-ton trop haut
sur toute la longueur.
Figure 13.17 – WABOT-2, un robot musical développé en 1985

à l’université Waseda au Japon, puis achevé par les ingénieurs de la Sumitomo Corporation. Le robot
pouvait comprendre les ordres parlés (en japonais) et pouvait lire une partition pour accompagner
un chanteur sur un orgue. Il suivait l’interprétation du chanteur (hauteur et tempo) et ajustait son
propre jeu pour suivre celui-ci.
Chapitre 14
MIDI
Le protocole Musical Instrument Digital Interface (Interface numérique pour instrument de

musique), ou MIDI, a été décrit comme un schéma d’interconnexion entre des instruments et des
ordinateurs, comme un ensemble d’indications sur la transmission de données d’un instrument à
un autre, et comme un langage pour transmettre des partitions de musique entre des ordinateurs
et des synthétiseurs. Toutes ces définitions ne contiennent qu’un aspect du MIDI.
Le MIDI a été conçu pour le contrôle en temps réel de machines de musique. La spécification MIDI
stipule un schéma d’interconnexion matérielle et une méthode pour les communications de données
(IMA, 1983 ; Loy, 1985c ; Moog, 1986). Elle spécifie également une grammaire pour encoder l’infor-
mation d’interprétation musicale. L’information MIDI est emballée en petits messages envoyés d’une
machine à l’autre. Par exemple, un message peut spécifier les temps de départ et de fin d’une note
de musique, sa hauteur, et son amplitude initiale. Un autre type de message, transmis à intervalles
réguliers, transporte les impulsions d’une horloge maître, ce qui rend possible la synchronisation
de plusieurs instruments MIDI sur un séquenceur qui émet ces messages.
Chaque machine MIDI contient un microprocesseur qui interprète et génère des données MIDI.
Toutes les configurations MIDI n’ont pas besoin d’un ordinateur, bien qu’il y ait de nombreux avan-
tages à en inclure un.
Ce chapitre décrit la nature du MIDI en détail. L’information fournie ici devrait être amplement
suffisante pour la plupart des utilisateurs. Notre intention n’est pas cependant de remplacer la spéci-
fication MIDI officielle et les nombreux ajouts et suppléments qui y sont apportés de temps à autre.
Il s’agit de documents essentiels pour quiconque développe du matériel ou des logiciels MIDI. Voir
la partie Contacts sur le MIDI à la fin de ce chapitre pour savoir où commander des documents
MIDI officiels. Rothstein (1992) et Yavelow (1992) sont de bonnes sources pour obtenir des conseils
sur le réglage des systèmes MIDI.
14.1 Comparaison des données de contrôle MIDI et du son

Lorsque nous faisons un pas en arrière, nous réalisons qu’il n’y a rien de propre à la musique dans
le MIDI. C’est-à-dire que ce n’est pas de la musique que communique le MIDI. En fait, le MIDI est un
moyen de transmettre de l’information sur des appuis de touches, des rotations de boutons et des mani-
pulations de manettes de jeu. Ce que ces transducteurs contrôlent est presque secondaire. (William
Buxton, 1986)
Les messages MIDI sont comparables aux rouleaux des pianos mécaniques d’autrefois, en ce qu’ils
représentent (en général) des données de contrôle plutôt que des formes d’ondes sonores. Ces don-
nées de contrôle incluent des messages comme « commencer un événement de note maintenant »,
« sélectionner un nouveau patch maintenant », « modifier un paramètre maintenant ». Une
séquence de messages de note MIDI définit une mélodie, tandis que d’autres paramètres sonores
(en premier lieu le choix de l’instrument et tous les pitchbends associés aux notes) sont transportés
par des types séparés de message. Bien que la plupart des applications MIDI ne communiquent que
des données de contrôle, il est également possible de transférer des formes d’ondes audio échantil-
lonnées sous certaines conditions (voir plus loin la partie sur le transfert de données audio).
Le timbre sonore n’est pas explicitement encodé en tant que message MIDI. Le choix de la technique
de synthèse, les enveloppes et les effets de traitement du signal sont tous gérés par la machine récep-
trice. Ceci signifie que le même message envoyé à deux synthétiseurs ou échantillonneurs différents
peut créer des sons totalement dissemblables. Le mode General MIDI, ajouté à la spécification
MIDI en 1990, fournit un ensemble de 128 noms de timbre prédéfinis. Ceci ajoute un degré d’uni-
formité timbrale, surtout dans les applications commerciales de la musique, et n’occupe qu’un
sous-ensemble minuscule de l’espace des timbres musicaux. Même dans ce cas, un nom de timbre
donné (par exemple, « Piano [Bright Acoustic] » n’aura pas exactement le même son sur des machines
de constructeurs différents. Ceci est dû au fait que chaque constructeur enregistre ses propres échan-
tillons, et que l’architecture interne et les spécifications audio des synthétiseurs sont différentes.
14.2 Origines : la spécification MIDI 1.0

Le contrôle des synthétiseurs par ordinateur a commencé des années avant la conception du MIDI.
Ces systèmes hybrides utilisaient un contrôle numérique pour piloter des synthétiseurs analogiques.
Comme le montre la figure 14.1, l’ordinateur produisait un flux de fonctions de contrôle (en général
des enveloppes d’amplitude et de hauteur) qui était envoyé vers un canal CNA par un démultiplexeur
(machine divisant un flux numérique haute vitesse en plusieurs flux plus lents). Le CNA convertis-
sait les fonctions de contrôle numériques en tensions qui étaient envoyées vers les entrées de con-
trôle des modules du synthétiseur (comme les oscillateurs, les filtres et les amplificateurs). La plupart
des systèmes hybrides peuvent également repatcher (interconnecter) instantanément les modules
du synthétiseur en de nouveaux instruments de traitement du son.
Les premiers synthétiseurs hybrides furent le système GROOVE développé aux Bell Telephone
Laboratories au début des années 1970 (Mathews et Moore, 1970) et les merveilleux systèmes
HYBRID d’Edward Kobrin (Kobrin, 1977), développés initialement à l’université de l’Illinois puis
à l’université de San Diego. Dans les deux cas, tout le matériel d’interface était construit sur place,
et les protocoles logiciels étaient propres à chaque système.
À la fin des années 1970, il devint possible de construire des microprocesseurs bon marché pour
contrôler des synthétiseurs. Des synthétiseurs hybrides et numériques contrôlés par microproces-
seur furent vendus, mais ils n’étaient compatibles avec aucun autre. C’est-à-dire que la musique et le
Ordinateur
N canaux de signaux
numériques d’enveloppe
Multiplexeur
Canal 1 .. Canal N
.
CNA CNA CNA
Tensions
de contrôle analogiques
VCO VCF VCA Voix de synthétiseur

analogique
Vers la table de mixage
Figure 14.1 – Schéma de contrôle hybride.

L’ordinateur génère des enveloppes numériques qui sont dirigées par un multiplexeur vers plusieurs
canaux de CNA. Les signaux analogiques émis par les CNA sont envoyés dans les entrées contrôlées
par tension des modules du synthétiseur analogique. La sortie audio d’un oscillateur contrôlé par
tension (VCO) est ici envoyée dans un filtre contrôlé par tension (VCF), qui est lui-même envoyé dans
un amplificateur contrôlé par tension (VCA). Un mélangeur combine les N voix du synthétiseur en
un signal composite.
logiciel développés sur un système ne pouvaient pas être transférés sur un autre. Aucune méthode
standard n’existait non plus pour synchroniser l’interprétation d’un instrument avec un autre.
Cet état des lieux incita la création du protocole MIDI. Les débuts du MIDI remontent à des contacts
informels entre plusieurs constructeurs de synthétiseurs américains et japonais en 1981, en parti-
culier Sequential Circuits, Oberheim et Roland Corporation. Ces rencontres conduisirent à des
communications accrues entre un plus grand nombre de sociétés en 1982 et à la rédaction d’une
spécification préliminaire d’une interface de musique numérique par David Smith de la société
Sequential Circuits. La première version était le fruit d’une collaboration soutenue entre Smith et
plusieurs autres sociétés, notamment Roland et Oberheim (D. Smith, 1984).
Les premiers instruments MIDI furent lancés sur le marché au début de 1983. En août de cette
même année, la version 1.0 de la spécification MIDI fut publiée par un consortium de constructeurs
de synthétiseurs japonais et américains. La spécification a depuis été amendée de nombreuses fois
(pour obtenir la dernière version de la spécification, contacter l’International MIDI Association
dont les coordonnées se trouvent dans la partie Contacts sur le MIDI à la fin de ce chapitre). Les
synthétiseurs hybrides sont par ailleurs toujours construits. Dans ceux qui ont été fabriqués depuis
1983, le protocole de contrôle est le MIDI.
14.3 Possibilités musicales du MIDI

Un grand nombre de possibilités musicales émergent d’un système câblé pour le MIDI :
1. Le MIDI sépare la machine d’entrée (par exemple un clavier) du générateur de sons (synthé-
tiseur ou échantillonneur). Le MIDI élimine donc la nécessité d’avoir un clavier branché sur
chaque synthétiseur. Un seul clavier peut jouer un grand nombre de synthétiseurs.
2. La séparation du contrôle et de la synthèse signifie que n’importe quelle machine d’entrée
(contrôleur de souffle, instrument de type cor, boîte à rythmes, guitare, etc.) peut contrôler
un synthétiseur. Ceci a conduit à une vague d’innovations dans la conception de machines
d’entrée. Même un microphone peut devenir une machine d’entrée MIDI si un convertisseur
hauteur-MIDI lui est attaché (cette machine recherche la hauteur d’un son passant par le
microphone et génère les messages de note MIDI correspondants aux hauteurs qu’elle détecte).
3. Des logiciels d’interprétation interactive, de composition algorithmique, d’édition de partition,
d’édition de patch et de séquence peuvent tourner sur l’ordinateur avec les résultats transmis
au synthétiseur. Dans le sens inverse, des partitions, des interprétations, des accordages de
voix ou des échantillons peuvent être créés sur le synthétiseur et transférés dans l’ordinateur
pour être édités ou stockés.
4. Le MIDI rend le développement de logiciels de musique « génériques » (indépendants de la
machine) plus facile. Un logiciel de musique générique tourne sur un ordinateur personnel
et pilote des synthétiseurs construits par différentes sociétés. Un exemple de logiciel généri-
que est un séquenceur qui permet à un musicien d’enregistrer une composition polypho-
nique en travaillant une ligne à la fois. La composition peut être orchestrée de différentes
façons en utilisant un groupe de synthétiseurs ou un seul synthétiseur multitimbral (un tel
synthétiseur est capable de jouer plusieurs voix ou timbres simultanément). Un logiciel d’édu-
cation musicale générique enseigne les concepts fondamentaux de la musique, sans se soucier
du type de synthétiseur ou d’échantillonneur utilisé pour illustrer ces concepts.
5. Le MIDI rend le développement de logiciels de musique « ciblés » (logiciels conçus pour une
machine spécifique) plus facile. Un logiciel de musique ciblé peut être un programme d’éditeur
/bibliothèque de patch, qui remplace la face avant d’un synthétiseur, d’un échantillonneur ou
d’un processeur d’effets. En poussant et en ajustant des boutons graphiques sur l’écran avec
une souris, il est possible de contrôler le synthétiseur comme si l’on manipulait ses contrôleurs
physiques.
6. Les codes MIDI peuvent être réinterprétés par d’autres machines que des synthétiseurs,
comme des boîtes d’effets de traitement du signal (réverbérateurs, etc.). Ceci offre la possi-
bilité d’un contrôle en temps réel des effets, comme de changer le retard ou le temps de réver-
bération. Le MIDI peut synchroniser des synthétiseurs avec d’autres médias comme les sys-
tèmes d’éclairage. Le MIDI peut également être lié à d’autres protocoles de synchronisation
(comme le code temporel SMPTE) pour coordonner de la musique avec de la vidéo et des
graphismes. Une autre application spécialisée du MIDI est le contrôle des mélangeurs audio.
Voir le chapitre 2 pour une présentation de l’automatisation de console par MIDI.
7. Il est possible d’échanger des partitions, des séquences et des données d’échantillonnage par
le MIDI entre des machines construites par différents fabricants.
14.4 Matériel MIDI

Le matériel MIDI implémente un protocole simple pour la transmission et la réception de signaux
électroniques. Avant d’expliquer le matériel, il est important de connaître la forme de base des
signaux MIDI. Les messages MIDI transmis entre les machines sont envoyés sous forme binaire
série, c’est-à-dire sous la forme d’une série d’impulsions (octets) envoyées l’une après l’autre. La
transmission survient de façon asynchrone, c’est-à-dire dès qu’une machine décide d’envoyer un
message. Ceci se produit en général lorsqu’un événement survient (par exemple, lorsqu’un musicien
appuie sur une touche de son clavier).
Le taux de transmission standard est de 31 250 bits par seconde. Cette valeur provient de la division
de la fréquence d’horloge courante par 32.
Le matériel gérant ces signaux inclut les ports MIDI et les interfaces informatiques MIDI, qui sont
le sujet des deux prochaines parties.
14.4.1 Ports MIDI

Un port MIDI sur une machine reçoit et transmet les messages. Le port de base est constitué de
trois connecteurs : In, Out et Thru. Ces connecteurs sont en général des fiches DIN à cinq broches
(DIN est l’acronyme de l’organisation de normes allemande qui a conçu les connecteurs). La con-
nexion des fiches est spécifique à la norme MIDI : les câbles DIN audio ordinaires ne sont pas conçus
pour fonctionner dans un système MIDI. En particulier, le protocole MIDI connecte deux broches
sur le port récepteur (MIDI In), tandis qu’une troisième broche est connectée à la masse dans le
port MIDI Out (figure 14.2). Ceci permet au câble d’être blindé par rapport aux problèmes de masse
sur une longueur allant jusqu’à quinze mètres. Remarquez dans la figure 14.2 comme les broches
1 et 3 ne sont jamais utilisées.
Vers Depuis
UART UART
Opto-
isolateur
Α Α
2 Vcc Vcc
4 5
1 3
In Thru Out
Figure 14.2 – Un port MIDI de base.

Le connecteur In montre la numérotation standard de broche. L’opto-isolateur connecté au port In
est constitué d’une diode émettant de la lumière avec sa sortie lumineuse dirigée sur une photo-
résistance, les deux étant enfermées dans un logement opaque. Le signal MIDI allume et éteint la
lumière, ce qui déclenche et arrête la photorésistance. Le triangle marqué A est un amplificateur
tampon qui augmente le signal avant que celui-ci ne soit envoyé à la machine suivante. Vcc indique
une source de courant. La puce UART est expliquée dans le texte.
Les connecteurs sont isolés optiquement (convertis en signaux optiques aux extrémités) pour se
prémunir du ronflement et des interférences des autres signaux électriques. Les signaux sont enfin
dirigés vers une puce récepteur/transmetteur asynchrone universel (universal asynchronous receiver
/transmitter – UART).
La puce UART constitue toute la puissance du port MIDI. Elle assemble ou trame les bits en entrée
par paquets de 10, en les récupérant les uns après les autres. Le premier bit a toujours une valeur
de zéro, et le dernier une valeur de 1. Il s’agit respectivement des bits de départ et de fin, qui initient
et terminent une transmission. La puce UART ne tient pas compte des bits de départ et de fin et ne
conserve que le contenu : un octet de 8 bits (figure 14.3). Elle transmet l’octet au microprocesseur
situé dans la machine MIDI (synthétiseur, échantillonneur, unité d’effets, etc.) pour être décodé.
Décoder l’octet et agir sur son contenu prend un certain temps. Celui-ci dépend de la vitesse du
microprocesseur de la machine MIDI réceptrice et non de la vitesse de transmission MIDI. Marans
(1991) constitue une étude des retards créés par des synthétiseurs populaires, tandis que Russ
(1993) étudie les retards créés par les ordinateurs et les séquenceurs. Voir également plus loin la
partie Retards de microprocesseur. Pour transmettre des données MIDI vers une autre machine,
la puce UART émet un bit de départ (0) avec chaque mot, suivi d’un bit de fin (1) lorsque la transmis-
sion de ce mot est achevée.
Bit de départ Bit de fin
Bit état/données
0 11001001 1
Octet de données
7 bits
Figure 14.3 – Anatomie d’un message MIDI.

Le bit état/données indique si ce message est une commande ou un argument d’une commande.
Électriquement, le MIDI est une boucle de courant, ce qui signifie qu’elle se base sur une commutation
en circuit et hors circuit du courant, et non de la tension, pour représenter les niveaux logiques. Le
courant « en circuit » est de 5 mA, et représente une valeur binaire de 0. Le courant « hors circuit »
représente une valeur binaire de 1.
✦ Connexion en chaîne et patchbays MIDI
Le port MIDI Thru dirige les données en entrée vers une autre machine MIDI avec un traitement
minimal. Le signal à la sortie Thru est une réplique du signal qui alimente le support In. C’est-à-dire
qu’un port Thru « réamplifie » le signal et le transmet au port In de la machine connectée suivante.
Connexion en chaîne ne signifie pas court-circuitage des machines intermédiaires. Chaque machine
de la chaîne interprète les messages entrants et peut ou non leur répondre.
(a) Lecture du séquenceur (b) Lecture du clavier

vers l’échantillonneur clavier vers le séquenceur
Séquenceur Séquenceur
matériel matériel
Out In
In Thru
Synthétiseur 1 Synthétiseur 1
Thru In
In Thru
Synthétiseur 2 Synthétiseur 2
Thru In
In Out
Échantillonneur Échantillonneur
clavier clavier
Figure 14.4 – Connexion en chaîne de machines MIDI avec un connecteur MIDI Thru.
(a) Lecture depuis un séquenceur matériel vers deux synthétiseurs et un échantillonneur. (b) Inverser
la chaîne, c’est-à-dire enregistrer depuis l’échantillonneur clavier dans le séquenceur, nécessite de
recâbler celle-ci. Aucune donnée MIDI supplémentaire n’est apportée par les deux synthétiseurs
intermédiaires, bien qu’ils puissent émettre des sons lorsque le claviériste joue.
De cette façon, les machines MIDI peuvent être connectées en chaîne en une série de machines
(figure 14.4a). Remarquez comme la connexion en chaîne n’existe que dans un sens (Thru vers In).
L’inversion du trajet des données suppose de recâbler le système (figure 14.4b).

Bien qu’un lien par un connecteur MIDI Thru soit en théorie « électriquement transparent », des
pertes de transmission (distorsion de la forme d’onde numérique) surviennent dans la pratique après
plus de liens. En effet, l’opto-isolateur adoucit les sommets des impulsions MIDI (Penfold, 1991).
L’adoucissement peut conduire aux « erreurs de trame » dans les transmissions MIDI des con-
nexions en chaîne (figure 14.5), ce qui signifie que les messages sont brouillés. L’effet sur le son est
aléatoire, selon le type de messages impliqué : notes manquantes ou bloquées, messages inappro-
priés, etc.
Pour résoudre ces problèmes et faciliter le repatchage, il est conseillé d’utiliser une patchbay MIDI
centrale pour gérer l’interconnexion d’un groupe de machines (figure 14.6). C’est-à-dire que la
patchbay dirige chaque signal d’entrée MIDI vers une ou plusieurs de ses sorties. Chacune des autres
machines MIDI est directement connectée à la patchbay (voir la partie Accessoires MIDI). Remarquez
qu’une patchbay MIDI n’est pas une patchbay audio, comme cela est expliqué au chapitre 15. Elles
(a)
(b)
C
Temps
Figure 14.5 – Brouillage des impulsions MIDI.

Les tracés montrent le courant (C) en fonction du temps. (a) Série originelle d’impulsions MIDI.
(b) Le même signal après être passé dans plusieurs connexions Thru.
Sources MIDI
Destinations MIDI
Figure 14.6 – Patchbay MIDI, avec huit sources et huit destinations possibles.
Une source peut être reliée aux huit destinations. Les lignes pointillées indiquent le « patch » ou
trajet du signal courant entre les machines. Les données transmises sont des données MIDI et non
des signaux audio.
ont une même fonction — simplifier l’interconnexion d’un certain nombre de machines —, mais
pour des types de signaux différents (messages MIDI dans un cas, signaux audio dans l’autre).
14.4.2 Interfaces informatiques MIDI
Certains ordinateurs ne possèdent pas de ports MIDI intégrés. Dans ce cas, il est nécessaire de con-
necter une interface informatique MIDI à l’ordinateur. Cette interface transmet de l’ordinateur
vers son port MIDI Out et convertit les messages entrants dans le port MIDI In dans le protocole
requis par l’ordinateur. Il existe trois types de base d’interfaces : série, parallèle et multiports.
✦ Interface série
Une interface série transmet et reçoit des données depuis et vers l’ordinateur avec un bit à la fois,
tout comme le protocole MIDI lui-même. Une interface série se connecte sur le port entrée/sortie
série de l’ordinateur (figure 14.7a). Une interface informatique MIDI attachée à un port série est une
simple machine constituée d’une puce UART avec un circuit de génération d’horloge, une étape de
sortie, et une étape d’entrée isolée optiquement.
(a)
Interface
Ordinateur
informatique
Un bit
à la fois MIDI
Port série In Out
Vers et depuis
un appareil MIDI
(b)
Ordinateur Interface
8 bits informatique
à la fois MIDI
Port In Out
parallèle
Vers et depuis
un appareil MIDI
(c)
Ordinateur Transmission Interface informatique
parallèle MIDI multiligne
ou quasi-parallèle
Port parallèle
In Out In Out ...
ou multiples
ports série
Vers et depuis
des appareils MIDI
Figure 14.7 – Interfaces informatiques MIDI.

(a) Interface série simple pour 16 canaux. (b) Interface parallèle pour 16 canaux.
(c) Interface multiports fournissant plusieurs lignes de 16 canaux.
✦ Interface parallèle
Un autre type d’interface se connecte au port parallèle de l’ordinateur, qui en général transmet huit
bits à la fois (figure 14.7b). Le port parallèle peut fonctionner à plusieurs fois la vitesse du MIDI,
ce qui signifie que l’ordinateur peut transmettre et recevoir des données MIDI rapidement, ce qui
le laisse libre pour d’autres tâches. Une partie de la transmission et de la réception de données MIDI
peut être déchargée sur l’interface MIDI parallèle. Bien que l’interconnexion parallèle avec l’ordi-
nateur soit rapide, le taux de base du MIDI envoyé vers d’autres machines ne change pas. Ceci signifie
que l’interface parallèle doit garder en mémoire tampon des données envoyées par l’ordinateur
avant que celles-ci ne puissent être transmises en série au reste des machines de la chaîne MIDI.
✦ Interface multiports
Une interface MIDI multiports connecte l’ordinateur à plusieurs lignes MIDI indépendantes
(figure 14.7c). Chaque ligne peut être conçue comme un réseau MIDI 16 canaux séparé. Certains
séquenceurs fonctionnent avec les interfaces multiports, ce qui permet à l’utilisateur de contourner la
limitation du nombre de canaux fixée par le protocole MIDI (voir plus loin la partie Canaux MIDI).
Pour des installations MIDI à multiples machines, une interface multiports peut simplifier de
nombreux problèmes d’envoi et de contrôle.
14.5 Pilotes MIDI

Chaque synthétiseur ou support de traitement du signal numérique (DSP) ayant un port MIDI
contient un microprocesseur. L’une des tâches du microprocesseur est de décoder les messages qui
lui sont envoyés par la puce UART et de provoquer la réponse appropriée. Le microprocesseur doit
également traduire les gestes humains enregistrés sur ses machines d’entrée en une séquence
appropriée de messages MIDI à envoyer par son port de sortie. Le programme qui gère cette fonction
d’entrée et sortie MIDI est appelé le pilote MIDI. En fait, le pilote « possède » le port d’entrée/sortie,
car toutes les communications MIDI doivent passer par lui.
Un ordinateur ayant un logiciel MIDI a également besoin d’un pilote MIDI. Dans le passé, certains
programmes comme les séquenceurs possédaient leurs propres pilotes MIDI. Cela convenait bien
à des programmes indépendants fonctionnant dans un système gérant un programme à la fois.
Mais avec les systèmes multitâches, qui peuvent faire tourner plusieurs programmes en simultané,
un pilote MIDI a été intégré au système de certains ordinateurs. En étant intégré au système, le pilote
MIDI devient une ressource partagée qui peut être utilisée par plusieurs programmes fonctionnant
en parallèle. Dans ce cas, le pilote MIDI gère l’utilisation du port d’entrée/sortie entre les différents
programmes.
14.6 Canaux MIDI

Le protocole MIDI permet à une machine d’envoyer des messages à travers un à seize canaux dif-
férents pour atteindre plusieurs machines, ou plusieurs flux de données logiques sur une seule
machine (dans un synthétiseur multitimbral, ces différents flux de données correspondent en général
à des timbres ou des patchs séparés). Les canaux MIDI ne sont pas des connexions physiques sépa-
rées, comme le sont les pistes d’un magnétophone à bande multicanal. En fait, un canal MIDI est
comme une adresse électronique qui identifie un paquet d’information numérique, en spécifiant sa
destination ultime. Par exemple, un canal peut contenir des messages de contrôle pour modifier
un certain paramètre sur une machine spécifique.
Les seize canaux peuvent être dirigés sur un seul câble MIDI physique. Chaque machine réceptrice
est réglée à l’avance pour écouter un ou plusieurs canaux.
Chaque canal MIDI correspond à un flux distinct de données. Dans le cas le plus simple, chaque
canal transporte des données pour une partie en particulier d’une partition polyphonique. Par
exemple, un canal peut transporter l’information pour la partie de caisse claire d’une boîte à rythmes,
tandis qu’un autre canal joue une voix legato de synthétiseur. Un synthétiseur multitimbral qui peut
jouer plusieurs voix avec des timbres différents simultanément accepte plusieurs canaux de données
MIDI — un pour chaque timbre. Dès lors, il est possible d’orchestrer une composition en assignant
des parties musicales différentes aux différents canaux MIDI (figure 14.8). L’orchestration peut être
modifiée en changeant les assignations partie-canal.
Clavier
Ordinateur
1 2
Point
de partage
Interface informatique MIDI
In
Thru Out
1 et 2
Synthétiseur
1
(10 voix 3 à 10
multitimbral)
Synthétiseur
2 11 à 14
(4 voix
multitimbral)
Unité d’effets 15
1
Unité d’effets 16
2
Figure 14.8 – Une vue logique (et non physique) d’un mécanisme de canal MIDI.
La sortie du clavier est séparée en deux canaux d’information, 1 et 2. Pour enregistrer une interpré-
tation au clavier, ces deux canaux sont dirigés vers l’ordinateur, qui contient un séquenceur logiciel.
Pour entendre l’interprétation, les canaux 1 et 2 sont dirigés par l’interface informatique MIDI vers
le synthétiseur 1. L’ordinateur contrôle deux synthétiseurs et une unité d’effets, et reçoit des données
d’un clavier. Un total de douze canaux MIDI peuvent être utilisés en même temps dans cette confi-
guration. Le synthétiseur 1 est un synthétiseur multitimbral à dix voix, tandis que le synthétiseur 2
possède quatre voix, et les unités d’effets répondent chacune à un canal.
14.6.1 Plus de seize canaux

Il est possible de gérer plus de seize canaux MIDI avec un seul ordinateur, dans la mesure où le sys-
tème est configuré pour accepter de multiples lignes MIDI. Nombre d’ordinateurs, d’interfaces et
de logiciels récents acceptent en standard deux lignes MIDI séparées de seize canaux. Les ordinateurs
plus anciens nécessitent l’ajout d’une interface MIDI. L’interface supplémentaire fournit seize autres
canaux adressés à travers le port alternatif et son propre câblage. Afin que ce schéma fonctionne,
le logiciel MIDI doit être capable d’interagir avec plusieurs ports. Les interfaces multiports et les
logiciels compatibles peuvent augmenter le nombre de canaux disponibles jusqu’à plusieurs centaines.
Ces schémas implémentent une extension à l’adressage de canal MIDI utilisant des messages non
standards.
Le mécanisme de mode MIDI, qui spécifie comment une machine interprète les données propres à
un canal, est une autre façon d’augmenter la flexibilité des envois. Comme les modes MIDI peuvent
ne pas être très clairs au début, nous ne les aborderons qu’après avoir poursuivi notre explication
des messages MIDI.
14.7 Messages MIDI

La spécification MIDI décrit un langage de messages envoyés de machine à machine. Les expressions
dans le langage MIDI sont des séquences de bits pouvant être analysées en mots de 10 bits. Un ou
plusieurs mots constituent un message MIDI. Pour les besoins de cette présentation, nous supposons
que les bits de départ et de fin attachés ont été retirés, ne laissant qu’une série d’octets de 8 bits.
Les messages auxquels n’importe quelle machine MIDI répond sont imprimés dans son tableau
d’implémentation MIDI, un document publié par le constructeur.
Le tableau 14.1 énumère l’ensemble des messages MIDI. Afin de comprendre ce dernier, il est utile
de connaître la syntaxe et la sémantique du protocole MIDI — la grammaire du MIDI, en quelque
sorte. Cette grammaire contient la distinction entre octets d’état et de données, ainsi que les diffé-
rentes catégories de messages MIDI. Avant d’expliquer tout cela, cependant, prenons un moment
pour comprendre un détail important de la spécification MIDI : sa représentation de la hauteur.
14.7.1 Représentation MIDI de la hauteur

Le premier message du tableau 14.1 est un message de note-on — la méthode qu’utilise le MIDI
pour signaler le départ d’un événement sonore. Un message de note-on contient un champ de
7 bits correspondant à la valeur de hauteur. Puisque 27 = 128, ceci signifie que l’étendue de hauteur
MIDI s’étend sur 128 hauteurs. La spécification MIDI impose que ces hauteurs soient de tempéra-
ment égal, bien qu’elles puissent être « courbées » en dehors du tempérament égal grâce au mes-
sage de pitchbend (le sixième message du tableau 14.1). Un des problèmes du message de pit-
chbend est qu’il s’agit d’une opération globale s’appliquant à toutes les notes d’un canal donné.
Ceci rend difficile l’application d’un pitchbend sur une seule note d’un accord (comme cela se fait
par exemple avec une guitare pedal steel) sans passer par une solution de fortune impliquant de
multiples canaux.
L’étendue de hauteur MIDI commence en général dans l’octave infrasonore avec les numéros de
touche 0 à 12. Cette octave va de C0 MIDI ou 8,17 Hz à C1 MIDI ou 16,32 Hz. La touche 60 repré-
sente C5 MIDI ou 261,63 Hz (do du milieu MIDI). Dans de nombreux textes sur la théorie musi-
cale, le do du milieu (261,63 Hz) est en général considéré comme étant C4, et le nom MIDI des
octaves n’est donc pas standard. De toutes les façons, tous les constructeurs ne se conforment pas
au schéma des noms de hauteur du MIDI. Certaines sociétés appellent la touche 60 C3, C4 ou C5.
La touche la plus haute, 127, représente G10 MIDI ou 12 543,89 Hz.
La plupart des synthétiseurs permettent au musicien de modifier l’assignation touche-hauteur.
Dans le cas le plus simple, le synthétiseur possède un contrôle « accordage global » qui permet de
déplacer l’étendue par une constante logarithmique. Par exemple, on peut accorder le synthétiseur
pour que A5 MIDI (diapason) corresponde à 438 Hz ou 442 Hz au lieu de 440 Hz, ou bien accorder
tout le système d’une octave vers le haut pour que C4 MIDI corresponde au C4 habituel.
Dans certains synthétiseurs, on peut modifier l’assignation de hauteur touche par touche, pour qu’au
lieu de répondre en tempérament égal, le synthétiseur réponde sur une échelle différente. Malheu-
reusement, certains synthétiseurs limitent le réaccordage à une limite d’une octave. C’est-à-dire que
l’on peut réaccorder les douze hauteurs d’une seule octave, le synthétiseur répétant simplement ce
Tableau 14.1 – Types de messages MIDI.
Voix de canal — Adressée à un canal MIDI spécifique
Note-on Si vous jouez une note sur le clavier, le synthétiseur joue la note et envoie un
message de trois octets à travers le port MIDI Out. Si nous devions traduire un
message en français, il pourrait avoir la forme suivante :
Événement de note : activé
Canal : 1
Numéro de touche : 60 (do du milieu)
Vélocité : 116 (fortissimo)
Note : le terme « vélocité » fait référence à la façon dont un clavier MIDI
détecte avec quelle force sont jouées les touches. Si vous appuyez fortement et
rapidement sur un clavier, le temps entre la position de repos et la position
basse de la touche est très court, ce qui signifie que celle-ci s’est déplacée à une
vélocité élevée. Un appui doux de la touche déplace celle-ci à une vélocité lente.
Une vélocité élevée associée à une note signifie donc en général « fort », tandis
qu’une vélocité faible signifie « doux ». Mais une machine MIDI peut interpréter
la valeur de vélocité de la façon dont elle veut, en la liant par exemple au con-
trôle de brillance ou à la largeur de bande d’un filtre. Un clavier mesurant la
vélocité des enfoncements de touche est appelé sensible à la vélocité.
Note-off Lorsque la note est relâchée, le clavier envoie un autre message de trois octets :
Événement de note : désactivé
Canal : 1
Numéro de touche : 60 (do du milieu)
Vélocité : 40 (piano ou doux)
Au lieu d’un message de note-off, certains synthétiseurs transmettent une note-
on avec une vélocité de 0.
Pression de touche Le message de trois octets transmet la pression du doigt détectée par le clavier
polyphonique et indique (1) canal, (2) numéro de touche de la note et (3) pression de la
(aftertouch) touche.
Pression de canal Ceci transmet la pression « moyenne » appliquée sur le clavier de toutes les
(aftertouch notes enfoncées. Le message contient deux octets : canal et pression de canal
de touche multiple) (0-127, avec 127 étant la pression maximale).
Changement Informe une machine réceptrice que la position d’une molette, d’un levier, d’un
de contrôle potentiomètre, d’une pédale ou d’un autre contrôleur continu spécifique est
modifiée. Ceci est effectué en envoyant un nouveau message de trois octets à
chaque fois que le contrôleur est modifié. Après l’octet de statut, le premier octet
de données indique le numéro du contrôleur et le second indique la valeur. Les
contrôleurs 32 à 63 sont définis comme « octet le moins significatif pour les
valeurs 0 à 31 ». Cela signifie que ces contrôleurs peuvent être couplés logique-
ment aux contrôleurs 0 à 31. C’est-à-dire que nous prenons l’octet de données
pour le contrôleur 0 comme étant l’octet le plus significatif (résolution gros-
sière) et l’octet de données pour le contrôleur 32 comme étant l’octet le moins
significatif (résolution fine), ce qui conduit à 14 bits de résolution. La résolution
de 14 bits complète est utilisée pour les numéros de paramètres enregistrés et
non enregistrés (voir la partie sur les numéros de paramètres).
Pitchbend Ce contrôleur utilise deux octets de données pour une résolution de 14 bits ou
16 384 divisions de hauteur. Un octet indique une plage grossière et l’autre indique
une plage fine. La plage du pitchbend est réglée sur le synthétiseur ou l’échan-
tillonneur affecté. Une molette de pitchbend qui est déplacée lentement peut
générer des milliers de messages de pitchbend. La quantité de changement
Tableau 14.1 (suite) – Types de messages MIDI.
de hauteur correspondant à une valeur particulière de pitchbend est un choix

effectué par le constructeur d’un synthétiseur donné.
Changement Les messages de changement de programme contiennent un octet de sélection

de programme de canal et un octet de sélection de programme. Ceux-ci font que la machine
réceptrice passe sa voix ou son patch sur le numéro de programme désigné.
Par exemple, un changement de programme peut dire à un échantillonneur
sur le canal 4 de passer d’un son de piano à un son d’orgue. Ces messages de
changement disent aux unités d’effets de passer par exemple d’un programme
de réverbération à un programme de chorus.
Sélection Ce message passe un système sur la banque de patch spécifiée (jusqu’à 16 384
de banque banques de patch). Ceci est pratique pour les machines permettant plus de
128 patchs, voix ou programmes, car le message habituel Changement de
programme ne permet que 128 valeurs.
Mode de canal — Transmet le mode d’un message (voir Tableau 14.2)
Contrôle clavier Rompt la connexion entre le clavier et le générateur de son d’un synthétiseur.
local/déporté En mode Déporté ou Local désactivé, un instrument pouvant générer des sons
transmet les messages de note par son port MIDI Out, mais pas à son synthé-
tiseur interne. Celui-ci peut être contrôlé à distance par des messages générés
en externe entrants dans le port MIDI In de l’instrument.
Extinction des notes Un message d’urgence qui arrête toutes les notes.
Réinitialisation de Replace tous les contrôleurs sur leur état initial optimum. Par exemple, un tel
tous les contrôleurs message replacerait une molette de vibrato sur 0 (pas de vibrato).
Sélection de mode Sélectionne le mode MIDI ; voir le Tableau 14.2.
Système commun — Envoyé à toutes les machines sur tous les canaux ; ces messages furent
conçus pour régler les séquenceurs sur le morceau et la mesure appropriés à la lecture
Pointeur de position Adresse une séquence en termes d’une quantité de 14 bits représentant le
de morceau nombre de pulsations d’horloge MIDI survenues depuis le début du morceau
(6 horloges MIDI — 1 pulsation).
Sélection de morceau Sélectionne l’un des 128 fichiers de morceau dans une bibliothèque de
séquenceur.
Requête d’accordage Initie des routines dans un synthétiseur analogique pour accorder les oscilla-
teurs.
Fin de Système exclusif Termine un message Système exclusif (voir ci-dessous).
Quart d’image Utilisé par les instruments qui transmettent ou reçoivent du code temporel
MIDI (MTC). Chacune des huit variations de message agit comme pulsation de
tempo pour le système et définit un emplacement unique dans le code temporel
SMPTE. Huit messages de quart d’image définissent complètement le temps
SMPTE (deux pour chacune des heures, minutes, secondes et images).
Système temps réel — Messages d’horloge et commandes de départ et d’arrêt. Ils sont en
général utilisés par les séquenceurs et les boîtes à rythmes pour contrôler d’autres machines
MIDI. L’information de canal n’est pas transmise.
Tableau 14.1 (suite) – Types de messages MIDI.
Horloge MIDI Utilisée comme pulsation de tempo par les séquenceurs MIDI et les boîtes à
rythmes. Transmise 24 fois par durée d’une noire.
Départ Généré lorsqu’un bouton de lecture ou de départ d’un séquenceur ou d’une

boîte à rythmes est pressé. Lorsqu’il est reçu par un séquenceur ou une boîte
à rythmes, la séquence ou le pattern est lu depuis le début.
Arrêt Généré lorsque le bouton d’arrêt d’un séquenceur ou d’une boîte à rythmes est
pressé. Arrête tout séquenceur ou boîte à rythmes le recevant.
Continuer Généré lorsque le bouton Continue est enfoncé dans un séquenceur ou une
boîte à rythmes. La machine le recevant lit depuis le point où la dernière com-
mande d’arrêt a été reçue.
Détection active Conçue à l’origine pour éviter les notes « bloquées » qui pouvaient survenir si
la connexion MIDI était temporairement interrompue entre la réception d’un
message Note-on et d’un message Note-off. La détection active fonctionne en
envoyant un message lorsqu’il n’y a aucune activité sur la ligne MIDI. Si le
message Détection active cesse et qu’il n’y a aucune autre activité sur la ligne,
alors l’esclave éteint ses générateurs de son pour empêcher les notes
« bloquées ». La détection active n’est plus souvent utilisée
Réinitialisation Lorsqu’une machine reçoit ce message, elle retourne à ses réglages par défaut
Système (ceux qui sont actifs au moment où on l’allume).
Système exclusif — Fourni pour qu’un constructeur puisse envoyer des données propres à
une machine ; utilisé pour communiquer des paramètres sonores et pour envoyer des
programmes dans un synthétiseur ou une unité d’effets.
Système exclusif Ce message est un « fourre-tout », car il transmet toutes les données de cons-
tructeur qui ne sont pas couvertes par les autres messages. L’octet d’état indique
un message Système exclusif (familièrement appelé « sysex »). Viennent ensuite
le numéro de constructeur (0-127), puis un ensemble d’octets de données,
tels que le contenu de la mémoire d’un synthétiseur avec tous ses réglages de
paramètres. Après que les données ont été envoyées, le processus s’arrête avec
un message d’un octet Fin de système exclusif ou un message Réinitialisation.
Système exclusif est largement utilisé pour transmettre une masse de données
de patch — des réglages de paramètre obtenus par édition de patch. Par
exemple, toute l’information d’édition du synthétiseur Yamaha DX7 peut être
placée dans sa masse de données de patch de 4 096 octets (158 paramètres

pour chaque voix ou patch stockés dans 128 octets ; certains paramètres occu-
pent un bit, d’autres un octet ; il y a 32 patchs par banque).
Les données d’échantillon au format MIDI Sample Dump Standard sont égale-
ment transmises par les messages Système exclusif, tout comme les indica-
tions Réglage code temporel MIDI et les messages de dix octets Image com-
plète code temporel MIDI.
Une autre paire de messages sont Requête machine et Identité machine.
Requête machine signifie « qui êtes-vous ? ». La machine transmettrice
recherche l’identité du constructeur, l’identité de l’instrument, et le niveau de
révision logiciel de la machine réceptrice. En utilisant le message Identité
machine, une machine transmet les données d’identification requises.
Système exclusif transmet également des informations de notation de base,
comme les changements d’indication de mesure et les marqueurs de barre de
mesure associés aux pulsations d’horloge MIDI, ainsi que le volume global et
les réglages de panoramisation.
réaccordage sur toutes les octaves de son étendue de hauteur. Cela rend impossible l’implémentation
d’échelles microtonales comprenant plus de douze notes par octaves ou s’étendant au-delà d’une
octave.
En appliquant cette connaissance de base de la représentation numérique des hauteurs par le MIDI,
nous pouvons aborder la grammaire des messages MIDI.
14.7.2 Octets d’état et de données

Le flux de données MIDI est divisé en deux types : octets d’état et octets de données (figure 14.9).
Un octet d’état commence par un 1 et identifie une fonction particulière, comme une note-on, une
note-off, un changement de molette de hauteur, etc. Un octet de données commence avec un 0 et
fournit la valeur associée avec l’octet d’état, comme la touche et le canal d’un message de note-on, de
combien la molette de hauteur a été déplacée, etc. Par exemple, un message d’événement de note-on
est constitué de trois bits (10010000 01000000 00010010). Le premier octet est l’état. Les quatre
premiers bits (les groupes de quatre bits sont parfois appelés quartet) de l’octet d’état spécifient la
fonction (dans ce cas, note-on), tandis que les quatre derniers bits spécifient le canal MIDI (0000
= canal 1).
Message
Octet Octet(s)
d’état de données
Figure 14.9 – Les messages MIDI peuvent être segmentés

en octets d’état et en octets de données.
Les octets de données commencent par un 0, les sept bits restants contenant la valeur réelle des
données. Ceci permet 27 = 128 valeurs différentes, de 0 à 127, exprimées dans un seul octet de
données. Dans un message de note-on, par exemple, le premier octet de données exprime un
numéro de touche (qui correspond généralement à la hauteur). Ici, la valeur de touche est 64,
ce qui correspond à une fréquence de 330 Hz. L’octet restant exprime la vélocité de touche (la vitesse
à laquelle une touche est enfoncée), en général interprétée comme l’amplitude de la note (voir
l’explication de la vélocité dans la description du message de note-on dans le tableau 14.1).
14.7.3 Messages de canal

Les messages MIDI appartiennent à deux catégories : messages de canal et messages système. Les
messages de canal ciblent un canal spécifique. Ils sont traités si le numéro de canal associé avec le
message correspond à un canal actif de la machine réceptrice. Au contraire, les messages système
sont reçus par toutes les machines MIDI, quel que soit le canal auquel ils sont associés.
Les messages Voix de canal sont les plus courants des messages MIDI puisqu’ils sont liés aux données
de note. Le message de note-on mentionné plus haut, est un message Voix de canal. Il transmet
l’emplacement temporel et la hauteur des notes jouées, et leur amplitude. D’autres messages Voix de
canal communiquent des gestes comme les manipulations de molette de pitchbend et de modulation
ainsi que de la pédale de volume.
(a)
(b)
Temps État Num Vél Interprétation Description musicale
Delta (hex) (hex) (hex)
____________________________________________________________________________
0 90 34 35 Note On, canal 1, note=52, vél=53 Mi, octave 3, moyen fort
120 34 00 (État courant) note=52, vél=0 relâcher Mi3 après double croche
0 37 26 (État courant) note=55, vél=38 Sol3, moyen doux
60 37 00 (État courant) note=55, vél=0 relâcher Sol3 après triple croche
0 3B 28 (État courant) note=59, vél=40 B3, démarrer crescendo
60 3B 00 (État courant) note=59, vél=0 relâcher B3 après triple croche
0 40 2B (État courant) note=64, vél=43 Mi4, continuer crescendo
60 40 00 (État courant) note=64, vél=0 relâcher Mi4 après triple croche
0 43 2D (État courant) note=67, vél=45 Sol4, continuer crescendo
60 43 00 (État courant) note=67, vél=0 relâcher Sol4 après triple crochet
0 47 2F (État courant) note=71, vél=47 B4, continuer crescendo
60 47 00 (État courant) note=71, vél=0 relâcher B4 après triple croche
0 4C 32 (État courant) note=76, vél=50 Mi5, continuer crescendo
60 4C 00 (État courant) note=76, vél=0 relâcher Mi5 après triple croche
0 4F 3A (État courant) note=79, vél=58 Sol5, moyen fort avec accent métrique
360 4F 00 (État courant) note=79, vél=0 relâcher Sol5 après croche pointée
0 4F 2A (État courant) note=79, vél=42 Sol5, plus doux
120 4F 00 (État courant) note=79, vél=0 relâcher Sol5 après double croche
0 4F 42 (État courant) note=79, vél=66 accord : Sol5, moyen fort avec accent
0 48 37 (État courant) note=72, vél=55 Do5, moyen fort
0 45 37 (État courant) note=69, vél=55 La4, moyen fort
0 3C 37 (État courant) note=60, vél=55 Do4, moyen fort

0 39 37 (État courant) note=57, vél=55 La3, moyen fort
0 34 37 (État courant) note=52, vél=55 Mi3, moyen fort
480 4F 00 (État courant) note=79, vél=0 relâcher Sol5 après noire
0 4E 23 (État courant) note=78, vél=35 Fa#5, moyen doux
480 4E 00 (État courant) note=78, vél=0 accord : relâcher Fa#5 après noire
0 48 00 (État courant) note=72, vél=0 relâcher Do5 (après blanche)
0 45 00 (État courant) note=69, vél=0 relâcher La4 (après blanche)
0 3C 00 (État courant) note=60, vél=0 relâcher Do4 (après blanche)
0 39 00 (État courant) note=57, vél=0 relâcher La3 (après blanche)
0 34 00 (État courant) note=52, vél=0 relâcher Mi3 (après blanche)
Figure 14.10 – Fragment de partition et messages MIDI correspondants.

(a) J.-S. Bach : Toccata de la Partita VI, Clavier-Übung, partie 1, première mesure. (b) Fichier MIDI
standard avec une résolution de 480 impulsions par noire. Temps delta signifie le nombre d’impul-
sions depuis l’événement précédent. Hex signifie codage hexadécimal. C’est-à-dire que chaque petit
morceau de quatre bits est indiqué par un nombre ou une lettre 0, 1, 2, … 9, A, B, … F correspondant
à une valeur de 0 à 15.
Pour un exemple de représentation MIDI de données de note, la figure 14.10 montre un fragment
de notation musicale et sa transcription en codes de message MIDI.
Une autre catégorie de message Voix de canal concerne ce que l’on appelle les programmes. En général,
un message de changement de programme transmet un nombre entier à une machine MIDI qui
lui indique quelle fonction effectuer. Dans un synthétiseur MIDI, un changement de programme
sélectionne une méthode de synthèse sonore particulière, comme « Patch 37 : Bells ». Dans du
matériel de traitement du signal, il sélectionne un effet audio, comme « Patch 37 : Reverberation ».
Le plus important est de se souvenir qu’un message de changement de programme n’envoie qu’un
nombre entier, et qu’il appartient à la machine réceptrice d’interpréter ce dernier.
14.7.4 Messages système

Les messages Système courant envoient de l’information comme « sélection de morceau » ou le
nombre de messages écoulé depuis qu’une séquence a commencé à être jouée.
Les messages Système temps réel synchronisent les boîtes à rythmes, les séquenceurs et les autres
machines orientées rythmes. Ils incluent les messages d’horloge (émis à intervalles réguliers) et les
commandes de départ et de fin des boîtes à rythmes.
Les messages Système exclusif sont réservés par chaque constructeur pour être utilisés sur leurs pro-
duits. Par contrat, chaque constructeur doit publier une explication de ses codes Système exclusif.
Une utilisation courante des codes Système exclusif consiste à transmettre des patchs et autres para-
mètres propres à l’instrument. Certains claviers maîtres peuvent être programmés pour envoyer des
messages Système exclusif vers n’importe quel synthétiseur.
14.7.5 État courant

La distinction entre octets d’état et octets de données rend possible une astuce de programmation
appelée état courant. L’état courant tronque le flux de données MIDI en réduisant les messages de
contrôleur et de note de trois à deux bits — une accélération substantielle des messages de contrôleur
et de note. Une implication musicale de cela est que les accords sonnent de façon plus précise, puisque
les notes individuelles (envoyées les unes après les autres) sont reçues dans une période de temps
plus courte. Remarquez l’utilisation de l’état courant dans la figure 14.10b.
Le processus fonctionne comme suit : dès qu’un octet d’état est reçu, l’instrument maintient cet
état de commande jusqu’à ce qu’un octet d’état différent soit reçu. Ceci signifie qu’un musicien peut
jouer un grand nombre de notes rapprochées avec un octet d’état de note-on suivi de paires d’octets
de données (représentant respectivement le numéro de note et la vélocité) pour chaque note d’une
mélodie. Un nouvel octet d’état n’est envoyé que si un nouveau type de commande est nécessaire.
En utilisant cette astuce, certains logiciels écartent les notes dont les messages de note-on ont une
vélocité de zéro, plutôt que d’envoyer davantage d’octets d’état sous la forme de messages de note-off.
14.8 Modes MIDI

Le système de modes du MIDI constitue l’un de ses aspects les plus compliqués. Chaque machine
qui envoie et reçoit des données MIDI interprète les données de canal selon le mode dans lequel
il opère. Les cinq modes définis sont les suivants :
• Mode 1. Omni-on polyphonique (ou mode « Omni »).
• Mode 2. Omni-on mono.
• Mode 3. Omni-off polyphonique (ou mode « Poly »).
• Mode 4. Omni-off (ou mode « Multi »).

• General MIDI.
La plupart des machines permettent de régler le mode en appuyant sur une séquence de boutons
ou en lui envoyant un message de sélection de mode par MIDI. Le tableau 14.2 résume les fonctions
des différents modes. Les parties suivantes expliquent chaque mode en détail.
Tableau 14.2 – Modes MIDI.
Numéro — Mode Explication de la fonction
1. Omni-on Poly Mode « Omni ». Une machine reçoit sur tous les canaux, mais les messages sont
envoyés depuis la machine sur un seul canal. La machine répond de façon polypho-
nique. Utilisé pour les tests.
2. Omni-on Mono Une machine reçoit sur tous les canaux et assigne les données aux voix de façon
monophonique. Conçu pour les synthétiseurs monophoniques ou les synthétiseurs
polyphoniques fonctionnant à l’unisson. Fait sonner une note à la fois. N’est pas implé-
menté dans de nombreux synthétiseurs.
3. Omni-off Poly Mode « Poly ». Les messages de voix sont reconnus depuis le canal de base et sont
assignés à toutes les voix de façon polyphonique. Plusieurs machines peuvent être
réglées pour répondre à différents canaux, afin que chaque machine puisse agir en
tant que partie d’une partition à plusieurs parties. Ceci est le mode le plus flexible,
car les canaux individuels peuvent être activés et désactivés.
4. Omni-off Mode « Multi ». Une machine multitimbrale peut répondre sur plusieurs canaux, mais
pas nécessairement sur tous. Les données peuvent être reçues sur autant de canaux
que l’unité possède de voix. Dans la spécification MIDI originelle, le récepteur répondait
de façon monophonique sur chaque canal. Le mode 4 est maintenant polyphonique
dans tous les canaux et est appelé mode Multi. Le mode 4 est souvent utilisé pour les
guitares MIDI, car chaque corde peut envoyer des données sur un canal différent.
5. General MIDI Les machines répondent selon une relation standard entre canaux, patchs et types de
son. Sous réserve que la musique reste à l’intérieur des limites de la norme General
MIDI, cette dernière améliore considérablement la transportabilité de fichiers de
séquence créés dans des endroits différents. Les dix premiers canaux sont préassi-
gnés, avec le canal 4 pour la mélodie, le canal 8 pour l’harmonie, et le canal 10 pour
la partie de percussion. De plus, les 128 patchs sont préassignés à des types de sons
spécifiques. Par exemple, en mode General MIDI (GM), le patch 1 signifie toujours un
son de grand piano acoustique, le patch 25 est toujours un son de guitare acoustique
avec cordes en nylon, etc.
14.8.1 Mode 1 « Omni »

Omni-on polyphonique (mode 1) prévient le mécanisme de canal MIDI. Dans ce mode, un instru-
ment reçoit des messages envoyés sur tous les canaux. Le mode 1 est recommandé pour effectuer
des tests. Envoyer des messages en mode Omni est une façon rapide de tester l’interconnexion phy-
sique entre deux machines MIDI sans avoir à assigner des canaux de communication spécifiques.
14.8.2 Mode 2
Le mode 2 signifie qu’un instrument reçoit des notes sur tous les canaux sans aucune distinction,
mais ne joue qu’une seule note à la fois. Le mode 2 n’est plus aujourd’hui qu’un vestige, et il n’est
plus que rarement implémenté dans les synthétiseurs modernes.
14.8.3 Mode 3 « Poly »

Dans un environnement de séquence ou d’instruments multiples, il est préférable d’utiliser le
mode Poly (mode 3). Ceci indique à chaque instrument d’écouter un canal d’information. À l’inté-
rieur de ce canal, l’esclave (récepteur) répond à autant de notes qu’il le peut. C’est à l’utilisateur de
spécifier le canal MIDI particulier (1-16) sur chacune des machines MIDI. Ceci peut en général
être fait en appuyant sur un bouton d’une machine ou en sélectionnant un numéro de canal dans
un menu de logiciel. Par exemple, un instrument monotimbral comme le Yamaha DX7 d’origine,
qui ne peut jouer qu’un timbre à la fois, peut être assigné pour recevoir des messages sur un seul
canal MIDI, et l’on peut donc le régler sur le mode Poly.
14.8.4 Mode 4 « Multi »
Le mode 4 est compatible avec les instruments multitimbraux qui peuvent jouer plusieurs timbres
ou patchs à la fois. Chaque patch reçoit des données d’un canal MIDI différent. En général, toutes
les voix disponibles de l’instrument sont placées dans des canaux MIDI consécutifs, avec le plus
bas étant le canal de base. Par exemple, un instrument à huit voix réglé sur un canal de base 4 aura
une voix assignée sur chacun des canaux 4, 5, 6, 7, 8, 9, 10 et 11. Une utilisation très courante du mode
Multi se fait avec les guitares MIDI. Chacune des six cordes est réglée sur un canal MIDI et une voix
du synthétiseur récepteur est assignée à un timbre de corde de guitare. Une autre application du
mode Multi est le pitchbend de notes individuelles dans une texture polyphonique. Le mode Multi
n’est pas seulement pratique avec les synthétiseurs, car on peut l’utiliser avec des mélangeurs con-
trôlés par MIDI, dans lesquels chaque canal audio est assigné à son propre canal MIDI. Le mode
Multi fut à l’origine défini pour être monophonique et fut donc appelé mode « Mono », mais les
constructeurs l’ont amélioré pour qu’il réponde de façon polyphonique sur chaque canal.
14.8.5 Mode General MIDI
La conception du mode General MIDI (GM), lancé en 1990, fut inspirée par le marché de masse
représenté par l’approche des « presets » dans une configuration MIDI. Plutôt que de forcer les uti-
lisateurs à configurer leur propre réseau MIDI, le General MIDI fournit un réglage standard. C’est-
à-dire que les machines équipées pour le GM répondent à des messages MIDI selon une connexion
standard entre les canaux, les patchs et les catégories sonores. Ainsi, le GM permet de façon indé-
pendante à la machine d’intégrer de la musique et du son dans des applications multimédias.
Le GM préassigne les dix premiers canaux, avec le canal 4 pour la mélodie, le canal 8 pour l’harmo-
nie et le canal 10 pour les parties de percussion. De plus, les 128 patchs sont préassignés à des caté-
gories sonores spécifiques, la plupart basées sur les instruments traditionnels ou les sons de syn-
thétiseur « classiques ». Par exemple, le patch 3 est « Piano (Electric Grand) », le patch 19 « Organ
(Rock) », le patch 57 « Trumpet », et ainsi de suite. Pour obtenir une spécification détaillée du GM,
voir plus loin la partie Contacts sur le MIDI.
Le General MIDI en lui-même n’est simplement qu’un schéma de noms et ne peut garantir que
deux machines différentes joueront, par exemple, « Honky tonk piano » avec le même son. Le but
du GM est la similitude – et non l’équivalence – de timbre. D’un point de vue commercial, le GM
rend possible la distribution d’arrangements musicaux qui sonnent à peu près de la même façon
quel que soit l’instrument sur lequel ils sont joués et permettent pourtant encore une interaction
et une transformation basées sur le MIDI.
14.9 Contrôle continu par MIDI

Certains aspects de la musique interprétée changent de façon discrète, sur un mode activé/désac-
tivé, comme les touches d’un clavier ou les boutons de la façade avant d’un processeur d’effets.
D’autres aspects changent de façon continue dans le temps, comme l’amplitude d’un instrument
contrôlé par une pédale de pied ou la quantité de vibrato d’un synthétiseur avec une molette de
modulation. Les machines d’entrée MIDI possèdent en général des contrôleurs discrets (commuta-
teurs ou touches) et des contrôleurs continus (leviers, molettes, potentiomètres, pédales).
Les changements générés par des contrôleurs discrets aboutissent à des messages individuels comme
note-on, note-off et changement de programme. En ce qui concerne les changements continus, le
MIDI possède trois constructions : (1) messages de changement de contrôle, (2) une liste de numéros
de contrôleurs définis et (3) une liste de paramètres enregistrés.
14.9.1 Messages de changement de contrôle
Les messages de changement de contrôle indiquent à une machine réceptrice que la position d’un
contrôleur continu est en train de changer. La machine d’entrée transmet un nouveau message de
trois octets à chaque fois qu’un contrôleur continu est modifié — aussi vite qu’il le peut lorsque le
contrôleur varie de façon continue. Il est important de se souvenir que le flux de messages prove-
nant d’un contrôleur continu peut consommer une grande partie de la capacité de transmission
disponible du MIDI (figure 14.11). Cette information est donc parfois allouée à un canal MIDI
séparé ou, dans des systèmes multiports, à sa propre ligne MIDI.
Canal 1 Note on à hauteur 60 et vélocité 107

Canal 1 Changement pitchbend 13569

Canal 1 Note off à hauteur 60 et vélocité 64
Figure 14.11 – Les messages de contrôleur continu génèrent un flux de messages.

Cette figure montre les messages générés par un pitchbend d’un demi-ton durant une seconde.
14.9.2 Contrôleurs définis

Les contrôleurs définis et les paramètres enregistrés simplifient les communications MIDI en assi-
gnant des fonctions standards aux contrôleurs qui se trouvent sur la plupart des machines MIDI.
Par exemple, lorsque l’on utilise un contrôleur défini comme une pédale de pied, tout instrument
MIDI qui reçoit un message de cette pédale de pied répond par un changement dans son paramètre
d’amplitude. Ces correspondances prédéfinies peuvent parfois être reprogrammées par l’utilisa-
teur, soit avec le contrôleur (en lui faisant émettre un autre numéro de contrôleur) ou sur la machine
réceptrice (en lui faisant interpréter un numéro de contrôleur d’une façon différente). Par exemple,
certaines sociétés proposent des contrôleurs « universels » ayant un certain nombre de fadeurs et
de boutons qui peuvent être programmés pour émettre n’importe quel numéro de contrôleur que
choisit l’utilisateur.
Certains des numéros de contrôleur prédéfinis du MIDI sont le vibrato (1), le pan gauche-droite (10),
le volume (7) et la pédale de sustain (64). Comme les contrôleurs définis changent de temps en
temps, voir la dernière version de la spécification MIDI pour la liste courante.
14.9.3 Paramètres enregistrés et non enregistrés

Le régime du MIDI fournit des numéros de paramètres enregistrés et non enregistrés (NPE et NPNE)
Les NPE sont des numéros réservés assignés à des paramètres de voix prédéfinis. Les NPE sont
définis par des comités de constructeurs MIDI et doivent correspondre à des fonctions communes
à tous les instruments, tout comme les contrôleurs standards sont définis. Les NPE typiques incluent
la sensibilité de pitchbend, l’accordage fin et l’accordage de base. Les NPNE sont définis par chaque
constructeur et sont propres à une machine.
Les messages avec des numéros de paramètre « appellent » un paramètre de voix sur un synthéti-
seur qui peut ensuite être édité par MIDI. Appeler un paramètre revient à le sélectionner sur la
façade avant de la machine. Par exemple, si le paramètre d’accordage fin est appelé, il répond aux
changements envoyés par MIDI depuis le curseur de données d’un autre instrument (contrôleur
numéro 6). Ceci permet aux musiciens d’éditer une voix de synthétiseur à distance à partir d’un
autre instrument MIDI ou d’un ordinateur.
14.10 Fichiers MIDI standards

Bien que la spécification originale du MIDI ait spécifié le langage du contrôle musical, elle ne
décrivait pas le format de ces données. Pendant un certain nombre d’années après l’introduction
du MIDI, plusieurs applications MIDI utilisaient des formats de fichier mutuellement incompatibles.
Ceci signifiait que les données MIDI créées avec un programme ne pouvaient être lues par un
autre. Pour remédier à cette situation, la communauté MIDI a adopté en 1988 une extension de la
spécification MIDI appelée Fichiers MIDI standards (Standard MIDI Files – SMF). David Oppenheim
de la société Opcode Systems s’occupa du travail de conception original. La principale utilisation des
fichiers MIDI standards est l’échange de données de séquence créées avec différents programmes.
Le format SMF adopte la philosophie selon laquelle plusieurs programmes sont préférables pour
des tâches différentes. Par exemple, un système d’édition de musique et de vidéo peut utiliser un
séquenceur qui fonctionne bien dans un environnement synchronisé par code temporel. Un autre
programme de lecture de séquence sera préféré pour imprimer la notation musicale, tandis qu’un
dernier possède des fonctions de composition algorithmique qui peuvent modifier les données de
séquence. Bien que la représentation interne des données MIDI soit en général unique à chaque
programme (pour des raisons d’efficacité), la plupart des applications peuvent convertir ce format
interne en format SMF afin de permettre l’échange des données MIDI.
Le format SMF peut également servir comme format commun pour l’intercommunication entre
programmes dans des systèmes multitâches faisant fonctionner simultanément plusieurs applica-
tions musicales. La communication longue distance des données MIDI est également facilitée par
le format SMF, puisque des musiciens faisant fonctionner des logiciels différents peuvent néan-
moins échanger des données de séquence (voir la partie sur les télécommunications au chapitre 15).
14.10.1 Format de fichier MIDI standard

La différence essentielle entre le format SMF et les autres formes de masses de données MIDI,
comme les transferts de données Système exclusif, est que les données stockées en SMF sont horo-
datées. Ceci signifie que chaque message MIDI possède un temps ou une position associés dans le
fichier, spécifié en impulsions d’horloge sous forme d’un nombre binaire entre 8 et 32 bits (c’est-à-
dire jusqu’à 4 milliards d’impulsions d’horloge). Ce nombre représente la différence temporelle
entre l’événement courant et l’événement précédent. L’horodatage indique au programme lisant
les données à quel moment exécuter le message MIDI.
Les fichiers SMF contiennent un en-tête et un nombre variable de pistes. L’en-tête indique l’un des
trois types de fichiers suivants :
• Type 0 : une seule piste d’information MIDI avec possibilité de plusieurs canaux de données
de note MIDI.
• Type 1 : un fichier MIDI multipiste utilisé comme données de séquenceur.
• Type 2 : données pour des programmes multiséquences ou basés sur des patterns pour stocker
un nombre de séquences ou de patterns indépendant dans un seul fichier MIDI. Ceci est simi-
laire à une collection de séquences de Type 0 dans un seul fichier et n’est pas compatible avec
tous les séquenceurs.
Les changements de tempo ou cartes de tempo sont inclus à l’intérieur de la seule piste du format
Type 0 (voir la présentation des métaévénements au prochain paragraphe). Les fichiers de Type 1
contiennent plusieurs pistes simultanées qui possèdent les mêmes tempo et indication de mesure
instantanés. La carte de tempo doit être stockée dans la première piste du fichier, et elle contient le
tempo de toutes les pistes suivantes. Les fichiers de Type 2 sont également appelés format boîte à
rythmes. Ils permettent n’importe quel nombre de pistes indépendantes, chacune ayant ses propres
indications de mesure et tempo, qui peuvent varier au cours du temps.

En plus des données de note, la plupart des séquenceurs MIDI génèrent également ce que le SMF
appelle des métaévénements. Ceux-ci comprennent des spécifications pour le tempo, l’indication
de mesure, la tonalité, les noms de séquence et de piste, les paroles, les points d’appel, les marqueurs
de partition (points de répétition), la résolution temporelle, les notices de copyright et l’information
propre au séquenceur. D’un point de vue pratique, tous les séquenceurs ne sont pas compatibles
avec les métaévénements.
Comme le reste de la spécification MIDI, le format de fichier MIDI est orienté vers les morceaux
métrés et à tempérament égal, dans lesquels chaque piste est jouée par une seule voix ou patch ins-
tumental. Toutes les données transférées dans un SMF sont absolues, les spécifications de hauteur
et de temps ne sont pas compatibles, et il n’existe aucune structure conditionnelle pour la repré-
sentation des processus alternatifs mis en jeu lors d’une interprétation interactive (Spiegel, 1989).
La mise en place des bits dans le format SMF est d’un intérêt particulier pour les développeurs de
logiciel MIDI. Contactez l’International MIDI Association pour obtenir une copie de la spécification
des Fichiers MIDI standards (voir plus loin la partie Contacts sur le MIDI pour y trouver l’adresse
de l’IMA et celles d’autres organisations). Oostrum (1993) a décrit un programme traduisant les
fichiers SMF en format lisible par les humains.
14.11 Transfert de données audio

Le MIDI fut conçu à l’origine pour le transfert de messages de contrôle entre des machines. L’émer-
gence de la technologie de l’échantillonnage au milieu des années 1980 rendit évident le besoin de
pouvoir également transférer des échantillons audionumériques. Par exemple, un musicien peut
vouloir transférer des échantillons d’un échantillonneur vers un ordinateur pour effectuer une édi-
tion, puis renvoyer le son édité dans l’échantillonneur.
14.11.1 Norme Sample Dump
La norme Sample Dump (SDS), créée en 1985, est un protocole pour transférer des fichiers d’échan-
tillons sonores entre des machines par un câble série MIDI. Le format permet des échantillons
linéaires de 8 à 28 bits encodés à un grand nombre de taux d’échantillonnage (jusqu’à 1 GHz !). La
longueur maximum d’un fichier d’échantillon, cependant, est de 2 097 151 échantillons, soit environ
42 secondes à un taux d’échantillonnage de 48 kHz.
Deux types de protocoles de transfert SDS ont été définis : boucle fermée et boucle ouverte. Le pro-
tocole boucle fermée envoie des messages « d’authentification » entre les paquets d’échantillons,
où un paquet représente 120 octets (40 échantillons 16 bits). Ces messages d’authentification con-
firment le transfert et s’assurent ainsi de l’intégrité des données. Le protocole boucle fermée nécessite
une connexion à double sens entre l’émetteur et le récepteur ; c’est-à-dire que chaque machine doit
être connectée au MIDI In de l’autre machine. Une transmission typique en boucle fermée comprend
les étapes suivantes :
1. Transmission de l’en-tête, attente de la réponse.
2. Envoi d’un paquet.
3. Transmission de la somme de contrôle, attente de la réponse.
4. Si ce paquet est le dernier numéro de paquet, arrêter, sinon aller à l’étape 2.
La méthode boucle ouverte omet les formalités de l’authentification. Au lieu de cela, l’émetteur insère
des pauses entre les octets de données qui ralentissent le transfert. Que ce soit dans le cas de la
boucle fermée ou ouverte, la transmission est lente. Un fichier son mono 16 bits de 10 secondes à
un taux d’échantillonnage standard de 44,1 kHz prend quatre minutes pour être transmis par une
boucle fermée MIDI.
En raison de la lenteur de la transmission série MIDI, les constructeurs d’échantillonneur ont
implémenté des interfaces parallèles pour le transfert d’échantillons entre certaines machines.
Ces efforts ont conduit à la création d’un nouveau protocole appelé SCSI Musical Data Interchange
(SMDI) en 1991, suivant un concept de Peavey Electronics (Isaacson, 1993). Les échantillonneurs
équipés pour le SMDI peuvent transférer des échantillons à grande vitesse vers et depuis n’importe
quelle machine SCSI, dont des ordinateurs, des disques et d’autres échantillonneurs. Voir le cha-
pitre 15 pour une explication du SCSI.
14.12 Contrôle temporel du MIDI

La plupart des machines contrôlées par MIDI (synthétiseurs, unités d’effet, etc.) opèrent en per-
manence dans le « temps présent ». Elles ne savent pas l’heure qu’il est, mais se contentent de réagir à
des machines comme des séquenceurs et des boîtes à rythmes qui ont une conscience du temps.
Le MIDI fournit deux façons de compter le temps : par messages d’horloge MIDI, ou par code
temporel MIDI. Les prochaines parties décrivent ces techniques.
14.12.1 Messages d’horloge MIDI

Les signaux d’horloge MIDI sont des messages Système commun à un octet envoyé par un appareil
maître (comme un séquenceur) à chaque fois qu’il avance dans le temps d’un vingt-quatrième de
noire. Comme le système d’horloge MIDI mesure le temps selon les pulsations musicales, le taux
des messages temporels dépend du tempo de la musique. Les messages d’horloge envoyés à 60 pul-
sations par minute apparaissent deux fois moins souvent que les messages envoyés à 120 pulsations
par minute. Le taux des messages s’étend de 16 à 100 par seconde pour des tempos allant de 40
à 250 pulsations par minute.
La méthode d’horloge MIDI permet la mise en place d’une forme simple de contrôle d’autolocali-
sation basée sur un message de pointeur de position dans le morceau (les magnétophones avec
contrôle d’autolocalisation se rendent à des positions prédéfinies par simple appui sur un bouton).
Un message de pointeur de position dans le morceau dit : « aller à un point qui se trouve à n doubles
croches du début du morceau, afin de redémarrer de là ».
14.12.2 Code temporel MIDI

Les studios cinéma et vidéo comptent le temps d’une autre façon. Ils référencent les événements
par signaux en temps absolu (mesuré en heures, minutes, secondes et images) écrit par un généra-
teur de code temporel SMPTE (voir le chapitre 15 pour plus d’informations sur le code temporel
SMPTE). Comme le calage des effets sonores sur la vidéo et le film est un besoin courant, le code
temporel MIDI (MTC) fut lancé en 1987 pour convertir du code temporel SMPTE en messages
MIDI. Le MTC génère des signaux en temps absolu qui synchronisent des machines SMPTE comme
des magnétoscopes et des magnétophones avec des machines MIDI. Corréler deux temps absolus
est beaucoup plus facile que d’essayer de trouver quelle double croche dans quelle mesure à quel
tempo correspond à un temps absolu donné.
Le MTC n’a pas été conçu pour la synchronisation de plusieurs magnétophones. Ce type de syn-
chronisation nécessite une précision de l’ordre de quelques microsecondes. Avec sa résolution de
1 à 2 ms, le MTC convient mieux aux applications comme le déclenchement de la lecture de sons
à partir de stations de travail de musique et d’échantillonneurs (figure 14.12). Voici comment cela
se passe. Dans une station de travail, un gestionnaire de fichiers sons lit des emplacements MTC
entrants et joue un son après réception d’un emplacement spécifique depuis une machine externe.
Pour lancer la lecture depuis un échantillonneur, le code temporel est interprété par un pro-
gramme de séquence qui envoie un message de note-on spécifique lorsqu’il voit l’adresse de code
temporel appropriée. Le MTC peut également déclencher des événements d’appel (voir la partie sur
les listes d’appel ci-dessous).
Un des désavantages du MTC par rapport à la méthode d’horloge est qu’il nécessite davantage de
largeur de bande MIDI. Le MTC est transmis par les messages d’image complète et de quart d’image
(voir le tableau 14.1). Un message d’image complète contient dix octets et inclut un numéro de
canal en plus du temps absolu. Le but principal de ce message est de faire avancer ou reculer une
(a) (b)
Enregistreur Enregistreur
de bande vidéo de bande vidéo
Code temporel SMPTE

Code temporel SMPTE
Convertisseur SMPTE-MTC
Convertisseur SMPTE-MTC
Code temporel MIDI

Code temporel MIDI

Flux de données MIDI

Flux de données MIDI
Ordinateur
Station de travail
audionumérique
Logiciel
Logiciel de séquence
de gestion
de fichiers son
Message de Note On MIDI
Fichiers son Échantillonneur

sur le disque
Port d’entrée/ CNA

sortie numérique
Figure 14.12 – Déclenchement de code temporel MIDI.

(a) Une bande vidéo déclenchant la lecture d’un fichier son dans une station de travail audionu-
mérique. (b) Une bande vidéo déclenchant la lecture d’un fichier son dans un échantillonneur.
machine jusqu’à une position stipulée. Un message d’image complète est trop grand pour envoyer
toutes les nouvelles images SMPTE.
Lors d’une opération normale, un transmetteur envoie des messages de quart d’image de deux octets
à un taux constant de 120 messages par seconde. Chaque message agit comme une sorte d’impul-
sion de synchronisation, mais transmet également 4 bits définissant un chiffre d’un champ spéci-
fique de l’emplacement de code temporel SMPTE courant. Il faut huit messages pour transmettre
un emplacement de code temporel SMPTE complet. En raison de la nature critique du temps dans ces
messages, le MTC doit être routé par un câble MIDI dédié. Si ce n’est pas le cas, la synchronisation
sera sujette au « jitter », puisque les données de synchronisation peuvent être mises de côté afin de
laisser de la place aux autres commandes.
14.12.3 Listes d’appel
En plus du déclenchement en temps absolu, le MTC permet de définir des listes de commandes
horodatées. L’horodatage indique à la machine réceptrice d’exécuter une commande à un moment
spécifique. Afin de gérer ces messages, qui sont appelés appels, la machine réceptrice doit avoir
une mémoire de liste d’appel et un logiciel de gestion du temps intégré. Les commandes typiques
qu’un musicien peut appeler incluent : lancer l’enregistrement, arrêter l’enregistrement, lancer la
lecture de séquence, arrêter la lecture de séquence, ou passer à un nouvel effet de réverbération.
Les réglages de paramètre peuvent également être envoyés avec l’appel temporel.
En utilisant un logiciel d’édition de liste d’appel (similaire à un programme de séquence), nous
pouvons programmer un ordinateur pour indiquer à chaque machine de la chaîne MIDI à quel
moment effectuer une action spécifique. Dans le langage MIDI, les commandes de liste d’appel sont
appelées des messages de configuration et sont classifiées comme étant un type de message Système
exclusif (voir le tableau 14.1).
14.13 Contrôle de machine MIDI et contrôle de show MIDI

Le MTC est utile pour déclencher des effets sonores et du traitement audio à des moments spéci-
fiques, mais certaines situations entraînent d’autres besoins. Le Contrôle de machine MIDI (MMC)
est une extension au protocole MIDI datant de 1992. Le MMC contrôle les magnétophones, les
magnétoscopes et les enregistreurs sur disque dur par MIDI. Le but est de permettre des commandes
comme autolocalisation, sélection de piste, coupure de piste, avance rapide, retour arrière, pause,
éjection, bouclage, enregistrement, couper, copier et coller d’être effectuées à partir d’un tableau
de bord central — sur l’écran d’un séquenceur MIDI ou depuis la face avant d’une station de travail
de musique. Ces commandes peuvent s’appliquer soit aux pistes de séquenceur stockées dans le
logiciel soit aux pistes audio d’enregistreurs connectés. Un musicien n’a donc plus besoin de passer
d’une interface utilisateur à une autre pour contrôler plusieurs machines liées par MMC.
Les commandes MMC peuvent être envoyées par l’ESbus, une norme professionnelle pour les télé-
commandes, ou par messages Système exclusif. Le MMC ne sert pas de remplacement pour des
machines de synchronisation externes comme celles qui contrôlent directement l’opération des enre-
gistreurs vidéo et audio. Le MMC communique avec la machine de synchronisation pour obtenir
un contrôle indirect de l’enregistreur. Dans tous les cas, la machine contrôlée peut également ren-
voyer des informations à la machine MIDI maître, comme son identité, diverses erreurs et son état
courant (mode de lecture, mode d’enregistrement, etc.).
Une extension liée au MIDI est le Contrôle de show MIDI (MSC). Le MSC fut créé pour le contrôle
des systèmes d’éclairage et pour la production théâtrale en général. Plutôt que de compter le temps
en numéros de mesure ou en codes temporels SMPTE, les productions théâtrales représentent le
temps en termes de scènes et d’appels qui peuvent survenir à différents moments, selon le rythme
de l’interprétation. Le MSC ressemble à un séquenceur pas à pas à accès aléatoire qui lit à la fois
des événements individuels et des séquences d’éclairage chorégraphiées avec un simple bouton.
Pour des détails sur le MMC et le MSC, veuillez contacter l’International MIDI Association.
14.14 Accessoires MIDI

Les accessoires MIDI ou « boîtes noires » sont des composants essentiels d’un studio MIDI profes-
sionnel. Ils servent à un certain nombre de fonctions, en premier lieu en ce qui concerne l’intercon-
nexion de machines et le routage de données à l’intérieur d’une configuration MIDI. Le tableau 14.3
établit la liste des accessoires MIDI et décrit brièvement leurs fonctions. La figure 14.13 décrit trois
des fonctions les plus courantes, un commutateur A/B, un mélangeur et une boîte Thru.
Un autre accessoire utile est logiciel, et non matériel. Un programme d’analyse de données MIDI
peut constituer un outil de diagnostic très utile (figure 14.14). Un tel programme permet aux uti-
lisateurs d’examiner le flux de données MIDI ; des filtres commutables leur permettent de ne voir
que le type de message qu’ils recherchent.
(a) Flux Flux

MIDI 1 MIDI 2
In In
Thru
Un seul flux MIDI
(b) Flux Flux

MIDI 1 MIDI 2
In In
Out
Un seul flux MIDI combiné
(c) Source de données MIDI
Connecteurs In
Thru
16 câbles MIDI, un pour chaque canal
Figure 14.13 – Accessoires MIDI.

(a) Un commutateur A/B sélectionne l’un des deux flux d’entrée. (b) Un interclasseur combine deux
flux d’entrée MIDI en un seul flux. (c) Une boîte MIDI Thru, un diviseur ou une patchbay distribuent
une entrée vers plusieurs sorties.
Figure 14.14 – Copie d’écran d’un logiciel d’analyse de données MIDI, Midiscope,
créé par Ralph Muha de Kurzweil Music Systems. Remarquez le réglage des boutons de filtrage en
haut à droite, où seulement l’élément Note On/Off est coché. Ceci signifie que seuls les messages
de note-on et de note-off sont sélectionnés pour être affichés. Les messages de note apparaissent
dans la fenêtre Trace Buffer située au centre en haut. La première colonne est un index correspondant
au nombre d’octets reçus. La colonne suivante affiche les messages de note, encodés symbolique-
ment en NON (note-on) et NOF (note-off), suivis du numéro de canal entrant (1 dans tous les cas).
Après le canal se trouve la hauteur de la note, de nouveau encodée symboliquement avec la lettre
correspondant à la hauteur (par exemple, C#) et l’octave (9). La dernière colonne affiche la vélocité
de relâchement ou d’attaque, encodée en format hexadécimal. L’affichage en histogramme situé
au centre en bas montre les vélocités des notes. Les données numériques situées en bas à gauche
montrent les divers détails concernant le message reçu le plus récent.
14.15 Limites du MIDI

La spécification MIDI est un protocole populaire et bon marché, mais elle ne fut pas conçue pour
régler tous les problèmes d’intercommunication et de représentation de la musique. Quiconque
travaille avec le MIDI devrait connaître ses faiblesses comme ses points forts. Ces limites peuvent
être regroupées en trois catégories : limites de largeur de bande, limites de routage de réseau et limites
de représentation musicale. Pour plus d’informations sur ce sujet, voir Loy (1985c), et Moore (1988).
Voir De Poli, Piccialli et Roads (1991), Pope (1991a), et Todd et Loy (1991) pour des articles sur des
représentations musicales alternatives.
14.15.1 Limites de bande passante

La quantité de données de contrôle qui peut être envoyée dans un câble MIDI est limitée à
31 250 bits par seconde (3 150 mots de 10 bits). Il faut 320 ms pour transmettre un mot, soit 960 ms
pour un message de trois mots. Avec seize canaux utilisés, le taux de message par canal se trouve
Tableau 14.3 – Accessoires MIDI.
Commutateur A/B Sélectionne entre deux sources MIDI vers un certain nombre de connexions
MIDI Thru (figure 14.13a). Le but principal est de contrôler l’acheminement
du signal avec un bouton-poussoir, en éliminant le recâblage manuel.
Interclasseur Interclasse (fusionne) plusieurs flux In de données MIDI en un seul flux

(figure 14.13b). Les messages d’horloge de l’un des signaux In sont filtrés.
Ceci est nécessaire afin d’empêcher que l’interclasseur ne soit confronté à des
messages d’horloge conflictuels. L’interclasseur peut également rendre pos-
sibles des configurations comme l’enregistrement d’une séance d’improvisa-
tion à partir de deux sources, ou l’édition de patch à partir d’un programme
logiciel et d’un contrôleur d’instrument physique. Un interclasseur peut créer
un léger retard, et lorsqu’il y a trop de données à fusionner, il peut parfois filtrer
celles-ci.
Patchbay Interconnecte N entrées avec M sorties grâce à des contrôles par bouton-
poussoir. Élimine les retards et la distorsion créés par la connexion en chaîne.
Certaines peuvent être programmées pour modifier les données qui passent
à travers elles.
Filtre Supprime certains types de messages dans le flux MIDI.
Séparateur de note Convertit les messages de note provenant d’un clavier non séparé (un seul
ou Mappeur canal) en messages « séparés » distribués sur plusieurs canaux MIDI. Peut
également être utilisé pour « remapper » les messages Changement de pro-
gramme afin qu’ils correspondent à des unités d’effets et à des générateurs de
sons spécifiques.
Arpégiateur Arpégie (embellit), transpose, double, inverse la hauteur ou la vélocité d’un

message note-on.
Boîte Thru Achemine un seul canal d’entrée dans plusieurs connexions MIDI Thru
ou Séparateur (figure 14.13c), en évitant ainsi les problèmes de la connexion en chaîne
(retards et dégradation du signal). Peut également être réalisé avec une patch-
bay.
Programme Affiche l’état d’une connexion MIDI et indique les messages transmis. Peut
d’analyse MIDI être utilisé comme programme de test pour des machines afin d’afficher la
gamme de sorties qu’elles génèrent, quels numéros de contrôleurs sont utilisés,
etc.
Convertisseur SMPTE Convertit du code temporel SMPTE en code temporel MIDI.

– Code temporel MIDI
aux environs de 50 à 150 messages par seconde, selon la taille du message et la vitesse de la machine
réceptrice. Ceci n’est pas assez rapide pour certaines situations d’interprétation en direct.
Le taux des données MIDI limite le nombre de voix, leurs fluctuations de hauteur et d’amplitude,
et finalement la complexité de la texture musicale. Le protocole fut conçu pour enregistrer les
interprétations d’un à quatre claviéristes sans trop de manipulation de contrôles continus.
La largeur de bande du MIDI peut être dépassée par un seul virtuose s’il utilise beaucoup de contrôles
continus comme les molettes de hauteur et de vibrato, les pédales et les contrôles de souffle (Abbott,
1984a ; Moore, 1988). Ceci est dû au fait que les contrôles continus envoient un flux continu de
messages tant qu’ils sont activés. Comme Moore (1988) l’explique, même un simple effet comme
la transmission de messages de molette de hauteur pour créer un vibrato de 10 Hz dans une seule
voix consomme la presque totalité de la largeur de bande MIDI ! Certains séquenceurs fournissent
une option pour « amincir » les données de contrôle continu (par exemple en supprimant un pour-
centage des messages), mais ceci transforme une fonction de contrôle lisse en une fonction à niveaux
disjoints.
Des entraves aux données (appelées « étranglements MIDI ») peuvent survenir durant la lecture
d’une partition modérément complexe. Des trous et des erreurs temporelles (se manifestant sous
la forme de saccades ou de ralentissements) peuvent être évidents. Bien qu’en théorie le MIDI auto-
rise seize voix par câble, les voix individuelles d’un accord ne sonnent pas en même temps. Ceci est
dû à la nature sérielle des messages MIDI (chaque message de note-on prend environ 1 ms pour
être transmis). Comme l’oreille est très sensible aux transitoires des attaques de note, un accord
MIDI brouillé dans le temps peut sonner de façon « flasque » et est entendu comme un arpège dans
le pire des cas (par exemple avec un accord de seize notes envoyées dans les seize canaux). Les apôtres
du MIDI ont suggéré que les retards de départ de note ajoutaient de la « vie » à certaines partitions
de musique. Mais l’introduction de tels retards devrait être un paramètre contrôlable dépendant
du contexte musical plutôt qu’une limite technique arbitraire.
✦ Retards de microprocesseur
L’un des aspects du retard dans les systèmes MIDI n’est pas directement lié au MIDI en soi. De
nombreuses machines introduisent leur propre retard en raison de la lenteur de leur microproces-
seur interne. Par exemple, des tests montrent que la réponse d’un seul oscillateur à un message de
note-on en mode Omni peut prendre jusqu’à 7 ms dans certains synthétiseurs (Marans, 1991).
Huit messages de note-on « simultanés » envoyés à un synthétiseur multitimbral (un oscillateur
par timbre) en mode Multi peut prendre jusqu’à 21 ms pour être décodé (dans l’idéal, cette valeur
devrait être de 8 ms, le temps qu’il faut au MIDI pour transmettre les messages de note-on). Les
retards augmentent de façon spectaculaire lorsque l’on utilise plus d’oscillateurs par voix, comme
cela est souvent le cas. Ces retards existent de fait dans les configurations MIDI.
14.15.2 Limites d’interconnexion
L’interface MIDI spécifie que chaque direction de communication nécessite un câble séparé. Ce
parti-pris unidirectionnel aboutit à un réseau de câbles. Un autre facteur ajoutant du désordre aux
câbles est que de plus en plus de machines multicanaux possèdent des ports MIDI multiples afin
de contourner les problèmes inhérents de largeur de bande dans un seul câble. La connexion en
chaîne, qui fut conçue pour diminuer le nombre de câbles MIDI, possède des limites pratiques
strictes en raison du brouillage d’impulsion dans les connexions MIDI Thru.
Ces aspects de la conception du MIDI rendent nécessaire une patchbay MIDI ou d’autres boîtes
d’accessoires dans un studio professionnel. Une partie de l’argument original en faveur du MIDI
en 1983 comparé à une approche de réseau plus sophistiquée était son faible coût. Le coût de fabri-
cation est très peu élevé en ce qui concerne le matériel MIDI d’une seule machine. Mais les systèmes
MIDI actuels nécessitent tant de câbles et de boîtes d’accessoires que le prix requis pour intercon-
necter un studio ne constitue plus une dépense négligeable. De plus, la technologie de réseau haute
vitesse est devenue bien meilleur marché.
14.15.3 Limites de la représentation musicale
Une contrainte fondamentale de la spécification MIDI est le concept de musique incorporé lors de
sa conception. Le MIDI fut conçu pour capturer un dialecte musical fortement orienté vers les mor-
ceaux populaires (avec une pulsation mesurée et un tempérament égal) tels que joués sur un clavier
musical. La synthèse et le traitement numériques peuvent emmener la musique bien au-delà de ce

dialecte, mais cela est difficile par MIDI.
Une partie du problème est le manque de représentation du timbre par le MIDI. Même les aspects
de base du timbre, comme l’enveloppe d’amplitude globale d’une note, n’ont pas de représentation
standard. D’une façon plus générale, le MIDI ne possède pas de contrôles explicites sur les enve-
loppes de paramètre utilisées par la machine qui crée ou lit les messages de note MIDI. Ceci est l’une
des raisons expliquant la qualité « mise en boîte » de nombreuses compositions MIDI dans lesquelles
chaque note possède exactement le même timbre et la même enveloppe.
Les messages de note MIDI sont une représentation de partition indépendante de la machine. Ceci
rend les logiciels de musique génériques plus faciles à développer, mais signifie également que toute
liste de notes MIDI est incomplète — sans aucune instruction concernant l’orchestration. Le même
message envoyé à deux machines différentes peut produire un son complètement différent. Une
machine peut émettre un bruit sourd de grosse caisse, tandis que l’autre émettra un crissement aigu
provenant d’une simulation de guitare. Le mécanisme de canal, qui constitue la méthode utilisée
par le MIDI pour séparer les lignes individuelles de la polyphonie, ne dit rien sur les instruments
assignés à ces canaux. Le mode General MIDI (tableau 14.2) possède une organisation arbitraire
canal-instrument, mais celle-ci fut conçue pour des besoins de particuliers et non pour les musiciens
professionnels. Même si le General MIDI pouvait garantir des timbres identiques entre les machines
(ce qu’il ne peut pas), cela ne représenterait toujours qu’une infime partie des timbres possibles
dans l’informatique musicale.
Le concept de hauteur du MIDI est faible. Il fut à l’origine conçu pour des hauteurs à tempérament
égal. Il est possible de désaccorder une hauteur, mais le message MIDI de molette de hauteur est
une opération globale qui s’applique sur toutes les notes d’un canal. Cette limite inhérente sabote
la flexibilité musicale des machines MIDI. L’une des justifications de l’informatique musicale est la
capacité à aller au-delà des limites de hauteur, de temps et de timbre des instruments traditionnels.
Pour répondre à ces limites, des propositions pour modifier la représentation de hauteur en MIDI
ont circulé parmi la communauté MIDI (Scholz, 1991).
14.16 Accélérer les communications MIDI

Dans les configurations MIDI simples et dans certaines limites de style musical et d’interprétation,
le protocole MIDI est transparent. Dans des applications comme l’édition de patch, par exemple,
la largeur de bande du MIDI n’est en général pas un problème majeur. Mais dans des cas plus com-
plexes, on se trouve confronté aux limites de la largeur de bande du MIDI. Pour des musiciens pro-
fessionnels, il est important d’essayer de travailler avec la norme tout en améliorant sa vitesse
d’exécution.
La stratégie principale pour contourner les limites de vitesse du MIDI est de multiplexer le flux de
données. Multiplexer signifie diviser le flux de données en plusieurs chemins qui opèrent simulta-
nément. Cette division peut être faite d’au moins cinq façons.
1. Envoyer chaque canal de messages MIDI par un câble MIDI séparé. Cette stratégie est facilitée
par des machines possédant de multiples ports Out et des accessoires ayant de multiples
connecteurs Thru comme les boîtes MIDI Thru et les patchbays (voir figure 14.13c).
2. Utiliser une interface MIDI multiports pour traiter plusieurs lignes MIDI de 16 canaux en paral-
lèle. Les ordinateurs actuels peuvent gérer plusieurs fois la largeur de bande d’une seule ligne
MIDI. Pour tirer parti de cela, plusieurs sociétés proposent des interfaces MIDI multiports
Ordinateur
LAN
Convertisseur LAN-MIDI
Appareil Appareil Appareil

...
MIDI MIDI MIDI
1 2 N
Figure 14.15 – Schéma LAN/MIDI. Un ordinateur maître communique avec un ensemble

de machines MIDI dans un réseau local haute vitesse grâce à un convertisseur LAN-MIDI.
pouvant gérer plusieurs lignes MIDI indépendantes. Ces produits fonctionnent avec un logiciel
compatible avec l’adressage de lignes multiples.
3. Synchroniser plusieurs systèmes MIDI fonctionnant en parallèle grâce à du code temporel
SMPTE et à de la conversion SMPTE-MTC (voir le chapitre 15 pour plus d’informations sur
le SMPTE).
4. Utiliser la largeur de bande de câbles en fibre optique pour transmettre de nombreux flux de
données en série de façon concurrente (comme dans le système MidiTap développé par la
société Lone Wolf). Les flux de données en série obéissent à des protocoles normalisés comme
le MIDI, l’audionumérique AES/EBU, le code temporel SMPTE et d’autres formats numériques
de données.
5. Intégrer des communications MIDI à l’intérieur d’un réseau local haute vitesse (LAN) ou
d’un protocole de communications multimédias. Lorsque le MIDI fut lancé en 1983, une carte
interface LAN pour un petit ordinateur coûtait plusieurs milliers de dollars. Ces dernières
années, le prix des circuits LAN a diminué de façon spectaculaire, et ils équipent maintenant
en standard de nombreux ordinateurs. Certains circuits LAN ne coûtent pas plus cher qu’une
interface MIDI, et sont pourtant plusieurs centaines de fois plus rapides.
Dans un schéma LAN-MIDI, un ordinateur maître communique à haute vitesse dans le LAN jus-
qu’aux contrôleurs MIDI (figure 14.15). Chaque contrôleur MIDI, à son tour, communique avec un
synthétiseur par un lien MIDI dédié. Un problème que l’on rencontre avec certains protocoles LAN
est que le taux de transmission peut dépendre de la quantité de trafic sur le LAN, c’est-à-dire du
nombre de machines qui essaient de transmettre en même temps. Les « collisions » entre plusieurs
messages peuvent retarder les communications.
Les experts utilisent également des optimisations spéciales construites dans des machines MIDI
spécifiques lorsqu’elles sont disponibles. Un exemple pourrait être un synthétiseur possédant un
schéma de contrôle global pour la puissance qui affecte tous les canaux même si un message n’est
envoyé que sur un seul canal.
14.17 Écriture de logiciel de musique MIDI

Les logiciels MIDI peuvent être classés en deux catégories assez larges : (1) le logiciel interne tour-
nant sur le microprocesseur de chaque machine MIDI, (2) les applications musicales fonctionnant
sur un ordinateur connecté à d’autres machines MIDI. La première catégorie est constituée d’un
système écrit par le constructeur d’un synthétiseur ou d’un module de traitement du signal en
temps réel. Les détails de ce programme dépendent du matériel spécifique employé, et dépassent
le cadre de ce livre. Le reste de cette partie examine des applications musicales que les musiciens
sont susceptibles d’utiliser. Les applications MIDI courantes appartiennent à sept catégories prin-
cipales, résumées dans le tableau 14.4.
Tableau 14.4 – Programmes d’application MIDI et les types de messages qu’ils gèrent.
Séquenceurs Enregistrent, éditent et lisent la plupart des types de messages, mais

particulièrement les messages de Voix de canal concernant les événe-
ments de note. Certains séquenceurs gèrent la synchronisation grâce à
des messages de code temporel MIDI (MTC).
Éditeurs/Bibliothécaires Reçoivent et transmettent des messages Système exclusif depuis

de patch des mémoires de données et de programme d’une machine MIDI. Les
données peuvent être éditées grâce à l’écran de l’ordinateur et de
nouveaux messages Système exclusif MIDI sont retransférés dans la
machine MIDI pour modifier son patch ou sa voix.
Éditeurs de partition Maintiennent une structure de données interne qui fait le lien entre
et imprimeurs de notation une représentation graphique et une séquence de messages MIDI, en
particulier des messages de note.
Programmes de composition Génèrent des données de séquence MIDI (plus particulièrement des
algorithmique messages Voix de canal), en commençant parfois de données de note
reçues par une machine d’entrée comme un clavier.
Logiciels d’interprétation Reçoivent, modifient et transmettent des données de séquence MIDI

interactifs en interaction avec un interprète humain.
Éditeurs et mélangeurs Reçoivent des données au format MIDI Sample Dump (MSD) ou dans
d’échantillon un format propriétaire, permettent à l’utilisateur de les éditer, et
retransmettent le format MSD ou propriétaire dans l’échantillonneur.
Certains systèmes permettent la lecture de l’échantillon en synchrone
avec des images spécifiques de code temporel SMPTE ayant été tra-
duites en messages de code temporel MIDI.
Programmes d’éducation Reçoivent et transmettent des données de séquence MIDI ; pratique

musicale interactive et leçons avec l’étudiant, conservation des progrès de
celui-ci.
14.17.1 Vue globale des programmes MIDI

L’organisation de la plupart des programmes MIDI est montrée dans la figure 14.16. L’interaction
graphique et textuelle est gérée par un module « de premier plan » piloté par événement. Piloté par
événement désigne une interface qui présente en permanence un certain nombre d’options à l’uti-
lisateur. Lorsque celui-ci fait une sélection, cela génère un événement logiciel qui doit être décodé
et traité. La sélection peut être le choix d’un élément de menu, le déclenchement d’un bouton gra-
Sélections Affichage
graphiques des options
et des outils
d’entrée graphique
Gestionnaire d’interaction
graphique et textuelle
Mises à jour
de l’affichage Événements
graphique
Traitement Gestionnaire
Gestionnaire des données
d’entrée MIDI de sortie MIDI
musicales
Pilote d’appareil MIDI
Interface MIDI
In Out
Entrée par gestes, Vers des appareils MIDI

ou autres de synthèse
données MIDI et de traitement du signal
Figure 14.16 – Vue globale d’un programme MIDI.

Voir le texte pour une description.
phique ou le mouvement d’un curseur graphique. L’entrée dans le programme peut également
provenir de l’interface MIDI, en relais d’une machine d’entrée comme un clavier de musique.
Les données MIDI sont groupées en octets par l’interface MIDI et passées dans le pilote de machine
MIDI. Il s’agit du code qui gère les ports d’entrée et de sortie MIDI de l’ordinateur. Tous les pro-
grammes qui souhaitent transmettre ou recevoir des données MIDI doivent communiquer avec ce
pilote de machine. Certaines applications fournissent leur propre pilote, tandis que d’autres laissent
au système de l’ordinateur le soin de fournir cet ensemble de services. Pour le programmeur, le pilote
fournit un certain nombre de services, comme l’activation de l’interface MIDI, la création d’une
mémoire tampon d’entrée et de sortie, la capture ou l’envoi d’un octet dans la mémoire tampon, et
l’effacement de ces mémoires.
Les parties spécifiques au MIDI d’un programme sont constituées de trois modules : entrée, trai-
tement et sortie. L’étape d’entrée gère les données MIDI entrantes en regroupant le flux de bits en
messages. Elle envoie les messages à l’étape de traitement pour décodage et action. L’étape de trai-
tement interprète les messages épars. Le traitement pourrait être, par exemple, un séquenceur MIDI
qui stocke les données dans l’une de ses pistes. L’étape de sortie prend des données dans l’étape de
traitement et l’envoie vers d’autres machines MIDI, comme dans l’opération « Lecture » d’un séquen-
ceur ou d’un programme de composition algorithmique.
14.17.2 Langages de programmation MIDI

Les applications MIDI peuvent être écrites dans n’importe quel langage. Mais le programmeur qui
utilise un langage comportant des extensions et des bibliothèques de fonction compatibles avec un
pilote de machine MIDI possède une longueur d’avance. Des versions spéciales des langages Lisp,
C, Forth, Basic, Logo et Pascal fournissent un grand nombre de services MIDI grâce à des routines
qui peuvent accéder à un pilote de machine MIDI (De Furia et Scacciaferro, 1988 ; Conger, 1988,
1989 ; Boynton et coll., 1986 ; Rahn, 1990 ; Greenberg, 1988).
À un niveau plus élevé, des langages comme HMSL (Polansky, Rosenboom et Burk, 1987 ; Polansky
et coll., 1988), Formula (Andersen et Kuivila, 1986), MoxC (Dannenberg, 1986) et le CMU MIDI
Toolkit (Dannenberg, 1986 ; Computer Music Journal, 1994) fournissent une assistance pour
l’organisation des événements et des routines temporelles, parmi d’autres fonctions. Une myriade
de langages de composition algorithmique peut générer des fichiers de partition compatibles avec
le MIDI, pour la lecture avec un séquenceur.
Plusieurs environnements interactifs ou « langages de programmation visuels » sont également
compatibles avec le MIDI. Chaque icône représente une procédure pouvant manipuler un flux de
données MIDI. Le programme Max, par exemple, fournit un environnement abstrait dans lequel
un réseau d’icônes et de câbles peut être compressé en une seule icône de haut niveau (Puckette et
Zicarelli, 1990).
14.18 Contacts sur le MIDI

Plusieurs organisations servent de guide au développement du MIDI et distribuent de la documen-
tation et d’autres informations. La International MIDI Association (IMA) est une référence pour
les utilisateurs de systèmes et de logiciels MIDI. Leur adresse est la suivante : International MIDI
Association, 5316 West 57th Street, Los Angeles, California 90056, États-Unis. Les extensions au
protocole MIDI sont suivies par la MIDI Manufacturers Association (MMA), qui peut également
être jointe par la IMA. Pour des informations sur la norme de code temporel SMPTE, contactez
la Society of Motion Picture and Television Engineers, 595 West Hartsdale Avenue, White Plains,
New York 10607, États-Unis.
14.19 Conclusion
La conception simple et les nécessités matérielles bon marché du MIDI ont conduit à son acceptation
universelle dans le monde de la musique commerciale. Le MIDI a été bénéfique dans de nombreuses
applications musicales, depuis l’éducation jusqu’à la production musicale pour la télévision et le
film, et il a ouvert un monde entièrement nouveau de possibilités d’interprétation interactives.
Une industrie de la musique électronique diverse s’est développée en tant qu’effet secondaire du
succès du MIDI. La présence d’une interface standard sur les synthétiseurs a conduit à une proli-
fération de nouvelles machines d’entrée musicale — les instruments physiques manipulés par les
interprètes.
Le MIDI est une spécification dynamique. Depuis qu’il a été proposé pour la première fois en 1983,
il a subi des amendements de façon continue. Les extensions à la norme MIDI originelle ont rendues
possibles le transfert d’échantillon (par le Sample Dump Standard), la synchronisation avec des
machines SMPTE (par le code temporel MIDI), l’échange de fichiers MIDI (par la définition Standard
MIDI File), le contrôle de paramètre normalisé, une configuration de preset, la transmission par
USB ou la lecture en continu par le biais d’Internet. Un grand nombre de nouvelles normes ont
émergé pour rendre le MIDI compatible avec des appareils mobiles comme les téléphones. Pour
plus de détails sur les dernières mises à jour du MIDI, voir le site web de la MIDI Manufacturers
Association : http://www.midi.org. Une conscience des limites fondamentales du MIDI a toujours
existé. À un moment, les amendements cesseront, et une nouvelle norme émergera.
Chapitre 15
Interconnexions de système
Tout propriétaire de système musical doit faire face à l’interconnexion de machines. Tout nouvel
équipement apporte son lot de connecteurs de tout type et de toute taille. La compatibilité entre les
machines est incomplète, ce qui conduit à l’achat d’interfaces matérielles spécialisées et de logiciels
de conversion. La connaissance des schémas d’interconnexion de machine est une nécessité pratique.
Ce chapitre présente ces concepts et leurs implications dans un système musical. Le chapitre 14
explique la spécification MIDI et nous recommandons sa lecture avant d’aborder la partie sur le
MIDI dans ce chapitre.
Nous examinons tout d’abord les propriétés de base des alimentations en courant alternatif et des
câbles audio analogiques. Puis nous abordons les différents types de canaux de communication
numérique :
• Lignes série (y compris le protocole MIDI).
• Liaisons audionumériques.
• Liaisons de synchro.
• Ports et bus parallèles.
• Contrôleurs d’accès direct à la mémoire et mémoires partagées.
• Réseaux et télécommunications.
15.1 Alimentations en courant alternatif

L’un des principaux problèmes dans un système audio peut être le réseau électrique en courant
alternatif (CA). Diagnostiquer et résoudre les problèmes d’alimentation et de mise à la terre est un
talent qui ne s’acquiert qu’avec l’habitude. Heureusement pour le propriétaire de studio, ils ne sont
en général à prendre en compte que lors de l’installation du studio. Ces problèmes sont en revanche
récurrents pour le musicien en tournée. Dans cette partie, nous décrivons certains des problèmes
d’alimentation CA les plus courants et présentons des mesures pour les éliminer.
Une règle générale est de placer tout l’équipement audio et informatique sur une alimentation en
courant alternatif séparée d’équipements électriques tels que les gradateurs de lumière, l’air con-
ditionné et les réfrigérateurs. Ceci permet d’éviter des distorsions (pics transitoires) dans la tension
d’alimentation causées par les commutateurs haute puissance présents dans ces appareils. L’ali-
mentation dédiée devrait avoir un signal de terre provenant de la source la plus propre possible.
Le signal de terre est un point de référence électrique pour « aucune charge électrique ». S’il est
contaminé par un bruit électrique quelconque, celui-ci entre dans tous les appareils connectés au
signal de terre et peut arriver dans les signaux audio. Dans les studios professionnels, le câble de
terre est souvent connecté sur une tige en métal enfoncée dans la terre, ce qui est considéré comme
étant électriquement neutre.
Une source importante d’interférence audio est constituée des signaux liés à l’alimentation passant
dans les signaux audio. Les alimentations en courant alternatif peuvent introduire du bruit dans
les câbles audio analogiques, et il est donc préférable de séparer les deux. Dans le meilleur des cas,
on peut utiliser des conduits en acier pour séparer ces câbles ou au moins ne pas placer les câbles
d’alimentation et les câbles audio côte à côte sur de longues distances. Un autre problème provient
des différences de tension qui existent entre différents châssis d’équipement. Ces différences peuvent
provenir de champs magnétiques de dispersion, d’une mise à la terre incompatible, d’une perte
d’alimentation, ou d’une interférence de fréquence radio, parmi d’autres choses. Une façon de
résoudre le problème est de connecter tout l’équipement dans une configuration en étoile sur ali-
mentation en courant alternatif centrale avec une mise à la terre centrale, plutôt que de « brancher
en chaîne » l’alimentation CA et de mettre à la terre à travers plusieurs appareils (brancher en chaîne
signifie interconnecter des appareils en série d’un appareil vers le suivant, et ainsi de suite).
Lorsqu’une interférence dans un appareil A est causée par une fuite magnétique dans un transfor-
mateur de puissance interne d’un appareil B, déplacez A à un endroit différent, car même une
distance d’un mètre peut aider. Si ce n’est pas le cas, il peut être nécessaire d’ajouter une isolation
supplémentaire (cuivre ou acier) à l’intérieur ou autour de l’appareil posant problème.
Un conditionneur d’alimentation s’adresse à deux autres sources de bruit : l’interférence fréquence
radio (FR) et les pointes électriques. Les symptômes de l’interférence FR sont une augmentation
du bruit haute fréquence et la présence d’un programme audible (parole ou musique) qui passe
dans un autre signal. Comme mentionné précédemment, les distorsions ou les pointes peuvent pro-
venir de commutateurs dans les appareils d’air conditionné, les réfrigérateurs, les gradateurs de
lumière, et de déchargements électrostatiques dans l’atmosphère (éclairs). Dès lors, les condition-
neurs d’alimentation sont recommandés même dans les petits studios, spécialement ceux ne
possédant pas un service électrique séparé pour le studio. Les conditionneurs d’alimentation con-
tiennent en général des filtres haute fréquence qui éliminent l’interférence FR et des suppresseurs
de pointes qui atténuent celles-ci. Un conditionneur d’alimentation équipé d’un fusible constitue
également une assurance bon marché contre la défaillance de disjoncteurs dans le système électrique
d’un immeuble, qui, nous l’attestons de notre expérience personnelle, peut survenir.
Un autre appareil plus coûteux appelé régulateur de tension va au-delà du filtrage de l’alimentation
pour maintenir la tension CA à l’intérieur de limites étroites. Ceci est utile, car le niveau de tension
provenant d’une prise murale peut varier considérablement, ce qui cause un comportement anormal
dans l’équipement électrique. Les chutes de tension sont particulièrement problématiques les
jours où la consommation est forte, par exemple les jours de forte chaleur pendant l’été.
15.2 Câbles audio analogiques

Même un studio « tout numérique » bénéficie d’avoir des signaux analogiques propres lorsque le
moment est venu d’enregistrer à travers un convertisseur analogique-numérique ou d’écouter à
travers un amplificateur analogique et des haut-parleurs. Une inattention sur les interconnexions
analogiques peut créer de la diaphonie (le signal d’un canal passe dans un autre), du ronflement,
du bourdonnement, des clics, de l’interférence FR, et une qualité sonore généralement « colorée ».
Après une période de débats passionnés dans les années 1980, il est maintenant bien établi
— grâce à des tests d’écoute et à des analyses scientifiques — que des câbles et des intercon-
nexions de haute qualité sont essentiels à la transmission de signaux analogiques transparents
(Greenspun et Klotz, 1988 ; Newell, 1991 ; F. Davis, 1991). Ce seul fait ne résout pas à lui tout seul
les choix sur la sélection du câble, car il existe des hypothèses contradictoires pour savoir quel type
de câble est « le meilleur ». La théorie et l’expérience indiquent que le choix du câble, comme de
tout autre composant audio, implique des compromis, et que certains types de câbles fonctionnent
mieux avec des types particuliers de composants audio (voir F. Davis, 1991 pour une comparaison
scientifique de plusieurs câbles).
15.2.1 Connecteurs
Les types de connecteurs de câble les plus couramment utilisés dans les studios audio sont les con-
necteurs cinch (ou RCA) standard utilisés dans les produits audio grand public, les connecteurs
jacks 6,35 mm (tout d’abord employés par les sociétés de téléphone) utilisés avec des instruments
tels que les guitares électriques et les amplificateurs de guitares, mais également sur les synthéti-
seurs, les connecteurs jacks TT ou bantam 4,4 mm utilisés dans les patchbays, et les connecteurs
XLR trois points et cinq points utilisés dans les appareils professionnels. Un protocole de connexion
standard pour les connecteurs XLR fut finalement défini en 1992, après des décennies de prati-
ques contradictoires (Audio Engineering Society, 1992c).
15.2.2 Comparaison de symétrique et d’asymétrique

Les interconnexions analogiques peuvent être symétriques ou asymétriques. Dans une liaison
symétrique, deux fils isolés transportent la tension du signal, mais l’un des fils transporte une version
avec une phase inversée à 180 degrés (inversée par l’amplificateur transmetteur) (figure 15.1).
Aucune des deux lignes de signal n’est reliée à la terre. Un blindage pour repousser les signaux exté-
rieurs est connecté à la terre et tressé autour des deux fils de signal. Le circuit auquel est attaché le
câble aux deux extrémités passe des signaux différentiels, ce qui signifie qu’il doit y avoir une diffé-
rence de tension entre les deux conducteurs pour que le courant circule. Puisque l’un des signaux
est déphasé de 180 degrés, il existe toujours une différence de tension entre les deux signaux.
Dès lors, le signal audio passe toujours à travers l’étape d’entrée différentielle. Un tel circuit montre
la propriété de rejet du mode commun, qui est la clé de l’immunité contre le bruit des lignes symé-
triques. Si les interférences extérieures passent à travers le blindage, elles contaminent inévitable-
ment les deux conducteurs. Dès lors, ce signal en « mode commun » est rejeté par le circuit d’entrée.
Dans une ligne asymétrique, un paquet de fils transporte le signal, entouré d’un blindage relié à la
terre. Le problème principal avec une ligne asymétrique est qu’elle est susceptible d’induire des
bruits et des pertes de signal. Ces problèmes potentiels peuvent ne pas avoir d’importance pour un
câble de courte longueur (par exemple, moins de deux mètres). Mais sur des longueurs de câble
plus importantes, les sources de contamination s’ajoutent. En général, les lignes symétriques sont
préférables, car elles rejettent le bruit induit et les différences de tension provoqués par un équipe-
ment qui n’est pas correctement relié à la terre.
(a)
(b)
Figure 15.1 – Vue de signaux dans les fils d’un câble symétrique.
(a) Signal original. (b) Signal en inversion de phase.
Pour une qualité optimale, l’équipement audio devrait avoir des entrées symétriques haute impé-
dance (~ 10 kΩ) et des sorties symétriques basse impédance (~ 60 Ω). Si l’équipement ne satisfait
pas à ces règles, comme cela est le cas de la plupart des produits audio grand public, par exemple,
il est possible d’acheter des boîtes interface fournissant une conversion asymétrique-symétrique.
Ces boîtes convertissent également entre les différents niveaux de tension utilisés dans les équipe-
ments grand public et professionnels.
15.2.3 Distance de câble

La distance affecte la largeur de bande des câbles analogiques. Les expériences montrent que les
distances de câble entre amplificateur et haut-parleur supérieures à trois mètres commencent à
dégrader la qualité audio (Newell, 1991). Pour de très longues distances de câble, la capacité dans
un câble agit comme un filtre passe-bas, en atténuant les hautes fréquences. F. Davis (1991),
cependant, a montré que pour des distances de câble plus courtes (moins de trois mètres), la capa-
cité n’a pas d’influence sur la qualité audio (la perte de hautes fréquences est négligeable). À des dis-
tances de moins de trois mètres, la propriété la plus importante dans les câbles est une inductance
faible pour maintenir un niveau de tension constant pour toutes les fréquences et les charges. Les
câbles multibrins et rubans dans lesquels chaque fil est blindé séparément possèdent cette propriété.
Dans une situation de concert, il est parfois possible d’utiliser un système transmetteur-récepteur
radio à la place d’un câble audio. Cette solution est fréquemment adoptée lors des interprétations
en direct et des transmissions télévisuelles, où elle possède l’avantage de ne pas encombrer l’inter-
prète et de permettre de plus grandes distances entre celui-ci et l’équipement. Bien qu’ils soient
pratiques, les systèmes de transmetteur radio de bonne qualité sont beaucoup plus chers que les
câbles. Ils ne peuvent de toute façon pas fournir la clarté que délivre un câble de haute qualité.
15.3 Patchbays
Des configurations audio différentes nécessitent que l’ingénieur du son déconnecte les câbles
d’une configuration existante et les reconnecte dans la configuration désirée. Lorsqu’un système
atteint un certain niveau de complexité, ce projet peut être difficile et prendre du temps. Une patch-
bay, qui garde tous les points d’interconnexion dans un emplacement central avec un schéma de
connexion standard, simplifie grandement cette tâche. Le terme patchbay provient des cordons de
raccordement (patch cords) utilisés pour connecter les entrées et les sorties des appareils de studio.
Nous pouvons distinguer trois types de patchbays, selon leur technologie : analogique, hybride et
numérique.
15.3.1 Patchbays analogiques

La patchbay analogique traditionnelle est un tableau en rack qui contient une prise (orifice) corres-
pondant à l’entrée et à la sortie analogique de tous les composants ou groupe de fils du studio. Les
patchbays peuvent être symétriques ou asymétriques. Une patchbay symétrique est recommandée
en raison des caractéristiques de rejet du mode commun.
Dans une patchbay, une prise est dite normalisée à une autre si les composants connectés aux deux
prises sont connectés l’un à l’autre même s’il n’y a aucun connecteur inséré dans l’une des deux
prises. Le but de rompre une connexion normalisée est de reconfigurer le schéma d’interconnexion
avec des cordons de raccordement. La figure 15.2 montre deux vues d’un patch pour le remélange
d’un morceau sur un enregistreur quatre pistes en deux pistes, avec deux canaux d’effets.
(a) (b)
Enregistreur Entrées Sorties

4 pistes
Table de mixage 1 - 4 Enregistreur 4 pistes 1 - 4
Envois T. mixage T. M Envois

Table de mixage 5 - 8
Aux. 1-2 Aux. 1 - 2
Mixeur entrées 1-4
Unité Enregistreur 4 pistes 1 - 4 Microphones 1 - 4

d’effets
Retours Enr. 2 pistes Unité d’effets Unité d’effets Non utilisé

Aux. 1-2 1-2 1-2
Mixeur
Sortie 1-2
T. M Envois Non utilisé Non utilisé

Aux. 1 - 2
Enregistreur
2 pistes
Figure 15.2 – Deux vues d’un patch pour un remélange de quatre pistes
en deux pistes avec effets. (a) Vue logique de l’appareil. (b) Vue de la patchbay. Le côté gauche de
la patchbay est alloué aux prises d’entrée, et le côté droit aux prises de sortie.
Une partie spéciale d’une patchbay est la partie de mult (multiplexage). Un mult est un ensemble
de prises interconnectées qui envoie une entrée vers plusieurs sorties ou vice versa (figure 15.3).
Depuis la table de mixage
Vers trois enregistreurs
Figure 15.3 – Un mult quatre voix peut prendre une entrée

(dans ce cas, un canal provenant d’un mélangeur) et l’envoyer vers quatre sorties (dans ce cas,
trois enregistreurs différents).
15.3.2 Patchbays hybrides

Une patchbay analogique est un système passif constitué de prises et de fils d’interconnexion ; les
cordons de raccordement sont branchés et débranchés à la main. Une patchbay dans laquelle les
interconnexions sont réglées par des commutateurs électroniques contrôlés depuis une source
numérique est appelée une patchbay hybride. Elle est appelée hybride, car les signaux audio restent
dans le domaine analogique, mais le contrôle est numérique (en général par MIDI).
Une telle patchbay peut distribuer une seule source analogique à n destinations, où n est défini par
le constructeur. Dans une patchbay hybride, les signaux analogiques entrants passent à travers un
circuit supplémentaire, et il est donc important que celui-ci soit très propre. Le principal avantage
d’une patchbay contrôlée numériquement est qu’il faut moins d’une seconde pour repatcher le sys-
tème entier, car les configurations de patch peuvent être rappelées depuis une mémoire.
15.3.3 Patchbays numériques
Pour une interconnexion un vers un, les signaux audionumériques au format AES/EBU symétrique
peuvent être patchés avec une patchbay symétrique normale (analogique). Une patchbay numérique
plus sophistiquée est en général appelée un commutateur audionumérique ou matrice d’achemine-
ment. Le cœur d’un commutateur audionumérique est un circuit de multiplexage dans le domaine
temporel (TDM) qui peut acheminer un flux de données d’entrée vers n’importe quel nombre
d’adresses de sortie (figure 15.4). Dans un système TDM, chaque période d’échantillon est divisée
en un nombre de tranches de temps égal au nombre d’entrées possibles. Les entrées chargent les
tranches de temps dans une séquence régulière, et les sorties lisent une tranche de temps parti-
culière tel que cela est dicté par le circuit de contrôle. Ce genre de système TDM nécessite que toutes
les sources soient synchronisées sur la même horloge d’échantillonnage et que leurs taux d’échan-
tillonnage soient tous identiques (voir plus loin la partie sur les liaisons de synchro).
15.4 Lignes série électroniques

Une interface de ligne série transmet un bit à la fois entre un ordinateur hôte et un appareil péri-
phérique. La plupart des lignes série sont électriquement compatibles avec la norme établie par
l’Institute of Eletrical and Electronic Engineers (IEEE). La norme RS-232-C de l’IEEE est une
norme de ligne série courante. Des copies de cette norme peuvent être achetées auprès de l’Elec-
tronic Industries Association, 2001 Eye Street, N.W., Washington, D.C. 20006 (voir McNamara,
1984, pour une synopsis de la norme RS-232-C). Des normes plus récentes pour la transmission
de données série appelées RS-422 et RS-423 sont également largement utilisées. Leur principal
Signaux CAN Décodeurs

analogiques Signaux
et encodeurs et CNA analogiques
Convertisseur Commutateur Convertisseur

Stéréo Stéréo
de taux TDM de taux
numérique numérique
d’échantillonnage d’échantillonnage
à 44.1 kHz à 44.1 kHz
Lignes Lignes
numériques numériques
stéréo stéréo
à 48 kHz à 48 kHz
Figure 15.4 – Patchbay numérique utilisant le multiplexage

dans le domaine temporel (TDM). Le commutateur TDM peut acheminer une entrée vers de nom-
breuses sorties. Nous supposons qu’avant d’entrer dans le commutateur TDM, un signal doit être
à un taux de 48 kHz. Les entrées analogiques sont converties en numérique, tandis que les
signaux numériques qui ne sont pas au taux d’échantillonnage du TDM doivent être rééchantillon-
nés.
avantage est la vitesse. Une ligne RS-232C normale transfère des données à des taux allant jusqu’à
environ 20 kbits par seconde, tandis que la norme RS-422 permet des vitesses de transmission
bien plus élevées.
15.5 Câbles MIDI

Cette partie sert de bref résumé à ce qui est présenté au chapitre 14, avec une attention particulière
portée sur les propriétés physiques et la capacité de canal des câbles MIDI. La version 1.0 de la
norme Musical Instrument Digital Interface (MIDI) est un protocole d’interface de ligne série
conçu et utilisé par les constructeurs d’instruments de musique (IMA, 1983). Le MIDI fut conçu pour
permettre aux synthétiseurs, séquenceurs, ordinateurs et claviers d’être interconnectés par une
interface standard. Il prend la forme de câbles attachés à des connecteurs DIN cinq points qui relient
chaque appareil MIDI (DIN est l’acronyme d’une organisation allemande définissant des normes).
Le câblage des connecteurs MIDI n’est pas compatible avec les normes DIN audio normales.
Les transmissions MIDI opèrent à un taux de 31,25 kbits par seconde, de façon asynchrone. Un
signal MIDI est constitué d’un bit de départ, d’un octet de données de 8 bits, et d’un bit d’arrêt
dans un seul mot de transmission. Un message MIDI est défini comme un ou plusieurs mots, selon
le type de message envoyé.
Un câble MIDI communique des informations de contrôle d’interprétation telles que le temps de
départ d’enfoncements de touche (notes), leur vélocité (amplitude), et les changements de pro-
gramme (ou changements de patch) initiés par le musicien. Le MIDI n’est pas normalement utilisé
pour transmettre des enveloppes ou des formes d’onde à un synthétiseur. Il peut transmettre des
fichiers son monauraux vers un échantillonneur, mais uniquement en temps différé à un taux très
lent.
Chaque appareil équipé en MIDI contient un port MIDI. Ce port est constitué d’au moins trois
prises : In, Out et Thru. La prise In reçoit les données MIDI. Par exemple, lorsque des données de
note MIDI sont envoyées par un câble MIDI à la prise In d’un synthétiseur, celui-ci joue comme si
quelqu’un jouait de son clavier. Une prise Out d’un appareil transmet des messages MIDI depuis
celui-ci, tandis qu’une prise Thru permet au code MIDI entrant dans le port In d’être transmis à
un troisième appareil MIDI de façon plus ou moins transparente. Le port MIDI Thru rend possible
l’interconnexion de plusieurs appareils en chaîne (figure 15.5). Certains appareils possèdent de
multiples prises In ou Out pour permettre une mise en chaîne flexible.
Séquenceur Synthétiseur Échantillonneur

Out Out Out
In In In
Thru Thru Thru
Figure 15.5 – Connexion en chaîne MIDI grâce au port MIDI Thru du synthétiseur.
Le synthétiseur peut répondre aux messages envoyés sur plusieurs canaux MIDI tandis que l’échan-
tillonneur répond au même canal ou à d’autres canaux de façon indépendante.
Une chaîne MIDI est unidirectionnelle. Cela signifie que si nous souhaitons à la fois enregistrer et lire
en utilisant un séquenceur et un synthétiseur, il faut un câble pour envoyer les données du synthé-
tiseur vers le séquenceur et un autre câble pour envoyer les données stockées du séquenceur vers
le synthétiseur.
La longueur physique d’un câble MIDI ne devrait pas excéder 6,6 m, car les pertes de transmission
dans le câble commencent à créer des erreurs de données. Pas plus de trois appareils ne peuvent
être mis en chaîne en raison du brouillage d’impulsion qui s’accumule lorsque le signal passe le long
de la chaîne (Cooper, 1985 ; voir également le chapitre 14).
Vers les ports MIDI In

des appareils 1, 4, 6 et 7
1 2 3 4 5 6 7 8
1 2 3 4 5 6 7 8
Depuis les ports MIDI Out

des appareils 1, 2, 3, 4 et 5
Figure 15.6 – Patchbay MIDI. Cet exemple montre l’interclassage (la fusion)
de données entrantes (dans ce cas, depuis les appareils 1, 2, 3 et 4), et leur acheminement vers
un seul port MIDI. Elle prend également des données d’un seul appareil (appareil 5) et les envoie
dans le port In de plusieurs autres appareils (4, 6 et 7 dans cette figure).
Une chaîne ou ligne MIDI donnée possède 16 canaux qui peuvent gérer 16 appareils logiques. Ces
appareils logiques peuvent être des appareils physiques séparés ou simplement des voix différentes
dans un synthétiseur multitimbral. De nombreux studios utilisent plusieurs lignes MIDI pour
obtenir plus de canaux. Comme chaque liaison à deux sens nécessite deux câbles, cela peut con-
duire à un imbroglio de câbles MIDI qui est peu commode à repatcher. Comme repatcher est souvent
nécessaire, un composant essentiel d’un studio MIDI est une patchbay MIDI, montrée à la figure 14.6.
Grâce à des contrôles par bouton-poussoir, une patchbay MIDI achemine un flux de données MIDI
vers un ou plusieurs appareils. Comme tous les appareils sont directement liés à la patchbay, il n’y
a pas de connexion en chaîne.
La patchbay MIDI achemine des flux de données MIDI d’un appareil vers un autre appareil ; les
entrées et sorties numérotées sur la patchbay MIDI correspondent aux différents appareils et n’ont
pas de rapport avec les canaux MIDI. D’autres boîtes d’accessoire MIDI peut relier les données d’un
canal vers un autre canal, ou filtrer et éliminer en même temps certaines données du flux MIDI
(voir le chapitre 14).
15.6 Liaisons audionumériques

Les liaisons audionumériques transmettent des échantillons sonores entre des ordinateurs, des enre-
gistreurs à bande et des unités d’effets. Comme les échantillons restent dans le domaine numérique,
il n’y a pas de distorsions introduites par la conversion numérique-analogique ou analogique-
numérique. Si tout se passe bien, la copie envoyée à l’appareil récepteur est un clone parfait de
l’original.
Tableau 15.1 – Formats de transmission audionumériques.
EIAJ ou PCM-F1 L’un des premiers schémas d’interconnexion, provenant du format de bus des proces-
seurs audionumériques Sony PCM-F1 et 701. Plusieurs sociétés ont développé des
unités d’interface qui modifiaient le F1 et le 701 afin de produire des versions électri-
quement isolées des flots binaires primaires d’entrée et de sortie des CAN et des CNA
de ces unités.
AES/EBU Format série deux canaux créé par l’Audio Engineering Society et la European Broad-
cast Union ; connu autrefois sous le nom de AES3-1992 ou ANSI S4.40-1992 (Finger,
1992 ; Audio Engineering Society, 1992a). Utilise un seul câble à paire torsadée d’une
longueur allant jusqu’à 100 m à un taux de bit de 3.072 MHz pour des échantillons
audio 48 kHz. Un câble à paire torsadée est constitué de deux fils blindés individuel-
lement puis torsadés ensemble et recouvert d’un blindage d’isolation. Il est bon marché,
mais susceptible de récupérer des interférences de bruit sur de grandes longueurs de
câble. Les canaux gauche et droit sont multiplexés, avec une horloge et une synchro
intégrée à 32, 44,1 ou 48 kHz. D’autres fréquences sont possibles. Comme le format
possède une horloge intégrée, le signal d’horloge est contenu dans le flux audionu-
mérique, ce qui simplifie l’interconnexion, car il n’y a pas besoin d’une synchro avec
une horloge maître, comme cela est le cas avec le format SDIF-2 (l’extension d’horloge
de synchro AES pour le format AES/EBU lui fait perdre sa fonction d’horloge intégrée
dans les applications qui nécessitent une synchro globale). Une image est constituée
de deux sous-images correspondantes aux canaux gauche et droit. Chaque sous-image
est en 32 bits, avec les données audio réparties sur 24 de ces 32 bits, représentées
en forme complémentaire des deux. Les autres 8 bits sont pour la synchro, l’indicateur
d’erreur, le bit utilisateur, l’état du canal audio et la parité de sous-image. Le format
standard pour le texte et les autres données utilisateur est décrit par la norme
AES18-1992 (Audio Engineering Society, 1992b). Un bloc est constitué de 192 images,
et un bloc d’état de canal complet est formé à partir des 192 bits d’état de canal de ce
Tableau 15.1 (suite) – Formats de transmission audionumériques.
bloc. Le bloc d’état de canal indique l’emphase, la fréquence d’échantillonnage, le mono

ou la stéréo, l’heure, et d’autres conditions. Le circuit de transmission est une
source différentielle. Le récepteur doit être en électronique ou en optique symétri-
que, et le connecteur peut être XLR ou type D (9 points). Pour des aspects pratiques
des circuits AES/EBU, voir Kahrs (1991) et Finger (1992).
IEC 958 La Commission électrotechnique internationale (IEC), basée à Genève en Suisse, a

et S/PDIF conçu sa norme 958 à partir du format AES/EBU. Il existe deux normes IEC 958, une
« grand public » et une « professionnelle », mais c’est souvent de la première dont il
est question. La norme IEC 958 est compatible pour toutes les applications pratiques
avec la norme Sony/Philips Digital Interface Format ou S/PDIF. Elle est destinée aux
équipements grand public tels que les lecteurs CD et les enregistreurs DAT (bande
audionumérique). Tout comme l’interface AES/EBU, la norme IEC 958 possède une
horloge intégrée. Les principales différences entre les normes AES/EBU et IEC 958
proviennent de leur gestion des états de canal et des bits utilisateur. Le format de
transmission est également différent selon la catégorie de l’appareil transmetteur
(lecteur CD, lecteur DAT, processeur PCM, etc.). Par exemple, les sous-images de CD
audio ont des tailles de 16 bits, tandis que les sous-images de DAT utilisent une taille
de 24 bits. Les connecteurs IEC 958 sont des prises RCA (phono) asymétriques ou
des connecteurs fibre optique. Une extension de la norme définit le Serial Copy
Management System (SCMS) intégré aux enregistreurs DAT grand public.
SDIF-2 SDIF-2 (Sony Digital Interface Format) est une interface série développée par Sony
et utilisée pour interconnecter des produits audio professionnels, en particulier le sys-
tème de mastering de disque compact Sony. La norme SDIF-2 est conçue pour trans-
férer des échantillons aux taux standards de 44,056, 44,1 et 48 kHz. Tous les appareils
doivent être synchronisés à une horloge maître. Le signal audio est encodé sous la
forme d’un mot de 32 bits, divisés en un champ d’échantillon audio de 20 bits, un
champ de contrôle de 8 bits et un champ de synchro de 3 bits. Lorsque des échan-
tillons 16 bits sont transmis, les quatre bits restants sont remplis de zéros. Le
champ de contrôle contient des indicateurs pour l’emphase, la protection de copie, et
un indicateur de bloc qui indique le commencement d’un bloc SDIF-2 (256 mots). Le
champ de synchro de 3 bits est divisé en deux parties : impulsion haut-bas (indiquant
le commencement d’un bloc) ou impulsion bas-haut (indiquant un mot normal
d’échantillon). Voir Pohlmann (1989a) pour un diagramme détaillé du format d’enco-
dage. Un connecteur 15 points est en général utilisé.
AES10 ou MADI MADI (Multichannel Audio Digital Interface) ou AES 10 est une version multicanal du
protocole AES/EBU professionnel. Transmise en série en utilisant des puces FDDI
(Fiber Distributed Digital Interface) standards, la norme MADI relie des équipements
audionumériques multicanaux, tels que des consoles, des enregistreurs à bande et
des stations de travail audionumériques. Taux de données de 100 Mbits/s. Permet
de transmettre jusqu’à 64 canaux de données audio 24 bits à des fréquences d’échan-
tillonnage jusqu’à 96 kHz sur un seul câble coaxial 75 Ω à embout BNC sur des dis-
tances allant jusqu’à 50 mètres. Deux câbles sont nécessaires pour les communica-
tions bidirectionnelles.
ProDigi Le format ProDigi ou PD fut développé par Mitsubishi et Otari pour leurs produits
audionumériques professionnels. Les blocs de données sont transmis au taux d’échan-
tillonnage choisi. Le mot d’échantillon est de 32 bits, mais dans la plupart des cas
seuls les 16 premiers bits sont utilisés. Un signal d’horloge (word clock) marque le
commencement de tous les échantillons, et chaque canal d’audio est transmis sur un
fil séparé. Deux canaux d’état (sur des fils séparés) transmettent des informations
supplémentaires, telles que les bits indiquant l’état d’enregistrement d’un enregis-
treur à bande multicanal.
Tableau 15.1 (suite) – Formats de transmission audionumériques.
Yamaha Digital Un format propriétaire pour interconnecter certains produits audionumériques cons-
Cascade truits par Yamaha. Une paire de connecteurs transmet deux canaux d’échantillons
24 bits. Un seul connecteur DIN huit points transmet une word clock séparée et des
données audionumériques. Les signaux d’horloge et de données audio sont des signaux
différentiels symétriques. La word clock est transmise à la fréquence d’échantillonnage
et définit le départ d’une séquence de données canal gauche/canal droit. 32 bits par
canal sont transmis par cycle de mot. Les bits non utilisés sont remplis de zéros.
MIDI Sample Développé par des constructeurs d’échantillonneurs afin d’améliorer la commodité
Dump Format d’utilisation des premiers échantillonneurs, qui avaient une mémoire d’échantillon
limitée. Puisqu’un connecteur MIDI était le seul port numérique d’entrée/sortie sur
ces systèmes, il constituait le seul moyen pour importer et exporter des fichiers de
données d’échantillon numérique. Utilise un câble MIDI standard. La transmission est
extrêmement lente, car les données d’échantillon sont transmises un bit à la fois.
Par exemple, il faut plusieurs minutes pour transférer par MIDI un son monaural 16 bits
échantillonné à 44,1 kHz de 10 secondes.
SMDI SCSI Musical Data Interchange. Présenté en 1991, suivant une conception signée
par Peavey Electronics, et installé à l’origine dans les instruments d’échantillonnage.
Les appareils équipés pour le SMDI peuvent transférer des échantillons à haute
vitesse vers et depuis n’importe quel appareil SCSI, y compris des ordinateurs, des
disques et d’autres échantillonneurs (Isaacson, 1993). Contactez Peavey Electronics
Corporation pour plus de détails.
ADAT Optical Conçue par la société Alesis, cette norme est également appelée ADAT Lightpipe car
Interface elle utilise des câbles en fibre optique avec des terminaisons de type Toslink. Permet
de transférer simultanément jusqu’à 8 canaux mono de données audio 24 bits, avec
la présence d’une horloge de synchro intégrée. La fréquence d’échantillonnage est
limitée à 48 kHz, mais certains constructeurs proposent des solutions matérielles
permettant de contourner cette limitation.
TDIF Tascam Digital Interface. Permet d’envoyer et de recevoir simultanément jusqu’à

8 canaux mono de données audio en mode bidirectionnel. Utilise des câbles équipés
de connecteur de type D-sub 25 broches (DB25). Intègre des informations d’horloge
et d’emphase.
Différents formats de transmission audionumérique coexistent, certains publics et certains pro-

priétaires. Le tableau 15.1 résume leurs fonctions principales. Pour plus de détails sur les formats
audionumériques en général, voir par exemple Pohlmann (1989a) et Lambert (1990).
Une distinction importante entre les formats de transmission est la présence ou non d’une horloge
intégrée. Dans un format avec horloge intégrée tel que IEC 958, les données d’horloge sont envoyées
avec les données audio. Comme les horloges de taux d’échantillonnage de deux appareils audio-
numériques peuvent ne pas être synchronisées précisément, un système avec horloge intégrée cons-
titue une façon simple d’éviter des difficultés de synchro. Lorsqu’un appareil audionumérique doit
gérer plus d’un flux de données audionumériques (comme dans un mélangeur audionumérique),
un schéma avec horloge intégrée devient plus problématique. Certains formats permettent d’envoyer
en parallèle un signal d’horloge maître séparé sur un câble, à part des données audionumériques,
ce qui résout le problème. Ces sujets sont présentés plus en détail dans la partie sur les liaisons de
synchro audionumériques.
Transférer des échantillons audio entre des appareils peut être aussi simple que de connecter un
câble cinch entre la sortie numérique d’un appareil et l’entrée numérique d’un autre appareil et
d’appuyer sur un bouton « Record ». Mais parfois des incompatibilités dans les formats de trans-
mission empêchent une solution simple. Deux types d’incompatibilités peuvent survenir : des dif-
férences de format de données et des différences de taux d’échantillonnage. Un exemple d’une dif-
férence de format de données serait un enregistreur DAT portable qui transmet uniquement du
S/PDIF et un appareil qui reçoit uniquement du format AES/EBU. Un autre exemple serait un enre-
gistrement sur DAT fait à la maison et « protégé » de la copie par le célèbre Serial Copy Manage-
ment System (SCMS) construit dans les enregistreurs DAT. Ces problèmes peuvent en général être
résolus par des appareils spéciaux « résolveurs de problème » connectés entre le lecteur et l’enre-
gistreur. Certains processeurs d’effets numériques effectuent également ces conversions de format.
Les différences de taux d’échantillonnage sont plus sérieuses et doivent être résolues grâce à un
convertisseur de taux d’échantillonnage. Il s’agit typiquement d’un appareil matériel placé entre un
lecteur et un enregistreur. Pour changer le taux d’échantillonnage d’un signal numérique, il faut en
fait le rééchantillonner. Une autre stratégie consiste à lire le fichier dans une station de travail audio-
numérique et d’effectuer la conversion du taux d’échantillonnage avec un logiciel. Dans les deux
cas, la conversion de taux d’échantillonnage n’est pas propre à 100 pour cent, puisqu’elle ajoute une
faible quantité de bruit au signal original (en général de l’ordre de 1 à 2 dB). Voir le chapitre 18
pour plus de détails sur la conversion de taux d’échantillonnage.
15.6.1 Comparaison des formats de transmission et des formats de fichier

Remarquez que les formats de transmission audionumériques listés dans le tableau 15.1 ne sont
pas les mêmes que les formats de fichier audionumériques, qui déterminent comment les échan-
tillons sont stockés dans les fichiers informatiques ou écrits sur bande. Un format de fichier n’est pas
particulier au matériel, mais au programme d’application qui écrit les données. Un disque donné
peut donc avoir des fichiers dans 50 formats de fichier différents correspondants aux différents
types de données et d’applications (figure 15.7).
Au moment où un fichier est transmis entre des appareils, un microprocesseur situé à l’intérieur de
l’appareil transmetteur doit convertir les fichiers qu’il gère dans le format de transmission appro-
prié. Par exemple, le format de bande multipiste DASH utilisé par Sony, Studer, et d’autres sociétés
est en général transmis entre les machines par le format de transmission multipiste AES10. Une
station de travail audio peut stocker des données dans un format de fichier propriétaire, ou per-
mettre que les fichiers du disque soient écrits dans un format plus ou moins standard comme l’Apple
Interchange File Format (AIFF) (Apple, 1989). Mais au moment de la transmission, il envoie les
mêmes données (sans tenir compte du format de fichier) par le format de transmission standard
AES/EBU. Dans certaines situations, il est nécessaire d’utiliser des ensembles matériels ou logiciels
pour convertir entre plusieurs formats de fichier et de transmission.
15.7 Câbles en fibre optique

Le premier système optique pour transmettre des ondes sonores fut le Photophone d’Alexander
Graham Bell, qui déposa un brevet en 1880 (Fagen, 1975). La technologie de la fibre optique contrôlée
par des diodes électroluminescentes (LED) et des lasers ne s’est cependant développée que depuis la
fin des années 1970. Une fibre optique est un moyen flexible et de diamètre fin (moins de 100 μm)
pour transmettre un rayon optique.
Une liaison en fibre optique audio typique est contrôlée à une extrémité par une source LED et
détectée à l’autre extrémité par une photodiode positive-intrinsèque-négative (PIN). Les données
sont transmises en série — un bit à la fois —, mais à des taux très élevés. Une grande variété de
Format
de transmission
Station Fichiers
standard
de travail sur disque
audio en plusieurs
numérique formats
Format de transmission IEC 958
Processeur
d’effets numérique
Format de transmission AES/EBU
Enregistreur
de disque compact
Figure 15.7 – Comparaison des formats de transmission et des formats de fichier.

La station de travail montrée en haut écrit sur son disque en utilisant un format de transmission par
bus standard (par exemple, SCSI), et les données sont stockées dans un format de fichier propriétaire
déterminé par l’application qui écrit les données. Lorsqu’il est temps d’envoyer ces données dans
un autre appareil, une application de la station de travail les convertit en un format de transmission
standard tel que la norme grand public IEC 958. L’appareil récepteur peut les reformater au format
professionnel AES/EBU. Les données stockées sur l’enregistreur de disque compact audio sont
stockées dans un format de fichier spécifié par le Digital Audio Disc Committee (une organisation
de constructeurs) selon la norme appelée Red Book (Pohlmann, 1989b).
connecteurs physiques sont disponibles pour les liaisons en fibre optique, y compris les connecteurs
biconiques et ST courants. Les connecteurs de type biconique sont des connecteurs bon marché
utilisés dans les communications téléphoniques. Les connecteurs ST sont davantage appropriés
aux applications audio multicanaux.

Les connexions en fibre optique ont des avantages énormes par rapport aux câbles électriques
traditionnels en cuivre. Premièrement, la perte de transmission des câbles en fibre optique est négli-
geable par comparaison. Par exemple, un câble MIDI typique transmettant 31,25 kbits/s est limité
à une distance de 6,6 m. Par contraste, un seul brin fin de fibre peut transmettre des milliers de fois
plus de données sur une distance de plusieurs kilomètres sans pertes du signal (Stallings, 1988).
Des vitesses de transmission élevées (au-delà de 1 Gbit/s sur un seul brin optique) signifient que la
fibre peut transmettre simultanément plus de 500 canaux d’audio 20 bits échantillonnés à 96 kHz,
ou un mélange de nombreux canaux de vidéo et d’audio en numérique.
Les câbles en fibre optique ne sont pas sensibles aux sources d’interférences électromagnétiques
telles que les boucles de masse, la diaphonie et l’interférence fréquence radio. En raison de leur
vitesse, les systèmes de connexion en fibre optique peuvent gérer une multitude de protocoles série
en parallèle à travers le multiplexage. Pour en savoir plus sur les avantages et les désavantages des
applications en fibre optique dans l’audio, voir Ajemian et Grundy (1990).
Sous la pression du développement international des télécommunications, la technologie de la

fibre optique continue d’évoluer. Le futur des moyens de transmission optique semble assuré pour
tous types de données : douzaines de canaux de vidéo et d’audio numériques, images fixes haute
résolution, code temporel SMPTE, données informatiques et communications MIDI — simulta-
nément et sur de grandes distances.
15.8 Liaisons de synchro

Avec tous les appareils présents dans les studios d’aujourd’hui, il est souvent utile de synchroniser
l’opération d’un appareil avec un autre. Heureusement, la synchro de multiples appareils, qui fut à
une époque un luxe très coûteux, est maintenant devenue courante. « Synchro », cependant, est un
terme relatif. Un retard de 30 ms ou plus peut séparer deux événements « synchronisés » dans le
monde du MIDI (Moog, 1986), tandis qu’un retard de seulement quelques microsecondes peut être
intolérable dans une synchro audionumérique. Nous examinons ici trois types courants de synchro :
• Synchro de synthétiseur et d’effets — en général gérée par MIDI.
• Synchro d’enregistreur audio et vidéo — en général gérée par du code temporel SMPTE.
• Synchro d’horloge d’échantillon des équipements de traitement audionumérique — en
général gérée par des codes d’horloge AES/EBU.
15.8.1 Liaisons de synchro MIDI
Le premier but du MIDI était de synchroniser l’interprétation de deux ou plusieurs synthétiseurs.
Les applications MIDI ont dépassé ce but initial, mais la tâche centrale reste la synchro d’appareil.
Le MIDI fournit quatre formes de synchro, qui peuvent être appelées (1) commande, (2) horloge,
(3) synchro par code temporel MIDI et (4) synchro par liste d’appel.
✦ Synchro par commande
La synchro par commande en temps réel survient lorsque des messages tels que Note-on, Note-off,
Changement de contrôleur et Changement de programme sont envoyés dans un canal MIDI. Au
moment où ces messages sont reçus par un appareil, ils sont interprétés en action immédiate.
Le cas classique est celui de deux synthétiseurs déclenchés par un seul clavier MIDI.
✦ Synchro par horloge
La synchro par horloge MIDI utilise des commandes d’horloge MIDI, qui sont des messages tem-
porels d’un octet envoyés entre les appareils tous les vingt-quatrièmes de noire. Leur taux est déter-
miné par le tempo de la séquence qui est lue. Lorsqu’un séquenceur envoie des messages d’horloge
vers une boîte à rythmes, par exemple, ils avancent ensemble, même si le tempo varie beaucoup.
✦ Synchro par code temporel MIDI
La synchro par code temporel MIDI (MTC) fait le lien entre le MIDI et le monde en temps absolu
du code temporel SMPTE (nous reparlerons du code temporel SMPTE plus loin). Temps absolu
signifie que le temps est compté en termes d’heures, minutes, secondes et images, et non en termes
de mesures, temps et impulsions d’horloge, comme cela est le cas dans la synchro par horloge MIDI.
De façon basique, le MTC est une façon d’encoder du code temporel SMPTE dans des messages
MIDI. Le MTC est particulièrement utile pour synchroniser des effets sonores avec de la vidéo et
du film. Ceci est dû au fait que la vidéo et le film utilisent déjà du code temporel SMPTE, et que les
effets sonores ne sont pas liés de façon logique aux unités musicales telles que mesures et temps.
✦ Synchro par liste d’appel

La synchro par liste d’appel MIDI est un schéma de contrôle distribué. Avant qu’un ensemble
d’événements ne survienne, un appareil maître envoie un ou plusieurs messages Set-up MIDI à
chaque appareil. Chaque message Set-up est un appel — une commande avec marque temporelle qui
indique à l’appareil récepteur d’effectuer une certaine action au moment spécifié. Puis une source
d’horloge envoie des messages code temporel MIDI à chaque appareil de la chaîne. Lorsqu’un appareil
récepteur remarque une concordance entre une valeur de code temporel entrant et le temps d’un
événement dans la liste d’appel, il effectue l’action correspondante.
15.8.2 Liaisons de synchro SMPTE

Le contrôle de multiples appareils est souvent géré par des câbles transférant du code temporel
SMPTE (Society for Motion Picture and Television Engineers) parmi les différents appareils à con-
trôler. Comme cela est expliqué au chapitre 2, deux variétés de bases du code temporel SMPTE
existent : code temporel longitudinal (LTC, enregistré horizontalement sur le côté d’une bande),
et code temporel vertical à intervalle (VITC, enregistré dans une image d’une bande vidéo scannée
de façon hélicoïdale). La variété longitudinale peut être sous-divisée en 24 images/seconde (film),
25 images/seconde (PAL), 30 images/seconde (noir et blanc), et drop frames (NTSC). Le LTC est
encodé sous forme d’un signal audio, tandis que le VITC est intégré dans le signal vidéo.
Chaque numéro SMPTE possède des champs pour les heures, minutes, secondes et images. Le code
SMPTE « 01:58:35:21 » signifie 1 heure, 58 minutes, 35 secondes et 21 images. Une image est une
partie d’une seconde, en général de 1/25 à 1/30 de seconde, selon la variante particulière de code
temporel utilisée. Comme le code temporel lui-même n’utilise pas tous les 80 bits, il reste de la place
pour encoder d’autres informations en plus du code temporel, telles que le temps écoulé, les numéros
d’index, ou les étiquettes. Lorsqu’un événement est marqué par un code temporel SMPTE, celui-ci
devient une adresse permanente pour cet événement. Pour plus de détails sur le format de code
temporel SMPTE, voir Hickman (1984).
Le code temporel est souvent transmis par des lignes symétriques se terminant en un connecteur
XLR à trois contacts. Dans une configuration typique de code temporel SMPTE, plusieurs machines
esclaves suivent les mouvements de code temporel d’une machine maître ; lorsque le maître se rend
à une image particulière du code temporel, les esclaves suivent. Selon le système qui interprète
le code temporel, la résolution la plus petite de temps est de l’ordre de plusieurs millisecondes à
plusieurs microsecondes.
Les appareils contrôlés par MIDI peuvent être intégrés dans une configuration SMPTE au moyen
d’un convertisseur SMPTE-Code temporel MIDI. Comme son nom l’indique, cet appareil convertit
du code temporel SMPTE en code temporel MIDI qui peut être utilisé pour déclencher un séquenceur
ou un système de lecture de fichier son.
15.8.3 Liaisons de synchro audionumériques

La synchro dans les systèmes audionumériques signifie quelque chose de différent des types usuels
de synchro par code temporel. La synchro audionumérique coordonne des données audio à la fré-
quence d’échantillonnage pour éviter la perte d’échantillons et pour s’assurer de l’opération correcte
des algorithmes de traitement du signal.
Un certain nombre de facteurs peuvent contribuer aux problèmes de synchro, y compris de grandes
longueurs de câble qui introduisent du retard, des différences d’horloge et des variations d’horloge
dans plusieurs éléments d’équipement. Les appareils peuvent répondre différemment à des varia-
tions d’horloge en coupant, en sautant des échantillons, en répétant des échantillons, ou en causant
d’autres erreurs. Cette situation devient aiguë lorsqu’un élément centralisé de l’équipement, tel
qu’une console de mélange audionumérique, doit gérer plusieurs flux de données audionumériques
entrantes. Si elle se synchronise uniquement sur un flux, elle peut perdre la synchro avec un autre
flux.
Bien sûr, des convertisseurs de taux d’échantillonnage sont disponibles chez divers constructeurs,
et l’une des fonctions de ces appareils est de « resynchroniser » une source ayant une horloge
d’échantillon divagante. Mais utiliser un convertisseur de taux d’échantillonnage dans ce but n’est
qu’un remède temporaire et ne constitue pas une solution générale au problème de la synchro entre
appareils.
Ainsi, les studios numériques peuvent bénéficier d’un signal d’horloge maître qui gère tout le studio
et alimente tous les éléments d’équipement audionumérique (figure 15.8). Cela inclut les boîtes
d’effets, les convertisseurs de taux d’échantillonnage, les enregistreurs, les consoles de mélange et
les éditeurs logiciels. Un équipement audio et vidéo peut être connecté à la même horloge, chacun
obtenant leurs horloges de synchro respectives depuis l’horloge maître.
Dans le schéma recommandé par l’Audio Engineering Society, chaque appareil synchronise son hor-
loge de taux d’échantillonnage sur celle du maître (de préférence fournie par un connecteur d’entrée
séparé), afin que les différences de phase entre les appareils soient constantes quel que soit le nombre
d’appareils connecté (si les appareils étaient interconnectés en série sans synchro, les retards
dépendraient des différentes horloges et du nombre d’appareils connectés). Dans la norme
AES/EBU, les données audio sont transmises par une interface qui permet que le taux d’échantillon-
nage soit récupéré avec les données audio. Les spécifications techniques du protocole de synchro sont
définies dans le document AES11-1991 (ANSI S4.44-1991) (Audio Engineering Society, 1991 ; voir
également Rumsey, 1991).
Horloge maître
Signal d’horloge
H H
Enregistreur Enregistreur
multipiste DAT
H H H
Unité Enregistreur
d’effets optique
DSP Table de mixage inscriptible
Figure 15.8 – Synchronisation d’un studio tout numérique

à travers un signal synchro maître. Les entrées marquées « H » reçoivent le signal synchro maître,
tandis que les autres entrées sont pour les données audionumériques.
15.9 Ports et bus parallèles

Contrairement à un port série qui envoie un bit à la fois, un port parallèle possède plusieurs lignes
et transmet plusieurs bits à la fois. Ceci signifie qu’un port parallèle possède en général une largeur
de bande plus élevée qu’une ligne série typique. Les ports parallèles les plus courants envoient de
8 à 64 bits à la fois. Une application typique d’un port parallèle est l’impression, durant laquelle les
paquets transmis sont des caractères. La vitesse d’un port parallèle dépend de nombreux facteurs
et peut se situer entre plusieurs centaines de ko et plusieurs Mo par seconde dans un ordinateur
personnel. La longueur maximum d’un câble parallèle peut cependant être inférieure à celle d’un
câble série.
Dans un ordinateur, un bus interne est une colonne vertébrale électronique, transmettant des don-
nées à de hautes vitesses entre des processeurs, des coprocesseurs, des cartes mémoire, des cartes
DSP, des cartes vidéo, et ainsi de suite. Pour une présentation pratique des sujets liés à l’interfaçage
de bus dans les applications d’informatique musicale, voir Lowe et Currie (1989).
Un type de port parallèle est une extension du bus interne. Un exemple de cela est le protocole
d’extension de bus Small Computer Systems Interface ou SCSI (ANSI X3.131-1986), et son succes-
seur, le SCSI-2. De nombreux produits audionumériques qui nécessitent une intercommunication
à haute vitesse entre l’ordinateur hôte et les périphériques sont attachés logiquement au bus de
l’ordinateur. Pour réduire le nombre de lignes de bus physiques, des techniques de multiplexage
peuvent être appliquées pour utiliser les mêmes lignes afin de transmettre à la fois les adresses et
les données sur des cycles de bus alternatifs.
Comme le bus est une autoroute partagée entre plusieurs appareils qui lui sont attachés, les systè-
mes de bus incluent en général une logique d’arbitrage qui trie les requêtes pour l’utilisation du bus
par les différents appareils. Chaque appareil sur le bus possède une priorité. À chaque cycle d’hor-
loge du bus, la logique d’arbitrage du bus doit donner le contrôle du bus à l’appareil ayant la plus
haute priorité qui veut l’utiliser. Par exemple, l’ordinateur hôte doit revendiquer le contrôle du bus
afin de lire ou d’écrire sur le disque.
L’appareil contrôleur est appelé le maître de bus, et les autres appareils sont les esclaves de bus. Le
maître sélectionne les esclaves en plaçant des informations d’adresse sur le bus que chaque esclave
compare à sa propre adresse. Si elles correspondent, le maître et l’esclave établissent une connexion,
et l’esclave devient un répondeur. Les adresses qui identifient plus d’un esclave sont appelées adresses
de diffusion.
Dès que les esclaves sont connectés, le maître échange avec eux des données sur le bus. Le maître
rompt la connexion avec ses répondeurs lorsque toutes les données ont été transférées. La séquence
consistant à établir une connexion, transférer des données et rompre une connexion est appelée
une transaction.
Les transactions de bus sont synchronisées par une information temporelle qui indique quand
l’adresse et les données sont valides. Certains bus laissent également le maître transmettre une
information de contrôle qui indique quel type de transaction il est sur le point de lancer.
15.9.1 Comparaison des bus asynchrones et des bus synchrones

Les bus sont soit asynchrones soit synchrones. Dans un bus asynchrone, le maître lance un signal
temporel à impulsion pour indiquer que l’information qui suit sur les lignes de bus est valide. Le
répondeur renvoie un signal temporel d’accusé de réception. La réception de ce signal informe le
maître que le répondeur a reçu et pris acte de l’information. Ce mécanisme d’accusé de réception
à impulsion est appelé un protocole de transfert. Dans un système de bus multiplexé, des protocoles
de transfert séparés sont utilisés pour l’adresse et les données. Les systèmes asynchrones peuvent
tirer pleinement avantage de la vitesse des appareils répondants le plus rapidement, mais s’adapter
également au rythme des appareils plus lents.
Dans la plupart des systèmes de bus synchrones, une horloge centrale génère des signaux temporels
qui sont distribués vers tous les appareils du bus. Des changements de l’état des lignes de bus sur-
viennent à intervalles fixes. La durée d’un cycle de bus est établie par la vitesse d’horloge, qui dans
certains systèmes synchrones est déterminée par l’appareil le plus lent du bus. La plupart des bus
synchrones utilisent un protocole d’attente pour éviter cette contrainte. Par exemple, tout répondeur
qui ne peut traiter une requête au taux de base du système indique à celui-ci d’attendre. Lorsque le
répondeur est prêt, il annule l’état d’attente, et le bus reprend l’opération normale.
15.9.2 Signaux d’interruption

Dans de nombreuses situations, les appareils attachés à un bus requièrent l’attention des autres
appareils. Ils peuvent avoir besoin de transférer des données ou de signaler qu’ils ont achevé une
action. Plusieurs schémas ont été imaginés pour passer un signal d’interruption dans un bus. La
méthode la plus simple utilise une ligne de bus allouée à l’interruption de requêtes. Les appareils
qui requièrent l’attention transmettent une requête anonyme sur cette ligne, qui est surveillée par
une routine de gestionnaire d’interruption (en général une partie du système). Lorsqu’une inter-
ruption est interceptée par le gestionnaire d’interruption, celui-ci scrute tous les esclaves pour
identifier l’appareil qui a provoqué l’interruption. Cette procédure est accélérée si l’appareil causant
l’interruption peut devenir le maître de bus et transmettre des messages d’interruption plus volu-
mineux à la destination requise. Dans d’autres systèmes, la scrutation n’est pas nécessaire, car le
signal d’interruption arrive avec l’adresse de l’émetteur attachée.
15.10 Contrôleurs d’accès direct à la mémoire et mémoires

partagées
Un couplage serré entre un processeur de signal numérique (DSP) et un ordinateur hôte peut avoir
pour résultat une opération plus efficace que celle d’un système mal couplé. Une façon de coupler
un système DSP avec un ordinateur hôte est de placer le DSP (en général sous la forme d’une carte)
sur le même bus que l’ordinateur hôte. Comme la carte DSP peut traiter des quantités de données
volumineuses dans un temps très court, il est important de lui donner un accès direct à ces données
afin de s’assurer que sa puissance n’est pas perdue à attendre. Ceci permet de s’assurer que le DSP
et l’ordinateur hôte travaillent autant que possible en parallèle.
Cette partie décrit deux schémas pour accélérer l’accès aux données d’un DSP : accès direct à la
mémoire (DMA) et mémoires partagées. Les détails sur la façon dont fonctionnent ces schémas (et
sur le fait qu’ils soient même disponibles) dépendent de l’architecture de l’ordinateur et du DSP et
varient d’un système à l’autre.
Un contrôleur DMA s’attache sur un bus de l’ordinateur et peut agir comme un maître de bus afin
de transférer des blocs de données vers et depuis l’ordinateur hôte (figure 15.9). L’ordinateur hôte
peut achever d’autres calculs tandis que le transfert s’effectue et n’est interrompu qu’à la fin de
celui-ci.
Certains DSP peuvent agir comme contrôleurs DMA. Le DSP revendique le contrôle du bus afin de
déplacer de grandes quantités de données d’échantillon vers et depuis sa mémoire DSP locale.
Dans certains systèmes, l’opération de transferts DMA survient lors de cycles de bus non utilisés,
entre les opérations de l’ordinateur hôte. Ainsi, les transferts DMA et les opérations du processeur
DSP
RAM Mémoire
avec
DSP du processeur
capacité DMA CNA
hôte
Bus
Mémoire
Processeur CAN
disque
hôte
Figure 15.9 – Interface DSP utilisant un DMA.

Le canal DMA permet au DSP de prendre le contrôle du bus et de récupérer les échantillons depuis un
CAN, un disque ou une mémoire, ou d’écrire des échantillons vers un CNA, un disque, ou une
mémoire sans intervention de l’ordinateur hôte.
hôte surviennent en parallèle. Dès que le DSP possède les données dont il a besoin dans sa mémoire,
les calculs au sein du DSP et de l’ordinateur hôte peuvent être effectués en parallèle.
La stratégie d’interconnexion la plus intime entre un ordinateur hôte et un DSP est un schéma de
mémoire partagée. Ceci est effectué grâce à une mémoire à double accès, ce qui implique l’exis-
tence de deux voies d’accès indépendantes dans la mémoire (figure 15.10). Lire et écrire dans la
mémoire peut être effectué simultanément par deux processeurs différents. Ceci élimine les états
d’attente à la fois dans l’ordinateur hôte et dans le DSP. La communication entre l’hôte et le DSP
peut être arrangée à travers des messages laissés dans une zone spéciale de mémoire. Le danger
d’un schéma de mémoire à double accès est que les deux appareils vont tenter de lire ou d’écrire au
même endroit au même moment. Ainsi, les systèmes de mémoire à double accès possèdent un
élément logique pour trier les requêtes en conflit.
1 2
Mémoire Processeur
DSP
à double accès hôte
Figure 15.10 – Schéma de mémoire à double accès.

Ici, un DSP est en train de lire depuis la mémoire (1) tandis qu’en même temps le processeur hôte
est en train d’écrire dans celle-ci (2).
15.11 Réseaux
Une association d’ordinateurs reliés entre eux est un réseau. Cette partie présente les concepts de
réseaux les plus basiques. Pour plus d’informations, voir l’un des nombreux livres sur le sujet (par
exemple, Stallings, 1988). Le but principal d’un réseau est l’échange de données et de services entre
des nœuds reliés entre eux, où les nœuds peuvent être des ordinateurs, des scanneurs, des impri-
mantes, des disques, ou d’autres périphériques. Chaque appareil qui peut être une source ou une
cible de transmission sur le réseau — tel qu’un ordinateur ou une imprimante — est un nœud, et
chacun possède une adresse qui est connue du logiciel de réseau. N’importe quel type de données
numériques peut être transmis par un réseau, par exemple des données de séquence, des échan-
tillons audio, des images, des données de partition, du texte, ou du code. Les réseaux permettent
le transfert de fichier, le courrier électronique, et les applications distribuées qui tournent sur plus
d’un ordinateur.
Le protocole d’un réseau est l’ensemble de règles gouvernant l’échange de données. C’est-à-dire
que le protocole est le schéma logique d’envoi et de réception de messages. Les protocoles réseau
modernes possèdent plusieurs couches. Le tableau 15.2 montre une hiérarchie de protocole typique :
les sept couches de l’Open Systems Interconnexion (OSI), proposé par l’International Standards
Organisation (ISO), une norme pour la mise en réseau d’ordinateurs.
Tableau 15.2 – Couches du protocole OSI.
Physique Fournit la transmission de flux de bits non structuré dans un milieu physique. À
rapport aux caractéristiques mécaniques, électriques et procédurales pour accéder
au milieu physique.
Liaison Fournit un transfert fiable de l’information dans le milieu physique. Envoie des
de données blocs de données (images) avec la synchro, le contrôle d’erreur et le contrôle de
flux nécessaires.
Réseau Fournit une indépendance aux couches supérieures par rapport à la transmission
des données et aux technologies de commutation utilisées pour connecter les
systèmes ; est responsable pour établir, gérer et terminer les connexions.
Transport Fournit un transfert de données fiable et transparent entre des terminaisons ;

gère également la récupération d’erreurs et le contrôle de flux.
Session Fournit la structure de contrôle pour la communication entre applications ; établit,

gère et termine les connexions (sessions) entre applications coopérantes.
Présentation Fournit une indépendance aux applications par rapport aux différences dans la
représentation de données (syntaxe).
Application Fournit un accès à l’environnement OSI pour les utilisateurs.
Tous les nœuds sur le réseau possèdent une adresse, qui peut être une adresse physique (spécifiée
par l’envoyeur) ou une adresse logique (spécifiée par un processeur de contrôle réseau agissant comme
serveur d’adresse). La plupart des réseaux utilisent un schéma d’adressage logique.
Deux grandes classes de réseaux peuvent être distinguées. Un réseau local (LAN) (figure 15.11a)
interconnecte un nombre relativement faible d’ordinateurs, en général dans une zone restreinte
telle qu’un immeuble ou un groupe d’immeubles proches. Un réseau étendu (WAN) (figure 15.11b)
couvre de grands espaces géographiques, souvent à l’aide de lignes de téléphone longues distances
(y compris des micro-ondes et des liaisons satellites). Le propriétaire d’un LAN est en général une
institution ayant entre deux et plusieurs centaines d’ordinateurs à interconnecter. Par contraste, le
propriétaire d’un WAN est réparti entre l’institution et les différents porteurs de la transmission,
tels que les sociétés de téléphonie qui fournissent les principaux canaux de transmission. Le nombre
d’ordinateurs interconnectés dans un WAN peut être de plusieurs milliers. Comme les LAN sont
(a)
Ordinateur Ordinateur
station serveur
de travail de fichier
Réseau
local Système
Imprimante de sauvegarde
et d’archivage
Ordinateur Ordinateur
station station
de travail de travail
(b) Satellite
Continent Y
Continent X
Studio B LAN
Studio A
Passerelle
LAN
Émetteur/
Récepteur
Émetteur/ LAN
Récepteur
Figure 15.11 – Comparaison des LAN et des WAN.

(a) LAN connectant un petit nombre de nœuds. (b) Un WAN intercontinental reliant les ordinateurs
de deux studios parmi des milliers d’ordinateurs connectés par satellite et par d’autres moyens de
communication longue distance.
plus probables dans le domaine de l’informatique musicale, le reste de cette partie ne s’attachera
qu’à eux.
Trois composants définissent un LAN : un protocole, une interface et un canal de transmission. La
logique du protocole contrôle le LAN, tandis que l’interface traduit les messages provenant du
support logiciel du protocole du LAN dans le milieu physique du canal du LAN. Le canal du LAN
peut être une ligne coaxiale comme celles utilisées dans la télévision câblée ou dans une ligne en
fibre optique. Un câble coaxial est constitué d’un fil conducteur interne entouré d’un conducteur
externe. Entre les conducteurs internes et externes se trouve une couche isolante, et le câble entier
peut être blindé pour le protéger du bruit.
De nombreux types de protocoles existent pour les LAN, formalisés dans les recommandations
IEEE 802 Local Network Standards Committee. Les types de protocoles de LAN les plus courants
sont l’accès multiple par détection de la porteuse avec détection de collision (CSMA/CD), utilisé dans
la norme Ethernet, et l’anneau à jeton (token ring), utilisé dans la norme Fiber Distributed Data
Interface (FDDI), un LAN fonctionnant à 100 Mbits/seconde.
La topologie d’un réseau CSMA/CD est comme celle d’un bus (figure 15.12). L’émetteur d’un
paquet diffuse le message à tous les appareils du réseau tout en « écoutant » également celui-ci
pour voir s’il est occupé. S’il ne reçoit pas de signal d’accusé de réception du récepteur, il considère
qu’un autre émetteur a également envoyé un paquet au même moment — un état connu sous le
nom de collision. Si un émetteur détecte une collision, il arrête d’envoyer le message et envoie briève-
ment un signal de collision au reste du réseau (Metcalf et Boggs, 1976). Après avoir transmis le signal
de collision, l’émetteur attend une durée de temps aléatoire avant de transmettre de nouveau le
paquet. Une station tentera de transmettre de façon répétée en face de collisions répétées, mais
après chaque collision la valeur moyenne du retard aléatoire est doublée.
La topologie d’un réseau en anneau à jeton est un anneau. Les données circulent autour de l’anneau
sur une série de liaisons de données entre les ordinateurs (figure 15.13). Une station souhaitant
transmettre attend un tour puis envoie un paquet de données. Le paquet contient les adresses de
source et de destination ainsi que les données. Lorsque le paquet circule, le nœud de destination
copie les données dans un tampon local. Le paquet continue de circuler jusqu’à ce qu’il atteigne le
Nœud
transmetteur
Nœud A Nœud B
Bus
Nœud D Nœud C
Figure 15.12 – LAN avec topologie de bus comme Ethernet.

Les messages d’un nœud vers un autre sont diffusés sur le réseau. Tous les appareils reçoivent le
message, qui est référencé avec une adresse particulière. Seuls les appareils dont les adresses cor-
respondent à la référence accusent réception du reçu. Si deux nœuds transmettent un message au
même moment, il y a une collision, et chaque nœud émetteur attend une période de temps aléatoire
avant de retransmettre.
Nœud A
Anneau à jeton
Jeton
circulant
Nœud D Nœud B
Nœud C
Figure 15.13 – LAN avec topologie d’anneau à jeton.

Un jeton circule autour de l’anneau. Le jeton peut être vide (sans données) ou rempli de données
envoyées d’un nœud vers un autre.
nœud source, qui sert de sorte d’accusé de réception. Lorsque le nombre de nœuds transmetteurs
augmente, les anneaux à jeton présentent un avantage d’interprétation sur les schémas CSMA/CD
en raison de la probabilité de plus en plus grande des collisions dans le schéma CSMA/CD (Stallings,
1988).
Les normes de vitesse de LAN dans les années 1980 se situaient entre 1 et 20 Mbits/s. Les normes
réseau haute vitesse émergentes cherchent à atteindre 1 Gbit/s comme taux de données pour
l’échange de vidéo plein écran non compressée, de canaux audio multiples, d’images, et pour le con-
trôle à distance d’expériences (y compris sans doute dans le domaine de l’interprétation musi-
cale).
15.11.1 Protocoles réseau pour la musique

Les limites de la norme MIDI, et la formidable augmentation de la vitesse des réseaux LAN et WAN
initièrent dès les années 1990 la recherche de nouveaux systèmes permettant de faire communi-
quer ensemble des machines. Le protocole OSI présenté au tableau 15.2 contribua largement à
faciliter le développement de nouveaux modèles d’interconnexions et de communications dans le
domaine des échanges sous forme numérique.
✦ ZIPI
L’un des premiers protocoles formalisés dans le but de succéder à la norme MIDI fut ZIPI (Zeta
Instrument Processor Interface), développé par Keith McMillen, David L. Wessel et Matthew Wright
(McMillen, Wessel et Wright, 1994) du CNMAT. S’écartant radicalement du modèle de connexion
en chaîne, ZIPI adopta le modèle de connexion en étoile avec présence d’un concentrateur central
et l’utilisation de connecteurs Ethernet 10Base-T, qui autorisaient des vitesses de communications
entre les machines de 10 Mbits/s, contre un peu moins de 0,03 Mbits/s pour la norme MIDI 1.0.
Une autre différence fondamentale se situait également dans le mode d’adressage : la notion d’évé-
nement MIDI était abandonnée, au profit d’un nouveau système, le langage de description de para-
mètre musical (MPDL). Celui-ci tentait de prendre en compte des notions musicales complexes,
comme l’articulation, la brillance, la dureté ou la gestion de coordonnées spatiales. Afin de con-
tourner la rigidité de la structure du MIDI, dans lequel un message ne peut s’adresser qu’à un canal
ou à une note, le MPDL possédait un système de message organisé par paquets, structurés selon
une hiérarchie à 3 niveaux : 63 familles, contenant chacune 127 instruments, contenant chacun
127 notes, pour un total de 1 016 127 adresses de note. Il était également possible d’envoyer un
message commun aux 63 familles. Chaque adresse de note pouvait être accédé individuellement,
ce qui permettait par exemple d’appliquer un vibrato sur la note d’un accord sans modifier les
autres notes de l’instrument. Le protocole prévoyait également la synchronisation entre les machi-
nes, l’échange d’informations sur leurs caractéristiques, la gestion de messages d’erreur et la
transmission de messages MIDI.
Le protocole ZIPI ne fut adopté par aucune société et resta à l’état de prototype. L’avènement de la
norme IEEE1394 (plus connue sous le nom de Firewire) rendit certains de ses aspects obsolètes.
La vitesse des réseaux atteignit 400 puis près de 800 Mbits/s et ceux-ci abandonnèrent graduelle-
ment leur conception en étoile avec un concentrateur central pour adopter un modèle où le réseau
est conçu comme un ensemble d’appareils autonomes et branchables à chaud.
✦ OSC (Open Sound Control)
Les auteurs de ZIPI s’associèrent de nouveau pour proposer un nouveau protocole plus ouvert et
plus en adéquation avec les réseaux rapides : Open Sound Control (Wright et Freed, 1997). OSC
s’affranchit totalement d’une dépendance avec telle ou telle norme physique de communication,
que cela soit au niveau des bus ou des systèmes réseau. Bien qu’il puisse fonctionner avec toute
sorte de format physique ou de réseau LAN ou WAN (Ethernet, Firewire, TCP/IP, UDP, etc.), il utilise
généralement dans la pratique le protocole de réseau UDP, en raison de sa grande précision tem-
porelle dans la gestion des messages.
Dans OSC, chaque entité du réseau peut être contactée de façon individuelle, dans une relation
client-serveur, par le biais d’un schéma de noms symboliques de type URL. Les messages sont
adressés selon un ensemble hiérarchique d’objets symboliques. Les données numériques sont
encodées en 32 ou 64 bits et envoyées par paquets contenant toutes les informations nécessaires
permettant de s’assurer de leur autonomie. Ainsi, contrairement au MIDI où un nouveau message
doit être envoyé vers une machine pour modifier son état, chaque paquet dans OSC est conçu pour
contenir à la fois les données suffisantes à l’exécution d’un ordre et l’indication temporelle précise
(avec une précision d’environ 200 picosecondes) à laquelle celui-ci doit avoir lieu. Les paquets
pouvant contenir des ensembles (bundles) de messages de façon récursive (un bundle peut lui-
même contenir d’autres bundles), il est possible d’envoyer des ordres offrant ainsi des possibilités
de synchronisation absolue. Le protocole prévoit également des fonctions de questions-réponses
entre les éléments connectés, afin de permettre l’échange d’informations : listes d’adresses utilisées,
signatures des types d’arguments prévus, requêtes pour obtenir de la documentation à propos
d’un objet ou d’une fonction, etc.
OSC a connu un certain succès parmi les développeurs d’applications musicales, et plusieurs logiciels
commerciaux ont même intégré certaines de ses fonctions. Pour plus de détails sur l’implémentation
d’OSC et ses applications dans les domaines de la musique, de la réalité virtuelle et du multimédia,
voir Wright (1998), ainsi que Wright, Freed et Momeni (2003).
L’adoption d’un nouveau protocole de communication qui devienne aussi universel que le MIDI
reste très hypothétique. Il n’est pas certain que la production de musique commerciale ait réellement
besoin d’un schéma plus évolué permettant autre chose que l’envoi de messages au niveau de la note
et l’utilisation de contrôleurs globaux. Certaines formats propriétaires permettant de transmettre
de l’audio (et parfois des données MIDI) et utilisant les normes Firewire, Ethernet ou USB ont vu
le jour, tels Cobranet de Cirrus Logic, mLan de Yamaha, MaGIC de Gibson ou EtherSound de Digi-
gram. L’Audio Engineering Society a également dévoilé les caractéristiques d’un protocole HRMAI
(High-Resolution Multi-channel Audio Interconnection — plus connu sous le nom d’AES50)

(Audio Engineering Society, 2005) en vue de la normalisation des transmissions de données audio
sur un réseau Ethernet. L’évolution des schémas d’interconnexion des machines et l’accélération
de la vitesse des réseaux offrent de nombreuses possibilités, y compris une mise à jour de la norme
MIDI elle-même. Une uniformisation totale ne verra cependant pas le jour avant une adoption
généralisée par les constructeurs de matériel et les développeurs de logiciels d’une part, et les dif-
férents acteurs de l’industrie de la musique d’autre part.
15.12 Conclusion
Dans le passé, les câbles analogiques constituaient le moyen principal pour transmettre de l’infor-
mation audio et vidéo, mais les communications numériques ont rapidement occupé une position
dominante. Parmi les moyens de transmission numérique, la technologie de la fibre optique semble
la plus prometteuse.
Comme le montre ce chapitre, il n’existe pas une seule solution pour tous les problèmes d’intercon-
nexion. En dépit des efforts en cours de normalisation, le nombre de protocoles d’interconnexion
différents continue de grandir. Ceci rend nécessaire de considérer les interconnexions avant d’acheter
et d’installer de l’équipement, même dans un petit studio (figure 15.14). Le point de départ pour
concevoir un schéma d’interconnexion devrait être une analyse détaillée des capacités musicales
désirées. La technologie disponible, le coût, l’interprétation et même le style musical sont tous des
facteurs à considérer lors de la conception d’un schéma d’interconnexion.
Les stations de travail intégrées « tout-en-un » simplifient les problèmes d’interconnexion, mais au
détriment de la flexibilité. Une approche modulaire de la conception de système laisse le musicien
sélectionner chaque composant selon son goût et son budget. Mettre à jour le système devient un
processus mesuré consistant à remplacer un composant à la fois.
Services de
Réseau
télécommunications
local Logiciel
de musique
Modem
Ordinateur hôte
Apple Port modem
Carte réseau II
Macintosh
Port série 1 Interface
Port série 2 MIDI
Entrée/Sortie
numérique Carte DSP
AES/EBU Disques durs Entrée Sortie
Port Audionumérique pour les fichiers
Câbles
SCSI par fibre optique son et le stockage
MIDI
de programmes
Disque optique Lecteur Enregistreur Patchbay

inscriptible CD DAT MIDI
Numérique
coaxial
Imprimante
SCSI IEC 958 AES/EBU SCSI laser Câbles
MIDI
Convertisseur
SMPTE-MTC
Table de mixage
et processeur
Contrôleurs
MIDI audionumérique MIDI
SMPTE MIDI In In
In Out
AES/EBU CAN CNA
Vers et
Code
depuis des
temporel Audio analogique synthétiseurs,
SMPTE asymétrique échantillonneurs,
boîtes d’effets
MIDI, etc.
Magnétoscope
professionnel Processeur Câble
Table de mixage analogique
d’effets analogique vers
pour la vidéo amplificateur
Câbles d’écoute
analogiques
symétriques
Télécommandes
à infrarouge
Microphones
Figure 15.14 – L’enchevêtrement des interconnexions

d’un petit studio d’informatique musicale basé sur un seul ordinateur hôte connecté à des appareils
MIDI et à une console de mélange et un processeur audionumériques.
Chapitre 16
La psychoacoustique
et la synthèse
John William Gordon
Avant que les compositeurs commencent à écrire une pièce de musique pour un moyen d’expression
donné, ils apprennent en général à maîtriser celui-ci. Si la musique doit par exemple être écrite
pour violon, alors l’étendue et l’accordage de l’instrument, ainsi que les techniques d’archet et de
doigté doivent être connues ; sinon, le compositeur court le risque d’écrire quelque chose qui est
impossible à jouer. Mais l’effort fourni pour arriver à cette compréhension est bien récompensé :
plus on connaît de commandes de détails techniques, moins ceux-ci altèrent le processus compo-
sitionnel, et plus grande est peut-être la liberté du compositeur pour exprimer ses idées musicales.
Si le moyen d’expression implique des instruments traditionnels, le compositeur peut tout d’abord
communiquer les idées musicales aux interprètes. Puis, ceux-ci, en exprimant ces idées musicales,
génèrent des sons que l’auditeur entend. En d’autres termes, le geste musical est codé en ondes
sonores, et l’auditeur, en écoutant ce son, l’interprète comme un geste musical.
En composant de la musique informatique, on commence souvent avec le son lui-même. Les para-
mètres sont manipulés ou combinés pour tenter d’accomplir des effets musicaux. Quoi qu’il en soit, il
n’existe dans de nombreux cas aucun moyen pour déterminer a priori les valeurs absolues ou rela-
tives de ces paramètres à partir de concepts musicaux traditionnels. On doit recommencer et con-
naître ces nouveaux blocs de construction. Jadis, il était souvent suffisant d’apprendre certaines
propriétés génériques d’un instrument de musique. Maintenant, les propriétés acoustiques d’un son,
telles que la fréquence, la durée, la forme d’onde, l’intensité et le spectre doivent être comprises.
Pour une introduction supplémentaire des concepts acoustiques, voir Backus (1977), Benade (1990),
Roederer (1975), et Campbell et Greated (1987).
Puisque les attributs physiques ne constituent pas en eux-mêmes de la musique, le compositeur doit
également apprendre comment l’oreille les perçoit. En d’autres termes, le compositeur doit savoir
comment construire et équilibrer les attributs physiques du son pour que l’auditeur interprète ce
son d’une façon qui corresponde plus ou moins aux concepts musicaux du compositeur. Il est donc
logique de se tourner vers le domaine de la psychophysique (l’étude des réponses physiologiques à
un stimulus physique) ou plus spécifiquement vers la psychoacoustique, pour mieux comprendre
la relation entre son et musique.
La dichotomie entre les événements physiques et les constructions mentales qu’ils produisent est
un thème constant de ce chapitre. La connaissance de la psychoacoustique ne permet pas seulement
de donner au compositeur de musique informatique une plus grande liberté d’expression, mais
elle suggère également de nouvelles structures musicales basées sur les phénomènes perceptuels.
Le reste de ce chapitre examine les structures basiques de l’audition humaine et la perception des
différents aspects du son : intensité, éléments temporels, fréquence, bruit et timbre. Nous parlerons
également de phénomènes comme la fusion et les effets de masques, et nous montrerons leurs
implications dans la composition. Pour l’étudiant en psychoacoustique, nous donnerons de nom-
breuses références. Plusieurs livres récents sur la psychologie de la musique traitent en détail de la
psychoacoustique ; voir par exemple Deutsch (1982), Sloboda (1985), Dowling et Harwood (1986),
Clynes (1982), McAdams (1987) et Campbell et Greated (1987).
16.1 Perception de l’intensité

L’intensité est liée à l’énergie (ou variation de pression d’air) d’une onde. D’une façon générale,
lorsque l’intensité (paramètre décrivant une quantité physique) augmente dans un son, nous sentons
une augmentation de la force sonore (la sonie — attribut perceptuel). Mais il n’existe pas de cor-
respondance simple entre intensité et sonie, et la force dépend également d’autres paramètres tels
que le spectre, la durée et les sons d’arrière-plan.
L’oreille humaine est capable d’entendre une étendue incroyablement large d’intensités différentes, et
sa sensibilité aux changements d’intensité est proportionnelle à la quantité d’intensité. En d’autres
termes, le mécanisme perceptuel de la sonie se comporte de façon exponentielle. Ainsi, pour décrire
un son, il est en général plus pratique de prendre le logarithme de l’intensité que d’utiliser directe-
ment la valeur d’intensité. L’intensité sonore est mesurée en termes de niveau de pression sonore
(SPL pour sound pressure level), défini ainsi :
SPL = 20 × log 10 ( P ⁄ P 0 )
où la pression de référence P0 = 0,00005 (2 × 10–5) N/m2, ce qui correspond globalement au seuil de
l’audition à 1 000 Hz. Un newton est l’unité de force qui accélère une masse d’un kilogramme d’un
mètre par seconde. Le niveau de pression est mesuré en décibels (dB), l’unité d’intensité sonore (voir
le chapitre 1).
La figure 16.1 montre l’étendue de l’audition pour l’oreille d’un jeune adulte moyen sous forme de
tracé de l’intensité en décibels en fonction de la fréquence. La région montrée est une étendue con-
ventionnelle adaptée d’après Winckel (1967). Dans certains cas, la sensibilité de certaines personnes
peut s’étendre au-delà de la région montrée ici. Par exemple, le corps humain ressent des fréquences
basses trop graves pour être captées par le tympan, et de récentes études scientifiques ont montré
que la limite supérieure de la sensibilité peut s’étendre bien au-dessus de 20 kHz (Oohashi et coll.,
1991).
Comme le montre la figure 16.1, un son sinusoïdal de 1 000 Hz au seuil de l’audition a une pression
P égale à P0, et donc son niveau de pression est égal à 0 dB. Il faut une sinusoïde ayant une pression
équivalente à environ un million de fois P0 pour atteindre le seuil de la douleur (le périmètre supé-
rieur de la forme de la figure 16.1). Ce son a un niveau de pression proche de 120 dB.
120
100
80
60
40
20
SPL
en dB
0
0 20 100 500 1K 5K 10 K 20 K
Fréquence en Hz (échelle logarithmique)
Figure 16.1 – Étendue globale de l’audition chez l’être humain avec l’intensité
en fonction de la fréquence, d’après des données incluses dans Winckel (1967).
Nous mentionnions plus haut que la sensibilité de l’oreille par rapport aux changements d’intensité
est proportionnelle à la magnitude de l’intensité. La relation exponentielle est ainsi reflétée en un
nombre presque constant de dB. En d’autres termes, la différence absolue d’intensité entre 90 et
91 dB SPL (un facteur de l’ordre de 3 859) est bien plus élevée que celle existante entre 30 et 31 dB
SPL (un facteur de l’ordre de 3,86), mais le changement de sonie, ou différence d’intensité perçue,
est à peu près la même dans les deux cas. Au milieu de l’étendue d’intensité et de fréquence de
l’oreille, le seuil de perception différentielle en intensité peut varier de quelques dixièmes de dB à
plusieurs dB (Scharf, 1978).
L’oreille est plus sensible à certaines régions fréquentielles qu’à d’autres. La région la plus sensible
est située entre 2 700 et 3 200 Hz, et la sensibilité chute plus ou moins graduellement sur chaque
côté de cette région. Ce que cela signifie pour le compositeur est qu’une sinusoïde à 3 000 Hz ayant
une certaine intensité, va sonner beaucoup plus fortement qu’une sinusoïde à 200 ou à 8 000 Hz
ayant la même intensité.
Pour visualiser cela, un outil pratique est l’ensemble de courbes de Fletcher-Munson, montrées à
la figure 16.2. Ce sont les courbes isosoniques (ou courbes de phone) en fonction de la fréquence.
Les phones, par définition, correspondent aux décibels d’un son pur à 1 000 Hz. Ainsi, une sinusoïde
à 1 000 Hz ayant une intensité de 40 dB SPL aura un niveau de sonie de 40 phones. Si nous voulons
produire une sinusoïde à 300 Hz avec le même niveau de sonie que celle à 1 000 Hz ayant un niveau
d’intensité de 40 dB, nous pouvons suivre la courbe de 40 phones de 1 000 à 300 Hz, et nous voyons
qu’il faut environ 47 dB SPL pour obtenir ce même niveau de sonie. C’est-à-dire qu’une sinusoïde
à 1 000 Hz avec une intensité de 40 dB SPL et une sinusoïde à 300 Hz avec une intensité de 47 dB
SPL vont sonner avec la même force pour l’auditeur moyen.
Bien sûr, les musiciens s’intéressent en général plus aux sons complexes qu’aux sinusoïdes. La
sonie d’un son complexe dépend en grande partie de son contenu fréquentiel. En général, chaque
Figure 16.2 – Contours de phones, ou courbes de sonie constante.

Le niveau SPL en décibels est indiqué par les nombres situés à gauche de la figure. Le niveau en
phones est indiqué au-dessus du marqueur 1 kHz. À 110 dB SPL, 100 Hz, 1 kHz et 10 kHz seraient
perçus plus ou moins avec la même sonie. À 60 dB, cependant, 10 kHz et 100 Hz devraient être
amplifiés de 10 dB pour être perçus avec la même sonie que 1 kHz (d’après Fletcher et Munson,
1933).
composant contribue à la sonie du son, selon sa fréquence et son intensité par courbe de Fletcher-
Munson ; quoi qu’il en soit, une relation linéaire stricte ne s’applique pas nécessairement. Voir la
présentation sur les bandes critiques et les effets de masque plus loin.
De surcroît, l’oreille peut être trompée, en croyant percevoir une sonie constante alors que le son
décroît en intensité, en admettant que celui-ci soit perçu comme s’éloignant de l’auditeur. Sur un
ordinateur, cet effet est rehaussé en ajoutant une réverbération artificielle, mais il peut parfois
survenir même sans réverbération si le son est familier à l’auditeur (Sheeline, 1982).
Le seuil d’audition montré à la figure 16.1 s’applique aux sinusoïdes relativement entretenues.
Pour des sons très courts, le seuil doit être augmenté. Ceci en raison du fait que près du seuil, l’oreille
semble intégrer l’énergie des sons inférieurs à 200 ms. Enfin, au-dessus des niveaux de seuils, la
relation entre sonie et durée n’est pas claire (Scharf, 1978).
16.2 L’oreille humaine

Avant de continuer la description de la perception temporelle et fréquentielle, il peut être utile
d’expliquer rapidement comment l’oreille travaille. La figure 16.3 montre une représentation de
l’oreille et de ses trois principales parties : l’oreille externe, l’oreille moyenne et l’oreille interne.
Pavillon
Os de l'oreille
moyenne Membrane
(osselets) basilaire Nerf auditif
Tympan
Ondes
sonores
Trompe
d'Eustache Cochlée
déroulée
L'oreille externe travaille L'oreille moyenne L'oreille interne travaille

par vibration de l'air travaille par processus mécanique
par vibration mécanique hydrodynamique
et électrochimique
Figure 16.3 – Représentation schématique du système auditif périphérique humain.

Les sous-divisions dans les oreilles externes, moyennes et internes sont indiquées, ainsi que les
modes de traitement pour chacune d’entre elles. La cochlée est montrée déroulée ; elle est nor-
malement enroulée comme la coquille d’un escargot (d’après Yost et Nielsen, 1977).
L’oreille externe amplifie les vibrations entrantes de l’air. L’oreille moyenne traduit ces vibrations
en vibrations mécaniques. L’oreille interne effectue un traitement supplémentaire de ces vibrations,
les filtrant, et les traduisant mécaniquement, hydrodynamiquement, et électrochimiquement, avec
pour résultat que les signaux électrochimiques sont transmis par les nerfs jusqu’au cerveau. Les
oreilles externes, moyennes et internes sont collectivement classifiées sous le nom de système auditif
périphérique.
La cochlée est l’organe central de l’oreille interne. Elle contient la membrane basilaire et l’organe de
Corti (qui ne figure pas sur la figure 16.3), qui forment ensemble les mécanismes compliqués tra-
duisant les vibrations en signaux neuroniques ou codes. Un autre traitement auditif survient au-delà
de la cochlée dans le cerveau, en utilisant de l’information contenue dans les signaux neuroniques.
Ce traitement central est important, car il combine les signaux entrants dans les deux oreilles. Ces
mécanismes et ces processus sont tous très complexes, et il serait trop long d’expliquer en détail
tous les mécanismes auditifs centraux et périphériques dans le cadre de ce chapitre. Pour une
introduction à ces sujets, voir Yost et Nielsen (1977).
16.3 Perception des caractéristiques temporelles

Certains mécanismes de l’oreille interne codent aussi bien le temps que la fréquence, et fournissent
une information à des processus perceptuels de haut niveau qui trient l’information en notes,
rythmes et structures musicales d’ordre élevé. Il apparaît que les mécanismes de bas niveau de
temps et de fréquence opèrent en parallèle sur la forme d’onde entrante, et que leur information
est combinée par le processus de niveau supérieur, afin de déterminer la nature du son. En d’autres
termes, les mécanismes périphériques ne peuvent pas être clairement séparés en deux catégories :
ceux ne fournissant que l’information temporelle et ceux ne fournissant que l’information spectrale.
Dans cette partie, nous verrons tout d’abord comment les mécanismes temporels opèrent sur le
son entrant, et les conséquences que cela peut avoir sur la musique informatique. Dans la partie
suivante, nous examinerons les mécanismes fréquentiels ; puis nous verrons comment ceux-ci se
combinent avec les mécanismes temporels dans la perception de la hauteur et du timbre.
Un des types de mécanismes est le détecteur de période. Il opère sur la structure fine de la forme
d’onde codée neurologiquement. La structure neuronique est obtenue par les cellules nerveuses de
l’organe de Corti qui produisent une impulsion (individuellement ou en groupes) à un taux corres-
pondant à la période de l’onde. Les cellules individuelles peuvent opérer de cette façon jusqu’à un
certain taux ; si la période est trop petite, elles ne peuvent retrouver leur équilibre et ne peuvent
produire suffisamment rapidement une nouvelle impulsion. Quoi qu’il en soit, des groupes de
cellules peuvent effectuer leurs impulsions en rotation ou alternativement, et peuvent ainsi suivre
des sous-multiples de la période. Ce mécanisme en tant que tel peut détecter des fréquences jusqu’à
4 kHz (Nordmark, 1970, 1978).
L’oreille interne code également les variations dans l’enveloppe de l’onde, et il existe de façon évidente
des mécanismes du système nerveux auditif central qui détectent la modulation d’amplitude (MA).
Voir le chapitre 25 pour une explication de la MA dans le contexte de la synthèse du son. Cette
détection est limitée à des fréquences MA situées approximativement entre 75 et 500 Hz. Elle est
également limitée par la profondeur de modulation — c’est-à-dire que les cellules ne produisent
une impulsion que dans le cas où le changement est suffisamment significatif (entre 50 et 100 pour
cent de modulation). Voir Burns et Viemeister (1976) pour plus de détails.
Il existe également un mécanisme codant les événements. Ces types de cellules produisent une
impulsion au commencement ou à l’attaque d’un son, et différentes cellules opèrent sur les différents
domaines des pentes d’attaque (Kiang et Moxon, 1972 ; Whitfield, 1978 ; Smith et Brachman, 1980 ;
Delgutte, 1980). Lorsqu’un instrument joue une note, les transitoires déclenchent ce mécanisme,
mais pas les portions fixes. Un modèle de ce détecteur d’événement a été développé par Gordon
(1984) afin de déterminer le moment d’attaque perceptuelle d’un son musical, qui peut être retardé
de façon significative par rapport à son attaque physique. Ce modèle est utile pour synchroniser
des sons synthétiques ou enregistrés ayant des timbres différents.
D’autres cellules répondent à certains intervalles temporels entre les événements. Cette information
peut être utilisée pour connecter des événements isolés en flux rythmiques (c’est-à-dire pour iden-
tifier des séquences d’événements comme venant d’une ou plusieurs sources, chacune ayant son
propre rythme). Pour plus de détails sur les effets de flux, voir McAdams et Bregman (1979).
La résolution de la perception de rythme est limitée par l’intégration temporelle. Ceci signifie que,
si plus de deux événements apparaissent à l’intérieur d’une tranche minimale de temps, l’oreille
les « brouille » en une seule sensation. En d’autres termes, la résolution temporelle est perdue.
Quoi qu’il en soit, la taille de cette tranche temporelle peut varier selon la durée et le type des évé-
nements. Dans certains cas, l’oreille peut percevoir des événements séparés si leur écartement
n’est que de quelques millisecondes ; dans d’autres cas, il faut au moins 20 à 50 ms (ou même plus)
pour percevoir une résolution séparée. Ainsi, on ne peut parler d’une seule tranche temporelle, ou
d’une « constante de temps » pour l’oreille (Schubert, 1979b).
Quoi qu’il en soit, nous pouvons voir que la résolution temporelle prend en compte certains phé-
nomènes qui sont familiers aux musiciens. L’un de ceux-ci est la distinction entre l’écho (ou une
séquence d’échos) et la réverbération. Lorsqu’un son se reflète sur une seule surface, nous enten-
dons à la fois la source et son écho. Si d’autres surfaces sont présentes, il y aura probablement pré-
sence de plusieurs échos de la source, ainsi que d’échos des échos eux-mêmes. Le nombre d’échos
par seconde est souvent appelé la densité d’échos. Si ce nombre est supérieur à 20 ou 30 échos par
seconde, alors ceux-ci apparaissent à des intervalles inférieurs à 30 ou 50 ms. En général, l’oreille
n’entend plus les échos comme des événements séparés, mais elle les fusionne en une sensation de
retard continu, ou réverbération (Moorer, 1979c ; voir également le chapitre 10).
Un autre phénomène lié à l’intégration temporelle est le taux de note maximum d’une phrase musi-
cale (dans une mélodie monophonique). Si les notes sont jouées plus rapidement que ce taux, elles
sont brouillées au lieu d’être perçues comme des sons individuels. Ceci a un rapport direct avec la
musique informatique, car dans celle-ci le tempo n’est pas limité par la dextérité d’un interprète.
Malheureusement, il nous est impossible de fournir un nombre absolu pour le taux de note maxi-
mum, car là encore la nature des sons est un facteur important.
Nous pourrions par exemple espérer entendre une note principale et sa note ornementale la précé-
dant (c’est-à-dire sans qu’elles soient brouillées) si leurs attaques n’étaient séparées que de 2 ou 3 ms
et si la note ornementale était courte. Mais plus la note ornementale est longue, plus il y a de pro-
babilités pour que les deux notes soient perçues de façon brouillée. La différence de fréquence entre
les deux notes influe également sur la probabilité de brouillage (Schubert, 1979b). S’il y a trop de notes
dans une phrase, il se forme alors en général une construction auditive, qui influe certainement
sur les limites momentanées de résolution temporelle. Dans ce cas, il peut être nécessaire d’avoir
au moins 50 ms entre les attaques afin d’éviter le brouillage. Voir plus loin dans ce chapitre une dis-
cussion sur les masques en avant et en arrière.
16.4 Perception de la fréquence

Lorsqu’une sinusoïde excite l’oreille, une région de la membrane basilaire oscille autour de sa posi-
tion d’équilibre. Cette région est plutôt grande, mais il n’existe qu’un point étroit de déplacement
maximum. La distance entre ce point et l’extrémité de la membrane basilaire est directement liée
à la fréquence. En d’autres termes, la fréquence est reliée à une place particulière le long de la mem-
brane. C’est ce mécanisme basique de bas niveau qui permet la détection de fréquence (paramètre
physique), mais ce n’est pas le seul mécanisme qui contribue à notre perception de hauteur (attribut
perceptuel). En fait, nous avons déjà vu qu’il existait un mécanisme temporel pour la détection de
la période d’une forme d’onde, qui est l’inverse de la fréquence, et ce mécanisme peut contribuer
également à la sensation de hauteur.
Bien que l’oreille d’un jeune adulte puisse détecter des fréquences dans un domaine s’étendant
approximativement de 20 Hz à 20 kHz, la perception de hauteur est confinée de façon bien plus
étroite. Dans des contextes musicaux, la perception de hauteur n’est pas exacte, par exemple lors
de jugements d’octaves en dessous de 60 Hz ou au-dessus de 5 kHz (Schubert, 1979a).
16.4.1 Bandes critiques

Comme chaque fréquence stimule une région de la membrane basilaire (et non un point), il existe
une limite de résolution fréquentielle de l’oreille. Cette limite est liée en grande partie à une caracté-
ristique importante du mécanisme perceptuel connue sous le nom de bande critique (Scharf, 1961,
1970). La bande critique fut découverte tout d’abord lors d’expériences sur les effets de masque
(Fletcher, 1940a), mais elle joue un rôle dans de nombreux aspects de la perception. Voyons main-
tenant comment elle se comporte dans certains cas.
Si nous prenons deux sinusoïdes dont les fréquences sont très proches, nous nous apercevons que
la sonie totale que nous percevons est inférieure à la somme des deux sonies que nous entendrions
si les sinusoïdes étaient jouées séparément. Lorsque nous séparons les sons en fréquence, la sonie
reste constante jusqu’à un certain point de différence de fréquence ; lorsque celui-ci est dépassé, la
sonie augmente et devient équivalente à la somme des sonies des deux sons individuels. Cette dif-
férence de fréquence correspond à la bande critique. Nous pouvons l’imaginer comme une sorte
d’intégration en travers de la fréquence, analogue à l’intégration temporelle dont nous parlions
plus haut (Zwicker, Flottorp et Stevens, 1957).
La bande critique est censée jouer un rôle important dans la plupart des sensations de dissonance
(bien que le terme dureté soit souvent préféré dans la littérature traitant de la psychoacoustique, en
raison des connotations associées avec le terme de dissonance dans la théorie traditionnelle de la
musique). Si deux sons sinusoïdaux sont très proches l’un de l’autre, ils sont entendus comme un
seul son, avec une fréquence située entre les deux fréquences réelles, et accompagnés d’une nette
perception de battement. Si les sons s’éloignent l’un de l’autre, mais restent à l’intérieur de la bande
critique, il y a une sensation de dureté. Éloigner encore les sons permet à l’oreille de discriminer
les deux fréquences ; mais la sensation de dureté continue jusqu’à ce que la différence de fréquence
entre les sons ait dépassé la largeur de bande critique (Roederer, 1975).
La figure 16.4 est une représentation schématique (non échelonnée) de ce phénomène, où une fré-
quence reste fixe, tandis qu’une autre balaye son domaine. La largeur de la bande critique dépend
Limites
de discrimination
d'une hauteur
F2
Son fusionné
F1
Dureté
Battements
Fréquence
-ΔF 0 +ΔF
Douceur Bande critique Douceur
Figure 16.4 – Représentation schématique des sensations

évoquées par deux sinusoïdes F1 et F2, où F1 est fixe et F2 se déplace selon une fonction F1 + ΔF.
L’axe vertical est la fréquence, et l’axe horizontal la largeur de différence fréquentielle. Si les sons sont
très éloignés, ils sonnent de façon « douce » et distincte. Lorsqu’ils entrent dans la bande critique,
ils passent dans une région de fusion « dure ». Près du centre de fusion, l’auditeur entend un son
de battement provenant de l’interférence des deux fréquences proches (d’après Roederer, 1975).
Figure 16.5 – Largeur de bande critique (ΔFBC) et limite de discrimination

fréquentielle (ΔFD) en fonction de la fréquence centrale d’un stimulus constitué de deux sons (échelles
linéaires). La différence fréquentielle correspondant à trois intervalles musicaux est montrée pour
comparaison (d’après Roederer, 1975).
de la fréquence, comme on peut le voir à la figure 16.5. Remarquez que l’oreille peut discriminer
deux fréquences situées à une distance inférieure à la largeur de la bande critique. Ainsi, bien qu’une
intégration de sonie apparaisse dans la bande critique, ceci n’implique pas qu’il y ait également
intégration de fréquence dans ce domaine.

Lorsque de nombreuses fréquences sont présentes, le système auditif opère sur toutes celles-ci
simultanément, n’étant soumis qu’à ses propres limites de résolution. Si les fréquences sont en liaison
harmonique, le spectre global aboutit à des effets de hauteur et de timbre à un niveau perceptuel
supérieur. Cependant, les effets de hauteur peuvent également provenir d’un spectre inharmonique,
et même du bruit. Ainsi, avant de discuter du timbre, nous examinerons comment le système auditif
perçoit les différents types de bruit.
16.5 Perception du bruit

Le bruit peut être conçu comme un processus aléatoire. En termes de son numérique, ceci signifie
que des échantillons adjacents ne sont d’aucune façon significative liés entre eux. Il existe en fait
plusieurs degrés d’aléatoires. Le bruit « complètement » aléatoire (bruit blanc) possède un spectre
plat (c’est-à-dire que sur un long segment de bruit blanc, toutes les fréquences sont en moyenne de
forces égales). Ce type de spectre est appelé « blanc » en raison de son analogie avec le fait que toutes
les fréquences du spectre visible sont présentes dans la lumière blanche. Bien que toutes les fré-
quences soient présentes dans le bruit blanc, celui-ci n’évoque aucune sensation de hauteur en raison
du caractère aléatoire de sa forme d’onde. Cependant, il existe plusieurs façons de « colorier » le bruit,
et certaines d’entre elles produisent une vague sensation de hauteur.
L’une de ces techniques consiste à moduler l’amplitude du bruit. Certaines études indiquent que si
la modulation est à l’intérieur du domaine du détecteur MA, il peut y avoir une hauteur, correspon-
dante à la fréquence de modulation superposée à la sensation de bruit. Burns et Viemeister (1976)
ont même été capables de jouer des mélodies grâce à cette technique, mais l’effet était faible.
Une autre façon de colorier le bruit est de le retarder de t secondes, et d’ajouter ce retard au bruit
non retardé. Ceci équivaut à passer le bruit dans un filtre en peigne (voir le chapitre 4) et est appelé
bruit de filtre en peigne ou bruit cosinus, car son enveloppe spectrale ressemble à une onde cosinus
(Bilsen, 1977). On peut déplacer vers le haut ou vers le bas le spectre en cosinus en modifiant la
phase de la partie retardée en fonction de la partie non retardée. Deux angles de phase sont évoqués
dans la littérature spécialisée : 0 degré (absence de déphasage), appelé cosinus + bruit, et 180 degrés
(ce qui équivaut à soustraire la partie retardée plutôt que de l’ajouter) appelé cosinus-bruit. La sen-
sation de hauteur résultante de cosinus + bruit correspond à une fréquence égale au réciproque de t
(par exemple, t = 2 ms implique une hauteur de fréquence égale à 500 Hz). Cosinus-bruit, d’un
autre côté, tend à impliquer deux hauteurs, une à 1,14/t, et l’autre à 0,89/t. Ces sensations de hauteur
sont plus fortes autour de 500 Hz et sont quasiment inaudibles en dessous de 50 Hz et au-dessus
de 2 kHz (Yost et Hill, 1978). Elles s’affaiblissent également lorsque la durée du signal devient infé-
rieure à 200 ou 250 ms (Yost, 1980). Ces hauteurs peuvent émaner de la détection de fréquence
(ce qui correspond à la place sur la membrane basilaire), ou de la détection de période (retard tem-
porel), mais leur existence suggère que la détermination de hauteur s’effectue à un niveau supérieur
au système auditif périphérique.
Passer du bruit blanc à travers un filtre passe-bande peut avoir pour résultat deux jugements de
hauteur, selon la largeur de bande. Si la bande est plus étroite qu’environ un cinquième d’une
octave, la hauteur résultante correspond à la fréquence centrale de la bande ; les largeurs de bande
moins étroites tendent à imposer les hauteurs correspondantes aux limites du filtre passe-bande
(fréquences de coupure inférieures et supérieures) (Bilsen, 1977). Bien entendu, dans tous ces cas,
la perception de bruit est augmentée et non remplacée par les sensations de hauteur particulières.
Nous voyons ainsi qu’il est possible de faire des prédictions grossières de la façon dont les hauteurs
seront perçues dans certains types de bruits colorés. Ceci peut être utile pour le compositeur de
musique informatique où une transition est nécessaire entre du bruit et des spectres ayant des com-
posants fréquentiels discrets (harmoniques ou inharmoniques). En d’autres termes, nous devrions
être capables de travailler le bruit en sachant plus ou moins comment celui-ci sera perçu.
16.6 Fusion et perception du timbre

Quiconque a écrit de la musique avec un ordinateur (surtout s’il y a implication de sons naturels)
sait que le spectre fixe ne constitue pas en lui-même l’identité de l’instrument. Les parties d’attaque
et de chute sont également des clés très importantes. En fait, le spectre d’un instrument naturel
change constamment, et si cette activité temporelle, appelée spectre dynamique, est absente (comme
cela est parfois le cas dans les sons produits électroniquement), nous percevons un son qui semble
généré artificiellement. Dès lors, lorsque nous parlons de timbre, nous évoquons une chose ayant
plus d’une dimension. Pour une étude plus détaillée de ce sujet, y compris sur les études traitant des
expérimentations de la perception du timbre, voir Grey (1975), Plomp (1976), Grey et Gordon (1978),
Wessel (1979), et McAdams (1987). Une anthologie plus récente de la recherche sur le timbre
musical est disponible dans Barrière (1991).
Considérons maintenant l’un des aspects les plus saillants du timbre : l’équilibre des partiels dans
un spectre harmonique (c’est-à-dire la relation des forces relatives des partiels individuels). L’une
des choses curieuses au sujet du mécanisme perceptuel est qu’une onde comprenant de nombreuses
fréquences peut être perçue comme ayant une hauteur, et que l’équilibre spectral des harmoniques
les fusionne en une seule sensation de qualité, ou timbre. La fusion est sans doute un phénomène
d’ordre élevé qui résulte d’une combinaison d’information spectrale et temporelle fournie par le
système auditif périphérique. Par exemple, des études récentes ont suggéré que si plusieurs partiels
se retrouvent à l’intérieur d’une bande critique, il existe une plus grande probabilité de fusion que
s’ils sont très espacés, se retrouvant dans des bandes critiques séparées (Cohen, 1980).
D’autre part, si un ensemble de partiels est modulé en fréquence par une enveloppe temporelle
commune, ils tendent à fusionner en un seul timbre. Ceci a été démontré par John Chowning (1980,
1989), qui synthétisa un spectre pour approximer une voyelle chantée par une soprano. Lorsque
les harmoniques commençaient les uns après les autres, il n’y avait pas de perception d’un son
vocal, même lorsque tous les harmoniques étaient présents. Lorsqu’un vibrato commun était ajouté
à tous les harmoniques, le son se transformait en une voyelle chantée convaincante.
Il est beaucoup plus facile d’introduire un effet de fusion si les partiels sont harmoniques ; cependant,
les spectres inharmoniques peuvent fusionner si l’enveloppe temporelle commune est suffisamment
saillante, par exemple une enveloppe ayant une attaque raide et une chute exponentielle (Cohen,
1980). En fait, de nombreux sons de cloche ont un spectre inharmonique ayant ce type d’enveloppe
d’amplitude.
Lorsque de nombreux instruments jouent simultanément, comme dans un orchestre, la fusion est
une partie importante du processus d’identification de source — le processus qui entend une seule
forme d’onde complexe sous forme de combinaison de nombreux sons, chacun ayant son propre
timbre. Le ruissellement est également un aspect important de ce processus et il est exposé en
détail dans McAdams et Bregman (1979) et McAdams (1981).
Les partiels supérieurs d’un spectre harmonique fusionnent dans la perception d’une hauteur à la
fréquence fondamentale, même si ce composant n’est pas présent. Ceci est appelé le phénomène
d’absence de fondamental et a donné lieu à la théorie dite de périodicité de la perception de hauteur
(Nordmark, 1978). Ce phénomène joue un rôle intéressant dans l’interprétation de l’opéra. On a
découvert que les chanteurs professionnels (surtout les chanteurs masculins) développent une
région formantique supplémentaire, appelée le formant chantant. Ce formant est en général situé
entre 2 500 et 3 000 Hz, et n’apparaît pas dans la parole naturelle. Les plus grandes intensités de
l’orchestre apparaissent à des fréquences inférieures et tendent à dominer l’énergie du chanteur au
niveau de sa fréquence fondamentale. Grâce au renforcement d’énergie dû au formant chantant,
l’auditeur peut entendre la partie supérieure du spectre du chanteur. L’oreille est plus sensible aux
fréquences situées dans cette région. L’auditeur « rétablit » alors la fréquence fondamentale à partir
de la combinaison des partiels supérieurs, et le chanteur peut ainsi être entendu au-dessus de
l’orchestre (Sundberg, 1972).
16.7 Effets de masques

La plupart des musiques comportent plusieurs sons apparaissant en même temps. Il est donc utile
à un compositeur de comprendre comment deux ou plusieurs sons interagissent sur le plan de leur
perception (ou même de leur organisation) par l’oreille humaine. Malheureusement, il existe peu
d’études expliquant comment les sons sont entendus dans un contexte musical. Grey (1978) et
McAdams et Bregman (1979) sont cependant deux bons exemples. Pour aller dans cette direction,
il nous faut considérer le travail effectué sur les effets de masque.
La figure 16.6 présente les résultats d’une étude restée classique de Wegel et Lane (1924). Une pre-
mière sinusoïde est jouée à 1 200 Hz et à 80 dB SPL. L’intensité du deuxième son est changée pour
déterminer son seuil d’audibilité (appelé seuil du masque). La courbe de la figure 16.6 montre les
seuils du masque pour un grand nombre de fréquences du deuxième son. Il faut réaliser que les
fréquences supérieures à celles du premier son seront masquées avec plus d’efficacité que les fré-
quences inférieures. Notez également que la présence de battements fait que le seuil du masque se
confond avec le premier son (1 200 Hz).
104
Battements
Battements
Mélange Mélange des sons Mélange des sons
des sons
Magnitude du deuxième son
Premier, second
Battements
Premier, second
103 et son de différence Premier, second et son
et son de différence de différence
Premier et son
de différence
2
10
Premier et second Premier seul

Premier son
10
1
400 600 800 1 000 1 200 1 600 2 000 2 400 2 800 3 200 4 000
3 600
Fréquence du deuxième son
Figure 16.6 – Seuil du masque, en fonction de la fréquence,

d’un son secondaire (sur une étendue fréquentielle) en présence d’un son primaire constant joué à
1 200 Hz et 80 dB SPL. Les phénomènes de battements, d’harmoniques auditifs et de sons de com-
binaison sont également indiqués (d’après Wegel et Lane, 1924).
Le battement qui apparaît à 2 400 et 3 600 Hz indique la présence d’harmoniques auditifs. C’est-à-
dire que les harmoniques du premier son, absents dans le son en entrée, sont fournis par le processus
non linéaire de l’oreille à haute intensité (80 dB SPL).
Lorsque le deuxième son est au-dessus de 40 dB SPL, un autre effet non linéaire de l’oreille apparaît :
il y a un son à la différence entre le premier et le second son. Des intensités encore plus élevées con-
duisent à un mélange de sons à plusieurs hauteurs. Lorsque Wegel et Lane présentèrent deux sons
à 95 dB SPL, l’un à 700 Hz, et l’autre à 1 200 Hz, ils déclarèrent que dix-neuf hauteurs différentes
pouvaient être entendues, bien qu’ils n’aient pas enregistré leurs sonies. En général, les sons de
combinaison les plus fréquemment entendus sont le son différentiel (|F2 – F1|) et le son différentiel
cubique (2[F1 – F2] ou 2[F2 – F1]) (Yost et Nielsen, 1977). Ces deux cas ont été étudiés en profondeur
par Goldstein (1967). Une discussion pertinente des sons de combinaison peut également être
trouvée dans Plomp (1976).
Les harmoniques auditifs, les sons différentiels, et d’autres sons de combinaison peuvent être ou
non désirés par le compositeur de musique informatique, mais l’on doit faire attention à leur pré-
sence aux intensités élevées. D’autres expériences sur les effets de masques ont été effectuées, mais
une présentation plus détaillée dépasse le cadre de ce chapitre. Les effets de masque par une bande
de bruit étroite furent étudiés par Egan et Hake (1950), tandis que Hawkins et Stevens (1950)
rédigèrent une étude restée classique sur les effets de masques à large bande.
Jusqu’à présent, nous avons discuté des masques simultanés, mais il est également possible qu’un
événement (sinusoïde ou bruit) masque un son apparaissant après son extinction (masque en avant),
ou même un son apparaissant avant son arrivée (masque en arrière). Ces phénomènes, ainsi que
d’autres détails sur les masques sont longuement exposés par Zwislocki (1978) et Jeffress (1970).
Le lecteur est invité à lire l’article de Zwicker et Scharf (1965), dans lequel les auteurs ont développé
un modèle mathématique pour représenter comment l’oreille traite n’importe quel son arrivant
jusqu’à elle. Il tient compte des effets de masque, de la sensibilité variable de l’oreille aux différentes
fréquences, et des phénomènes liés à la bande critique. Le modèle est conçu pour prédire une
valeur quantitative de sonie, mais Grey et Gordon (1978) l’ont également utilisé pour déterminer
le « point d’équilibre » d’un spectre d’instrument de musique.
16.8 Conclusion : psychoacoustique et perception

De nombreux compositeurs ont considéré que la connaissance de la psychoacoustique a grandement
amélioré leur compétence compositionnelle. Certains se sont même directement inspirés de cette
connaissance pour composer. Jean-Claude Risset (1985a, b) présente en détail ses expériences,
et David Wessel (1979) a montré comment il a utilisé les résultats d’une expérience de psycho-
acoustique pour composer ce qu’Arnold Schoenberg appelait en 1911 la Klangfarbenmelodie.
La psychoacoustique peut également être exploitée pour créer des illusions auditives. L’article de
Chowning sur les sources sonores virtuelles en mouvement (Chowning, 1971) est un exemple
classique. Risset (1985b) parle d’une grande variété de sons Shepard qui partent dans une direction,
mais ne vont jamais nulle part ! L’ensemble des illusions dites de ruissellement, contenant un fort
potentiel d’effets compositionnels intéressants, est illustré par l’exemple de la voyelle de Chowning
évoquée plus haut dans le passage sur la fusion (davantage de détails sont donnés dans McAdams,
1981). En fait, le contrôle du ruissellement et de la fusion, qui sont des phénomènes perceptuels de
haut niveau, fournit un contrôle sur la texture, sur la densité, et sur d’autres effets de timbre, qui
sont des concepts musicaux de haut niveau. Ainsi, la psychoacoustique promet d’être d’un grand
bénéfice pour le compositeur de musique informatique — non seulement au niveau élémentaire,
mais également aux niveaux supérieurs, là où les structures musicales sont construites en un tout
compositionnel.
16.9 Remerciements
L’auteur tient à remercier Stephen McAdams pour sa contribution à l’organisation et au contenu de
ce chapitre.
Partie B
Synthèse sonore
Chapitre 17
Introduction à la synthèse
Curtis Roads et John Strawn
Ce chapitre expose les méthodes fondamentales de la production numérique du son. Après un bref
survol historique, nous présenterons la théorie de la synthèse par lecture de table — le noyau de la
plupart des algorithmes de synthèse. Nous présenterons ensuite les stratégies pour synthétiser des
sons variant dans le temps. Ceci sera suivi d’une comparaison pratique de la « synthèse logicielle »
et de la « synthèse matérielle », c’est-à-dire des programmes informatiques et des synthétiseurs à
proprement parler. Enfin, nous survolerons les différents moyens pour spécifier les sons musicaux
dans un ordinateur ou un synthétiseur. La seule condition préalable à la lecture de ce chapitre est
une bonne connaissance des concepts de base de l’audionumérique, tels qu’ils sont expliqués au
chapitre 1.
17.1 Origines : histoire de la synthèse numérique du son

Les premières expériences de synthèse du son grâce à un ordinateur ont commencé en 1957 avec des
chercheurs des Bell Telephone Laboratories de Murray Hill dans le New Jersey (David, Mathews
et McDonald, 1958 ; Roads, 1980 ; Wood, 1991). Dans les premières expériences, Max Mathews
(figure 17.1) et ses collègues prouvèrent qu’un ordinateur pouvait synthétiser des sons selon n’importe
quelle échelle de hauteur ou n’importe quelle forme d’onde, y compris des fréquences et des enve-
loppes d’amplitude variant dans le temps.
Leurs premiers programmes étaient écrits directement en langage machine, pour un ordinateur
IBM 704 géant fabriqué avec des circuits à lampes (figure 17.2). Le 704 était une machine puissante
pour l’époque, avec des longueurs de mots de 36 bits et une unité à virgule flottante pour des opé-
rations de calcul rapide. On pouvait lui charger jusqu’à 32 000 mots sur la mémoire centrale magné-
tique. Les ordinateurs étaient à cette époque si rares que les calculs de synthèse devaient être effectués
aux IBM World Headquarters à New York, car les Bell Telephone Laboratories ne possédaient pas
de machine adéquate. Après le voyage jusqu’à Manhattan pour calculer un son, Mathews et ses asso-
ciés revenaient aux Bell Telephone Laboratories avec une bande magnétique numérique. Là, un
350 SYNTHÈSE SONORE
Figure 17.1 – Max V. Mathews, 1981

(avec l’aimable autorisation d’AT&T Bell Laboratories).
ordinateur moins puissant doté d’une lampe 12 bits servant de « convertisseur numérique-son »
transformait les échantillons sur la bande sous forme audible. Ce convertisseur, conçu par Bernard
Gordon, était à cette époque le seul dans le monde capable de produire du son (Roads, 1980).
Figure 17.2 – Ordinateur IBM 704, 1957

(avec l’aimable autorisation d’International Business Machines).
17.1.1 Music I et Music II

Le programme Music I développé par Mathews ne générait qu’une seule forme d’onde : un triangle
équilatéral. Un utilisateur patient ne pouvait spécifier les notes que sur le plan de la hauteur, de la
forme d’onde et de la durée (Roads, 1980). Le psychologue Newman Guttman fit une composition
avec Music I, une étude monophonique appelée In a silver scale écrite le 17 mai 1957 (Guttman,
1980). C’était la première composition synthétisée grâce au procédé de conversion numérique
analogique. Même dans cette première pièce, le potentiel de l’ordinateur à générer précisément
n’importe quelle fréquence était indéniable. Guttman s’intéressait à la psychosomatique et utilisa la
pièce pour tester le contraste entre « une échelle chromatique de valeurs égales » décrite par Silver
(1957), et l’intonation juste.
Max Mathews acheva Music II en 1958 ; il était écrit en langage assembleur pour l’ordinateur IBM
7094, une version améliorée du modèle 704 et utilisant des transistors. Le 7094 était plusieurs fois
plus rapide que les machines à lampes plus anciennes. Il était ainsi possible d’implémenter davan-
tage d’algorithmes de synthèse. Quatre voix sonores indépendantes étaient possibles, avec un choix
de seize formes d’ondes stockées en mémoire. Music II fut utilisé par différents chercheurs au Bell
Telephone Laboratories, dont Max Mathews, John Pierce et Newman Guttman.
Un concert de la nouvelle « musique informatique » fut organisé en 1958 à New York, suivi d’un groupe
de débats présidé par John Cage. Plus tard cette année-là, Guttman joua sa composition synthéti-
sée par ordinateur Pitch Variations à la villa de Hermann Scherchen à Gravesano en Suisse, où Ian-
nis Xenakis était dans l’assistance (Guttman, 1980).
17.1.2 Le concept de générateur élémentaire
L’un des développements les plus importants dans la conception de langages de synthèse numérique
du son fut le concept de générateur élémentaire (GE). Les GE sont des modules de traitement du
signal tels que des oscillateurs, des filtres et des amplificateurs, qui peuvent être interconnectés pour
former des instruments de synthèse ou patchs qui génèrent des signaux sonores. Nous parlerons de
façon détaillée des GE plus tard dans ce chapitre. Le premier langage de synthèse à utiliser le concept
de générateur élémentaire était Music III, programmé par Mathews et sa collègue Joan Miller
en 1960. Music III laissait les utilisateurs concevoir leurs propres réseaux de synthèse entre les GE.
En passant le signal à travers une série de générateurs élémentaires, une grande variété d’algorithmes
de synthèse peut être implémentée relativement facilement.
17.1.3 Langages Music N
Depuis le temps de Music III, une famille de systèmes de synthèse par logiciel — tous basés sur le
concept de générateurs élémentaires — a été développée par différents chercheurs. Music IV était
un recodage de Music III en un nouveau langage assembleur macro développé aux Bell Laboratories
et appelé BEFAP (Tenney, 1963, 1969). Music V, développé en 1968, fut le point culminant des efforts
de Max Mathews dans le domaine des logiciels de synthèse (Mathews, 1969). Écrit presque exclu-
sivement en Fortran IV — un langage informatique standard —, Music V fut exporté dans le monde
entier vers plusieurs douzaines d’universités et de laboratoires au début des années 1970. Pour de
nombreux musiciens, dont l’auteur de ce livre, il servit d’introduction à l’art de la synthèse numé-
rique du son.
En prenant Music IV ou Music V comme modèles, d’autres personnes ont développé des programmes
de synthèse tels que Music 4BF, Music 360, Music 7, Music 11, Csound, MUS10, Cmusic, Common
Lisp Music, et ainsi de suite. En tant que catégorie générale, ces programmes sont souvent référencés
sous la rubrique des langages « Music N ».
17.2 Synthèse par lecture de table d’onde fixe

Comme l’explique le chapitre 1, la synthèse numérique génère une suite de nombres représentant
les échantillons de la forme d’onde audio. Nous ne pouvons entendre ces sons synthétiques qu’en
envoyant les échantillons à travers un convertisseur numérique analogique (CNA), qui convertit les
nombres en une tension variant constamment et qui peut être amplifiée et envoyée à un haut-
parleur.
L’une des façons de se représenter ce procédé est d’imaginer un programme d’ordinateur qui calcule
les valeurs d’échantillons de la forme d’onde selon une formule mathématique, et envoie ces échan-
tillons, les uns après les autres, au CNA. Ce procédé marche bien, mais il n’est pas le plus efficace
pour la synthèse numérique.
En général, les ondes sonores musicales sont extrêmement répétitives, un fait qui est reflété dans
les notions de fréquence et de hauteur. Ainsi, une technique plus efficace consiste à ne faire calculer
par la machine que les nombres pour un cycle de forme d’onde et de stocker ces nombres en mémoire
sur une liste, comme cela est montré à la figure 17.3. Une telle liste est appelée table d’onde. Pour
générer un son périodique, l’ordinateur lit simplement la table d’onde en boucle, en envoyant les
échantillons qu’il lit au CNA pour la conversion en son.
Ce procédé de lecture répétée d’une table d’onde en mémoire est appelé synthèse par lecture de table.
Puisque cela ne prend que quelques nanosecondes à un ordinateur pour lire une valeur en mémoire,
la synthèse par lecture de table est beaucoup plus rapide que le calcul de la valeur de chaque échan-
tillon en partant de zéro. La synthèse par lecture de table est l’opération clé d’un oscillateur numé-
rique — un générateur de son fondamental dans les synthétiseurs.
Dirigeons-nous maintenant à travers la lecture de table. Supposons que la valeur du premier
échantillon est donnée par le premier nombre de la table (position 1 de la figure 17.3). Pour chaque
nouvel échantillon devant être produit par ce simple synthétiseur, prenons l’échantillon suivant de
la table d’onde. À la fin de la table d’onde, retournons simplement au début et recommençons à lire
les échantillons. Ce procédé est également appelé synthèse par forme d’onde fixe, car la forme d’onde
ne change pas pendant l’événement sonore.
Par exemple, imaginons que la table contient 1 000 entrées, dont chacune est un nombre 16 bits.
Les entrées sont indexées de 0 à 999. Nous appelons la position en cours dans la table l’index de
phase, en référence à la phase de la forme d’onde. Pour lire le long de la table, l’oscillateur com-
mence à la première entrée de la table (index de phase = 0) et se déplace par incrément jusqu’à la
fin de la table (index de phase = 999). À ce point, l’index de phase « fait une boucle » entre le point
de fin et le début de la table d’onde, et recommence.
17.2.1 Changement de la fréquence

Quelle est la fréquence du son produit par la synthèse par lecture de table ? Elle dépend de la longueur
de la table d’onde et de la fréquence d’échantillonnage. Si la fréquence d’échantillonnage est de
1 000 échantillons par seconde, et qu’il y a 1 000 nombres dans la table, le résultat est 1 000/1 000 :
1 Hz. Si la fréquence d’échantillonnage est de 100 000 Hz, et que la table contient 1 000 entrées,
alors la fréquence de sortie est de 100 Hz, puisque 100 000/1 000 = 100.
Comment est-il possible de changer la fréquence du signal de sortie ? Comme nous venons de le voir,
une solution simple est de changer la fréquence d’échantillonnage. Mais cette stratégie est limitée,
particulièrement lorsque l’on souhaite traiter ou mixer des signaux dont les taux d’échantillonnage
sont différents. Une meilleure solution consiste à lire la table d’onde à des taux différents, en sautant
CHAPITRE 17 – INTRODUCTION
À LA SYNTHÈSE
Figure 17.3 – Description graphique de la synthèse par lecture de table d’onde.

Les nombres 0 à 24 dans le bas sont les positions numérotées ou « valeurs d’index de table ». Une valeur audio d’échantillonnage
est stockée dans la mémoire à chaque point d’index. Les échantillons sont décrits par les rectangles dans la partie supérieure.
Par exemple, Table d’onde (0) = 0 et Table d’onde (6) = 1. Pour synthétiser la sinusoïde, l’ordinateur lit les valeurs d’échantillons
stockées dans les positions d’index successifs et les envoie au CNA, en bouclant sans arrêt la table.
353
des échantillons. Ceci a pour effet de rétrécir la taille de la table d’onde, ce qui permet de générer
différentes fréquences.
Par exemple, si l’on ne prend que les échantillons avec des nombres pairs, nous nous déplaçons
deux fois plus vite dans la table. Ceci transpose la hauteur du signal de sortie d’une octave. Si nous
sautons deux échantillons, la hauteur est encore transposée (d’une octave et une quinte, pour être
exact). Dans l’algorithme de lecture de table, l’incrément détermine le nombre d’échantillons à
sauter. L’incrément est ajouté à la position de phase en cours, afin de trouver la prochaine position
de lecture de la valeur de l’échantillon. Dans l’exemple le plus simple, lorsque nous lisons tous les
échantillons d’une table, l’incrément est de 1. Si nous ne lisons que les échantillons avec des nombres
impairs — ou pairs — de la table, l’incrément est de 2.
17.2.2 Algorithme pour un oscillateur numérique

Nous pourrions dire que l’oscillateur rééchantillonne la table d’onde afin de générer différentes fré-
quences. C’est-à-dire qu’il saute des valeurs dans la table, grâce à un incrément ajouté à la position
de phase en cours dans la table d’onde. Ainsi, l’algorithme d’oscillateur le plus simple peut être
expliqué grâce à un programme en deux étapes :
1. Index de phase = modL (phase précédente + incrément)
2. Sortie = amplitude × table d’onde [index de phase]
L’étape (1) de l’algorithme contient une opération d’addition et de modulo (écrite modL). L’opération
modulo divise la somme par la somme L de la table, et ne garde que le reste, qui est toujours infé-
rieur ou égal à L. L’étape (2) contient une lecture de table et un multiplicateur. Ceci demande peu
de calculs, mais suppose que les tables d’onde soient déjà chargées avec des valeurs de formes d’onde.
Si la longueur de la table et la fréquence d’échantillonnage sont fixes — ce qui est en général
le cas —, alors la fréquence du son émis par l’oscillateur dépend de la valeur de l’incrément. La
relation entre une fréquence et un incrément nous est donnée par l’équation suivante, qui est
l’équation la plus importante dans la synthèse par lecture de table :
L × fréquence
incrément = ---------------------------------------------------------- (1)
fréquence d’échantillonnage
Par exemple, si une longueur de table L est de 1 000 et que la fréquence d’échantillonnage est de
40 000, tandis que la fréquence spécifiée de l’oscillateur est 2 000 Hz, alors l’incrément est de 50.
De ceci découle l’équation suivante pour la fréquence :
incrément × fréquence d’échantillonnage
fréquence = -------------------------------------------------------------------------------------- (2)
L
Voilà tout pour la théorie mathématique des oscillateurs numériques. Passons maintenant aux
réalités du calcul.
17.3 Bruit de lecture de table et oscillateurs interpolants

Toutes les variables de l’exemple précédent étaient des multiples de 1 000, ce qui permettait un
résultat entier pour la valeur d’incrément d’index de phase. Quoi qu’il en soit, pour la plupart des
valeurs de longueur de table, de fréquence, et de fréquence d’échantillonnage dans l’équation 1,
l’incrément résultant n’est plus un entier, mais un nombre réel avec une partie décimale après la
virgule. Cependant, lorsque nous souhaitons lire une valeur dans une table d’onde, nous devons la
localiser par son index, qui est un entier. Nous devons par conséquent dériver une valeur entière
de la valeur réelle de l’incrément.
La valeur réelle peut être tronquée pour rendre une valeur entière d’index de table. Il faut donc effacer
la partie du nombre située à droite de la virgule, pour qu’un nombre comme 6,99 devienne 6 lorsqu’il
est tronqué.
Tableau 17.1 – Valeurs d’index de phase d’une table d’onde d’oscillateur,
calculées et tronquées.
Index de phase
Valeurs calculées Valeurs tronquées
1,000 1
2,125 2
3,250 3
4,375 4
5,500 5
6,625 6
7,750 7
8,875 8
10,000 10
11,125 11
12,250 12
13,375 13
14,500 14
15,625 15
16,750 16
17,875 17
19,000 19
Supposons que l’on utilise un incrément de 1,125. Le tableau 17.1 compare les incréments calculés
et les incréments tronqués. Cette imprécision causée par la troncation signifie que nous obtenons
une valeur de forme d’onde proche, mais non exacte, de celle dont nous avons besoin. Le résultat
est que de petites quantités de distorsions de forme d’onde sont introduites, que nous nommons
bruit de lecture de table (Moore, 1977 ; Snell, 1977b). Plusieurs remèdes peuvent réduire le bruit.
On peut par exemple utiliser une grande table d’onde, puisqu’une table à quadrillage serré réduit
l’erreur de lecture. Une autre technique est d’arrondir la valeur de l’incrément à l’entier supérieur
ou inférieur, plutôt que de simplement le tronquer. Dans ce cas, un incrément de 6,99 devient 7,
ce qui est plus proche que 6. Mais les meilleures performances sont atteintes grâce à un oscillateur
interpolant. Cette technique demande plus de calculs, mais génère des signaux très propres.
Un oscillateur interpolant calcule ce que la valeur de la table d’onde aurait été, s’il avait été possible
de référencer la table au point exact spécifié par l’incrément. En d’autres termes, il interpole les
entrées de la table d’onde pour trouver celle qui correspond exactement à l’incrément d’index de
phase spécifié (figure 17.4).
.75
(.5)
.25
Amp.
27 (27.5) 28
Index
Figure 17.4 – Action d’un oscillateur interpolant.

Le graphique montre deux points sur l’axe horizontal d’une table d’onde, aux valeurs 27 et 28.
L’incrément de phase de l’oscillateur indique que l’on souhaite lire la valeur correspondant à la posi-
tion 27,5, à laquelle ne correspond aucune entrée. L’oscillateur interpolant calcule donc une valeur
sur l’axe d’amplitude située au milieu des valeurs de 27 et 28.
Grâce aux oscillateurs interpolants, de plus petites tables d’onde peuvent offrir la même qualité
audio qu’avec des oscillateurs non interpolants plus grands. Une table d’onde à 1 024 entrées utilisée
avec un oscillateur interpolant délivre dans le pire des cas un excellent rapport signal/bruit de 109 dB,
alors que la même table utilisée avec un oscillateur non interpolant ne délivrera que 48 dB de rapport
signal/bruit (Moore, 1977). Ces exemples ne concernent que le cas de l’interpolation linéaire ;
des résultats encore meilleurs sont possibles avec des techniques d’interpolation plus élaborées
(Chamberlin, 1985 ; Crochiere et Rabiner, 1983 ; Moore, 1977 ; Snell, 1977b).
Ceci conclut notre introduction à la synthèse par lecture de table d’onde fixe. La partie suivante
montre comment les aspects de la synthèse peuvent varier dans le temps.
17.4 Synthèse de formes d’ondes variant dans le temps

Pour l’instant, nous avons vu comment produire une sinusoïde à une fréquence fixe. Comme la
valeur maximum de la sinusoïde ne change pas dans le temps, le signal a une intensité constante.
Ceci n’est pas très utile d’un point de vue musical, puisque l’on ne peut contrôler que la hauteur et
la durée, sans aucun contrôle sur les autres paramètres du son. Même si l’oscillateur lit d’autres
tables d’onde, elles se répètent à l’infini. La solution pour obtenir des sons plus intéressants s’appelle
les formes d’ondes variant dans le temps, obtenues en changeant un ou plusieurs paramètres de
synthèse pendant la durée de l’événement sonore.
17.4.1 Enveloppes, générateurs élémentaires et patchs

Pour créer une forme d’onde variant dans le temps, nous avons besoin d’un instrument de synthèse
qui puisse être contrôlé par des enveloppes — fonctions du temps. Par exemple, si l’amplitude du
son change pendant sa durée, la courbe que suit l’amplitude est appelée l’enveloppe d’amplitude.
Une façon courante pour concevoir un instrument de synthèse est de l’imaginer sous forme de
système modulaire, contenant un certain nombre d’éléments spécialisés de traitement du signal,
qui créent ensemble un son variant dans le temps.
Le générateur élémentaire est un concept fondamental de la synthèse numérique. Un GE est soit un
générateur de signal, soit un modificateur de signal. Un générateur de signal (tel qu’un oscillateur)
synthétise les signaux tels que des formes d’ondes musicales et des enveloppes. Un modificateur
de signal, tel qu’un filtre, prend un signal en entrée, et le transforme de quelque façon que ce soit.
Pour créer un instrument pour la synthèse du son, le compositeur connecte ensemble les GE dans
un patch. Le patch est inspiré des vieux synthétiseurs analogiques modulaires, dans lesquels des
modules de son étaient connectés avec des câbles. Bien sûr, lorsque le programme fait de la musique,
les branchements sont tous faits par le logiciel ; il n’y a pas de câbles connectés. Mais si un GE produit
un nombre à sa sortie, celui-ci peut devenir l’entrée d’un autre GE.
✦ Notation graphique pour instruments de synthèse
Nous allons maintenant présenter la notation graphique fréquemment utilisée dans les publications
sur la synthèse du son numérique pour illustrer les patchs. Cette notation fut inventée pour expliquer
l’opération des premiers langages modulaires de synthèse numérique du son, tels que Music 4BF
(Howe, 1975) et Music V (Mathews, 1969), et elle est toujours utile aujourd’hui.
Le symbole pour chaque générateur élémentaire a une forme unique. La figure 17.5 montre la
notation graphique pour un oscillateur à lecture de table appelé osc, un générateur de signal fon-
damental. Il accepte trois entrées (amplitude, fréquence, forme d’onde) et produit une sortie (un
signal). L’oscillateur lit une seule table d’onde qui reste identique pendant toute la lecture de l’oscil-
lateur. Des oscillateurs plus complexes peuvent lire plusieurs tables d’onde pendant la durée de
l’événement ; voir le chapitre 20 sur la synthèse par tables d’onde multiples.
Amplitude
Fréquence
f1
osc
0
Signal de sortie
Figure 17.5 – Notation graphique d’un oscillateur.

Dans la figure 17.5, l’entrée en haut à droite est la fréquence. L’entrée en haut à gauche détermine
l’amplitude maximale du signal généré par l’oscillateur. La boîte sur la gauche est la table d’onde f1
contenant une sinusoïde. Dans certaines implémentations, au lieu de la fréquence, la valeur chargée
directement dans l’oscillateur est un incrément de phase brut. Puisque l’incrément de phase n’est
pas un paramètre intuitif musicalement, nous considérons ici que le système tient compte automa-
tiquement des conversions de fréquences en incrément de phase, selon l’équation 1.
✦ Utilisation des enveloppes dans les patchs
Si nous fournissons un nombre constant (par exemple 1) à l’entrée d’amplitude d’un oscillateur,
alors l’amplitude globale de forme d’onde de sortie est constante pendant la durée de chaque évé-
nement. Au contraire, les sons plus intéressants ont une enveloppe d’amplitude qui varie en fonction
du temps. De façon typique, une note commence avec une amplitude de 0, puis s’élève jusqu’à une
valeur maximale (généralement normalisée pour ne pas dépasser 1), puis redescend plus ou moins
rapidement vers 0. On dit d’une onde qu’elle est normalisée lorsqu’elle a été échelonnée pour ne
pas dépasser les limites standards telles que 0 et 1 pour une enveloppe d’amplitude, ou –1 et +1
pour les autres ondes. La première partie de l’enveloppe est appelée portion d’attaque, tandis que
la fin de l’enveloppe est appelée l’extinction.
Attaque
Chute
Extinction
Maintien (ou chute finale)
Amp.
Temps
Durée de l'événement
Figure 17.6 – Graphique d’une simple enveloppe d’amplitude en ADSR,

montrant de quelle façon l’amplitude de la note change au cours de sa durée.
Les synthétiseurs analogiques commerciaux définissaient les enveloppes d’amplitude en quatre

étapes : attaque, chute (initiale), maintien (une période qui dépend, par exemple, de la durée pendant
laquelle une touche de clavier est appuyée), et extinction. L’acronyme habituel pour cette enve-
loppe en quatre étapes est ADSR (Attack, Decay, Sustain, Release) (figure 17.6). Le concept d’ADSR
est utile pour décrire verbalement la forme globale d’une enveloppe, par exemple « Rendez l’attaque
plus raide ». Mais pour la spécification d’une enveloppe musicale, une limite de quatre étapes est
anachronique. Le façonnage d’une amplitude est une opération délicate, et c’est ainsi que des éditeurs
d’enveloppe plus précis permettent au musicien de tracer des courbes arbitraires.
L’instrument de la figure 17.5 peut être facilement adapté pour générer une amplitude variant dans
le temps, en raccordant une enveloppe à l’entrée d’amplitude de l’oscillateur. Nous nous approchons
de l’oscillateur en termes musicaux. Si nous définissons la durée et la courbe de l’enveloppe, alors
celle-ci contrôle l’amplitude de chaque note.
Concevoir manuellement une enveloppe pour chaque événement d’une composition est trop fas-
tidieux. Ce que nous cherchons est une procédure simple pour générer une enveloppe qui puisse
s’échelonner elle-même sur différents événements. Une solution est de prendre un autre oscillateur à
lecture de table (appelé env_osc dans la figure 17.7), mais qui, au lieu de remplir sa table d’onde f1
avec une sinusoïde, la remplit avec les valeurs de l’enveloppe d’amplitude situées entre 0 et 1. Au
lieu de trouver l’incrément à partir de la fréquence, l’oscillateur d’enveloppe calcule l’incrément à
partir de la durée de la note. Si la durée de la note est par exemple de deux secondes, la « fréquence »
de l’oscillateur d’enveloppe est de 1 cycle pour 2 s, soit 0,5 Hz. Ainsi, l’env_osc ne lit la table d’ampli-
(a) Amplitude maximale

Durée
f1
1
env_osc
0
enveloppe_amp
Fréquence
f2
0 osc
signal_de_sortie
(b) Amplitude
f1 maximale
1
Durée
0
env_gen
enveloppe_amp
Fréquence
f2
0 osc
signal_de_sortie
Figure 17.7 – Contrôle variant dans le temps d’un oscillateur.

(a) Oscillateur utilisé comme générateur d’enveloppe. L’oscillateur supérieur env_osc est utilisé
comme générateur d’enveloppe pour contrôler l’amplitude de la sinusoïde générée par l’oscillateur
osc. env_osc suppose que celui-ci effectuera un cycle complet. Cette structure est trouvée dans les
langages de synthèse. (b) Une structure équivalente à (a) utilisant un simple générateur d’enveloppe
env_gen. Celui-ci prend la durée, l’amplitude maximale et la forme d’onde. Cette dernière structure
est plus répandue dans les synthétiseurs.
tude qu’une seule fois au cours de cette période. Pour chaque échantillon, env_osc produit à sa
sortie une valeur tirée de l’enveloppe stockée f1. Cette valeur devient l’entrée de gauche (amplitude)
de l’oscillateur sinusoïdal osc. Après qu’osc a lu un échantillon dans sa table d’onde f2, la valeur de
l’échantillon est échelonnée à l’intérieur d’osc par tout ce qui apparaît à l’entrée d’amplitude, dans
ce cas ce qui provient d’env_osc.
La figure 17.7a montre un instrument typique défini dans un langage de synthèse tel que celui que
nous venons d’évoquer. La figure 17.7b montre une façon de caractériser la même structure, qui
est sans doute plus répandue dans les synthétiseurs. La figure remplace l’oscillateur d’enveloppe par
un simple générateur d’enveloppe env_gen. L’env_gen prend une durée, une amplitude maximale,
et une table d’onde ; il lit la table d’onde pendant la durée spécifiée, en l’échelonnant grâce à l’ampli-
tude maximale spécifiée.
Comme le lecteur peut le deviner, nous pourrions également attacher un générateur d’enveloppe à
l’entrée de fréquence d’osc pour obtenir un changement de hauteur tel qu’un vibrato ou un glis-
sando. En fait, nous pouvons interconnecter les oscillateurs et les autres générateurs élémentaires
de nombreuses façons, afin de créer des sons différents. Les oscillateurs interconnectés sont la base
de nombreuses techniques de synthèse décrites dans les chapitres 18 à 32.
17.5 Logiciels de synthèse

Jusqu’à présent, nous avons parlé de la synthèse numérique en termes abstraits. Les parties sui-
vantes décrivent les systèmes de synthèse en termes plus concrets. L’approche la plus précise et la
plus flexible de la génération numérique du son est un programme logiciel de synthèse tournant sur
un ordinateur tout usage. La synthèse logicielle signifie que tous les calculs impliqués lors de la
génération du flux d’échantillons sont exécutés par un programme qui peut être changé de façon
arbitraire par l’utilisateur. Un exemple canonique de la synthèse logicielle est le langage Music V
(Mathews, 1969) ou ses nombreuses variantes Music N.
La synthèse logicielle est à différencier de la synthèse matérielle, qui exécute les calculs de synthèse
en utilisant un circuit spécial. La synthèse matérielle possède l’avantage de pouvoir faire des opéra-
tions très rapides en temps réel, mais la flexibilité et la taille des algorithmes de synthèse sont limitées
par la conception originelle du matériel. Un exemple typique est un synthétiseur commercial à clavier
à fonction fixe. Ses circuits internes ne peuvent pas nécessairement être reconfigurés pour utiliser
une technique développée par un fabricant concurrent.
La distinction entre synthèse logicielle et synthèse matérielle est quelquefois trouble. Imaginons le cas
d’un système construit autour d’un organe de traitement numérique du signal (DSP) avec une grande
mémoire. Il peut être possible pour un tel système d’exécuter le même type de synthèse logicielle
que celle d’un ordinateur tout usage.
Dans tous les cas, le travail des pionniers en informatique musicale fut exécuté grâce à la synthèse
logicielle. Aujourd’hui, un grand nombre de programmes de synthèse tournent sur des ordinateurs
personnels bon marché. Des CAN ou des CNA de bonne qualité sont soit intégrés, soit facilement
disponibles sous forme d’accessoires. Un grand avantage de la synthèse logicielle est que même un
petit ordinateur peut réaliser n’importe quelle méthode de synthèse — même les plus exigeantes
du point de vue du calcul — sous réserve que le musicien ait la patience d’attendre le résultat.
Ainsi, pour peu que l’on ait un minimum de volonté de création musicale, les ordinateurs sont
prêts pour la synthèse de haute qualité.
17.5.1 Éditeurs d’instruments et langages de synthèse

Les programmes de synthèse logicielle contemporains peuvent être divisés en deux catégories :
(1) éditeurs graphiques d’instruments et (2) langages de synthèse. Avec un éditeur graphique d’ins-
trument, le musicien interconnecte des icônes sur l’écran de l’ordinateur, en faisant des patchs.
Chaque icône représente un GE.
(a)
Instrument 1
/* env_osc arguments are wavetable, duration, amplitude */
amp_envelope f env_osc f1 p3 1.0;
/* osc arguments are wavetable, frequency, amplitude */
output_signal f osc f2 p4 amp_envelope;
out output_signal;
EndInstrument 1;
______________________________________________
(b)
/* Score line for Instrument 1 */

/* p1 p2 p3 p4 */
i1 0 1.0 440
Figure 17.8 – Représentation sous forme de texte d’un instrument et d’une partition.
(a) Instrument correspondant à la figure 17.7. Les remarques entre les caractères « /* » et « */ »
sont des commentaires. Les champs de paramètres commençant avec p indiquent les valeurs qui
seront calculées à partir de la partition alphanumérique, comme dans (b). p3 spécifie la durée et p4
la fréquence. Remarquez que le troisième argument du second oscillateur (l’amplitude) est fourni
par le signal amp_envelope généré par le premier oscillateur. (b) Partition pour l’instrument de
(a). Le premier domaine est le numéro de l’instrument. Le second paramètre indique le temps de
départ, le troisième la durée et le quatrième la fréquence.
Avec un langage, le musicien spécifie les sons en écrivant un texte qui est interprété par un pro-
gramme de synthèse. La figure 17.8a montre une représentation textuelle de l’instrument montré
à la figure 17.7a. Cet exemple utilise un langage de synthèse hypothétique simple que nous appelons
Music 0. Le symbole ← signifie « est assigné à la valeur de ». Par exemple, la sortie d’env_osc est
assignée (dirigée) à la variable du signal amp_envelope. Puis, la valeur d’amp_envelope, à chaque
période d’échantillonnage, est introduite dans l’entrée d’amplitude du module osc.
La figure 17.8b présente une partition simple qui fournit les paramètres de cet instrument.
17.5.2 Demandes en calcul de la synthèse

Chaque étape d’un algorithme de synthèse demande un certain temps d’exécution. Pour un algo-
rithme de synthèse compliqué, l’ordinateur ne peut pas toujours achever les calculs nécessaires à un
échantillon pendant l’intervalle d’une période d’échantillonnage.
Pour rendre ce point plus concret, examinez ci-dessous les étapes nécessaires au calcul d’un
échantillon de son par la méthode de lecture de table.
1. Ajouter un incrément à la position en cours de lecture de table d’onde pour obtenir une
nouvelle position.
2. Si la nouvelle position dépasse la fin de la table d’onde, retirer la longueur de table d’onde.
En d’autres termes, effectuer une opération de modulo.
3. Stocker la nouvelle position pour l’utilisation du calcul du prochain échantillon. Voir étape 1.
4. Lire la valeur dans la table d’onde à la nouvelle position.
5. Multiplier cette valeur par l’entrée d’amplitude.

6. Envoyer le produit à la sortie.
Le point important ici est que chaque étape prend une certaine quantité de temps pour être exécutée.
Par exemple, un ordinateur peut prendre 1 μs pour effectuer les calculs ci-dessus. Mais si nous uti-
lisons un taux d’échantillonnage de 50 000 échantillons par seconde, le temps disponible pour chaque
échantillon n’est que de 1/50 000 de seconde, soit 20 ms (20 000 ns). Ceci signifie qu’il est difficile
à un ordinateur d’achever les calculs nécessaires pour plus de quelques oscillateurs simples en
temps réel. Si le processus est plus compliqué, par l’ajout de filtres, de retards, de lectures de tables
supplémentaires, de fonctions aléatoires, ou en raison du temps nécessaire à l’interaction avec un
musicien, même un instrument seul peut être impossible à réaliser en temps réel. Qu’entendons-
nous par temps réel ? Dans ce contexte, le temps réel signifie que nous pouvons achever les calculs
pour un échantillon en un temps inférieur à une période d’échantillonnage.
17.5.3 Synthèse différée

Certaines techniques de synthèse et de traitement du signal sont gourmandes en calcul et sont ainsi
difficiles à réaliser en temps réel. Ceci signifie qu’il existe un retard d’au moins quelques secondes
entre le moment où nous commençons à calculer un son et le moment où nous pouvons l’écouter.
Un système avec un tel retard est appelé système différé.
La synthèse différée était la seule option possible au début de la musique informatique. Par exemple,
une portion de deux minutes de l’œuvre de J. K. Randall Lyric Variations for Violin and Computer,
réalisée entre 1965 et 1968 à l’université de Princeton (Cardinal Records VCS 10057), demanda neuf
heures de calcul. Bien sûr, à la moindre erreur, le processus entier devait être repris à zéro. Bien que
cela ait été une technique extrêmement laborieuse, une poignée de compositeurs passionnés qui
avait accès au matériel adéquat fut capable de créer des œuvres de musique d’une certaine longueur,
entièrement synthétisées par ordinateur (voir également Tenney, 1969 ; Von Foerster et Beauchamp,
1969 ; Dodge, 1985 ; Risset, 1985a).
17.5.4 Fichiers son

Comme cela peut prendre plus d’une période d’échantillonnage pour calcul un échantillon, les
programmes de synthèse logicielle génèrent à leur sortie un fichier son. Un fichier son est simplement
un fichier de données stocké sur un disque ou sur une bande. Après que tous les échantillons d’une
composition ont été calculés, le fichier son peut être lu grâce au CNA pour être entendu.
Un fichier son contient un texte d’en-tête et des nombres représentant les échantillons sonores.
L’en-tête contient le nom du fichier et des informations concernant les échantillons du fichier (taux
d’échantillonnage, nombre de bits par échantillon, nombre de canaux, etc.). Les échantillons sont
en général organisés en structures de données appelées images ; s’il y a N canaux, chaque image
contient N échantillons. Ainsi, le taux d’échantillonnage indique en fait le nombre d’images par
seconde.
Comme dans les autres types d’applications, différents formats de fichiers coexistent. Le besoin de
conversion entre les formats est une activité habituelle dans les studios de musique informatique.
17.6 Synthèse numérique en temps réel

Au fur et à mesure que les ordinateurs sont devenus plus rapides, plus petits et meilleur marché, la
technologie de la synthèse numérique est également devenue plus efficace. Dès le milieu des
années 1970, il était possible de construire des synthétiseurs numériques (quoique volumineux)
qui étaient suffisamment rapides pour effectuer tous les calculs nécessaires à un échantillon dans
une durée inférieure à une période d’échantillonnage. Grâce aux progrès de la technologie des cir-
cuits, les ordinateurs volumineux du passé ont été remplacés par de minuscules circuits intégrés
(CI ou microprocesseurs) qui peuvent réaliser des algorithmes de synthèse multicanaux en temps
réel.
La figure 17.9 montre l’aperçu d’un système de synthèse musicale informatique en temps réel.
Ce système possède en fait trois façons de générer du son : (1) synthèse logicielle différée calculée
sur l’ordinateur, avec le son venant du CNA ; (2) synthèse en temps réel calculée par l’unité de trai-
tement numérique du signal (DSP), avec le son venant du CNA, et (3) synthèse en temps réel en
utilisant un synthétiseur contrôlé par MIDI.
Figure 17.9 – Vue simplifiée d’une installation typique pour l’enregistrement numérique
et la synthèse. Les musiciens communiquent avec les synthétiseurs en utilisant des claviers ou
d’autres outils d’entrée, ou par des programmes tournant dans l’ordinateur. Le son peut être enre-
gistré par le CAN et stocké sur le disque pour une lecture ultérieure à travers le CNA. Dans un ordi-
nateur équipé pour la production multimédia, tous les composants à l’exception du clavier MIDI peu-
vent être inclus dans l’ordinateur.
Un avantage évident du synthétiseur en temps réel est que les outils d’entrée de musique (également
appelés contrôleurs) tels que des claviers, des pédales, des manettes, des boutons, et des molettes
peuvent lui être connectés, ce qui permet au musicien de modifier le son tandis que celui-ci est
produit. Les séquenceurs et les éditeurs de partitions rendent possibles l’enregistrement et l’édition
de ces interprétations, et les éditeurs de patchs qui tournent sur l’ordinateur peuvent changer les
patchs de synthèse et de traitement du signal à n’importe quel moment.
Les systèmes en temps réel sont étudiés de façon plus poussée à travers ce livre (voir également
Alles, 1977a ; Buxton et coll., 1978 ; Strawn, 1985c ; Roads et Strawn, 1985 ; Roads, 1989).
17.7 Comparaison de la synthèse différée et de la synthèse

en temps réel
La synthèse logicielle différée était la méthode originelle de génération numérique du son, et a tou-
jours sa place dans un studio. Comme nous l’avons précédemment souligné, l’avantage de la synthèse
logicielle utilisant un langage musical en patchs est sa programmabilité, et donc sa flexibilité musi-
cale. Là où les synthétiseurs commerciaux en temps réel offrent en général des possibilités limitées
aux réglages d’usine, la synthèse logicielle est ouverte, laissant les utilisateurs créer leurs instruments
personnalisés ou bien des algorithmes de synthèse arbitrairement complexes. De nombreuses
nouvelles méthodes expérimentales de synthèse et de traitement du signal ne sont disponibles que
sous la forme de logiciels travaillant en temps différé.
Un autre des gros avantages de la synthèse logicielle est la flexibilité de la partition programmée.
Même avec un instrument de synthèse simple, le contrôle par un langage de partition (dont nous
parlerons plus tard) peut être extrêmement détaillé ou compliqué, dépassant les possibilités des
interprètes humains ou les taux de transmission des équipements MIDI.
Quoi qu’il en soit, les désavantages de la synthèse logicielle différée sont évidents. On perd du temps
à attendre que les échantillons soient calculés. Le son est déconnecté des gestes humains en temps
réel — nous ne pouvons pas modeler le son tout en l’entendant se transformer. Le style guindé de
certaines musiques informatiques provient de cette situation fâcheuse. L’avantage de la program-
mabilité devient un désavantage lorsque nous devons coder des phrases musicales simples avec
autant d’efforts que les plus compliquées. Même une enveloppe banale peut demander de précalculer
et d’entrer des douzaines de nombres. La synthèse logicielle différée est un « chemin difficile » vers
la musique.
Heureusement, d’énormes améliorations du matériel poussent de plus en plus de méthodes de
synthèse dans le domaine du temps réel. Les synthétiseurs commerciaux basés sur des micropro-
cesseurs de traitement du signal permettent une flexibilité dans la programmation des algorithmes
de synthèse. Seules les méthodes les plus ésotériques ou les plus complexes, comme certaines formes
d’estimation de paramètre ou d’analyse/resynthèse (chapitres 13 et 25), restent en dehors des limites
du matériel en temps réel bon marché. Nous pouvons donc aujourd’hui choisir entre la synthèse en
temps réel et la synthèse différée, selon l’application musicale. En dehors du gain de temps, les
synthétiseurs en temps réel ont le grand avantage de pouvoir être joués — animé par les gestes du
musicien au moment même où le son est entendu.
17.8 Spécification des sons musicaux

Attachons-nous maintenant aux différents moyens utilisés pour spécifier une pièce de musique à un
système de synthèse. La technique traditionnelle pour écrire une pièce de musique consiste à sélec-
tionner différents instruments et à écrire une partition sur papier qui dirige les interprètes avec les
événements musicaux spécifiés, laissant une place pour l’interprétation dépendante des musiciens
et des instruments dont ils jouent. Mais les possibilités de la synthèse numérique s’étendent bien
au-delà des partitions traditionnelles.
17.8.1 Objets sonores

Dans la théorie musicale traditionnelle, la note est un événement statique, homogène et unitaire.
Les techniques modernes de synthèse suggèrent une généralisation du concept d’événement musical
que l’on nomme objet sonore (Schaeffer, 1977 ; Chion et Reibel, 1976 ; Roads, 1985f). La notion
d’objet sonore est souvent pratique, puisqu’il peut définir des sons plus longs ou plus compliqués que
ce que l’on conçoit habituellement avec l’idée de note. Un objet sonore peut contenir des centaines
de sous-événements très courts (comme dans la synthèse vectorielle ou la synthèse granulaire).
Ou bien il peut être contrôlé par une douzaine — ou plus — de paramètres variant dans le temps,
lui faisant subir des mutations d’identité d’une hauteur-timbre à une autre.
Le poids du contrôle des évolutions complexes de paramètres dans la synthèse d’objets sonores
revient au compositeur. Ceci pose la question : comment pouvons-nous spécifier toutes ces quantités
variant dans le temps ? Dans la prochaine partie, nous montrerons combien de données une tech-
nique élémentaire de synthèse peut nécessiter. Puis, la partie sur l’interface du musicien présentera
cinq stratégies différentes pouvant répondre à cette demande.
17.8.2 Exemple du problème de la spécification pour la synthèse additive

La synthèse additive est une méthode vénérable de synthèse du son. Fidèle à son nom, elle addi-
tionne les sorties de plusieurs oscillateurs sinusoïdaux pour former une forme d’onde sonore com-
posite.
La figure 17.10 présente un instrument de synthèse numérique pour la synthèse additive. L’instru-
ment comprend une enveloppe de fréquence et une enveloppe d’amplitude pour chaque oscillateur.
L’enveloppe de fréquence est une fonction variant dans le temps dans le domaine [–1,0, +1,0].
Cette enveloppe échelonne la valeur de déviation maximale spécifiée comme entrée env_osc. Si la
déviation maximale est par exemple de 100, et que l’enveloppe de fréquence à son point le plus bas
est de –0,1, la valeur de sortie de l’enveloppe de fréquence à ce point sera de –10. L’additionneur
(+) fait la somme de ceci et de la fréquence centrale de l’oscillateur situé plus bas, ce qui dévie la
fréquence de son point central nominal. Si la fréquence centrale était de 440 Hz, l’enveloppe de
fréquence l’abaisserait jusqu’à 430 Hz à certains points.
Remarquons que chaque tranche verticale de cet instrument comporte deux générateurs d’enve-
loppes et un oscillateur audio. Nous appellerons cet élément une voix. Seules deux voix sont montrées
ici, mais les points de suspension centraux indiquent que d’autres voix sont cachées. Un tel instru-
ment peut générer un très grand nombre de sons — sous réserve que l’on puisse spécifier les
données.
Maintenant, attaquons-nous au problème de la spécification des paramètres des instruments de la
figure 17.10. Pour chaque voix et chaque événement, l’instrument a besoin des paramètres suivants :
1. Fréquence centrale de l’oscillateur audio osc.

2. Amplitude maximale (établie à 1,0 dans la figure 17.10).
3. Enveloppe d’amplitude.
4. Temps de départ de l’enveloppe d’amplitude.
5. Durée de l’enveloppe d’amplitude.
6. Enveloppe de fréquence.
7. Temps de départ de l’enveloppe de fréquence.
8. Durée de l’enveloppe de fréquence.
Si l’instrument possède quinze voix, et que chaque voix requiert ces huit valeurs de données, ceci
signifie que 120 valeurs de données doivent être spécifiées pour un seul événement !
Ainsi, peu importe la puissance du matériel de synthèse, le problème de la spécification des données
de contrôle reste le même. Au chapitre 19, nous étudierons plus en détail les besoins en données de
Déviation maximale Déviation maximale

Enveloppe Durée Enveloppe Durée
de fréquence de fréquence
env_osc env_osc
0 0
1.0 1.0
d'amplitude d'amplitude
1 1
env_osc env_osc
0
Fréquence 0 Fréquence
centrale centrale
+ +
0
Sinusoïde
osc
1
... 0
Sinusoïde
osc
N
+
Signal additif de sortie
Figure 17.10 – Le patch montré à la figure 17.7 a été étendu pour former un instrument
simplifié de synthèse additive. Chaque oscillateur sinusoïdal est modifié par une enveloppe d’ampli-
tude et une enveloppe de fréquence. Les sorties de nombreux oscillateurs sinusoïdaux sont addition-
nées pour ne former qu’un seul échantillon. Trois oscillateurs supplémentaires peuvent être ajou-
tés à ce patch pour créer des sons plus compliqués.
la synthèse additive. La prochaine partie présente six stratégies globales qui s’appliquent à toutes
les techniques de synthèse.
17.8.3 L’interface du musicien
Les différentes façons de fournir des données de synthèse à un ordinateur et à un synthétiseur entrent
dans six catégories :
1. Outils d’entrée des données musicales.

2. Logiciels d’interprétation.
3. Éditeurs.
4. Langages de partitions.
5. Programmes de composition algorithmique.
6. Programmes d’analyse du son.
La figure 17.11 schématise ces catégories. Les cinq premières appartiennent au domaine des inter-
faces du musicien. La dernière est étudiée dans les chapitres 9 à 13. Les six prochaines parties
expliquent brièvement chaque catégorie.
✦ Outils d’entrée des données musicales
Les outils d’entrée des données musicales sont des instruments physiques manipulés par les musi-
ciens. L’instrument fait directement le lien entre les gestes du musicien et la production du son.
Les outils d’entrée électroniques rendent aisée la manipulation du son en permettant une action
physique sur celui-ci. Ils sont ainsi potentiellement plus flexibles que les instruments traditionnels.
Par exemple, avec les instruments électroniques, un simple contrôleur de souffle peut créer aussi
facilement des sons extrêmement graves que des sons très aigus. En fait, les outils d’entrée électro-
niques sont si faciles à utiliser que l’on recherche parfois à réintroduire une difficulté physique,
afin de recréer le sens de l’effort qui conduit aux interprétations expressives.
Les avantages des outils d’entrée musicaux en temps réel sont clairs, bien que les problèmes tech-
niques lors de leur branchement à un ordinateur puissent devenir très importants. Les instruments
acoustiques traditionnels se sont développés pendant plusieurs centaines d’années, alors que leurs
équivalents numériques viennent juste de commencer leur évolution. Les outils d’entrée musicaux
sont mieux adaptés au contrôle fin de quelques paramètres musicaux. Par exemple, les touches d’un
clavier peuvent indiquer la hauteur, tandis que la vélocité de la touche déterminera l’amplitude des
oscillateurs hautes fréquences. La plupart des claviers MIDI ont au moins un contrôleur continu
(tel qu’une pédale, une molette de modulation, ou des manettes). Ces contrôleurs peuvent assigner
n’importe quel paramètre manipulable, et l’on peut ainsi assigner la pédale au contrôle de l’ampli-
tude globale, et la molette de modulation au déplacement de la hauteur fondamentale.
✦ Logiciels d’interprétation
L’utilisation des logiciels d’interprétation en temps réel s’est grandement développée grâce à la
prolifération des systèmes basés sur le MIDI. Les logiciels d’interprétation incluent des utilitaires
tels que des séquenceurs qui peuvent se souvenir d’interprétations au clavier, et les rejouer. Les
séquenceurs enregistrent des données de contrôle pures (telles que le moment de départ de l’appui
d’une touche sur un clavier, signalant le commencement des notes) au lieu des échantillons de formes
d’ondes audio. La musique informatique offre également la possibilité d’aller au-delà des interpré-
tations solos traditionnelles. Elle peut par exemple offrir un contrôle au chef d’un ensemble.
Pourvus d’yeux (une caméra ou un autre type de détecteur) et d’oreilles (microphones et logiciels
d’analyse du son), les instruments implémentés sur ordinateur peuvent répondre au geste humain
de façon arbitrairement complexe, grâce à l’utilisation de procédures intercalées dans le logiciel
d’interprétation. Il est tout à fait banal de voir des concerts dans lesquels un synthétiseur contrôlé
par ordinateur improvise avec un interprète humain. Une autre application d’un tel système est
l’interprétation plus flexible d’une partition préparée, lorsqu’il remplace par exemple un enregis-
treur à bandes.
(a) Données
MIDI Synthétiseurs,
Outils
d'entrée échantillonneurs,
effets, etc.
(b) Outil d'entrée

Logiciel Ordinateur Synthétiseur
d'interprétation ou CNA
Microphone
CAN
Logiciel
d'interprétation
(c) Menus, icônes,

et représentations
Éditeurs graphiques
de musique Synthétiseur
ou CNA
(d)
Texte Compilateur
Langages de langage Synthétiseur
ou CNA
(e) Programme
Programmes Données de composition
de composition initiales algorithmique
algorithmique Synthétiseur
ou CNA
Microphone
(f)
Programme
Analyse du son d'analyse
du son
CAN CNA
Figure 17.11 – L’interface du musicien :

six façons différentes de spécifier les données de synthèse à un ordinateur ou à un synthétiseur.
(a) Un outil d’entrée peut transmettre les données nécessaires directement au synthétiseur, avec
ou sans passage par l’ordinateur. (b) Un logiciel interprète les gestes du musicien et peut même
improviser. (c) Les éditeurs permettent à l’utilisateur de construire une spécification grâce à des
techniques graphiques interactives. (d) Les langages codent la spécification sous forme de texte
précis. (e) Les programmes de composition algorithmique ne demandent en général qu’une petite
quantité de données paramétriques initiales de la part du compositeur avant de générer de la
musique. (f) L’analyse du son calcule automatiquement les données pour la modification et la
resynthèse des sons qui lui sont apportées.
Comme exemple simple de logiciel d’interprétation, on peut imaginer une situation où un certain
passage joué sur un clavier déclenche le début d’une section de partitions préenregistrées, tandis
qu’un simple appui sur une touche de Do aigu arrêtera cette séquence. Une molette de modulation
peut déterminer le tempo de la séquence préenregistrée.
✦ Éditeurs
Un éditeur permet au musicien de créer et de changer un texte, un son, ou une image. De nombreux
éditeurs interactifs emploient des techniques graphiques pour procurer au musicien un environ-
nement efficace. Le matériau édité peut facilement être coupé, collé ou changé grâce à des gestes
simples.
Les éditeurs graphiques facilitent les prototypages rapides d’idées, et on les trouve ainsi souvent
dans les studios personnels, où du temps existe pour la recherche. Les idées musicales peuvent être
construites par incréments dans un éditeur et le musicien peut fréquemment entendre le résultat
en même temps qu’il procède au changement.
Puisque la musique existe à de nombreux niveaux et perspectives, il semble logique de penser qu’il
devrait y avoir de nombreux types différents d’éditeurs de musique. Pour mettre au point une inter-
prétation avec un synthétiseur additif, on utilise une partition, un instrument et des éditeurs de
fonctions. Nous entrons les paramètres pour chaque objet sonore dans un éditeur de texte ou nous
manipulons une image graphique (telle qu’une partition traditionnelle ou une notation en rouleau
de piano mécanique). L’éditeur d’instrument configure le synthétiseur additif à partir de générateurs
élémentaires tels que des oscillateurs et des générateurs d’enveloppe. À la fin d’une séance d’édition,
nous disons au programme d’écrire le patch pour le synthétiseur. Un éditeur de fonction offre plu-
sieurs méthodes pour définir des fonctions du temps (formes d’ondes et enveloppes), y compris
des méthodes graphiques et des formules mathématiques. Nous demandons ensuite à l’éditeur de
fonction de créer les enveloppes d’amplitude et de fréquence pour les différents oscillateurs.
✦ Langages
La méthode la plus précise pour définir la musique implique la préparation de listes de notes et de
listes de lecture qui font partie d’un langage de partition. Le langage de partition définit une syntaxe
pour les paramètres de l’instrument, listés dans des champs de paramètres (abrégés en pfields
— pour l’anglais parameter fields).
; p1 p2 p3 p4 p5 p6
; Ins Start Dur. Freq.(Hz) Amp.(dB) Waveform
i1 0 1.0 440 70 3
i2 1.0 .5 660 80 4
Figure 17.12 – Exemple de partition sous forme numérique.

Trois lignes de commentaire suivies de deux lignes de partition. La première ligne spécifie une note
pour l’instrument de synthèse 1 (i1), tandis que la seconde spécifie une note pour i2.
Notre premier exemple de langage de partition était la ligne simple de la figure 17.8b. Traditionnel-
lement, le premier paramètre après le nom de l’instrument donne le temps de départ, et le second
donne la durée d’un événement. Les paramètres suivants ont des significations différentes selon la
nature de l’instrument. Par exemple, la première ligne du fichier de partition montré à la figure 17.12
dit que l’événement utilise l’instrument 1, commence à 0, joue pendant 1 s, a une fréquence de
440 Hz, une amplitude de 70 dB, et utilise la forme d’onde numéro 3. Les deux lignes du bas en gras
sont la partition ; les autres lignes sont des commentaires.
Les langages de partition contiennent également des définitions de table de fonction — les définitions
de l’enveloppe et de la forme d’onde utilisées par les instruments.
Les langages de partition traditionnels sont à la base sous forme de nombres : les instruments, les
hauteurs, et les amplitudes sont exprimés sous forme de nombres. Des langages de partition alter-
natifs répondent à un besoin de spécifications plus « naturelles » de la musique, permettant par
exemple des noms de hauteur à tempérament égal (pour un exposé de ces langages de partition,
voir Smith, 1973 ; Schottstaedt, 1983, 1989a ; Jaffe, 1989 ; Loy, 1989a).
Le principal avantage des langages de partition est également leur désavantage : précision et détail.
Avec un langage, les musiciens doivent entrer la partition sous forme de texte alphanumérique. Tous
les compositeurs ne prennent pas le soin de spécifier leur musique avec autant de détails à chaque
fois. Dans l’exemple de synthèse additive donné ci-dessus, le musicien est obligé de taper 120 valeurs
pour chaque objet sonore. D’un autre côté, un langage de partition permet au musicien de spécifier
précisément une partition qui est si détaillée qu’elle ne pourrait jamais être jouée précisément par
un interprète humain.
✦ Programmes de composition algorithmique
Certaines des premières œuvres de musique informatique impliquaient la composition algorithmique :
la création d’une partition musicale selon une procédure spécifiée par le compositeur-program-
mateur (Hiller et Isaacson, 1959 ; Xenakis, 1971 ; Barbaud, 1966 ; Zaripov, 1969). Par exemple, l’ordi-
nateur peut calculer les paramètres du son selon une distribution de probabilités ou selon un autre
type de procédure.
Supposons que nous chargions un ensemble de données initiales dans un programme de compo-
sition algorithmique, puis que nous le laissions générer une partition complète, comprenant tous les
paramètres nécessaires à la synthèse additive. Il est ainsi compréhensible que la nature des données
initiales change de programme en programme. Pour un programme qui calcule une partition selon
les probabilités, le compositeur doit spécifier les attributs généraux de la partition comme suit :
1. Nombre de sections.
2. Durée moyenne des sections.
3. Densité minimum et maximum des notes dans une section.
4. Groupement des enveloppes de fréquence et d’amplitude en classes de timbres.
5. Probabilité pour chaque instrument d’une classe de timbres de jouer.
6. Durée la plus longue et la plus courte pouvant être jouées par chaque instrument.
Dans ce cas, le contrôle est global et statistique par nature. Le compositeur peut déterminer les
attributs généraux de la partition, mais tous les détails sont calculés par le programme. Dans d’autres
programmes, les données peuvent être plus détaillées, et les contraintes de style plus spécifiques.
✦ Analyse du son
Comme la musique, le son peut être disséqué d’innombrables façons. Les catégories établies d’ana-
lyse du son désignent trois aspects : hauteur, rythme, et spectre. Nous pouvons utiliser la sortie de ces
analyseurs pour conduire la synthèse, comme dans un convolveur qui applique le rythme d’un son
sur le timbre d’un autre (Roads, 1993a ; chapitre 5), un détecteur de hauteur captant la voix humaine
qui conduit la hauteur d’accompagnement d’un oscillateur numérique (chapitre 9), ou un analy-
seur de spectre qui extrait les courbes de fréquence et d’amplitude variant dans le temps pour une
resynthèse additive (chapitre 11).
17.9 Conclusion
Les développements dans l’acoustique physique et électronique ont ouvert la voie à de nombreuses
expériences dans la production du son musical. Les créations dans cette catégorie représentent les
développements les plus avant-gardistes de la musique d’aujourd’hui. Les nouveaux sons, ajoutés aux
rythmiques, aux harmonies, aux concepts tonals nouveaux, rendent la musique extrêmement difficile
à évaluer en ce qui concerne les normes musico-esthétiques. (Hugh Miller, 1960)
Le potentiel musical de la synthèse numérique du son a commencé à être exploré, mais beaucoup
de choses restent encore incomprises. Pour l’instant, la technologie numérique permet une généra-
tion du son précise et renouvelable. Grâce au matériel, aux logiciels, et aux systèmes de reproduction
adéquats, nous pouvons générer des signaux musicaux de très haute qualité audio. Peut-être plus
importante encore que la précision, elle permet la programmabilité, qui se traduit en flexibilité musi-
cale. Si on lui donne suffisamment de mémoire et de temps de calcul, un ordinateur peut réaliser
n’importe quel algorithme de synthèse, quelle que soit sa complexité.
Tandis que le matériel continue à gagner en vitesse, il y a toujours un problème pour trouver les
données de contrôle adéquates pour conduire le moteur de synthèse. L’un des défis de la synthèse est
de trouver comment imaginer et convoyer jusqu’à la machine les paramètres des sons que l’on veut
produire.
La théorie de la musique est en retard d’un demi-siècle par rapport à la pratique actuelle de la
musique informatique. Les techniques de synthèse de compositeurs de premier plan explorent
l’espace des possibilités, laissant derrière elles des cartes de géographie sonore musicale que les
générations futures pourront lire. L’histoire de la musique en période d’expérimentation comme
celle-ci indique que l’époque actuelle nous conduit vers une période de consolidation — lorsque
la plupart des expérimentations d’aujourd’hui sembleront habituelles, lorsque les ressources qui
aujourd’hui semblent radicales apparaîtront comme des lieux communs. La composition musicale
entrera alors dans une nouvelle ère de raffinement, et des questions d’orchestration pourront de
nouveau être abordées à l’intérieur d’un cadre systématique, comme elles l’étaient à l’époque de
l’orchestre symphonique.
Chapitre 18
L’échantillonnage
Dans le sens populaire, l’échantillonnage signifie enregistrer numériquement un son relativement

court. Le terme « échantillonnage » vient de notions établies comme les échantillons numériques
et le taux d’échantillonnage. Les instruments échantillonneurs, avec ou sans claviers musicaux, sont
largement répandus. Tous les instruments échantillonneurs sont conçus autour de la notion de base
de lecture de sons préenregistrés, transposés à la hauteur désirée.
La synthèse par échantillonnage est différente de la technique classique de synthèse de forme d’onde
fixe expliquée au chapitre 17. Au lieu de lire une petite table d’onde fixe contenant un cycle d’une forme
d’onde, un système d’échantillonnage lit une grande table d’onde qui contient des milliers de cycles
individuels — plusieurs secondes de son préenregistré. Puisque la forme d’onde échantillonnée
change pendant les parties d’attaques, d’entretien et d’extinction de l’événement, le résultat est un
son riche et variant dans le temps. La taille de la table d’onde d’échantillonnage peut être de longueur
arbitraire, limitée seulement par la capacité de mémoire de l’échantillonneur. La plupart des échan-
tillonneurs possèdent une interface les reliant à un lecteur de disques optiques ou magnétiques
afin que les groupes d’échantillons puissent être chargés dans l’échantillonneur relativement rapi-
dement.
18.1 Musique Concrète et échantillonnage : origines

La manipulation de sons enregistrés date au moins des années 1920, lorsque des compositeurs tels
que Darius Milhaud, Paul Hindeminth et Ernst Toch expérimentèrent en concert des phonographes
à vitesse variable (Ernst, 1977). L’enregistrement sur bande magnétique, développé à l’origine en
Allemagne dans les années 1930, permettait le découpage et le tranchage, et dès lors l’édition flexible
et le réarrangement de séquences de sons enregistrés. Les magnétophones ne furent pas disponibles
pour les musiciens avant la fin de la Seconde Guerre mondiale.
Après quelques expériences avec des phonographes à vitesse variable à la fin des années 1940,
Pierre Schaeffer fonda le Studio de Musique Concrète à Paris en 1950 (figure 18.1). Il commença,
avec Pierre Henry, à utiliser des magnétophones pour enregistrer et manipuler des sons concrets.
Figure 18.1 – Le studio de Pierre Schaeffer pour la Musique Concrète,

rue de l’Université, Paris, 1960. Le studio comporte trois enregistreurs à bande sur la gauche, ainsi
qu’une platine tourne-disque. Sur la droite se trouvent un autre enregistreur à bande et le Phonogène
à têtes multiples (voir figure 18.2). (Avec l’aimable autorisation du Groupe de Recherches Musicales,
Paris.)
Musique Concrète fait référence à l’utilisation de sons enregistrés avec un microphone, plutôt qu’à
des sons générés synthétiquement, comme dans la musique électronique pure. Mais cela fait aussi
référence à la façon de travailler avec de tels sons. Les compositeurs de musique concrète travaillent
directement avec des objets sonores (Schaeffer, 1977 ; Chion, 1982). Leurs compositions nécessitent
de nouvelles formes de notation graphique, hors des limites des partitions classiques pour orchestre
(Bayle, 1993).
Les instruments échantillonneurs modernes sont basés sur un principe utilisé dans des appareils
photoélectriques et à bouclage de bandes tels que le Licht-Ton Orgel d’Edwin Welte (Berlin,
années 1930), le Singing Keyboard de Sammis (Hollywood, 1936), le Phonogène de Pierre Schaef-
fer (figure 18.2, Paris, début des années 1950), le Special Purpose Tape Recorder de Hugh Le Caine
Figure 18.2 – Pierre Schaeffer avec le Phonogène,

un transposeur et compresseur/expanseur temporel à bande, 1953, Paris (photographie de Lido,
avec l’aimable autorisation du Groupe de Recherches Musicales).
(Ottawa, 1955), le Chamberlin (Los Angeles, fin des années 1960) et le Mellotron (Londres, début des
années 1970). Ces appareils jouaient soit des disques optiques (codés avec des photographies de
formes d’ondes), soit des boucles de son sur bandes magnétiques. Suivant la bande ou le disque
sélectionné et la touche pressée sur le clavier musical, une tête de lecture à l’intérieur de ces instru-
ments jouait le son à un taux qui s’harmonisait avec la hauteur spécifiée par la touche pressée.
Le concepteur du Singing Keyboard, Frederick Sammis, décrit le potentiel d’un tel instrument en
1936 :
Supposons que nous devions utiliser cette machine comme un instrument à usage spécialisé, pour
réaliser des dessins animés « parlants ». Il est tout de suite évident que nous sommes en possession d’une
machine avec laquelle le compositeur peut essayer diverses combinaisons de mots et de musiques, et
savoir immédiatement comment ils sonneront dans la version achevée du travail. L’instrument aura
probablement plus de dix pistes sonores enregistrées les unes à côté des autres sur une pellicule de
cinéma et qui contiendront des mots tels que « coin » pour un canard, « miaou » pour un chat, « meuh »
pour une vache… Cela pourrait aussi être l’aboiement d’un chien ou le bruit sourd d’une voix humaine
à la hauteur désirée. (Frederick Sammis, cité dans Rhea, 1977)
L’échantillonneur prénumérique le plus célèbre fut sans doute le Mellotron — un instrument

coûteux contenant plusieurs bandes rotatives en boucle. Le Mellotron eut un succès populaire chez
les groupes de rock dans les années 1970. Ils utilisaient l’instrument pour créer des arrangements
« d’orchestre » ou de « chœurs » dans leurs morceaux. Mais la conception électromécanique compli-
quée du Mellotron en faisait un instrument tempéré. Les boucles de bande s’usaient à cause de
l’abrasion des têtes, et il y avait des failles dans les parties mobiles utilisées pour sélectionner et
lancer de multiples boucles de bande. En dépit de ces problèmes, les Mellotrons excitèrent l’intérêt
des personnes qui cherchaient à pouvoir jouer des sons naturels enregistrés sur scène.
Quelques années plus tard, l’essor de l’électronique numérique permit d’enregistrer et de stocker
des sons dans des microprocesseurs à mémoire numérique. Dans les années 1970, quoi qu’il en soit,
les microprocesseurs étaient encore très coûteux, et les premiers appareils « échantillonneurs » étaient
de simples unités de retard dans les studios d’enregistrement, conçus pour enrichir le son en le
mélangeant avec une version échantillonnée de lui-même retardée de quelques millisecondes. Voir
le chapitre 6 pour un exposé des effets de retard. Lorsque la mémoire devint meilleur marché, il
devint possible de stocker plusieurs secondes de sons pour les lire grâce à un instrument d’échan-
tillonnage numérique basé sur un clavier musical. Le Computer Music Instrument de Fairlight (CMI)
fut le premier échantillonneur à clavier (1979, Australie). Le CMI avait une résolution de 8 bits par
échantillon et coûtait plus de 125 000 F. Tirant avantage de la baisse des prix du matériel numérique,
l’Emulator d’E-mu (figure 18.3), présenté en 1981, fit baisser le prix des échantillonneurs mono-
phoniques 8 bits (Vail, 1993). Pour environ 40 000 F, l’Emulator offrait une mémoire d’échantillon-
nage totale de 128 Ko.
Figure 18.3 – L’échantillonneur à clavier Emulator d’E-mu (1981).

Pour créer un instrument d’échantillonnage commercial, trois points de base doivent être abordés :
le bouclage, le déplacement de hauteurs, et la réduction de données, dont nous allons parler dans
les trois prochaines parties.
18.2 Bouclage
Le bouclage étend la durée des sons échantillonnés joués sur un clavier musical. Si le musicien garde
une touche enfoncée, l’échantillonneur lit la note « sans raccord apparent » jusqu’à ce que la touche
en question soit relâchée. Ceci est effectué en spécifiant des points de bouclage de début et de fin
dans le son échantillonné. Après que l’attaque de la note s’est achevée, l’échantillonneur lit de façon
répétée la partie bouclée de la table d’onde, jusqu’à ce que la touche soit relâchée ; puis il joue la partie
finale de la table d’onde de la note.
Les échantillons sortants d’usine sont souvent « prébouclés ». Mais pour des sons fraîchement
échantillonnés, la responsabilité de la spécification des points de bouclage de départ et de fin revient
au musicien qui les a échantillonnés. Créer une boucle sans raccord apparent, mais qui soit égale-
ment naturelle, à partir d’un son d’instrument traditionnel demande un grand soin. La boucle doit
commencer après l’attaque de la note, et s’achever avant l’extinction (figure 18.4).
Attaque Chute Maintien Extinction
Zone correcte
de bouclage
Amp.
Temps
Figure 18.4 – Son ayant une enveloppe d’amplitude ADSR caractéristique.

La meilleure zone pour une boucle lisse est la partie d’entretien.
Certains échantillonneurs offrent des méthodes automatiques pour trouver de futurs points de
bouclage. L’une des méthodes est d’effectuer une détection de hauteur sur le son échantillonné
(Massie, 1986). Voir le chapitre 9 pour un exposé des méthodes de détection de hauteur. L’algorithme
de détection de hauteur cherche des motifs répétitifs dans la forme d’onde qui peuvent indiquer une
période de hauteur fondamentale. La période de hauteur est l’intervalle de temps qui s’étend sur un
cycle d’une forme d’onde périodique (figure 18.5). Une fois la hauteur estimée, l’échantillonneur
suggère une paire de points de bouclage qui concorde avec un certain nombre de périodes de hauteur
dans la forme d’onde. Ce type d’algorithme de bouclage a tendance à générer des boucles lisses, de
hauteur constante. Si le corps de la boucle est trop court, quoi qu’il en soit, le résultat est similaire
aux sons stériles de la synthèse par forme d’onde fixe. Par exemple, une boucle couvrant une ou deux
périodes de hauteur d’une note de violon fait abstraction des qualités variant dans le temps d’une
corde frottée, ce qui produit un son artificiel ayant perdu son identité.
Période de hauteur
fondamentale
+1
0
Amp.
-1
Temps
Figure 18.5 – La période de hauteur fondamentale est égale à un cycle

d’une forme d’onde périodique, dans ce cas une forme d’onde émise par un saxophone alto.
(a)
Fin de boucle Début de boucle
Point
de bouclage
(b)
Fin de boucle
Temps
Début de boucle
Figure 18.6 – Comparaison des boucles collées et des boucles en fondus enchaînés.
(a) Un collage vertical de deux parties d’une forme d’onde à un point zéro commun. Le point de
fin de la boucle se colle au commencement de la même boucle de table d’onde. (b) La boucle en
fondu enchaîné peut être perçue comme la superposition d’un fondu de sortie appliqué à la fin de la
boucle et d’un fondu d’entrée appliqué au début de la boucle.
Les points de départ et de fin d’une boucle peuvent être soit collés l’un contre l’autre à un point
d’échantillonnage commun soit en fondu enchaîné. Un collage est une coupure d’un son vers l’autre.
Coller des formes d’ondes crée un clic, un crac, ou un coup sourd au point de collage, à moins que
les points de commencement et de fin ne concordent correctement. Le fondu enchaîné signifie que
la partie finale de chaque événement bouclé s’efface graduellement au moment même où la partie
de départ réapparaît lentement ; le procédé par fondu enchaîné se répète tant que la note est main-
tenue (figure 18.6). Les durées des fondus enchaînés s’étendent en général de 1 à 100 ms, mais elles
peuvent être allongées sans limites.
Lorsqu’aucune de ces techniques ne crée de boucle lisse, à cause d’un vibrato ou d’autres variations
dans le signal, des méthodes plus compliquées permettent également d’agir, telles que le bouclage
bidirectionnel. Une boucle bidirectionnelle alterne une lecture à l’endroit et à l’envers (figure 18.7a).
Les boucles à l’endroit et à l’envers peuvent être placées en couches pour masquer les discontinuités
dans les deux directions (figure 18.7b). Des techniques de bouclage encore plus complexes basées
sur l’analyse du spectre sont disponibles. Par exemple, on peut analyser un son, rendre aléatoire la
phase de chacun des composants spectraux de la boucle, et resynthétiser (Collins, 1993).
(a) Avant Arrière Avant
(b) Avant
Arrière
Figure 18.7 – Méthodes de bouclage pour des résultats lisses.

(a) Trois cycles d’une boucle bidirectionnelle. (b) Boucles à l’endroit et à l’envers superposées.
18.3 Transposition de hauteur

Dans un échantillonneur bon marché, il peut ne pas être possible de stocker chaque note jouée par
un instrument acoustique. Ces échantillonneurs ne stockent qu’à des intervalles de trois ou quatre
demi-tons et obtiennent les notes intermédiaires en déplaçant la hauteur d’une note proche. Si vous
enregistrez un son dans la mémoire d’un échantillonneur et que vous le rejouez en appuyant sur
différentes touches, l’échantillonneur emploie cette même technique de transposition de la hauteur.
Un des effets du déplacement de la hauteur est que la durée du son augmente ou diminue, selon la
touche enfoncée. Il existe deux méthodes de transposition de hauteur :
Méthode 1. Varier la fréquence d’horloge à la sortie du CNA change le taux d’échantillonnage de
lecture ; ceci transpose la hauteur vers le bas ou vers le haut et change la durée.
Méthode 2. La conversion du taux d’échantillonnage (rééchantillonner le signal dans le domaine

numérique) transpose la hauteur à l’intérieur de l’échantillonneur et permet la lecture à un taux
d’échantillonnage constant pour toutes les hauteurs.
Certains échantillonneurs emploient la première méthode, et d’autres la deuxième. Ces deux méthodes
sont appelées des techniques dans le domaine temporel, puisqu’elles opèrent directement sur la forme
d’onde temporelle. Ceci est différent des techniques de transposition de hauteur dans le domaine
fréquentiel. Nous allons maintenant comparer ces deux méthodes dans le domaine temporel.
Puisque la première méthode change le taux d’échantillonnage de lecture, elle a besoin d’un CNA
séparé pour chaque note étant jouée simultanément sur le clavier (en général jusqu’à 10 CNA).
Chaque CNA doit permettre un taux d’horloge variable et doit donc posséder un filtre de lissage à
fréquence variable associé à celui-ci. Pour des possibilités de transposition élevées, le CNA et le filtre
doivent traiter des domaines d’opérations extrêmement larges. Par exemple, si un son de 250 Hz
échantillonné à 44,1 kHz est transposé de 6 octaves à 16 kHz, la fréquence d’horloge du CNA de
sortie doit s’élever également de 6 octaves jusqu’à 2,82 MHz.
En raison de ces besoins, il faut soit utiliser des composants coûteux, soit, comme dans la plupart
des cas, les performances audio du système doivent être compromises d’une façon ou d’une autre.
Un échantillonneur qui emploie par exemple la méthode de transposition ne permet qu’un seul
demi-ton de transposition (moins de 6 % de changement de fréquence d’horloge) pour des sons
enregistrés à un taux d’échantillonnage maximal de 41,67 kHz. Dans ce cas, le CNA et le filtre ne sont
jamais obligés de travailler à des taux d’échantillonnage supérieurs à 44,1 kHz. D’autres échan-
tillonneurs ne permettent pas de transposition au-dessus d’une fréquence arbitraire.
La transposition par la deuxième méthode effectue une conversion du taux d’échantillonnage.
Concrètement, la conversion rééchantillonne le signal dans le domaine numérique. Ceci est globa-
lement la même technique de variation de hauteur que celle utilisée dans la synthèse de lecture par
table d’onde décrite au chapitre 17. La fréquence d’échantillonnage du CNA de sortie reste constante.
Accélérer un son et augmenter sa hauteur est accompli en rééchantillonnant à un taux d’échantillon-
nage plus bas. Ceci est analogue à la technique cinématographique où l’on baisse le nombre d’images
par seconde lors de la prise de vue, pour donner l’impression d’une accélération lors de la projection.
Dans un système audionumérique, les échantillons sont sautés lors du rééchantillonnage. Le nombre
d’échantillons sautés est proportionnel à la quantité de transposition de hauteur désirée (comme
dans la synthèse par lecture de table d’onde). Le procédé de saut d’échantillons lors du rééchantil-
lonnage est appelé décimation (figure 18.8a). Le rééchantillonnage avec décimation est également
nommé échantillonnage vers le bas. Par exemple, pour transposer la hauteur de trois octaves vers
le haut, le signal est sous-échantillonné en ne lisant qu’un échantillon sur trois lors de la lecture.
Pour baisser la hauteur d’un son et le ralentir, celui-ci est rééchantillonné à une fréquence plus élevée
pour l’allonger. Ceci revient, dans le cas du cinématographe, à accélérer le taux de prises de vue
pour donner l’impression d’un ralentissement à la projection. Dans un système audionumérique,
de nouveaux échantillons intermédiaires sont insérés entre les échantillons existants, grâce à l’inter-
polation (figure 18.8b). Le rééchantillonnage avec interpolation est appelé échantillonnage vers le
haut.
La relation entre les différents taux de rééchantillonnage et la transposition de hauteur peut paraître
à première vue floue, car les deux méthodes de transposition de hauteur semblent aller dans des
directions opposées pour atteindre le même but. La méthode 1 augmente la hauteur en augmentant
le taux d’échantillonnage de lecture. La méthode 2, cependant, augmente la hauteur en diminuant
le taux de rééchantillonnage grâce à la décimation (échantillonnage vers le bas), même si la fréquence
d’échantillonnage de lecture reste constante.
Original Décimation Déplacement

par deux d'une octave
vers le haut
Original Interpolation Déplacement

par deux d'une octave
vers le bas
Figure 18.8 – Transposition de hauteur par conversion du taux d’échantillonnage

à une fréquence d’échantillonnage de lecture constante. (En haut) Si un échantillon sur deux est
retiré à la lecture, le signal est décimé et la hauteur est transposée d’une octave vers le haut. (En bas)
Si l’on utilise deux fois plus d’échantillons grâce à une interpolation lors de la lecture, le signal est
descendu d’une octave.
Jusqu’ici, nous avons vu comment transposer la hauteur par des intervalles d’octaves. Pour trans-
poser d’un rapport entre nombres entiers, on utilise une combinaison d’interpolation et de décima-
tion (Schafer et Rabiner, 1973a ; Moorer, 1977 ; Rabiner, 1983 ; Lagadec, 1983 ; Crochiere et Rabiner,
1983 ; Hutchins, 1986a ; Duncan et Rossum, 1988). En particulier, pour transposer une hauteur
dans un rapport de N/M, nous interpolons par M, puis décimons par N. Par exemple, pour trans-
poser de 3/4 un son vers le bas (une quarte juste), nous échantillonnons vers le haut et interpolons
par un facteur de quatre, puis échantillonnons vers le bas et décimons par un facteur de trois. Pour
transposer vers le haut dans un rapport de 4/3, nous interpolons tout d’abord par 3 puis décimons
par 4.
18.4 Conversion du taux d’échantillonnage sans transposition

de hauteur
De nombreux enregistreurs audionumériques opèrent aux taux d’échantillonnage standards de 48
ou de 44,1 kHz. Comment pouvons-nous rééchantillonner un enregistrement effectué à l’une de
ces fréquences pour le réécouter à l’autre fréquence sans transposition de hauteur ? Dans ce cas,
le taux de rééchantillonnage est le même que celui du nouveau CNA de sortie.
Pour convertir un signal entre les taux standards de 44,1 et de 48 kHz sans changer les hauteurs,
il faut recourir à un procédé de conversion relativement complexe. Tout d’abord, les taux sont mis
en facteurs :
25 × 5
------------- = -------------2 = ⎛ - × - × -----⎞
48 000 4 4 10
44 100 3×7 ⎝3 7 7 ⎠
Ces rapports peuvent être implémentés sous forme de six étapes d’interpolations et de décimations
par les facteurs de 2, 3, 5, et 7.
1. Interpoler par 4 de 44 100 à 176 400 Hz.
2. Décimer par 3 de 176 400 à 58 800 Hz.
Le signal peut alors être lu à un taux de 48 kHz sans changement des hauteurs.
Tant que les taux d’entrée et de sortie peuvent être écrits sous forme de simples fractions, le procédé
de conversion est direct. Si les taux n’ont pas un rapport entier, ou s’ils changent constamment,
d’autres techniques mathématiques plus sophistiquées doivent être employées, dans lesquels nous
ne nous aventurerons pas ici (voir Crochiere et Rabiner, 1983 ; Rabiner, 1984 ; Lagadec, 1984). Ceci
est le cas avec les effets flangeur (voir chapitre 6) et le brossage audio (simulation du mouvement
manuel d’avant en arrière d’une bande magnétique se déplaçant devant une tête de lecture pour
localiser un point de coupure).
18.5 Problèmes du rééchantillonnage

La fidélité audio du rééchantillonnage est limitée par la précision du matériel utilisé lors de la con-
version. Lorsqu’il y a de nombreuses étapes intermédiaires de rééchantillonnage, une légère perte
de fidélité sous forme de bruit ajouté est à craindre. Le repliement (voir chapitre 1) peut aussi être un
problème. En effet, le rééchantillonnage peut générer des artefacts spectraux involontaires, en raison
du repliement. Lorsqu’un échantillonneur déplace les échantillons en décimation, par exemple,
il jette des échantillons intermédiaires. Ceux-ci auraient pu lisser la transition de forme d’onde
entre deux points disjoints. Ainsi, un signal décimé est souvent plein de discontinuités dentelées
(figure 18.9). Au même moment, toutes les fréquences sont déplacées vers le haut, ce qui signifie
qu’un repliement peut se produire à la lecture. Ce problème peut être réduit grâce à un filtrage
passe-bas du signal après décimation. Le filtrage lisse les sommets dentelés de la forme d’onde
décimée.
Le filtrage est également nécessaire lors de l’interpolation, car une simple interpolation linéaire
crée des composants repliés. Plutôt que d’imaginer un schéma d’interpolation plus compliqué,
l’approche usuelle dans la conversion de taux d’échantillonnage est de combiner une interpolation
linéaire avec un filtrage pour déplacer le contenu fréquentiel et minimiser également le repliement.
18.6 Réduction et compression des données

dans les échantillonneurs
Le prix de la mémoire a beaucoup baissé depuis l’époque de son arrivée sur le marché au début des
années 1970. Mais il n’est cependant pas pratique de stocker de grandes bibliothèques de sons dans
une mémoire. Pour faire rentrer même une partie d’une telle bibliothèque dans leurs mémoires limi-
tées, de nombreux échantillonneurs utilisent la réduction de données ou la compression de don-
(a)
(b)
Figure 18.9 – Avec suffisamment de décimation, même une sinusoïde

peut être transformée en une forme d’onde dentelée. (a) Forme d’onde sinusoïdale d’origine.
(b) Décimation de (a) par un facteur de huit.
nées pour réduire le poids du stockage. Les deux sont très différents. La réduction de données jette ce
qu’elle considère être des données « non essentielles », alors que la compression de données utilise
plus ou moins l’excédent de données pour le coder sous forme plus efficace du point de vue de la
mémoire. La compression de données peut reconstituer les données originelles, tandis que la
réduction de données suppose une perte de celles-ci. Les deux méthodes sont parfois regroupées
sous la rubrique des schémas de codage ou de chiffrage dans la documentation audio.
18.6.1 Réduction des données

La plupart des échantillonneurs ne sont pas équipés pour l’analyse du son et la réduction « intel-
ligente » de données. Afin de réduire la quantité de mémoire nécessaire au stockage des échantillons
audio, les constructeurs ont parfois pris des mesures strictes qui influent directement sur la qualité
audio. Par exemple, une façon évidente de réduire les données stockées dans un échantillonneur
est de limiter la résolution ou la quantification d’échantillonnage (voir chapitre 1). Des lecteurs
d’échantillons bon marché utilisent 12 bits ou moins pour représenter un échantillon. Une variation
de ceci est un schéma de codage décimal qui stocke les échantillons en basse résolution avec quelques
bits indiquant l’amplitude originelle du son (Pohlmann, 1989a). En dépit de déplacements dans le
domaine dynamique apparent, le taux de signal/bruit des échantillons basses résolutions reste peu
élevé. Une autre méthode consiste à abaisser le taux d’échantillonnage. Ceci diminue le nombre
d’échantillons stockés par unité de temps, mais provoque un rétrécissement de la largeur de bande
audio. Une troisième façon est de ne stocker qu’une note sur trois ou quatre sur l’ambitus de l’ins-
trument, puis de transposer ces échantillons pour lire les hauteurs intermédiaires. Ceci a pour effet
de transposer le spectre, ce qui n’est pas idéal. Si le son contient une quelconque variation comme
un trémolo ou un vibrato, le taux de ces variations est également influé par la transposition.
Comme le coût des mémoires ne cesse de baisser, il existe de moins en moins de justifications à ces
méthodes qui compromettent toutes la qualité audio.
Une approche plus sophistiquée de la réduction de données débute par une étape d’analyse, qui
stocke les sons sous une forme de réduction des données couplée avec des fonctions de contrôle qui
peuvent approximativement les reconstituer. Il existe de nombreuses possibilités d’approche à cette
analyse et resynthèse. Par exemple, l’analyse peut tenir compte des phénomènes de masque et jeter
les parties qui sont censées être masquées par d’autres parties plus fortes (pour une introduction
aux effets de masques, voir le chapitre 16 ; pour davantage de détails, voir Buser et Imbert, 1991).
Dans le chapitre 19, nous examinerons quatre méthodes expérimentales de réduction de données
basées sur un modèle de synthèse additive. Certains schémas commerciaux de réduction de données
sont installés à l’intérieur des produits de consommation audio. Ceci n’est pas l’endroit pour rentrer
dans une large discussion sur la perfection des modèles perceptuels sur lesquels les schémas de
réduction de données sont basés. Il suffit de dire que dans tout schéma de réduction de données,
il y a une perte de données conduisant à une réduction de la qualité audio. Ces pertes sont tout
spécialement apparentes avec les matériaux musicaux exploitant le domaine complet d’un système
audio de bonne qualité.
18.6.2 Compression des données
Pour conserver de l’espace mémoire, certains systèmes utilisent des techniques de compression
des données qui limitent la quantité d’espace utilisée par une chaîne d’échantillons. Ceci est réalisé
par élimination des redondances de données et ne devrait impliquer aucun sacrifice de la qualité
audio. Une méthode de compression courante est le chiffrage par longueur de séquence. L’idée de
base du chiffrage par longueur de séquence est que chaque valeur d’échantillon n’est pas stockée.
Au contraire, tout échantillon différent du précédent est stocké, suivi d’une valeur précisant combien
d’échantillons successifs auront la même valeur. Pour plus d’informations sur la compression de
données audio, voir Moorer (1979b).
18.7 Bibliothèques d’échantillons

Puisque l’échantillonneur est un type de système d’enregistrement, la qualité des échantillons
dépend de la qualité des techniques d’enregistrement. Faire des échantillons de haute qualité requiert
de bons musiciens et de bons instruments, d’excellents microphones, et un environnement d’enre-
gistrement favorable. Combiner tous ces éléments pour créer une grande bibliothèque de sons
demande un grand effort. Ainsi, la plupart des utilisateurs d’échantillonneurs préfèrent augmenter
leur collection d’échantillons avec des bibliothèques préparées par des professionnels et distribuées
sur disques optiques ou magnétiques.
18.8 Évaluation des échantillonneurs

En dépit d’avances technologiques, les échantillonneurs gardent une qualité sonore « mécanique »,
qui les rend reconnaissables par rapport à de bons interprètes humains. La plupart des percussion-
nistes, par exemple, ne confondraient pas le son figé d’un solo de batterie échantillonné et celui d’un
vrai batteur. Lors d’un concert sur une batterie acoustique, chaque frappe de peau est unique, et il
existe des différences majeures dans le son en fonction du contexte musical dans lequel la frappe
est interprétée. Ceci n’est pas pour dire que l’interprétation robotique n’est pas valide. Le succès
commercial des boîtes à rythmes prouve que les rythmes réguliers et les sons de percussions inva-
riables ont un vaste public.
Dans tous les cas, il est compréhensible que le « naturel » ou le « réalisme » d’un échantillonneur
puissent être un critère de jugement entre différentes marques. Il est bien connu que le son d’un
instrument donné pourra sonner de façon beaucoup plus réaliste sur un échantillonneur plutôt que
sur un autre.
Certains instruments, comme les orgues, peuvent être modelés de façon plus ou moins réaliste par
les échantillonneurs. C’est-à-dire qu’ils peuvent tous générer un enregistrement de bonne qualité
d’un orgue d’église ou d’un orgue électronique. D’autres instruments comme les voix, les violons,
les saxophones, les guitares électriques et les sitars sont intrinsèquement plus difficiles à capturer
avec la technologie d’échantillonnage existante. Les notes individuelles peuvent être relativement
bien capturées, mais lorsque les notes sont assemblées en phrases, en mélodies et en accords, il est
évident qu’une grande partie de l’information sur l’interprétation et l’acoustique a été oubliée.
Les échantillonneurs d’usine fournissent le chanteur moyen, le saxophone moyen joué par le saxo-
phoniste moyen, l’orchestre moyen joué dans une salle moyenne, et ainsi de suite. Pourtant, les
connaisseurs peuvent dire les différences entre deux chanteurs, deux saxophonistes, et deux chefs
avec deux orchestres différents. Il semblerait difficile de confondre le rendu d’un solo de saxophone
avec un échantillonneur/séquenceur et le style d’un original de John Coltrane. Ceci montre une
limite fondamentale des échantillonneurs existants. Au-delà d’un certain point, il est impossible
d’augmenter le réalisme des échantillonneurs actuels sans avancées majeures de la technologie et
sans une compréhension de la relation entre la structure du son et l’interprétation musicale. L’un
des chemins d’évolution évidente des échantillonneurs est l’analyse/resynthèse (voir chapitre 11),
qui permet des transformations flexibles et sensibles au contexte des sons musicaux.
Dans les instruments expressifs comme les voix, les saxophones, les sitars, les guitares, et d’autres,
chaque note est créée dans un contexte musical. À l’intérieur d’une phrase, une note provient d’une
autre note (ou du silence), et s’enchaîne à d’autres notes (ou au silence). En plus de ces indications
contextuelles, des sons transitionnels tels que le souffle, la respiration, le bruit de langue, les clics
de clés, et les glissements du doigt le long des cordes ponctuent le phrasé. Les contraintes de style
et de goût déterminent quand les effets sensibles au contexte, tels que le rubato, le portamento,
le vibrato, le crescendo et le diminuendo, et toutes les autres nuances doivent apparaître.
Ces problèmes peuvent être séparés en deux catégories : (1) comment pouvons-nous modeler la
microstructure du son lors des transitions note à note ? (2) comment pouvons-nous interpréter
(analyser) les partitions pour rendre, selon les règles spécifiques d’un style donné, une impression
d’interprétation sensible au contexte ? Ces questions sont le sujet des deux petites prochaines parties.
18.9 Modelage des transitions note à note

Le problème de ce qui se passe lors des transitions note à note était le sujet de recherche de doctorat
de John Strawn à l’université de Stanford (1985b). Il analysa les transitions dans neuf instruments
d’orchestre non percussifs. Les tracés qui émergèrent graphiquement de cette recherche, dans le
domaine temporel et fréquentiel, montraient la sensibilité au contexte des successions de notes.

Dans les instruments à vent, l’une des façons d’articuler une transition est le coup de langue
— une interruption momentanée du souffle par une action de la langue, comme si le musicien
prononçait la lettre t ou k. La figure 18.10 montre un tracé temporel de transitions d’une trompette
jouée avec coup de langue (a) et sans coup de langue (b). Le contraste entre les deux types de tran-
sitions est net.
La figure 18.11 montre le tracé du spectre de cette transition. Les recherches de Strawn démontrèrent
que certaines transitions sont très lisses, avec un creux de moins de 10 dB entre les notes. D’autres
transitions sont chargées, avec des changements d’indications transitionnelles fortes en amplitude
et en fréquence, qui articulent l’attaque de la seconde note.
La modélisation des transitions note à note semble être un problème résoluble, puisque sa solution
dépend d’une avancée technologique prévisible. Le problème pourrait être résolu en augmentant
les capacités de mémoire de l’échantillonneur (pour stocker toutes les transitions entre deux notes),
un traitement du signal rapide, ou une combinaison des deux. La méthode diphone, par exemple,
Figure 18.10 – Tracé temporel d’une transition note à note d’un intervalle
de tierce majeure ascendante joué par une trompette avec coup de langue (a) et sans coup de
langue (b). La durée totale est d’environ 120 ms (avec l’aimable autorisation de John Strawn).
stocke les données de transition sous une forme qui leur permet d’être étirées ou compressées
(Rodet, Depalle et Poirot, 1988). Holoway et Haken (1992) modèlent les transitions sous forme de
pistes superposées dans un vocodeur de phase pisteur (voir chapitre 11).
Si les transitions doivent être calculées automatiquement — par exemple lorsqu’un musicien joue
d’un clavier — l’instrument doit être capable de faire une détermination du contexte extrêmement
rapide.
(a)
(b)
Figure 18.11 – Tracés spectraux des transitions montrées à la figure 18.10.

Les tracés montrent 50 harmoniques dessinés sur une durée de 300 ms, avec les harmoniques graves
au fond. (a) Avec coup de langue. (b) Sans coup de langue. Remarquez comme le « trou » dans le
milieu de (a) est rempli lorsque la transition de note est jouée sans coup de langue (avec l’aimable
autorisation de John Strawn).
Chapitre 19
La synthèse additive
19.1 Synthèse additive

La synthèse additive est une classe de techniques de synthèse sonore basée sur l’addition de formes
d’ondes élémentaires pour créer une forme d’onde plus complexe. La synthèse additive est l’une
des techniques de synthèse les plus anciennes et l’une de celles qui ont suscité le plus de recherche.
Ce chapitre débute avec un bref historique de la synthèse additive et explique ses manifestations de
forme d’onde fixe et de variation temporelle. La suite du chapitre s’attache au procédé d’analyse
/resynthèse — la liaison de l’analyse d’un son et d’une étape de resynthèse basée sur la synthèse
additive.
19.1.1 Synthèse additive : origines

Le concept de synthèse additive date de plusieurs siècles, car il fut tout d’abord appliqué dans les
orgues d’église grâce à leurs multiples registres. En tirant un registre, l’air pouvait être dirigé dans
un ensemble de tuyaux. L’air était ensuite relâché — ce qui créait le son — en appuyant sur une
touche du clavier de l’orgue. En tirant plusieurs registres dans des proportions variables, on pouvait
mélanger le son de plusieurs tuyaux pour chaque touche appuyée sur le clavier de l’orgue. Selon les
termes d’un spécialiste, « le Moyen Âge favorisa particulièrement les “mélanges” dans lesquels
chaque note est accompagnée par plusieurs quintes et octaves supérieures » (Geiringer, 1945).
Cette idée de « mélanges » de fréquences est l’essence même de la synthèse additive.
La synthèse additive a été utilisée depuis les premiers jours de la musique électronique et électrique
(Cahill, 1897 ; Douglas, 1968 ; die Reihe, 1955 ; Stockhausen, 1964). L’énorme synthétiseur Telhar-
monium dévoilé en 1906 additionnait le résultat de douzaines de générateurs électriques de son
pour créer des complexes sonores additifs (figure 19.1).
Incorporant une version miniature des générateurs de son rotatifs du Telharmonium, les célèbres
orgues Hammond étaient de purs instruments de synthèse additive (figure 19.2). La puissance
de la synthèse additive vient du fait qu’il est théoriquement possible d’approcher de près n’importe
quelle forme d’onde complexe en additionnant des formes d’ondes élémentaires. Il existe des
Figure 19.1 – Synthèse additive d’un son complexe dans le Telharmonium.

Les harmoniques sinusoïdaux de l’alternateur générateur de son sont introduits dans les barres
omnibus (54). L’appui d’une touche (Do dans le cas présent) connecte chaque harmonique à un trans-
formateur en bobine à couches multiples (56 « bobines d’induction ») où ils se mélangent. Les induc-
teurs à interrupteur (60) régulent l’amplitude du mélange à la sortie du transformateur, comme le
font les inducteurs près des haut-parleurs (72, 73) à la fin de la ligne de transmission de l’auditeur.
(Dessin de brevet d’invention de Cahill, reproduit dans Johnson et coll., 1970.)
Figure 19.2 – Orgue Hammond B3, un instrument de synthèse additive

basé sur des roues sonores électromécaniques. Différents mélanges des harmoniques peuvent être
ajustés en tirant des « barres extensibles » situées au-dessus des touches du clavier (avec l’aima-
ble autorisation de l’Institut d’Organologie, Kunitachi College of Music, Tokyo).
méthodes permettant d’analyser un son tel que celui d’un violon et de le resynthétiser en utilisant
des combinaisons variant dans le temps de sinusoïdes ayant des fréquences, des phases et des
amplitudes variables. À cause des limites intrinsèques dans la résolution de l’analyse, cependant,
cette version reconstruite n’est jamais une réplique à l’échantillon près du signal originel (voir le
chapitre 11).
Toute méthode additionnant plusieurs formes d’ondes élémentaires pour en créer une nouvelle peut
être classifiée comme une forme de synthèse additive. Par exemple, certaines formes de synthèse
granulaire exposées au chapitre 22 pourraient être considérées comme des techniques de synthèse
additive (Risset et Wessel, 1982). Nous avons cependant dans ce chapitre séparé ces techniques de
la synthèse additive afin de bien faire la distinction entre celles-ci et la méthode traditionnelle de
synthèse additive avec des sinusoïdes.
19.1.2 Synthèse additive de forme d’onde fixe

Certains logiciels ou synthétiseurs permettent au musicien de créer des formes d’ondes par addi-
tion harmonique. Afin de créer une forme d’onde avec un spectre donné, l’utilisateur ajuste les for-
ces relatives de l’ensemble des harmoniques d’un fondamental donné. Le terme « harmonique » en
tant que multiple entier d’une fréquence fondamentale fut utilisé pour la première fois par Sauveur
(a)
Harmonique 1
Harmonique 3
Harmonique 5
Amp.
1 10 20 30 40 50 60
Harmoniques
(b)
Amp. 0
Temps
Figure 19.3 – Synthèse de forme d’onde par addition d’harmoniques.

(a) Histogramme montrant les forces relatives des harmoniques sur une échelle linéaire. Dans ce cas,
l’histogramme ne présente de l’énergie que sur les harmoniques impairs. L’amplitude du troisième
harmonique est le tiers de celle du fondamental, l’amplitude du cinquième harmonique est le cin-
quième, et ainsi de suite. (b) Approximation d’une onde carrée synthétisée par addition harmonique
en utilisant l’histogramme (a).
(1653-1716) en 1701. Par exemple, 400 Hz est le second harmonique de 200 Hz, puisque 2 fois 200
égale 400. Les harmoniques peuvent être représentés sous forme de graphiques en barres ou his-
togrammes, où la hauteur de chaque barre représente la force relative d’un harmonique donné.
La figure 19.3 montre un spectre harmonique et la forme d’onde correspondante.
Une fois que le spectre voulu est obtenu, le logiciel calcule une forme d’onde qui reproduit le spectre
lorsqu’elle est jouée par un oscillateur numérique. Ce spectre de référence s’aligne à différentes
fréquences lorsque l’on change la fréquence de l’oscillateur. La figure 19.4 montre différentes étapes
d’une addition de formes d’ondes utilisée pour créer une onde quasi carrée.
(a) (b)
(c) (d)
(e)
Figure 19.4 – Étapes d’une addition harmonique montrées sous forme d’une série
de formes d’onde temporelles. (a) Fondamentale seule. (b) Premier et troisième harmonique.
(c) Somme des harmoniques impairs jusqu’au cinquième. (d) Somme des harmoniques impairs
jusqu’au neuvième. (e) Onde quasi carrée créée en additionnant les harmoniques impairs jusqu’au
101e.
✦ Facteur de phase
La phase est trompeuse. Selon le contexte, elle peut ou ne pas être un facteur significatif dans la
synthèse additive. Par exemple, si nous changeons les phases de départ des composants fréquentiels
d’une forme d’onde fixe et que nous resynthétisons le son, ceci ne crée aucune différence pour
l’auditeur. Et pourtant, un tel changement peut avoir un effet significatif sur l’apparence visuelle de
la forme d’onde, comme cela est montré à la figure 19.5.
Les relations de phase deviennent apparentes lors de la perception d’attaques, de grains ou de tran-
sitoires brillants mais courts. L’oreille est également sensible aux relations de phase dans les sons
complexes où les phases de certains composants se déplacent dans le temps. Comme nous le verrons
plus tard dans la partie sur l’analyse du son et la resynthèse, des données de phase correctes aident
Figure 19.5 – Effet de la phase dans la synthèse additive.

Cette forme d’onde est le résultat du même mélange de sinusoïdes que celles de la figure 19.4e
sauf que la phase de départ du cinquième harmonique est à 90 degrés au lieu de 0 degré.
à rassembler les composants courts dans le bon ordre, et sont ainsi essentielles lors de la recons-
truction d’un son analysé.
✦ Addition de partiels
Nous pouvons généraliser l’addition d’harmoniques à l’addition de partiels. En acoustique, un partiel
fait référence à un composant fréquentiel arbitraire dans un spectre (Benade, 1990). Le partiel peut
(a) 200 Hz (fondamental)
347.5 Hz (inharmonique)
9921.8 Hz
Amp. 2000 Hz (harmonique) (inharmonique)
Fréquence
(b)
Amp.
Temps
Figure 19.6 – Addition de partiels avec quatre composants.

Le pourcentage de chaque composant est respectivement de 73, 18, 5 et 4 pour cent.
(a) Vue dans le domaine fréquentiel. (b) Forme d’onde temporelle.
ou ne pas être harmonique (multiple entier) de la fréquence fondamentale f. La figure 19.6a montre
un spectre contenant quatre partiels : deux harmoniques et deux inharmoniques. Un partiel inhar-
monique n’a pas un rapport entier avec la fréquence fondamentale. La figure 19.6b est le résultat
de l’addition des quatre partiels.
L’addition de partiels possède une limite : elle ne sait que créer un son ayant une forme d’onde fixe
plus riche. Comme le spectre dans la synthèse par forme d’onde fixe est constant pendant toute la
durée de la note, l’addition de partiels ne peut jamais reproduire exactement le son d’un instrument
acoustique. Elle ne fait qu’une approximation de la partie en état stationnaire d’un son instrumental.
La recherche a montré que la portion d’attaque d’un son, où le mélange de fréquence change sur
une échelle de temps de l’ordre de la milliseconde, est bien plus utile pour identifier les sons des
instruments traditionnels que la partie en état stationnaire. Dans tous les cas, un timbre variant
dans le temps est en général plus séduisant pour l’oreille qu’un spectre constant (Grey, 1975).
19.1.3 Synthèse additive variant dans le temps
En changeant le mélange des sinusoïdes dans le temps, on peut obtenir des timbres synthétiques
plus intéressants, et des sons d’instruments plus réalistes. Dans la note de trompette de la figure 19.7,
il faut douze sinusoïdes pour reproduire la partie initiale d’attaque de l’événement. Après 300 ms,
il n’en faut plus que trois ou quatre.
Nous pouvons visualiser graphiquement le procédé d’addition de partiels de plusieurs façons. La
figure 19.8a montre la synthèse additive dans le domaine analogique, telle qu’elle fut pratiquée dans
Figure 19.7 – Tracé du spectre variant dans le temps de douze partiels de trompette,
avec les partiels supérieurs à l’arrière. Le temps s’écoule de gauche à droite. Remarquez que la
fondamentale (à l’arrière) n’a pas la plus haute amplitude, mais la plus longue durée.
(a) Banque d'oscillateurs analogiques

Osc Osc Osc Osc
1 2 3 4
Fréq. Fréq. Fréq. Fréq.
Sinusoïdes
Contrôles
Table de niveau
de mélange d'entrée
analogique
Niveau de sortie
Mélange
des sinusoïdes
Vers l'amplificateur et le haut-parleur
(b)
F ...
A ...
Banque
d'oscillateurs ...
sinusoïdaux
...
Unité
de sommation
+
Signal
de sortie
Figure 19.8 – Deux vues de la synthèse additive.

(a) Dans le domaine analogique, les oscillateurs alimentent un mélangeur. (b) Synthèse additive
numérique. Synthèse additive variant dans le temps avec des enveloppes de fréquence (F) et d’ampli-
tude (A) séparées. La figure 17.10 montre un diagramme d’instrument plus détaillé pour la synthèse
additive.
les années 1950 (Stockhausen, 1964). Elle montre plusieurs modules matériels d’oscillateurs, cha-
cun avec un bouton de contrôle manuel de la fréquence. Les sorties des oscillateurs sont dirigées vers
une console de mélange. Le compositeur ajustait la balance des oscillateurs en temps réel pour
déterminer le spectre variant dans le temps. Avec cette configuration, le contrôle manuel était la
seule option. Pour réaliser précisément un mélange variant dans le temps, il fallait que plusieurs
personnes travaillent ensemble à cette tâche (Morawska-Büngler, 1988).
La figure 19.8b montre la synthèse additive numérique. Un oscillateur audio est représenté sous la
forme d’un demi-cercle à deux entrées — une pour l’amplitude et l’autre pour la fréquence. Pour
générer un spectre variant dans le temps, les entrées d’amplitude et de fréquence des oscillateurs
ne sont pas constantes, mais une fonction d’enveloppe variant dans le temps lue sur la durée de
l’événement. Les oscillateurs audio sinusoïdaux alimentent un module qui additionne les signaux.
Ce module additionneur envoie finalement le résultat dans un CNA pour la conversion du son.
19.1.4 Besoins de la synthèse additive

La synthèse additive variant dans le temps demande de gros efforts à un système de musique numé-
rique. Tout d’abord, elle a besoin d’un grand nombre d’oscillateurs. Si nous faisons les suppositions
raisonnables d’un point de vue musical que chaque événement sonore dans une pièce peut avoir
jusqu’à 24 partiels (chacun généré par un oscillateur sinusoïdal séparé), et que jusqu’à 16 événements
peuvent être joués simultanément, nous avons besoin de 384 oscillateurs à tout instant donné.
Si le système tourne à un taux d’échantillonnage de 48 kHz, il doit être capable de générer
48 000 × 384, soit 18 432 000 échantillons par seconde. Comme chaque échantillon requiert environ
768 opérations (multiplications-additions), la charge totale de calcul est de 1,4 million d’opérations
par seconde, sans compter les opérations de lecture de table. De tels besoins en calcul, bien qu’étant
énormes, ne vont pas au-delà des limites du matériel actuel. Par exemple, un synthétiseur spécialisé
dans la synthèse additive offre un potentiel de plusieurs milliers de sinusoïdes en temps réel (Jan-
sen, 1991).
Pourtant, la puissance de calcul n’est pas le seul paramètre nécessaire à la synthèse additive. Cette
méthode a également un appétit vorace pour les données de contrôle. Si une pièce contient 10 000
événements (comme une partition d’orchestre), et que chacun a 24 partiels, on doit avoir à portée
de main 240 000 enveloppes de fréquences et 240 000 enveloppes d’amplitude. Si la même enveloppe
est utilisée dans plus d’un événement, d’où proviennent les données de contrôle ? Ceci est le sujet
de la prochaine partie.
19.1.5 Sources de données de contrôle pour la synthèse additive

Une utilisation efficace de toute technique de synthèse numérique, y compris la synthèse additive,
dépend des bonnes données de contrôle pour l’instrument de synthèse. Pour créer des sons animés
avec un développement interne riche, on dirige le synthétiseur avec des données de contrôle ; ainsi,
on parle également de fonctions directives de l’instrument de synthèse. Les données de contrôle
peuvent être obtenues à partir de plusieurs sources :
1. Importées d’un autre domaine et échelonnées au domaine des paramètres de synthèse. Par
exemple, certains compositeurs ont tracé la forme de montagnes ou de gratte-ciel et ont utilisé
ces courbes comme fonctions de contrôle. Cela était l’approche utilisée dans la pièce de musique
informatique Earth’s Magnetic Field (1970) de Charles Dodge, et dans des pièces purement
dérivées de modèles géométriques, stochastiques, ou d’autres modèles mathématiques ou
physiques.
2. Générées par un programme de composition qui renferme des contraintes spécifiées par le
compositeur sur la microstructure musicale. Un exemple est Stria (1977) de John Chowning,
réalisé avec la synthèse additive de spectres inharmoniques.
3. Générées par un système de composition interactif qui traduit des concepts musicaux de haut
niveau, tels que des phrases (dans le langage Formes de Rodet et Cointe 1984), des masques de
tendance (comme dans le système POD de Truax, 1977, 1985), des objets sonores (comme dans
le système SSSP de Buxton et coll., 1978), ou des nuages (comme dans la synthèse granulaire
asynchrone de Roads, 1978c, 1991) en paramètres de synthèse.
4. Entrées manuellement par le compositeur, en utilisant des combinaisons des sources men-
tionnées ci-dessus, ou la connaissance intuitive, théorique, ou empirique que le composi-
teur a de la psychoacoustique. Un exemple de cette méthode est la pièce de Jean-Claude Ris-
set Inharmonique (1970).
5. Fournies par un sous-système d’analyse qui enveloppe le son naturel et recrache les données
de contrôle nécessaires à la resynthèse. Les données peuvent également être éditées afin de créer
des transformations des sons originels. Trevor Wishart (1988) utilisa l’analyse du son comme
étape intermédiaire pour transformer des sons vocaux pour sa pièce Vox-5 (voir également
Murail, 1991).
Comme les méthodes 1 à 4 sont basées sur une esthétique compositionnelle, nous n’avons pas besoin
d’en parler plus longuement dans ce chapitre. La cinquième méthode requiert un sous-système
pour l’analyse ; ceci est le sujet de la prochaine partie.
19.2 Analyse/resynthèse additive
Son originel
Échantillons
audionumériques
Analyse
Données d'analyse
Modification
Données d'analyse
modifiées
Resynthèse
Échantillons
audionumériques
Son transformé
Figure 19.9 – Vue globale de l’analyse/resynthèse.

L’étape de modification peut mettre en jeu des éditions manuelles des données d’analyse ou des
modifications par la synthèse croisée où les données d’analyse d’un son façonnent les données d’ana-
lyse d’un autre son.
L’analyse/resynthèse comprend différentes techniques qui en commun un procédé en trois étapes

(figure 19.9) :
1. Un son enregistré est analysé.
2. Le musicien modifie les données d’analyse.
3. Les données modifiées sont utilisées pour resynthétiser le son altéré.
Le concept d’analyse/resynthèse n’appartient pas uniquement à la synthèse additive. Il peut égale-
ment être basé sur la synthèse soustractive (voir chapitre 24), sur des combinaisons de resynthèses
additives et soustractives (Serra, 1989 ; Serra et Smith, 1990), ou sur d’autres méthodes (voir le
chapitre 11).
Les premières expériences d’analyse/resynthèse additive furent menées par Harvey Fletcher (celui
des fameuses courbes d’intensité de Fletcher-Munson) et ses associés (Fletcher, Blackham et
Signal
d'entrée
fenêtré
Banque de filtres
passe-bande étroits
...
F ...
A ...
Banque
d'oscillateurs
sinusoïdaux
...
...
Unité
de sommation
+
Réplique
du signal d'entrée
Figure 19.10 – Analyse/resynthèse additive.

Un signal d’entrée fenêtré est analysé par une banque de filtres en un ensemble d’enveloppes de
fréquence (F) et d’amplitude (A) ou fonctions de contrôle qui commandent un ensemble d’oscilla-
teurs. Si les données d’analyse ne sont pas changées, le signal de sortie devrait être presque iden-
tique à celui d’entrée.
Stratton, 1962 ; Fletcher, Blackham et Christensen, 1963). Il n’utilisait qu’un matériel analogique.
Lorsque des méthodes additives numériques sont utilisées pour la resynthèse, le système entier a
l’apparence de la figure 18.10. L’analyse est effectuée successivement sur de petits segments du
signal d’entrée. Le procédé de segmentation du signal d’entrée est appelé fenêtrage (exposé au
chapitre 11). Nous pouvons concevoir chaque segment comme étant envoyé dans une banque de filtres
passe-bande étroits où chaque filtre est accordé sur une fréquence centrale précise. En pratique,
une transformée de Fourier rapide (FFT) remplace généralement la banque de filtres et effectue
globalement la même tâche dans cette application, c’est-à-dire mesurer l’énergie dans chaque bande
fréquentielle (voir de nouveau le chapitre 11).
L’amplitude du signal sortant de chaque filtre est mesurée, et ces valeurs variant dans le temps
deviennent les fonctions de contrôle d’amplitude pour ce domaine fréquentiel. En même temps,
le système calcule des fonctions de contrôle correspondant aux légères variations fréquentielles en
regardant la sortie de filtres adjacents (ou casiers d’analyse, dans le cas de la FFT).
Les fonctions de contrôle de fréquence et d’amplitude dirigent une banque d’oscillateurs lors de
l’étape de resynthèse. En d’autres termes, nous utilisons l’information glanée dans l’analyse d’un
son existant pour créer un ensemble de fonctions de contrôle nécessaires pour resynthétiser ce son
en additionnant des sinusoïdes. Si le son d’entrée est correctement modelé sous forme d’additions
de sinusoïdes, le signal fait d’additions générées par les oscillateurs devrait être en tout point
semblable au signal d’entrée originel.
Bien sûr, l’analyse/resynthèse directe d’un son n’est pas intéressante d’un point de vue musical.
Afin de créer des effets intéressants musicalement, nous devons modifier les données générées par
l’analyse. Ceci est le sujet de la prochaine partie.
19.2.1 Applications musicales de l’analyse/resynthèse additive
Après que l’analyse a été effectuée, le musicien peut éditer les fonctions de contrôle pour créer des
variations du signal d’entrée originel. De nombreux effets différents sont possibles avec cette tech-
nique, comme cela est montré au tableau 19.1. Trois compositions produites dans les années 1980
sont de bons exemples de manipulations compositionnelles des données d’analyse : Mortuos
Plango, Vivos Voco (1981) de Jonathan Harvey, Désintégrations (1983, Salabert Trajectoires) de
Tristan Murail, et Digital Moonscapes (1985, CBS/Sony) de Wendy Carlos.
Dans la pièce d’Harvey, le compositeur analysa le son d’une grande cloche. Pour chaque composant
sinusoïdal, le compositeur substitua une voix de garçon échantillonnée à la fréquence appropriée,
lors de la resynthèse. Les échantillons de voix suivaient la fréquence analysée et les fonctions de
contrôle d’amplitude des cloches carillonnantes, créant un effet surnaturel de chœur enfant-cloche.
Dans la composition de Murail, le compositeur analysa des sons d’instruments traditionnels et créa
des compléments synthétiques à ces sons qui se mêlaient parfaitement lorsque les instruments
étaient joués, mais se détachaient brusquement lorsque les instruments s’arrêtaient. Désintégrations
est un exemple classique des techniques de composition spectrale où la structure harmonique de
l’œuvre est basée sur l’analyse des sons des instruments (Murail, 1991). Dans Digital Moonscapes,
Carlos utilisa des données d’analyse comme inspiration pour créer un orchestre synthétique adapté
de timbres de percussions, de cordes, de bois et de cuivres, utilisés dans un style orchestral idio-
matique.
La prochaine partie traite brièvement des techniques actuelles d’analyse du son avec resynthèse
additive, avec une attention toute particulière sur le problème de réduction de données. Elle sert
de prélude au traitement plus détaillé du chapitre 11.
Tableau 19.1 – Transformations musicales avec utilisation de l’analyse/resynthèse additive.
Effet musical Technique
Variation de sons enregistrés Modifier l’enveloppe d’amplitude ou de fréquence sélectionnée en

l’éditant ou en la multipliant par des fonctions arbitraires.
Échelonnage du spectre Multiplier la fréquence de tous les partiels (à l’exception si possible

(sans échelonnage temporel) de la fondamentale) par un facteur n ou par des fonctions arbi-
traires. Comme la multiplication ne conserve pas les structures
formantiques, les sons instrumentaux ou vocaux peuvent perdre
leur identité caractéristique.
Déplacement du spectre Ajouter un facteur n ou une fonction arbitraire à tous les partiels
(sans échelonnage temporel) (à l’exception si possible de la fondamentale). Ceci préserve les
structures formantiques pour de petites valeurs.
Inversion de spectre Renverser l’ordre des composants fréquentiels avant resynthèse,

pour que l’amplitude du premier partiel soit assignée à celle du
dernier partiel, et vice-versa, puis celle du second à l’avant-der-
nier, etc.
Timbres hybrides Remplacer les enveloppes d’un son par les enveloppes sélec-
tionnées d’un autre son.
Expansion et compression temporelle Étendre la durée des enveloppes de fréquence et d’amplitude,

sans déplacement des hauteurs ou changer la taille de saut à la lecture (voir chapitre 11).
Transformer un timbre percussif Retarder le temps d’attaque de chaque partiel et lisser leurs
en un passage synthétique prolongé enveloppes.
Interpolation timbrale d’un son Faire une interpolation dans le temps des enveloppes de deux
instrumental en un autre sons instrumentaux.
Mutation de sons synthétiques Faire une interpolation des enveloppes de sons synthétiques
arbitraires.
Mise en avant de régions résonantes Augmenter l’amplitude des partiels de fréquence sélectionnés.
de sons enregistrés
Synthèse croisée Méthode 1 : Utiliser les enveloppes d’amplitude des partiels d’un
son pour les appliquer aux enveloppes d’amplitude d’un autre
son (voir convolution rapide dans le chapitre 5).

Méthode 2 : Appliquer l’enveloppe d’amplitude d’un son aux fonc-
tions de fréquence (ou de phase) d’un autre son.
Méthode 3 : Appliquer le résiduel bruiteux d’un son à la partie
quasi harmonique d’un autre son (voir par exemple la description
de la synthèse par modèles spectraux et la transformée d’onde-
lettes en peigne dans le chapitre 11).
19.2.2 Méthodes d’analyse du son pour la synthèse additive

De nombreuses méthodes d’analyse du spectre, dont l’analyse synchrone aux hauteurs (Risset et
Mathews), le vocodeur de phase (Dolson, 1983, 1986, 1989b), et l’analyse à Q constant (Petersen,
1980 ; Schwede, 1983 ; Stautner, 1983), parmi d’autres, sont des variations de la technique de base
appelée analyse de Fourier des fréquences composantes. La forme pratique de l’analyse de Fourier est
la transformée de Fourier à court terme (STFT). On peut concevoir cette méthode comme l’analyse
d’un son échantillonné par l’extraction de segments successifs de courtes durées se superposant
(mis en forme par une fonction de fenêtrage) et par application d’une banque de filtres sur le segment
sélectionné. La sortie de chaque filtre est mesurée, indiquant l’amplitude et la phase du spectre à
cette fréquence particulière. Une série de ces analyses à court terme (semblables aux images d’un
film de cinéma) constitue un spectre variant dans le temps. Le cœur de la STFT est la FFT (trans-
formée de Fourier rapide), une implémentation de l’analyse de Fourier se révélant très efficace du
point de vue du calcul (Cooley et Tukey, 1965 ; Singleton, 1967 ; Moore, 1978a, 1978b ; Rabiner et
Gold, 1975).
Le vocodeur de phase (VP) (Flanagan et Golden, 1966 ; Portnoff, 1978 ; Holtzman, 1980 ; Moorer,
1978 ; Dolson, 1983 ; Gordon et Strawn, 1985 ; Strawn, 1985b) a droit ici à une mention spéciale,
car c’est une méthode populaire d’analyse/resynthèse qui a été distribuée avec plusieurs logiciels
de musique. Le VP convertit un signal d’entrée échantillonné en un format de spectre variant dans
le temps. En particulier, il génère un ensemble de courbes de fréquence et d’amplitude variant dans
le temps. De nombreuses transformations intéressantes du son peuvent être effectuées en éditant
et en resynthétisant les données du VP. Par exemple, le vocodeur de phase peut être utilisé pour la
compression temporelle ou l’expansion temporelle sans transposition de hauteur. Grâce à cet effet,
un son est allongé ou raccourci sans que l’on influe de façon significative sur sa hauteur ou son timbre.
Contrairement aux espoirs des chercheurs qui les ont inventés (ils cherchaient des techniques de
codage), les techniques d’analyse du son peuvent générer une « explosion d’information » (Risset
et Wessel, 1982). C’est-à-dire que les données d’analyse (les fonctions de contrôle) peuvent occuper
plusieurs fois l’espace de mémoire du signal d’entrée originel. La quantité de données dépend d’une
part de la complexité du son d’entrée, c’est-à-dire de combien de fonctions d’ondes sinusoïdales
nous avons besoin pour le resynthétiser, et d’autre part de la représentation interne des données
utilisées dans le programme d’analyse. En utilisant le vocodeur de phase, par exemple, un fichier
son de courte durée occupant 2 Mo peut générer des dizaines de Mo de données d’analyse. De tels
besoins de stockage rendent difficiles la mise en place de bibliothèques de sons analysés, et le volume
des données devient compliqué à éditer. Cette situation oblige à recourir à des réductions des
données de contrôle, ce qui est le sujet de la prochaine partie.
19.2.3 Réduction de données dans l’analyse/resynthèse

La réduction de données est importante pour obtenir une analyse/resynthèse efficace. La réduction
de données se fait en deux étapes. Tout d’abord, les données — un ensemble de fonctions de contrôle
d’amplitude et de fréquence — sont analysées. Un algorithme transforme ensuite les données ori-
ginelles en une représentation plus compacte. Un des buts importants de la réduction de données
est de compacter les données sans éliminer les traits perceptiblement saillants du signal d’entrée.
Un autre des buts importants dans le domaine de l’informatique musicale est que les données
d’analyse soient laissées sous une forme qui peut être éditée par le compositeur. Le but n’est pas
seulement d’enregistrer des bits ; on souhaite rendre aisée la manipulation du matériau de données
réduites (Moorer, 1977).
De nombreux ouvrages sur la recherche de méthodes pour réduire les données des échantillons
audionumériques sont disponibles, dont des études par Risset (1966), Freedman (1967), Beauchamp
(1969, 1975), Grey (1975), Grey et Gordon (1978), Charbonneau (1981), Strawn (1980, 1985a,
1985b), Stautner (1983), Kleczkowski (1989), Serra (1989), Serra et Smith (1990), Holloway et Haken
(1992), et Horner, Beauchamp et Haken (1993). Puisque le travail en temps réel est si important
pour les musiciens, l’un des buts de la recherche sur l’analyse/resynthèse est d’accélérer le traitement
de réduction des données et de faciliter la synthèse en temps réel à partir des données réduites.
Des articles de Sasaki et Smith (1980) et Schindler (1984) expliquent la conception de matériel
permettant la synthèse numérique à grande vitesse à partir des données réduites.
Nous jetons ici un coup d’œil sur quatre techniques qui ont été appliquées en informatique musicale :
approximation de segments de ligne, analyse des composants principaux, synthèse par interpola-
tion spectrale, et synthèse par modèle spectral. Voir également Goldberg (1989) pour une description
de l’approche par algorithme génétique, qui a été récemment appliquée à la réduction de données
de synthèse (Horner, Beauchamp et Haken, 1993).
✦ Approximation de segments de ligne
L’approximation de segments de ligne des fonctions de contrôle d’amplitude et de fréquence élimine le

stockage obligatoire d’une valeur distincte pour chaque échantillon analysé. Au contraire, le sys-
tème d’analyse ne stocke qu’un ensemble de paires de points d’arrêt, qui sont les points temporels
(axe des x) et d’amplitude (axe des y) où la forme d’onde change de façon significative. L’approxi-
mation de segments de ligne représente le contour global d’une forme d’onde en ne stockant que les
points d’inflexion (changement) maximale. Lors de l’étape de resynthèse, le système « connecte les
points », généralement grâce à des droites, interpolées entre les paires de points d’arrêt.
Les premières approximations de segments de ligne étaient faites à la main, en utilisant un éditeur
graphique interactif pour construire des fonctions ayant de quatre à huit segments (Grey, 1975).
Une réduction de données par un facteur cent était effectuée. Ce travail d’édition manuelle peut
également être partiellement automatisé, comme cela fut démontré par Strawn (1985a, 1985b). La
figure 19.11a montre un tracé en perspective des seize harmoniques d’un son de violon, échan-
tillonné à 25 kHz. La figure 19.11b montre une approximation de (a) en n’utilisant que trois segments
de ligne.
Dépassant le stockage des approximations de segments de ligne, Beauchamp (1975) développa
une technique heuristique pour déduire les courbes d’amplitude approximatives de tous les harmo-
niques d’un son à partir de la courbe du premier harmonique. Pour des sons périodiques simples,
Charbonneau (1981) découvrit qu’une réduction de données pouvait être appliquée. Il utilisait des
variations simples d’une seule enveloppe pour toutes les fonctions d’amplitude d’un son donné.
Voir également Kleczkowski (1989) et Eaglestone et Oates (1990) pour un approfondissement de ces
propositions.
✦ Analyse des composants principaux

La technique d’analyse des composants principaux (ACP) a été appliquée dans plusieurs systèmes
d’analyse/resynthèse (Stautner, 1983 ; Sandell et Martens, 1992 ; Horner, Beauchamp et Hakken,
1993). L’ACP brise une forme d’onde en utilisant la technique mathématique de calcul de matrice
de covariance. Ceci a pour résultat un ensemble de formes d’ondes de base (les composants prin-
cipaux) et un ensemble de coefficients de poids pour ces formes d’ondes de base. Lorsque les com-
posants sont additionnés selon leur poids, le résultat est une approximation proche de la forme
d’onde originelle.
L’avantage de l’ACP est son potentiel dans la réduction de données. L’ACP fait la somme des relations
sous-jacentes entre les échantillons pour qu’au plus petit nombre de composants corresponde le
maximum possible de variations dans le signal. Le procédé de détermination des composants prin-
cipaux et de leur coefficient de poids est implémenté comme une approximation itérative qui essaie
de minimiser l’erreur numérique (différence entre l’original et l’approximation) au carré. Le premier
composant principal est un ajustement d’une seule forme d’onde à l’ensemble entier des données.
Le second composant principal est un ajustement au résiduel (parfois appelé résidu), autrement dit
(a)
(b)
Figure 19.11 – Réduction draconienne de données d’analyse pour la synthèse additive.

L’amplitude est tracée verticalement, la fréquence va de l’arrière vers l’avant, et le temps s’écoule de
gauche à droite. (a) Courbe originelle d’un son de violon en fréquence-temps-amplitude. (b) Le même
son de violon qu’en (a), approximé avec seulement trois segments de lignes par partiels.
la différence entre l’original et la première approximation. Le troisième composant principal est

un ajustement au résiduel du second composant, et ainsi de suite. Pour plus de détails sur l’ACP,
voir Glaser et Ruchkin (1976).
✦ Synthèse par interpolation spectrale
La synthèse par interpolation spectrale (SIS) (Serra, Rubine et Dannenberg, 1990) est une technique
expérimentale qui génère des sons variant dans le temps en interpolant plusieurs spectres analysés.
Plutôt que d’effectuer des fondus enchaînés entre des sons échantillonnés dans le domaine temporel
(comme dans la synthèse par tables d’ondes multiples expliquée au chapitre 20) la SIS commence
avec des analyses de sons enregistrés puis utilise la synthèse additive pour effectuer des fondus
enchaînés entre les analyses de spectres successifs dans le domaine fréquentiel. Un algorithme auto-
matique de réduction des données est nécessaire pour compresser les données d’analyse en un
petit ensemble de sentiers spectraux communs à deux sons successifs et en un ensemble de fonc-
tions en pente qui décrit la transition entre un spectre donné et le suivant. La principale difficulté
de cette procédure semble être la manipulation qu’elle fait de la partie d’attaque des sons.
✦ Synthèse par modèles spectraux
La synthèse par modèles spectraux (SMS) (Serra, 1989 ; Serra et Smith, 1990) réduit les données
d’analyse en un composant déterministe (composants de bande étroite du son originel) et un com-
posant stochastique. Le composant déterministe est une version avec données réduites de l’analyse
qui modèle les fréquences proéminentes du spectre. Ces fréquences sont isolées par un procédé de
détection de pics dans chaque tranche de l’analyse, et de continuation de pics qui suit chaque pic sur
les tranches successives. La SMS resynthétise les fréquences suivies avec des sinusoïdes. C’est la
même méthode que celle employée dans les vocodeurs de phase pisteurs décrits au chapitre 11.
La SMS va cependant au-delà de cette représentation en analysant également le résiduel ou diffé-
rence entre le composant déterministe et le signal originel. Ceci est nommé le composant « stochas-
tique » du signal. Le composant stochastique prend la forme d’une série d’enveloppes contrôlant
une banque de filtres. Ceux-ci façonnent la fréquence lorsqu’on leur injecte du bruit blanc. Un com-
positeur peut ainsi s’il le désire transformer séparément les enveloppes déterministes (sinusoïdes)
et les composants stochastiques (bruit filtré) (figure 19.12). Les composants bruiteux restent
bruiteux, même si le filtrage ou d’autres transformations leur sont appliqués. Ceci est différent
d’un modèle pur de sinusoïdes, dans lequel les transformations (telles que compression-expansion
temporelle) sur les composants bruiteux changent ceux-ci en clusters ordonnés de sinusoïdes,
dénaturant par là même leurs textures bruiteuses.
Signal d'entrée
Analyse
Partie Partie
déterministe stochastique
Transformation Transformation
Resynthèse Resynthèse
sinusoïdale par bruit filtré
Signal de sortie
Figure 19.12 – Vue globale de la synthèse par modelage du spectre.

Le signal d’entrée est divisé entre partie déterministe et partie stochastique. Chaque partie peut être
modifiée séparément avant la resynthèse. Voir la figure 12.16 pour une vue plus détaillée de l’étape
d’analyse.
Des algorithmes efficaces pour la génération de bruit pseudo aléatoire sont bien connus (Knuth,
1973a ; Keele, 1973 ; Rabiner et Gold, 1975). Ainsi, l’utilisation de bruit filtré a pour résultat une
énorme réduction des données. Dans la resynthèse sinusoïdale pure, sans cette réduction de données,
les composants bruiteux doivent être approximés avec des centaines de sinusoïdes. Les fonctions
de contrôle de ces sinusoïdes nécessitent un grand espace de stockage, et la resynthèse sinusoïdale
est coûteuse du point de vue du calcul.
Un problème d’exactitude non réglé par la SMS est que le bruit pseudo aléatoire filtré qu’elle utilise
pour reconstruire le composant stochastique n’est pas nécessairement de la même qualité que celui
de la source originelle. Dans de nombreux sons, le « bruit » est le résultat de turbulences complexes
qui ont une personnalité et une identité audibles. Pour certains sons, l’approximation par un bruit
uniforme nécessite encore de l’amélioration.
19.2.4 Synthèse par fonction de Walsh

Pour l’instant, nous avons présenté l’analyse/resynthèse comme un procédé basé en grande partie
sur l’analyse de Fourier avec une resynthèse basée sur l’addition de sinusoïdes. L’approche de Fourier
avec les sinusoïdes a une longue tradition de recherches et d’applications issues du théorème ori-
ginel qui établit que pour les signaux périodiques, une combinaison de sinusoïdes de fréquences
variées peut faire une approximation arbitrairement proche du signal originel. La recherche mathé-
matique a montré que d’autres groupes de formes d’ondes, en dehors des sinusoïdes, peuvent être
utilisés pour approximer les signaux. Une famille d’ondes carrées appelées les fonctions de Walsh
peut être utilisée pour approximer un signal après que celui-ci a été analysé grâce à la transformée
de Walsh-Hadamard. Les fonctions de Walsh, étant des ondes rectangulaires, sont une sorte de « série
dans le domaine numérique », puisqu’elles ne prennent que les deux valeurs +1 et –1 (Walsh, 1923).
La figure 19.13 présente les huit premières fonctions de Walsh. Comme avec la série de Fourier et
ses sinusoïdes, une forme d’onde périodique arbitraire peut être approximée sous forme d’addition
d’une série finie de fonctions de Walsh. Tandis que la série de Fourier construit une forme d’onde
à partir de composants de fréquences, la synthèse Walsh construit des formes d’ondes en utilisant
les fonctions de différentes séquences. Une séquence est définie comme étant la moitié du nombre
moyen de passages au point zéro par seconde (Hutchins, 1973). La figure 19.14 montre une forme
d’onde composite formée à partir de plusieurs fonctions de Walsh. Elle montre combien la synthèse
additive par sinusoïdes et la synthèse par fonctions de Walsh sont de conceptions totalement oppo-
sées. C’est-à-dire que la forme d’onde la plus difficile à synthétiser avec la synthèse par fonctions
de Walsh est une sinusoïde pure. L’approximation d’une sinusoïde par la méthode de Walsh restera
crénelée jusqu’à ce qu’un très grand nombre de termes de séquences soit utilisé. La crénelure donne
une qualité « non sinusoïdale » inacceptable. Au contraire, dans la synthèse par sinusoïdes, la
forme d’onde la plus difficile à synthétiser est celle qui comporte des coins rectangulaires, comme
l’onde carrée ! La figure 19.4 montre par exemple une onde presque carrée construite par l’addi-
tion de 101 sinusoïdes.
Le principal avantage des fonctions de Walsh dans la synthèse numérique du son est leur forme
rectangulaire, une forme qui peut être calculée très rapidement par des circuits numériques bons
marché. Un désavantage de la synthèse par fonctions de Walsh est que les fonctions individuelles
ne sont pas associées à des harmoniques déterminés, comme cela est le cas dans la synthèse additive
avec sinusoïdes. Il est possible, quoi qu’il en soit, de passer mathématiquement du domaine de
Fourier (fréquence) au domaine de Walsh (Tadokoro et Higishi, 1978). Ainsi, on peut spécifier un
son sous forme d’une addition de divers composants fréquentiels (partiels), puis transformer cette
spécification en un ensemble de valeurs de paramètres pour un synthétiseur par fonctions de Walsh.
Qui plus est, les sons naturels peuvent être échantillonnés et transformés dans le domaine de Walsh
Figure 19.13 – Les huit premières fonctions de Walsh, de 0 (en haut) à 7 (en bas).
en utilisant la transformée de Walsh-Hadamard, puis resynthétisés en utilisant la transformée de

Walsh rapide (FWT) (Hutchins, 1973, 1975).
Un certain nombre d’opérations de synthèse musicale a été conçu pour les circuits de traitement
du signal utilisant la méthode de Walsh. Par exemple, Hutchins (1973) conçut un générateur d’enve-
loppe utilisant des circuits par fonctions de Walsh. Rozenberg (1979) et Hutchins (1975) montrèrent
comment réaliser de la modulation d’amplitude, de la synthèse soustractive, de la modulation de

fréquence, de la transposition de fréquences et de la réverbération — toutes ces opérations se
déroulant dans le domaine de Walsh.
Malgré le potentiel de la synthèse par fonctions de Walsh, seules quelques machines expérimentales
basées sur cette technique ont été construites (Hutchins, 1973, 1975 ; Insam, 1974). Aucune n’a été
mise sur le marché. Ceci est probablement dû au fait que le coût des circuits pour la synthèse addi-
tive par sinusoïdes n’a jamais cessé de baisser (dont les barrettes mémoires et les multiplicateurs),
faisant ainsi diminuer l’avantage économique des circuits par fonctions de Walsh. Le poids des
recherches accumulées dans les méthodes de Fourier ou les méthodes par sinusoïdes, et la relation
plus intuitive entre fréquences et perception a également contribué à la popularité de l’addition de
sinusoïdes dans la conception des synthétiseurs contemporains.
(a)
(b)
Figure 19.14 – Démonstration de l’addition des fonctions de Walsh.

(a) Approximation d’une simple sinusoïde construite en additionnant les fonctions de Walsh montrées
en (b) (d’après Tempelaars, 1977).
Chapitre 20
La synthèse
par tables d’ondes multiples
Ce chapitre traite de méthodes de synthèse utilisées dans les échantillonneurs et les synthétiseurs
commerciaux, et efficaces d’un point de vue sonore : le fondu enchaîné de tables d’ondes et l’empi-
lement d’ondes. Celles-ci ne sont pas les seules méthodes de synthèse à pouvoir utiliser les tables
d’onde multiples ; en fait, la plupart des méthodes peuvent être configurées pour les utiliser. Nous
distinguons les deux techniques traitées ici par le fait qu’elles sont dépendantes de l’existence des
tables d’ondes multiples. Elles sont l’une et l’autre fréquemment employées dans les échantillonneurs
commerciaux.
Horner, Beauchamp et Hakken (1993) ont développé une autre technique qu’ils appellent la « synthèse
par tables d’ondes multiples ». On peut la considérer comme une variante de l’analyse/resynthèse
additive (présentée au chapitre 19). Mais elle peut également être vue comme un exemple de la
méthode d’empilement d’ondes présentée ici même, où les tables d’ondes sont des sommes de
sinusoïdes tirées d’une étape d’analyse et de réduction de données.
20.1 Fondu enchaîné de tables d’ondes

Comme l’expliquait le chapitre 17, dans la synthèse par forme d’onde fixe, un oscillateur numérique
lit en boucle une table d’onde chargée préalablement d’une seule forme d’onde. Ceci crée un timbre
statique, puisque la forme d’onde se répète sans variation dans le temps. Au contraire, le fondu
enchaîné de tables d’onde est un moyen direct pour générer des timbres variant dans le temps.
Au lieu de lire une seule table d’onde en boucle, l’oscillateur enchaîne au moins deux tables d’ondes
pendant la durée de l’événement. Par exemple, l’événement commence avec la forme d’onde 1, et
tandis qu’elle commence à disparaître, la forme d’onde 2 apparaît, et ainsi de suite jusqu’à la fin.
La figure 20.1 montre un procédé de fondu enchaîné. Le fondu enchaîné de tables d’ondes est le
noyau de techniques dénommées successivement synthèse composée (Roads, 1985f), synthèse vec-
Durée de chaque forme d'onde
1 1+2 2 2+3 3 3+4 4
Combinaisons de formes d'onde
Figure 20.1 – Fondu enchaîné de tables d’onde.

La ligne en gras trace l’amplitude d’une note. Quatre formes d’onde s’enchaînent sur la durée de l’évé-
nement. Les nombres en bas indiquent la séquence des formes d’onde seules et en combinaisons.
Chaque région indiquée en bas représente un timbre séparé ; ainsi, l’événement est enchaîné à tra-
vers sept timbres.
torielle (par les compagnies Sequential Circuits, Korg et Yamaha), et synthèse A/L ou arithmétique
linéaire (Roland).
Le fondu enchaîné de tables d’ondes crée des sons qui mutent d’une source vers une autre dans le
temps. Par exemple, une technique fréquente de fondu enchaîné consiste à greffer l’attaque riche
d’un instrument acoustique tel qu’une guitare, un piano ou un instrument de percussion à la partie
d’entretien d’une forme d’onde synthétique. La figure 20.2 montre un instrument pour le fondu
enchaîné de tables d’ondes.
Le premier synthétiseur commercial possédant le fondu enchaîné de tables d’ondes était le Prophet VS
de Sequential Circuits Incorporated, apparu en 1985 (figure 20.3), qui pouvait enchaîner quatre
formes d’ondes. Les synthétiseurs plus récents laissent la possibilité à l’utilisateur de spécifier un
nombre arbitraire de formes d’ondes à enchaîner pendant un seul événement (figure 20.4). Le fondu
enchaîné peut être automatique (déclenché par un événement de note) ou contrôlé manuellement
en actionnant une manette, comme dans les implémentations de synthèse vectorielle conçues par
David Smith et fabriquées dans les synthétiseurs Korg et Yamaha.
Amplitude maximale
Enveloppe
d'amplitude 1/durée
globale
1
ENV
OSC
0
Fréquence
Forme d'onde 1 Enveloppe 1

+1 +1
VECT
OSC
-1 0
+1 +1
-1 0
+1 +1
-1 0

+1 +1
-1 0
SORTIE
Figure 20.2 – Instrument de fondu enchaîné de tables d’onde (synthèse vectorielle)

utilisant quatre tables d’onde. Chaque enveloppe à droite s’applique à une table d’onde sur la gauche.
Figure 20.3 – Synthétiseur numérique Prophet VS

construit par Sequential Circuits Incorporated (1985).
Figure 20.4 – Écran d’édition pour un instrument de synthèse vectorielle,

montrant les séquences de tables d’onde pour quatre voix. Remarquez que la voix quatre traverse
24 tables d’onde différentes. Bien que chacune soit appelée « sine », ces sinusoïdes peuvent avoir
différentes amplitudes et contenir des nombres différents de cycles, ce qui produit des variations
momentanées.
20.2 Empilement d’ondes

L’empilement de tables d’ondes, ou empilement d’ondes, est une variation simple et efficace de la
synthèse additive. Dans cette méthode, chaque événement sonore est le résultat de l’addition de
plusieurs formes d’ondes (en général de quatre à huit sur les synthétiseurs commerciaux). Ceci est
réalisé d’une façon qui diffère de la synthèse additive classique. Celle-ci additionne des sinusoïdes
tandis que, dans l’empilement d’ondes, chaque forme d’onde peut être un signal complexe, tel qu’un
son échantillonné (figure 20.5). En disposant plusieurs sons échantillonnés, on peut créer des timbres
hybrides tels que saxophone-flûte ou violon-clarinette. Chaque forme d’onde dans l’empilement a
sa propre enveloppe d’amplitude, et peut ainsi apparaître et disparaître lors de l’événement sonore.
Lorsque quatre à huit formes d’ondes complexes peuvent être empilées, des textures hybrides riches
et profondes sont créées pour chaque événement sonore.
L’empilement d’ondes est implémenté en stockant une bibliothèque de formes d’ondes et en utilisant
un banc d’oscillateurs pour les lire. Chaque enveloppe de forme d’onde doit être échelonnée par un
facteur de 1/n, où n est égal au nombre de formes d’ondes empilées, pour éviter un débordement
numérique. C’est-à-dire que la somme de toutes les formes d’ondes doit être inférieure à l’étendue
dynamique de quantification du synthétiseur. L’empilement d’ondes a été implémenté sur de nom-
breux synthétiseurs. Il est parfois associé au fondu enchaîné de tables d’ondes multiples pour créer
des sons au mouvement interne et au développement spectral enrichis.
Amplitude Amplitude
ENV ENV
Fréq. Fréq.
Onde 1 Onde 4
OSC OSC
Amplitude Amplitude
Enveloppe Durée Durée
Enveloppe
ENV ENV
Fréq. Fréq.
Onde 2 Onde 3
OSC OSC
Signal de sortie
Figure 20.5 – Empilement de tables d’onde.

Les signaux de quatre oscillateurs sont ajoutés. Remarquez que les tables d’onde ne contiennent
pas seulement des fonctions périodiques, mais de longs sons échantillonnés.
Chapitre 21
La synthèse
par terrains d’ondes
De nombreuses techniques de synthèse partent du principe fondamental de la lecture de table

d’onde expliquée au chapitre 17 : une table d’onde est lue au moyen d’un index qui est augmenté à
chaque période d’échantillonnage. Il est possible d’étendre ce principe à la lecture de « surfaces
d’onde » tridimensionnelles. Nous appelons cette surface un terrain d’ondes, d’après l’utilisation
de ce terme par Rich Gold (Bischoff, Gold et Horton, 1978). Plusieurs chercheurs en informatique
musicale, y compris Gold accompagné de Leonard Cottrell (Bischoff, Gold et Horton, 1978),
Mitsuhashi (1982c), Borgonovo et Haus (1984, 1986), ont exploré les possibilités de techniques
lisant un terrain d’onde grâce à deux index. L’article de Borgonovo et de Haus contient la liste des
codes pour la réalisation de cette technique.
21.1 Terrains et orbites

Une table d’onde traditionnelle peut être tracée dans deux dimensions sous la forme d’une fonction
onde (x) indexée par x. Un terrain d’onde à deux index peut être tracé sous la forme d’une fonction
onde (x, y) gravée sur une surface tridimensionnelle (figure 21.1). Dans ce cas, z — ou hauteur de
la surface à chaque point — représente une valeur de forme d’onde pour un couple donné (x, y).
La forme d’onde stockée dans ce type de table est une fonction à deux variables, et c’est pourquoi
l’on parle aussi de synthèse par fonction à deux variables (Borgonovo et Haus, 1986).
Une lecture de terrain est appelée une orbite. Bien que le terme d’astronomie « orbite » fasse plutôt
référence à une fonction elliptique, l’orbite peut être formée de n’importe quelle séquence de
points sur le terrain d’onde. Nous parlerons des orbites dans un moment ; nous allons tout d’abord
traiter du problème de la génération de formes d’ondes prévisibles avec la synthèse par terrains
d’ondes.
Figure 21.1 – Le terrain de forme d’onde est une surface tridimensionnelle.

La hauteur (axe des z) du terrain représente la valeur de forme d’onde.
21.2 Création de formes d’ondes prévisibles

à partir des terrains d’ondes
À des fins musicales, n’importe quelle surface tridimensionnelle peut servir de terrain d’onde
— d’une fonction mathématique étroitement contenue jusqu’à une projection topographique,
telle que la carte en relief d’une région géophysique. Il n’est cependant pas étonnant que les inves-
tigations systématiques sur cette technique aient convergé vers des terrains d’ondes générés par
des fonctions mathématiques relativement simples. Comme dans les techniques de modulation
de fréquence ou de distorsion non linéaire (chapitre 26), l’avantage d’utiliser des fonctions mathéma-
tiques simples est qu’il est possible de prédire exactement la forme d’onde et le spectre de sortie
générés par un terrain d’onde donné. Mitsuhashi (1982c) et Borgonovo et Haus (1986) ont imaginé
des fonctions lisses de terrains d’ondes comprises dans le domaine [–1 ⭐ x ⭐ 1, –1 ⭐ y ⭐ 1]. Les
conditions suivantes doivent être remplies afin de pouvoir prédire la forme d’onde de sortie :
1. Les fonctions x et y et leurs dérivées partielles de premier ordre sont continues (dans le sens
mathématique du terme) sur le terrain.
2. Les fonctions x et y sont égales à zéro aux limites du terrain.
La seconde propriété assure que les fonctions et leurs dérivées sont continues lorsque l’orbite saute
d’une limite du terrain à une autre. Un tel saut est analogue au bouclage de droite à gauche effectué
lors de la lecture d’une table d’onde à un index.
Le terrain d’onde représenté dans la figure 21.1 satisfait aux conditions décrites ci-dessus et est
défini par l’équation suivante :
onde (x, y) = sin(π/2 × x) × sin(π/2 × y) (21.1)
Nous verrons comment cette fonction génère des formes d’ondes variées dépendantes de l’orbite
de lecture. Voir Mitsuhashi (1982c) et Borgonovo et Haus (1986) pour des définitions de fonctions
similaires.
21.3 Orbites périodiques

Le signal de sortie généré par la synthèse par terrains d’ondes dépend en même temps du terrain
d’onde et de la trajectoire de l’orbite. Celle-ci peut être une droite ou une courbe traversant la surface,
une marche aléatoire, une fonction sinusoïdale, ou une fonction elliptique générée par des termes
sinusoïdaux dans les deux dimensions x et y. Si l’orbite est périodique, le signal de sortie le sera
aussi. Le haut de la figure 21.2 montre une orbite elliptique périodique définie par les fonctions :
x = 0,5 × sin(8πt + π/5)
y = sin(8πt)
Le bas de la figure 21.2 montre la forme d’onde périodique provenant de l’usage de l’orbite elliptique
sur le terrain d’onde défini par l’équation 21.1.
Amp.
Temps
Figure 21.2 – Orbite elliptique et signal résultant.

(En haut) Tracé de l’orbite. Les dimensions x et y varient entre –1 et +1 (d’après Borgonovo et Haus,
1986). (En bas) Forme d’onde générée par l’orbite elliptique sur le terrain d’onde défini par l’équation 1
(note : cette forme d’onde est une approximation redessinée d’après Borgonovo et Haus, 1986).
La figure 21.3 montre une autre orbite périodique en boucle autour du terrain, et définie par les
fonctions :
x = 0,23 × sin(24πt)
y = (16 × t) + 0,46 × sin(24πt + π/2)
Amp.
Temps
Figure 21.3 – Orbite bouclée et signal résultant.

(En haut) Tracé de l’orbite. Les dimensions x et y varient entre –1 et +1 (d’après Borgonovo et
Haus, 1986). (En bas) Forme d’onde générée par l’orbite elliptique sur le terrain d’onde défini par
l’équation 20.1 (note : cette forme d’onde est une approximation redessinée d’après Borgonovo et
Haus, 1986).
21.4 Orbites variant dans le temps

Lorsque l’orbite est fixe, le résultat est une forme d’onde fixe caractérisée par un spectre statique.
Une des façons de générer des formes d’ondes évolutives est de changer l’orbite dans le temps
(figure 21.4). Les orbites en forme de spirales ont par exemple montré qu’elles produisaient des
résultats intéressants.
On peut également imaginer une extension où l’orbite est fixe, mais où le terrain d’onde varie dans
le temps. Dans ce cas, le procédé de lecture est similaire au traçage de courbes sur une surface
ondulante, comme le mouvement des vagues sur la mer.
La synthèse par terrains d’ondes a fait ses preuves comme méthode expérimentale pour la création
de sons synthétiques. Toutefois, si l’on souhaite s’approcher de sons familiers comme la parole ou les
timbres des instruments de musique acoustiques, des recherches supplémentaires sont nécessaires
pour définir les paramètres de cette technique.
Figure 21.4 – Orbite apériodique et signal résultant.

(En haut) Tracé des trajectoires des orbites lors de huit passages à travers le terrain d’onde.
(En bas) Remarquez la forme d’onde variant dans le temps (d’après Mitsuhashi, 1982c).
Chapitre 22
La synthèse granulaire
Le son, tout comme la lumière, peut être considéré sous forme d’ondes ou de particules. La synthèse
granulaire construit des événements sonores à partir de milliers de grains sonores. Un grain sonore
dure en général de 1 à 100 ms, ce qui approche le minimum perceptible en ce qui concerne les dis-
criminations de durée, de fréquence et d’amplitude.
Les représentations granulaires sont un moyen pratique pour visualiser des phénomènes sonores
complexes, sous forme de constellations d’unités élémentaires d’énergie, chacune étant bornée en
temps et en fréquence. De telles représentations sont fréquentes dans la synthèse et les algorithmes
de traitement du signal, bien qu’il existe de nombreux termes pour le même phénomène. Le quantum
(Gabor, 1946, 1947), le signal élémentaire gaussien (Helstrom, 1966 ; Bastiaans, 1980), le segment
de courte durée (Schroeder et Atal, 1962), la fonction de pondération de courte durée (Flanagan, 1972),
la fenêtre (Arfib, 1991 ; Harris, 1978 ; Nuttall, 1981), la fenêtre coulissante (Bastiaans, 1985), l’impulsion
par fonction de fenêtre (Bass et Goeddel, 1981), l’ondelette (Kronland-Martinet et Grossmann, 1991),
la fonction d’onde formantique ou FOF (Rodet, 1980), l’impulsion VOSIM (Kaegi et Tempelaars, 1978),
le paquet d’ondes (Crawford, 1968), l’explosion sonore (Blauert, 1983 ; Pierce, 1990), l’impulsion sonore
(Whitfield, 1978), et même le top sonore (Buser et Imbert, 1992) peuvent tous être considérés comme
des représentations granulaires de signaux musicaux.
Le grain est une représentation convenable du son, car il combine informations temporelles (moment
de départ, durée, enveloppe, forme d’onde) et informations fréquentielles (période de la forme
d’onde à l’intérieur du grain, spectre de la forme d’onde). Cela est contraire aux représentations de
l’échantillonnage qui ne captent pas les informations fréquentielles, ou aux méthodes abstraites de
Fourier qui considèrent les sons comme des sommes de sinusoïdes infiniment longues.
22.1 Synthèse granulaire : historique

La conception du son sous forme « granulaire » remonte aux origines de la révolution scientifique.
Le savant Hollandais Isaac Beekman (1588-1637) conçut en 1616 une théorie « corpusculaire » du son
(Beekman, 1604-1634 ; Cohen, 1984). Beekman pensait qu’un corps vibrant, tel qu’une corde,
coupait l’atmosphère environnante en corps sphériques d’air projetés dans toutes les directions
par la vibration. Lorsque ces corps entraient en collision avec le tympan, le son était perçu. Bien que
cette théorie ne soit pas exacte sur le plan scientifique, elle offre une métaphore étonnante pour la
compréhension de la synthèse granulaire.
Plusieurs siècles plus tard, une approche granulaire ou quantique du son fut proposée par le physicien
britannique Dennis Gabor dans deux écrits fondamentaux qui associaient la théorie de la physique
quantique à des expériences pratiques (1946, 1947). Selon Gabor, la représentation granulaire
pouvait décrire n’importe quel son. Cette hypothèse fut vérifiée mathématiquement par Bastiaans
(1980, 1985). En fait, Gabor construisit dans les années 1940 un granulateur de son basé sur un
système d’enregistrement optique dentelé, adapté d’un projecteur de cinéma. Il fit des expériences de
compression-expansion temporelle avec transposition de hauteur – ce qui permet de changer la hau-
teur d’un son sans changer sa durée, et inversement. Voir au chapitre 6 l’étude de la compression-
expansion temporelle par déplacement des hauteurs.
Une représentation granulaire est implicite dans la technique de fenêtrage appliquée lors de la
transformée de Fourier à court terme, développée dans les années 1960 (Schroeder et Atal, 1962 ; voir
également le chapitre 11). Le cybernéticien du MIT Norbert Wiener (1964) et le théoricien de
l’information Abraham Moles (1968) ont également proposé des représentations granulaires du son.
Le compositeur Iannis Xenakis (1960) fut le premier à fournir une explication compositionnelle des
grains sonores. Il commença en adoptant le lemme suivant : « Tout son, même une variation musi-
cale continue, est conçu comme un assemblage d’un grand nombre de sons élémentaires disposés
de façon adéquate dans le temps. Dans l’attaque, le corps et l’extinction d’un son, des milliers de sons
purs apparaissent dans un intervalle de temps Δt plus ou moins long. » Xenakis créa des sons granu-
laires en utilisant des générateurs de son analogiques et du découpage de bande. Cette technique fut
utilisée dans la composition Analogique A-B pour orchestre à corde et bande (1959). La composition
est décrite dans Xenakis (1992). La partition et la bande sont disponibles aux Éditions Salabert.
L’auteur de ce livre développa la première implémentation logicielle de synthèse granulaire en 1974 à
l’université de San Diego (Roads, 1978c) et en 1981 au Massachusetts Institute of Technology
(Roads, 1985g). La technique apparaît dans plusieurs compositions, dont nscor (1980, disque
compact Wergo 2010-50), Field (1981, disque compact MIT Media Laboratory), et Clang-tint (Roads,
1993b). La synthèse granulaire a été implémentée de différentes façons, notamment par le com-
positeur canadien Barry Truax (1987, 1988, 1990a, b) comme nous le verrons de façon plus détaillée
par la suite.
22.2 Grains sonores

Une enveloppe d’amplitude modèle chaque grain. Cette enveloppe peut varier dans des implémen-
tations différentes de la courbe gaussienne en forme de cloche jusqu’à une ligne en trois segments
représentants l’attaque, l’entretien et l’extinction (figure 22.1). L’équation suivante définit une courbe
gaussienne P(x) :
1
P ( x ) = -------------- e –( x – μ ) 2 ⁄ 2σ 2
σ 2π
où σ est la déviation standard (étendue de la cloche) et μ est le pic central ou pic moyen.
La figure 22.1b montre une courbe quasi gaussienne ou fenêtre de Tukey (Harris, 1978), où le pic est
étendu de 30 à 50 % de la durée du grain. Cette forme a prouvé son efficacité sonore (Roads, 1985g).
(a)
(b)
(c)
(d)
(e)
Figure 22.1 – Enveloppes de grains.

(a) Gaussienne. (b) Quasi gaussienne. (c) Linéaire en trois étapes. (d) Impulsion. (e) Impulsion
étroite ; elle peut être considérée comme équivalente à (a), mais sur une échelle de temps plus
étroite.
Des enveloppes compliquées comme une impulsion à bande limitée (figure 22.1d) créent des grains
résonants qui sonnent comme de petits coups donnés sur des claves en textures éparpillées lorsque la
durée des grains est inférieure à 100 ms. Des enveloppes étroites comme dans la figure 22.1e créent
des textures avec des craquements et de petites explosions lorsque la durée totale du grain est infé-
rieure à 20 ms. Comme l’on peut s’y attendre, des angles raides dans l’enveloppe créent de gros effets
secondaires dans le spectre. Ces effets secondaires sont dus à la convolution du spectre de l’enveloppe
avec celui de la forme d’onde du grain. Voir le chapitre 5 pour une explication de la convolution.
La durée du grain peut être constante, aléatoire, ou elle peut varier en fonction de la fréquence. Ceci
signifie par exemple que l’on peut assigner des durées plus courtes aux grains de hautes fréquences.
Une correspondance entre fréquence du grain et durée du grain est caractéristique de l’analyse
/resynthèse par ondelettes, expliquée plus tard dans ce chapitre, ainsi qu’au chapitre 11.
La forme d’onde à l’intérieur du grain peut être de deux types : synthétique ou échantillonnée. Les
formes d’onde synthétiques sont en général des sommes de sinusoïdes lues à une fréquence spéci-
fique. Pour des grains échantillonnés, on lit en général la forme d’onde à partir d’un endroit stipulé
dans un fichier stocké, avec ou sans transposition de hauteur.
Plusieurs paramètres peuvent varier de grain en grain : la durée, l’enveloppe, la fréquence, la position
dans le fichier son (pour les grains échantillonnés), la position spatiale, et la forme d’onde (une
table d’onde pour les grains synthétiques, un nom de fichier ou un canal d’entrée pour les grains
échantillonnés). C’est ce niveau de contrôle grain par grain qui permet les effets rendus possibles
par cette méthode.
22.3 Instrument générateur de grain

La synthèse granulaire peut être implémentée avec un simple instrument de synthèse : un oscillateur
de sinusoïde contrôlé par un générateur d’enveloppe (figure 22.2). On peut facilement étendre cet
instrument pour permettre un choix entre plusieurs fonctions de tables d’onde.
Amplitude
1/durée
Enveloppe du grain
1
ENV
OSC
0
Fréquence
Forme d'onde du grain
+1
OSC
-1
Position spatiale
SORTIE
Figure 22.2 – Instrument de synthèse granulaire simple

construit à partir d’un générateur d’enveloppe et d’un oscillateur avec une sortie comprenant plu-
sieurs canaux.
En dépit de la simplicité de l’instrument, générer ne serait-ce qu’un son plat et peu compliqué
demande un nombre de données de contrôle énorme — jusqu’à plusieurs milliers de paramètres par
seconde de son. Ces paramètres décrivent chaque grain : temps de départ, amplitude, etc. Comme
l’on ne souhaite pas avoir à spécifier chaque paramètre de grains manuellement, il est nécessaire
d’avoir une unité d’organisation à un niveau supérieur. L’unité d’organisation génère automatique-
ment les milliers de spécifications des grains individuels.
22.4 Organisations granulaires de haut niveau

La complexité du son généré par la synthèse granulaire vient de la quantité de données de contrôle
injectée. Si n est le nombre de paramètres pour chaque grain, et d est la densité moyenne de grains
par seconde, il faut d × n valeurs de paramètres pour spécifier une seconde. Comme d varie entre
quelques douzaines et plusieurs milliers, il est clair que pour les besoins de contrôles compositionnels,
une unité d’organisation de niveaux supérieurs est absolument nécessaire. Le but d’une telle unité
est de laisser les compositeurs stipuler de grandes quantités de grains en n’utilisant que quelques
paramètres globaux.
Les méthodes de synthèse granulaire existantes peuvent être classées en cinq catégories, selon le
type d’organisation des grains :
1. Grilles de Fourier et d’ondelettes.
2. Flux superposés synchrones aux hauteurs.
3. Flux quasi synchrones.
4. Nuages asynchrones.
5. Flux de sons échantillonnés ou granulés temporellement, avec lecture superposée, quasi
synchrone ou asynchrone.
Nous exposerons brièvement chaque approche dans les parties suivantes.
22.4.1 Grilles de Fourier et d’ondelettes et écrans

Deux techniques proches d’analyse du spectre, la transformée de Fourier à court terme (STFT) et
la transformée en ondelettes, prennent un signal sonore dans le domaine temporel et mesurent son
contenu fréquentiel en fonction du temps. Les chapitres 11 et 13 exposent les deux techniques. En
fait, ces deux méthodes associent à chaque point de la grille d’analyse une unité d’énergie temps-
fréquence — un grain ou une ondelette (figure 22.3).
La STFT est bien connue et peut être calculée grâce à la transformée de Fourier rapide (Rabiner et
Gold, 1975). Le « grain » dans ce cas est un ensemble de fenêtres d’analyse se chevauchant à l’inté-
rieur de chacun des N canaux de l’analyseur de Fourier (les rangées horizontales de la figure 22.3).
Nous pouvons imaginer les grains comme s’ils étaient alignés sur une grille bidimensionnelle temps-
fréquence, où les intervalles de la grille sont de tailles égales. Arfib (1991) décrit des applications
de la STFT dans le domaine des opérations granulaires.
Fréq.
Temps
Figure 22.3 – Grille de Fourier divisant les domaines fréquentiels et temporels

en unités limitées. Chaque rangée représente un canal de fréquence, et chaque colonne indique une
période de temps. L’assombrissement de chaque carré indique l’intensité dans cette région temps-
fréquence. Cet exemple montre un son montant en fréquence et devenant de plus en plus fort.
Dans la STFT, la grille fréquentielle est linéaire ; dans la transformée en ondelettes, elle est en général
logarithmique.
La transformée en ondelettes (Kronland-Martinet et Grossmann, 1991) effectue une opération simi-

laire, mais l’espacement des canaux d’analyse et de la durée de la fenêtre (appelée ondelette d’ana-
lyse) est différent de la STFT. Dans la STFT, l’espacement entre les canaux sur l’axe des fréquences
est linéaire, tandis que dans la transformée en ondelettes, il est logarithmique. C’est-à-dire que, dans
la transformée en ondelettes, l’intervalle de fréquence du canal Δ f /f (largeur de bande) est constant.
Enfin, dans la STFT, la durée de la fenêtre est fixe, tandis que la transformée en ondelettes, elle
varie en fonction de la fréquence. Voir le chapitre 13 pour davantage d’informations sur les ondelettes.
Les deux techniques permettent l’analyse, la transformation et la resynthèse, ce qui en fait poten-
tiellement des outils puissants pour la manipulation de sons échantillonnés. La transformation la plus
évidente effectuée grâce aux grilles de Fourier/en ondelettes est l’allongement ou le rétrécissement de
la grille pour créer une expansion ou une compression temporelle lors d’une transposition de
hauteur, c’est-à-dire transposer la hauteur en gardant la même durée, ou vice-versa.
Une autre conception orientée grille, mais non liée à l’analyse de Fourier ou en ondelettes, est le
concept d’écrans de Xenakis (1960, 1992). L’écran est une grille amplitude-fréquence dans laquelle
les grains sont éparpillés. Une séquence synchrone d’écrans (appelée un livre) constitue l’évolution
d’un son complexe. Plutôt que de commencer à partir d’un son analysé, comme dans les grilles de
Fourier et en ondelettes, les concepts de la synthèse basée sur écran utilisent des algorithmes géné-
rateurs pour remplir l’écran de grains. Xenakis (1971, 1992) proposa d’éparpiller des grains de façon
aléatoire dans des écrans, puis de construire de nouveaux écrans à partir d’opérations de la théorie
des ensembles — intersections, unions, compléments, différences, parmi d’autres opérations :
En utilisant toutes sortes d’opérations sur ces clusters de grains, nous pouvons espérer produire non
seulement les sons des instruments classiques et des corps élastiques, et les sons utilisés dans la Musique
Concrète, mais également des perturbations sonores avec des évolutions inégalées et inimaginables
jusqu’à maintenant.
Une autre théorie orientée écran suggérait que les paramètres des grains puissent être dérivés de
l’interaction de l’automatique cellulaire (Bowcott, 1989).
22.4.2 Synthèse granulaire synchrone aux hauteurs

La synthèse granulaire synchrone aux hauteurs (PSGS, Pitch Synchronous Granular Synthesis) est
une technique conçue pour la génération de sons comportant une ou plusieurs régions formantiques
dans leur spectre (De Poli et Piccialli, 1991). La PSGS est une opération en plusieurs étapes com-
prenant une détection de hauteurs, une analyse du spectre et une resynthèse, et un filtrage basé sur la
réponse impulsionnelle, une procédure technique décrite dans les prochains chapitres ; la description
sera donc ici plus brève (voir De Poli et Piccialli, 1991, pour plus de détails).
La première étape de l’analyse est une détection de hauteur (voir le chapitre 9). Chaque période de
hauteur est traitée comme une unité séparée ou grain. L’analyse spectrale est effectuée sur chaque
grain. Le système en tire la réponse impulsionnelle du spectre et utilise celle-ci pour établir les para-
mètres de filtrage de la resynthèse. Le chapitre 4 présente les mesures de réponses impulsionnelles.
En resynthèse, un train d’impulsions à la période de hauteur détectée pilote une banque de filtres
à réponse impulsionnelle finie (FIR). Le signal de sortie résulte de l’excitation du train d’impulsions
sur la somme des réponses impulsionnelles de tous les filtres. À chaque tranche temporelle, le
système émet un grain qui est superposé et ajouté aux grains précédents pour créer un signal lissé
(figure 22.4). L’implémentation de la PSGS par De Poli et Piccialli comprend plusieurs transforma-
tions qui peuvent créer des variations du signal originel. Des extensions plus récentes permettent
la séparation de la partie quasi harmonique du son et de la partie contenant le résidu inharmonique
(Piccialli et coll., 1992).
Taille de saut
Amp.
Temps
Figure 22.4 – Flux de grains se chevauchant.

La taille de saut est le retard entre les grains successifs.
22.4.3 Synthèse granulaire quasi synchrone

La synthèse granulaire quasi synchrone (QSGS, Quasi-synchronous Granular Synthesis) génère un
ou plusieurs flux de grains, ceux-ci se suivant, avec une période de retard variable entre les grains.
Le concept de flux a l’avantage d’être direct et intuitif. Orton, Hunt et Kirk (1991) ont développé une
interface graphique pour tracer les trajectoires de flux sous forme de courbes sur l’écran.
La figure 22.5 montre un flux de cinq grains, chacun ayant une enveloppe quasi gaussienne et un
retard variable avant le grain suivant. Nous parlons de « quasi synchrone », car les grains se succèdent
à des intervalles plus ou moins égaux. Lorsque l’intervalle entre les grains est égal, l’enveloppe globale
du flux de grains forme une fonction périodique. Comme l’enveloppe est périodique, le signal généré
par la QSGS peut être analysé comme un cas de modulation d’amplitude (MA). La MA apparaît
lorsque la forme d’un signal (la modulante) détermine l’amplitude d’un autre signal (la porteuse).
Voir le chapitre 25 pour plus de détails sur la modulation. Dans ce cas, la porteuse est la forme d’onde
à l’intérieur du grain et la modulante est l’enveloppe du grain.
Amp.
Temps
Figure 22.5 – Flux de cinq grains de 40 ms à 1 060 Hz avec une enveloppe Hanning.
Dans ce cas, la période de retard entre les grains varie légèrement.
Du point de vue du traitement du signal, nous pouvons observer que, pour chaque composant
sinusoïdal dans la porteuse, la fonction d’enveloppe périodique crée une série de bandes secondaires
dans le spectre final. Les bandes secondaires sont des composants fréquentiels additionnels au-
dessus et en dessous de la fréquence de la porteuse. Les bandes secondaires sont séparées de la
porteuse par une distance correspondant à l’inverse de la période de la fonction d’enveloppe. Pour
un flux de grains de 20 ms se suivant les uns les autres, les bandes secondaires du spectre de sortie
sont situées à des intervalles de 50 Hz. La forme de l’enveloppe du grain détermine l’amplitude
précise de ces bandes secondaires.
Le résultat créé par l’effet de modulation de l’enveloppe périodique est un formant entourant la
fréquence de la porteuse. C’est-à-dire, au lieu d’une simple ligne dans le spectre (ne montrant qu’une
seule fréquence), le spectre a l’apparence d’une petite colline (montrant un groupe de fréquences
autour de la porteuse). La QSGS est dans un certain sens similaire aux méthodes de synthèse forman-
tique VOSIM (Kaegi et Tempelaars, 1978) et FOF ou fonction d’onde formantique (Rodet, 1980 ;
Rodet, Potard et Barrière, 1984). Voir le chapitre 28 pour plus de détails sur les synthèses FOF et
VOSIM.
En combinant plusieurs flux de grains quasi synchrones en parallèle (chaque flux créant son propre
formant autour d’une fréquence séparée), le signal peut simuler les résonances de la voix chantée
ou d’instruments acoustiques.
Lorsque les intervalles entre les grains sont irréguliers, comme dans la figure 22.6, ceci conduit à
une finesse contrôlable de la texture du son par un brouillage de la structure formantique (Truax,
1987, 1988). Dans sa forme la plus simple, la méthode de retard variable est similaire à la modulation
d’amplitude (MA) en utilisant un bruit coloré de basse fréquence comme modulante. En soi, ceci
n’est pas très intéressant. La représentation granulaire, quoi qu’il en soit, nous permet de porter cette
technique bien au-delà de la simple MA avec du bruit. En particulier, nous pouvons simultanément
varier plusieurs autres paramètres grain par grain, tels que la forme d’onde, l’amplitude, la durée,
et la position spatiale du grain. À un niveau plus global, nous pouvons également varier dynamique-
ment la densité des grains par seconde pour créer une variété d’effets frappants.
(a)
(b)
Fréq.
(c)
Temps
Figure 22.6 – Description schématique de trois flux

en synthèse granulaire quasi synchrone. Le placement d’un flux sur l’axe vertical indique la fré-
quence du grain (c’est-à-dire la fréquence de la forme d’onde). Le temps de départ entre les grains
est rendu aléatoire.
22.4.4 Synthèse granulaire asynchrone

La synthèse granulaire asynchrone (AGS, Asynchronous Granular Synthesis) donne au compositeur
un pulvérisateur de précision pour le son, où chaque point pulvérisé est un grain sonore (Roads,
1991). L’AGS disperse les grains de façon statistique sur une durée spécifiée à l’intérieur de régions
inscrites dans un plan fréquence-temps. Ces régions sont appelées des nuages — l’unité avec laquelle
le compositeur travaille.
Figure 22.7 – Représentation graphique de paramètres de nuages

dans la synthèse granulaire asynchrone. La colonne 1 montre les domaines typiques des paramètres.
La colonne 2 montre les spécifications de base pour les nuages standards. La colonne 3 montre
d’autres spécifications pour la largeur de bande, la distribution spatiale, la forme d’onde, et la durée
du grain.
Le compositeur spécifie un nuage selon les paramètres suivants, montrés à la figure 22.7.
1. Temps de départ et durée du nuage.
2. Durée du grain (en général de 1 à 100 ms, mais elle peut également varier en dessous et au-
dessus de ces limites). La durée du grain peut être constante, aléatoire à l’intérieur de certaines
limites, dérivée d’une courbe, ou bien elle peut varier en fonction de la fréquence du grain,
avec les grains de haute fréquence ayant des enveloppes plus courtes.
3. Densité des grains par seconde ; par exemple, si la densité est basse, seuls quelques grains
sont dispersés à des points aléatoires à l’intérieur du nuage. Si la densité est élevée, les grains
se superposent pour créer des spectres complexes. La densité peut varier au cours de la
durée du nuage.
4. Largeur de bande du nuage, en général spécifiée par deux courbes formant les limites supé-
rieures et inférieures à l’intérieur desquelles les grains sont éparpillés (nuages cumulus) ; la
fréquence des grains peut également être restreinte à un ensemble de hauteurs spécifiées
(comme dans les nuages stratus).
5. Enveloppe d’amplitude du nuage.
6. Forme(s) d’onde à l’intérieur du grain ; ceci constitue l’un des paramètres les plus puissants
des nuages. Par exemple, chaque grain d’un nuage peut avoir une forme d’onde différente ;
les formes d’onde peuvent être synthétiques ou échantillonnées.
7. Dispersion spatiale des grains dans le nuage, où le nombre de sorties est propre à une implé-
mentation donnée.
En variant ces sept paramètres de l’AGS, on peut réaliser un grand nombre d’effets. Le reste de cette
partie fait un résumé des effets de la durée, de la forme d’onde, de la largeur de bande, de la densité,
et de la spatialisation. Les paramètres de forme d’onde et de largeur de bande ne s’appliquent qu’aux
grains synthétiques, et non aux grains échantillonnés. Pour une analyse plus détaillée des effets
paramétriques de l’AGS, voir Roads (1991).
Comme le montre la figure 22.7, la durée des grains peut être constante (ligne horizontale), variable,
aléatoire à l’intérieur de deux limites, ou dépendante de la fréquence.
La durée des grains change la texture sonore du nuage. De courtes durées créent des sonorités
craquées et explosives, tandis que des durées plus longues créent une impression plus lisse. Une loi
fondamentale du traitement du signal rentre en jeu dans l’établissement de la durée du grain :
plus la durée d’un événement est courte, plus sa largeur de bande est grande. La figure 22.8 démontre
cette loi pour trois signaux élémentaires.
La figure 22.9 montre les effets spectraux de l’abaissement de la durée des grains. Remarquez
comme la largeur de bande s’étend lorsque la durée du grain se rapetisse.
Comme la forme d’onde peut varier de grain en grain, nous pouvons remplir les nuages avec des
grains ayant une seule forme d’onde ou plusieurs formes d’onde. Un nuage monochrome utilise
une seule forme d’onde, tandis qu’un nuage polychrome contient un mélange aléatoire de plusieurs
formes d’onde. Un nuage transchrome mute statistiquement d’une forme d’onde à une autre pendant
la durée du nuage.
Pour un cumulus (figure 22.10a ; voir également figure 22.7, colonne 2) le générateur disperse les
grains de façon aléatoire à l’intérieur de limites de fréquences inférieures et supérieures. En réduisant
ces bandes à un petit intervalle, nous pouvons générer des hauteurs précises. Différents types de
glissandos sont facilement réalisés (figure 22.10b). Une autre spécification possible crée un stratus
(figure 22.10c ; voir également figure 22.7, colonne 3), où les grains sont contraints d’apparaître à
une seule hauteur ou à des hauteurs spécifiques pour créer des accords ou des clusters de hauteur.
(a) (b) (c)
Figure 22.8 – Fonctions dans le domaine temporel (en haut) et fréquentiel (en bas)
de trois signaux élémentaires, d’après Blauert (1983). (a) Sinusoïde de durée infinie correspondant
à une seule ligne du spectre. (b) Grain gaussien et spectre formantique correspondant. (c) Impulsion
brève et spectre infini correspondant.
La densité des grains se combine au paramètre de largeur de bande pour créer différents effets.
Des densités éparses, sans tenir compte de la largeur de bande, créent des textures pointillistes.
À de hautes densités de grains, des bandes fréquentielles resserrées créent des flux de hauteur fixe
ayant un spectre formantique, tandis que des bandes larges (une octave ou plus) génèrent des
blocs massifs de son.

Finalement, dans l’AGS, comme dans toutes les formes de synthèse granulaire, des distributions
spatiales à plusieurs canaux rehaussent la texture granulaire. L’algorithme spatial d’un nuage peut
mettre en jeu des effets aléatoires de dispersion ou de panoramisation pendant la durée du nuage.
22.4.5 Granulation temporelle d’un son échantillonné

La granulation temporelle de sons enregistrés (échantillonnés) fait pénétrer le matériau acoustique
dans une sorte de moissonneuse logique — délivrant des grains dans un nouvel ordre avec un
nouveau microrythme. C’est-à-dire que le granulateur lit une petite partie du son échantillonné
(à partir d’un fichier son ou directement à partir d’un convertisseur analogique numérique) et
applique une enveloppe à la portion lue. L’ordre dans lequel ce grain est émis (c’est-à-dire son retard)
dépend des paramètres sélectionnés par le compositeur.
(a)
(b)
Figure 22.9 – Effet spectral de la durée du grain.

(a) Spectre d’un nuage à une fréquence constante de 500 Hz avec des grains de 100 ms. Remarquez
la région formantique centrée à 500 Hz. Le temps s’écoule de l’arrière à l’avant. (b) Spectre d’un
nuage à une fréquence constante de 500 Hz, mais avec des grains de 1 ms. Remarquez la largeur
du spectre.
(a)
(b)
(c)
Figure 22.10 – Formes de nuages :

(a) cumulus, (b) glissandos, (c) stratus.
La granulation temporelle se fait en trois étapes :

1. Granulation d’un fichier son stocké, comme une note de musique, le son d’un animal, ou un
texte parlé.
2. Granulation continue en temps réel d’un son donné en entrée ou brouillage temporel (Truax,
1987, 1988, 1990a, b).
3. Granulation continue en temps réel d’un son donné en entrée avec lecture à un taux tempo-
rel variable (Truax, 1987, 1988, 1990a, b).
Le premier cas est le plus flexible, car l’on peut extraire les grains du fichier dans n’importe quel ordre.
Par exemple, on peut extraire un seul grand grain d’une caisse claire et cloner une séquence pério-
dique de centaines de grains pour créer un roulement de caisse claire (figure 22.11a). Le générateur
de grains peut également échantillonner aléatoirement les grains d’un fichier plus long, pour
ensuite les réordonner (figure 22.11b). Une extension de cette technique consiste à échantillonner
aléatoirement plusieurs fichiers son et à entrelacer leurs grains pour créer des textures multicolores
(a)
Réplication
(b) 3 2 1 5 4
etc.
Réordonnencement
(c) A B C
Interclassement et réordonnencement
Figure 22.11 – Trois approches de la granulation temporelle de fichiers sonores.

(a) Un grain est extrait et transformé en « rouleau ». (b) Les grains sont extraits de façon aléa-
toire d’un fichier son puis réordonnés. (c) Les grains sont choisis aléatoirement à partir de diffé-
rents fichiers son et réordonnés. Les grains n’ont pas besoin d’être strictement séquencés, et peu-
vent se chevaucher.
(figure 22.11c). Ces tissus sonores entrelacés varient en grande partie selon la hauteur et le timbre
des grains individuels utilisés.
Le second cas s’applique à une granulation en temps réel d’un son continu avec l’ordinateur agissant
en tant que ligne de retard ou fenêtre, qui peut être configurée pour fournir les différents grains.
Voir la description et la configuration de lignes de retard au chapitre 6. Dans ce cas, les effets spec-
traux secondaires distordent et enrichissent le son de façon contrôlable.
Le troisième cas ressemble au précédent à l’exception du taux de lecture qui peut être varié par un
paramètre contrôlant la vitesse à laquelle la synthèse s’avance à travers les échantillons. La lecture
peut varier d’une vitesse normale à un taux abaissé dans lequel un seul échantillon est répété en
continu. Cette méthode peut ainsi être considérée comme une interpolation entre le premier et le
deuxième cas.
22.5 Évaluation de la synthèse granulaire

La synthèse granulaire constitue un corps de techniques diverses n’ayant que le concept de grains
sonores en commun. La représentation granulaire est purement interne dans l’analyse de Fourier
et l’analyse en ondelettes. En fait, un but technique de ces méthodes est de créer l’illusion d’un traite-
ment du signal continu, semblable à une méthode analogique. Une sonorité granulaire n’apparaît
que dans certaines distorsions pathologiques telles qu’une taille de saut trop grande lors d’une
resynthèse additive en superposition (voir le chapitre 11). L’analyse/resynthèse synchrone aux hau-
teurs d’A. Piccialli et de ses collègues rend la représentation granulaire plus explicite. Des techniques
comme la synthèse granulaire quasi synchrone (comme celle développée par B. Truax) ont été
implémentées sur plusieurs plates-formes.
La synthèse granulaire asynchrone (AGS) s’est montrée efficace pour modeler des sons qui seraient
difficiles à décrire avec des techniques plus anciennes. L’AGS éparpille des grains sonores en for-
mations ressemblant à des nuages dans le spectre audio. Le résultat est fréquemment un complexe
sonore particulier qui peut servir de repoussoir aux sons plus lisses et plus stériles émis par les
oscillateurs numériques. Des combinaisons variant dans le temps de nuages conduisent à des effets
spectaculaires tels que l’évaporation, la coalescence et les mutations créées en faisant des fondus
enchaînés de nuages se superposant. Une analogie frappante existe entre ces procédés et ceux créés
dans le domaine visuel par la synthèse de particules (Reeves, 1983). La synthèse de particules a été
utilisée pour créer des textures de feu, d’eau, de nuage, de brouillard et d’herbe qui sont en analogie
avec certains des effets audio possibles avec l’AGS (feu crépitant, eau murmurante, rafales, explo-
sions). Enfin, en combinaison avec la granulation temporelle et la convolution (Roads, 1993a), les
méthodes granulaires passent des techniques de synthèse pure à des applications de transformation
du son.
Chapitre 23
La synthèse pulsar
En juillet 1967, une jeune astronome anglaise détecta par hasard dans le ciel un signal radio pré-
sentant des impulsions périodiques espacées de 1,337 301 130 seconde. L’astre fut baptisé CP 1919
(Cambridge Pulsar, d’ascension droite 19 h 19 min). Aussitôt, l’incrédulité s’empara de la communauté
scientifique : là-bas, au fond du ciel, quelque chose battait la mesure avec une régularité de métronome.
Les temps d’arrivée des impulsions étaient si réguliers — au milliardième de seconde près — que pen-
dant quelque temps on crut qu’il s’agissait d’un message envoyé par une civilisation extraterrestre,
à destination des autres peuples de l’univers. (Jean-Pierre Luminet, 1996)
Toutes les formes de composition musicale — depuis l’improvisation la plus libre jusqu’à l’organi-
sation la plus formelle — sont contraintes par leurs matériaux sonores. Ainsi, le besoin d’étendre
le champ sonore provient d’un désir d’enrichir les possibilités compositionnelles. Il est possible de
beaucoup obtenir de la récolte de formes d’onde synthétiques. Les hybrides qui croisent la richesse
des sons familiers avec des harmoniques peu courants sont particulièrement intéressants.
Ce chapitre décrit une méthode puissante de synthèse sonore numérique qui établit un lien avec
des techniques analogiques du passé. Il s’agit de la synthèse pulsar (SP), nommée d’après les étoiles à
neutrons tournantes qui émettent des signaux périodiques dans le domaine situé entre 0,25 Hz et
642 Hz. Par coïncidence, ce même domaine de fréquences — entre le rythme et le son — est d’un
intérêt central dans la synthèse pulsar.
La SP combine des principes établis à l’intérieur d’un nouveau paradigme. Dans sa forme de base,
elle génère des impulsions électroniques et des sons avec hauteur similaires à ceux produits par
des instruments analogiques comme l’Ondioline (Jenny, 1958 ; Fourier, 1994) et le Hohner Elek-
tronium (1950), qui furent conçus autour du principe de trains d’impulsions filtrés. Les composi-
teurs pionniers de musique électronique comme Karlheinz Stockhausen (1955, 1957, 1961, 1963)
et Gottfried Michael Koenig (1957, 1959, 1962) utilisaient de la génération d’impulsions filtrées
comme pièce centrale de leur travail en studio. La synthèse pulsar est cependant une technique
numérique et elle possède les avantages d’un contrôle programmable précis, d’une flexibilité de la
forme d’onde, d’une interface graphique et de possibilités d’extensions. Dans sa forme plus avancée,
la synthèse pulsar génère un monde de sons échantillonnés croisés structurés rythmiquement.
La SP appartient à une famille plus grande de techniques de synthèse microsonique ou particulaire,

dont un exemple est la synthèse granulaire (Gabor, 1946, 1947, 1952 ; Xenakis, 1960 ; Roads, 1978,
1991, 1996, 2002). Ces techniques créent un flux ou dispersent des particules acoustiques en une
myriade de motifs pour produire des sons variant dans le temps.
Ce chapitre présente tout d’abord la théorie de base des pulsars et des graphiques pulsar. Nous
abordons ensuite la technique plus avancée d’utilisation des pulsars pour transformer des sons
échantillonnés grâce à la synthèse croisée. Nous présentons des applications musicales de synthèse
pulsar dans des compositions de l’auteur. Peu avant la fin du chapitre, nous décrivons les fonctions
d’un programme interactif appelé PulsarGenerator.
23.1 Synthèse pulsar de base

La synthèse pulsar de base génère une famille de timbres musicaux électroniques classiques proches
de ceux produits par un générateur d’impulsions connecté sur un filtre passe-bande. Contrairement
à la technique classique, cependant, il n’existe pas de filtre dans le circuit de la SP de base.
23.1.1 Anatomie d’un pulsar

Un seul pulsar est une particule de son. Il est constitué d’une forme d’onde pulsarette w arbitraire
avec une période t suivie d’un intervalle de temps de silence s (figure 23.1a). La durée totale d’un
pulsar est p = t + s, où p est la période pulsar, t est le cycle de travail, et s est du silence. Les répéti-
tions du signal pulsar forment un train pulsar. Nous définissons la fréquence correspondant à la
période de répétition par fp = 1/p et la fréquence correspondant au cycle de travail par ft = 1/t. Les
gammes typiques de fp se situent entre 1 Hz et 5 kHz, et la gamme typique de ft se situe de 80 Hz
à 10 kHz.
Dans la SP, fp et ft sont des quantités variables de façon continue. Elles sont contrôlées par des courbes
d’enveloppe séparées qui s’étendent sur un train de pulsars. Le train est l’unité d’organisation musi-
cale sur l’échelle temporelle des notes et des phrases. Un train pulsar peut durer entre quelques
centaines de millisecondes jusqu’à une minute ou plus.
Remarquez dans la figure 23.1b que le rapport de travail ou rapport t : s varie tandis que p reste
constant. En effet, il est possible de manipuler simultanément la fréquence fondamentale (le taux
de l’émission pulsar) et ce que nous pourrions appeler une fréquence formantique (correspondant
au cycle de travail), chacune selon des enveloppes séparées. Abaisser la fondamentale signifie aug-
menter s, et augmenter la fondamentale signifie abaisser s.
Pour l’instant, la structure que nous avons décrite est similaire à un générateur d’impulsions stan-
dard. La synthèse pulsar généralise cette configuration de plusieurs façons. Tout d’abord, elle permet
à la pulsarette w d’être n’importe quelle forme d’onde. La figure 23.2 montre certaines formes
d’onde pulsarette typiques, dont celles ayant des sous-périodes multiples à l’intérieur de leur cycle
de travail (figure 23.2b, d et e).
Considérons que w est un seul cycle d’une sinusoïde. Du point de vue du traitement du signal, il peut
être considéré comme une sinusoïde, car il a été limité dans le temps par une fonction rectangulaire
v, que nous appelons l’enveloppe pulsarette. Une généralisation importante est que v peut également
être de n’importe quelle forme. Comme nous le montrons plus loin, l’enveloppe v possède un fort
effet sur le spectre du train pulsar.
La figure 23.3 montre certaines enveloppes pulsarette typiques. Une enveloppe rectangulaire
(figure 23.3a) produit un spectre large avec des pics et des creux forts pour n’importe quelle pulsa-
rette. La figure 23.3g décrit une configuration bien connue pour la synthèse formantique, une
(a) p
t s
1.0
0 Amplitude
w
-1.0
Temps
(b) p p p
... ...
+1
-1
t t t
Temps
Figure 23.1 – Anatomie d’un pulsar.

(a) Un pulsar est constitué d’une brève explosion d’énergie appelée une pulsarette w de durée t suivi
d’un intervalle de silence s. La forme d’onde de la pulsarette, montrée ici sous forme d’une impulsion
à bande limitée, est arbitraire. Il pourrait aussi s’agir d’une sinusoïde ou d’une période d’un son
échantillonné. La durée totale est p = t + s, où p est la période fondamentale du pulsar. (b) Évolu-
tion d’un train pulsar, vue dans le domaine temporel. Au cours du temps, la période pulsar p reste
constante tandis que la période pulsarette t rétrécie. Les ellipses indiquent une période de transition
graduelle contenant de nombreux pulsars entre les trois qui sont montrés.
enveloppe avec une attaque raide suivie d’une extinction exponentielle (Kaegi et Tempelaars, 1978 ;
Rodet, 1980). Cette configuration peut être considérée comme un cas spécial de la synthèse pulsar.
Comme le montre la figure 23.3h, l’enveloppe peut également être un modulateur en anneau bipo-
laire.
Conserver p et w constants et varier t sur une base continue crée l’effet d’un filtre résonant balayé
en travers d’un son. Il n’y a, bien sûr, aucun filtre dans ce circuit. C’est en fait la fréquence corres-
pondant au cycle de travail t qui apparaît dans le spectre sous la forme d’un pic formantique. En
balayant la fréquence de ce pic dans le temps, nous obtenons l’équivalent sonore d’un filtre passe-
bande variant dans le temps appliqué sur un train d’impulsions de base.
(a) (d)
(b) (e)
(c)
Figure 23.2 – Formes d’onde pulsarette typiques.

En pratique, n’importe quelle forme d’onde peut être utilisée. (a) Sinusoïde. (b) Sinusoïde multicycle.
(c) Impulsion à bande limitée. (d) Sinusoïde multicycle en extinction. (e) Forme d’onde pulsar cos-
mique émise par l’étoile à neutron Vela X-1.
1 v
w
0 s
-1 (a) (b)
1
0
t
β (d)
-1 (c)
1
0 } ξ
t
-1 (e) (f)
1
-1 (g) (h)
Figure 23.3 – Enveloppes pulsarette v typiques.

(a) Rectangulaire. (b) Gaussienne. (c) Extinction linéaire. (d) Extinction exponentielle. Le terme β
détermine l’inclinaison de la courbe exponentielle. (e) Attaque linéaire, avec un cycle de travail t.
(f) Attaque exponentielle. Le terme ξ détermine l’inclinaison de la courbe exponentielle. (g) Enveloppe
FOF. (h) Modulateur bipolaire.
23.1.2 Modulation de largeur de pulsarette

La modulation de largeur d’impulsion (MLI) est un effet de synthèse analogique bien connu qui
survient lorsque le cycle de travail d’une impulsion rectangulaire varie tandis que la fréquence fon-
damentale reste constante (figure 23.4a). Cela produit une qualité « en dent-de-scie » anguleuse
lorsque les harmoniques impairs supérieurs augmentent et diminuent pendant le cours de la modu-
lation. Aux extrêmes de la MLI, le signal est du silence. Par exemple, lorsque t = 0, la MLI a pour
résultat un signal d’amplitude nulle (figure 23.4b). Lorsque t = p, la MLI produit un signal d’ampli-
tude constante de 1 (figure 23.4c).
La modulation de largeur de pulsarette (MLPul) étend et améliore ce modèle. Premièrement, la
forme d’onde de pulsarette peut être n’importe quelle forme d’onde arbitraire. Deuxièmement, elle
permet à la fréquence du cycle de travail de passer à travers et en dessous de la fréquence fonda-
mentale. Ici, ft = fp . Remarquez dans la figure 23.4 comment le cycle de travail de la sinusoïde aug-
1
(a) ... ...
0
1
(b) Constante 0
0
1
Constante 1
(c)
0
(d)
(e)
(f)
(g)
Figure 23.4 – MLI et MLPul.

(a) MLI classique avec une forme d’impulsion rectangulaire. Les ellipses indiquent une transition
graduelle entre les impulsions. (b) MLI où le cycle de travail t = 0 a pour résultat un signal d’ampli-
tude nulle. (c) MLI où le cycle de travail t = p (la période fondamentale), avec pour résultat un signal
ayant une amplitude constante de 1. (d) Train pulsar avec une pulsarette sinusoïdale. (e) Même
période que (d), mais le cycle de travail est en augmentation. (f) Le cycle de travail et la période sont
égaux, avec pour résultat une sinusoïde. (g) Le cycle de travail est supérieur à la période fondamen-
tale, ce qui coupe la partie finale de la forme d’onde sinusoïdale.
mente de (d) à (e). Dans (f), p = t. Enfin, dans (g) p < t. C’est-à-dire que le cycle de travail est plus
long que la période fondamentale. Seul le premier quadrant de la sinusoïde se répète. La période
fondamentale coupe le cycle de travail de la pulsarette au milieu de la forme d’onde. Dans notre
implémentation, nous appliquons un temps de fondu enchaîné contrôlé par l’utilisateur autour de
ce point de coupure, que nous appelons le facteur anguleux. Lorsqu’il n’y a pas de fondu enchaîné,
le facteur anguleux est élevé.
Nous avons également testé une approche alternative de la modulation de largeur de pulsar, qui
produit un son différent. Dans la modulation de largeur de pulsarette superposée ou MLPulS, la fré-
quence fondamentale est interprétée comme le taux de l’émission pulsar, indépendamment du
cycle de travail de pulsarette. C’est-à-dire que le cycle de travail d’un pulsar individuel est toujours
achevé, même lorsqu’il passe en dessous de la fréquence fondamentale. Dès que la période fonda-
mentale expire, notre algorithme engendre un nouveau pulsar. Ainsi, lorsque t > p, plusieurs pulsars
se superposent à d’autres dont le cycle de travail n’est pas encore achevé. Lorsque t augmente, le géné-
rateur engendre de plus en plus de pulsars superposés. Pour des raisons pratiques, nous stipulons
une limite de superposition arbitraire. En général, la MLPulS a pour résultat une grande quantité
d’annulations de phase et tend ainsi à être un effet plus subtil que la MLPul normale.
23.1.3 Synthèse parmi des échelles temporelles

La SP opère à l’intérieur et entre des échelles temporelles musicales. Elle génère un flux de particules
microsoniques à un taux variable, en travers du continuum s’étendant sur les pulsations infrasonores
et les fréquences audio. Lorsque la distance entre les impulsions successives est inférieure à environ
un vingtième de seconde, le mécanisme auditif humain les fusionne en un son continu. Ceci est l’effet
de masque en avant (Buser et Imbert, 1992). Comme Helmholtz (1885) l’a observé, dans le domaine
situé entre 20 et 35 Hz, il est difficile de distinguer la hauteur précise d’un son tenu ; une perception
fiable de la hauteur survient aux environs de 40 Hz, selon la forme d’onde. Ainsi, pour une valeur
de p située approximativement entre 25 ms (correspondant à fp = 40 Hz) et 200 μs (correspondant
à fp = 5 kHz), les auditeurs attribuent la caractéristique de hauteur à un son tenu périodique.
Lorsque le taux d’émission pulsar ralentit et traverse le seuil des fréquences infrasonores (fp < 20 Hz),
la sensation de son continu s’évapore, et nous pouvons percevoir chaque pulsar séparément. Lorsque
la fondamentale fp tombe entre 62,5 ms (correspondant à la durée d’une triple croche à un tempo
de 60) et 8 s (correspondant à une durée de deux rondes liées à un tempo de 60), nous entendons
du rythme. L’enveloppe de la fréquence fondamentale devient un graphique de rythme, sous la forme
d’une fonction dessinée à l’écran (figure 23.5). Un tel graphique pulsar peut servir de forme de
notation alternative pour une dimension de la structure rythmique, plus exactement le temps de
départ des événements. La correspondance entre les unités musicales de structure rythmique
(valeurs de note, n-olets, silences, etc.) peut être éclaircie en traçant les valeurs de note sur l’échelle
verticale ou de fréquence. Par exemple, en considérant un tempo de 60, une fréquence de 5 Hz cor-
respond à un quintolet. Remarquez que la durée des événements n’est pas représentée par un gra-
phique pulsar à deux dimensions, mais pourrait être représentée en ajoutant une troisième dimen-
sion au tracé.
Afin d’interpréter le rythme généré par une fonction inscrite sur un graphique d’impulsion, on doit
calculer la durée de la courbe d’émission de grains à un taux de fréquence fixe donné. Par exemple,
une émission de grains à 4 Hz durant 0,75 s émet 3 grains. Lorsque l’émission de grains passe d’une
valeur à la suivante, le pulsar correspondant à la nouvelle durée est immédiatement lu, suivi d’un
silence égal à la période d’émission de grains. La figure 23.5 trace un rythme qui alterne entre
impulsions à taux fixes, accelerandos et silence.
 16
 8
3
 4
  3
  2
 1
 0.5
 0.25
  0.12
0
0 1 2 3 4 5 6 7 8 9
Temps
Amplitude
Temps
Figure 23.5 – Rythmes pulsar.

(En haut) Graphique d’impulsion de rythme montrant un taux d’émission pulsar (échelle verticale)
tracé en fonction du temps (échelle horizontale). L’échelle de gauche mesure les valeurs de note tra-
ditionnelles, tandis que l’échelle de droite mesure les fréquences. (En bas) Image dans le domaine
temporel du train pulsar généré correspondant au tracé du dessus.
23.2 Spectres de la synthèse pulsar de base

Le spectre du flux pulsar est le produit de la convolution de w et v, altéré en fréquence par ft et fp.
Comme w et v peuvent être des formes d’onde arbitraires et que ft et fp peuvent varier de façon con-
tinue, la gamme de spectres produite par la SP est assez large.
Lorsque la fréquence formantique est réglée sur une fréquence spécifique, par exemple 1 kHz, cela
diffuse l’énergie dans cette région du spectre. La façon précise dont l’énergie est diffusée dépend
de w et de v. La forme d’onde de pulsarette w peut être considérée comme un modèle de forme de
spectre qui se répète à la fréquence fondamentale fp stipulée et est échelonnée dans le temps par le
cycle de travail ou par la fréquence formantique ft. Si, par exemple, le rapport des amplitudes des
cinq premiers harmoniques de w est 5:4:3:2:1, ce rapport est préservé indépendamment de p et de t,

lorsque fp = ft.
La contribution de l’enveloppe pulsarette sur le spectre est importante. La figure 23.6 montre les
spectres de pulsars individuels où la forme d’onde w est fixe sous forme d’une sinusoïde et l’enve-
loppe pulsarette v varie entre trois formes de base. Dans le cas de la figure 23.6a, v est rectangulaire.
Du coup, le spectre formantique prend la forme d’une fonction sinc large dans le domaine fréquentiel.
Le spectre montre de forts pics aux facteurs de 1,5 ft , 2,5 ft , etc., et des creux aux harmoniques de ft.
Ceci est caractéristique d’une fonction sinc. Une enveloppe en extinction exponentielle ou extexpo
(comme dans la figure 23.3d) tend à lisser les pics et les vallées dans le spectre (figure 23.6b).
L’enveloppe gaussienne en forme de cloche compresse l’énergie spectrale, en la centrant autour de
la fréquence formantique (figure 23.6c).
Rect Expodec Gauss

5 kHz
4 kHz
3 kHz
2 kHz
1 kHz
0 dB
-30 dB
-65 dB
500 Hz 8 kHz 500 Hz 8 kHz 500 Hz 8 kHz
Figure 23.6 – Effet de l’enveloppe pulsarette sur le spectre.

La rangée du haut présente des sonagrammes fréquence en fonction du temps d’un pulsar individuel
avec une pulsarette sinusoïdale, une fréquence fondamentale de 12 Hz et une fréquence formantique
de 500 Hz. Les sonagrammes sont basés sur des tracés de transformée de Fourier rapide à
1 024 points utilisant une fenêtre Von Hann, et sont tracés sur une échelle de fréquence linéaire. De
gauche à droite, nous voyons le sonagramme produit par une enveloppe rectangulaire, une enve-
loppe expodec, et une enveloppe gaussienne. La rangée du bas trace les spectres de ces pulsars
sur une échelle en dB.
Ainsi, en modifiant l’enveloppe pulsarette, on peut altérer le profil du spectre du pulsar. Voir Roads
(2001) pour une analyse mathématique de l’effet de l’enveloppe pulsarette sur le spectre.
23.3 Synthèse pulsar avancée

La technique présentée jusqu’ici, la synthèse pulsar de base, est le point de départ de la synthèse
pulsar avancée. La technique avancée ajoute plusieurs fonctions qui emmènent la méthode au-delà
du royaume des sonorités électroniques vintage. En particulier, la synthèse pulsar avancée est cons-
truite sur trois principes.
1. Générateurs pulsar multiples partageant une fréquence fondamentale commune, mais avec
un formant et des trajectoires spatiales individuels.
2. Masquage d’impulsion pour modeler le rythme du train pulsar.
3. Convolution de trains pulsar avec des sons échantillonnés.
La figure 23.7 montre le schéma de la synthèse pulsar avancée. Les différentes parties de ce schéma
sont expliquées dans les paragraphes suivants.
23.3.1 Générateurs pulsar multiples

Un générateur pulsar possède sept paramètres :
1. Durée du train pulsar.
2. Enveloppe fp de la fréquence fondamentale du train pulsar.
3. Enveloppe ft de la fréquence formantique de la pulsarette.
4. Forme d’onde de la pulsarette w.
5. Enveloppe pulsarette v.
6. Enveloppe d’amplitude a du train pulsar.
7. Trajet spatial s du train pulsar.
Le train pulsar individuel est le cas le plus simple. Pour synthétiser un son complexe avec plusieurs
pics de résonance, nous pouvons ajouter plusieurs trains pulsar avec la même fréquence fonda-
mentale, mais avec des fréquences formantiques ft différentes variant dans le temps. Une enveloppe
contrôle leur fréquence fondamentale commune, tandis qu’au moins deux enveloppes séparées
contrôlent leurs trajectoires formantiques ft1, ft2, etc.
L’une des fonctions uniques de la synthèse pulsar est que chaque formant peut suivre son propre
trajet spatial. Ceci conduit à des interactions spatiales complexes à l’intérieur d’un seul son ou d’une
phrase rythmique.
23.3.2 Masquage pulsar

Un générateur pulsar émet une séquence métronomique de pulsars, où le taux d’émission peut
varier dans le temps selon la fonction fp d’enveloppe de fréquence fondamentale. Le masquage pulsar
rompt le flux en introduisant des intermittences (régulières ou irrégulières) dans la séquence métro-
nomique. Il supprime des pulsarettes individuelles, en laissant à la place un intervalle de silence.
Ceci prend trois formes : masquage d’explosion, de canal et stochastique.
Le masquage d’explosion (figure 23.8a) modèle les générateurs d’explosion des studios de musique
électronique classiques. Il produit un modèle régulier de pulsarettes qui sont interrompues à inter-
valles réguliers. Le modèle activé-désactivé peut être stipulé comme le rapport d’explosion e:r, où e est
la longueur d’explosion en périodes pulsarette et r est une longueur de repos en périodes pulsarette.
Par exemple, un rapport e:r de 4:2 produit une séquence alternante de quatre pulsarettes et deux
périodes de silence : 111100111100111100111100… Si la fréquence fondamentale est infrasonore,
l’effet est rythmique. Lorsque la fondamentale est située dans la gamme des fréquences audio,
Microphone
Générateur Générateur Générateur
enveloppe enveloppe enveloppe
amplitude fréq. fond. formantique
a fp fd
Préamplificateur
Générateur
pulsar
GP
Convertisseur
analogique-numérique Enveloppe Pulsarette w
pulsarette v
Explosion
Enregistrement et Masquage
édition dans un pulsar Canal
éditeur de son Stochastique
Base
Base de données de données
de sons de trains
échantillonnés pulsars
Convolution
Base
de données
de trains
pulsars
convolvés
Mixage de trains pulsars convolvés
Sortie
Figure 23.7 – Schéma de la synthèse pulsar.

Un générateur pulsar avec des contrôles d’enveloppe séparés pour la fréquence fondamentale, la
fréquence formantique, l’amplitude, le masquage stochastique et la position spatiale. Dans la syn-
thèse pulsar avancée, plusieurs générateurs peuvent être liés avec des enveloppes formantiques et
spatiales séparées. Un flux pulsar peut être convolvé avec un son échantillonné.
(a)
qqqqqqqqqqqqqqq ...
qqqŒŒŒqqqŒŒŒqqq ...
qqqŒ Œ ŒqŒqŒqŒ ŒqŒqŒ ŒqqqŒ Œq

(b)
1
2 Œ Œ Œ qqqŒ q ŒqŒ qqŒ qŒ qqŒ Œ Œ qqŒ
(c) 1
Probabilité
Courbe
de masquage
0
Temps
qqqŒqŒŒŒŒŒqŒŒŒŒŒqŒqqŒqqq
Figure 23.8 – Le masquage pulsar transforme un train régulier en train irrégulier.
Les pulsars sont illustrés sous forme de noires et les pulsars masqués sont indiqués sous forme de
soupirs. (a) Masquage d’explosion. Le rapport d’explosion est ici de 3:3. (b) Masquage de canal.
(c) Masquage stochastique selon un tableau de probabilité. Lorsque la probabilité est de 1, il n’y a pas
de masquage. Lorsque la probabilité est de 0, il n’y a pas de pulsars. Dans le milieu, le train pulsar
est intermittent. Remarquez l’éclaircissement de la texture lorsque la courbe de probabilité plonge
au centre.
le masquage d’explosion impose un effet de modulation d’amplitude sur le timbre (figure 23.9),
en divisant la fréquence fondamentale en fréquences sous-harmoniques e + r.
Le masquage de canal (figure 23.8b) supprime des pulsars dans des canaux alternatifs. En masquant
de façon sélective des pulsars dans deux canaux 1 et 2, on crée un dialogue à l’intérieur d’une phrase,
en articulant chaque canal chacun son tour. La figure 23.8b ne montre que deux canaux, mais nous
pouvons généraliser ce schéma à N canaux.
Le masquage stochastique introduit une intermittence aléatoire dans le flux régulier de pulsars.
Nous avons implémenté le masquage stochastique sous la forme d’une probabilité pondérée qu’un
5 kHz
4 kHz
3 kHz
2 kHz
1 kHz
400 Hz
266 Hz
133 Hz
Temps
Démarrage du masquage d’explosion 2:1
1/400 s 1/133 s
Figure 23.9 – Sonagramme illustrant l’effet de masquage d’explosion

dans la gamme des fréquences audio. La pulsarette est un cycle de sinusoïde et l’enveloppe pulsarette
est rectangulaire. Le rapport e:r est de 2:1. La fréquence fondamentale est 100 Hz et la fréquence
formantique est 400 Hz. Remarquez les sous-harmoniques à 133 Hz et 266 Hz causés par la pério-
dicité étendue de l’intervalle de masquage d’impulsion (400 Hz/3).
pulsar sera émis à un point particulier dans un train pulsar. La probabilité est exprimée sous la
forme d’une enveloppe couvrant la durée du train pulsar. Lorsque la valeur de l’enveloppe est de 1,
un pulsar est émis. Si la valeur est inférieure à 1, il y a moins de possibilités. Une valeur de 0 a pour
résultat une absence d’émission de pulsars. Des valeurs situées entre 0,9 et 0,8 produisent une inter-
mittence intéressante ressemblant à des sons analogiques, comme s’il existait un contact erratique
dans le circuit de synthèse (figure 23.8c).
23.3.3 Transformation de sons échantillonnés par la convolution

avec des pulsars
La technique de synthèse pulsar peut être aménagée pour devenir une méthode de transformation
du son à travers la technique de la convolution. La convolution est fondamentale à la physique des
ondes (Rabiner et Gold, 1975). Elle « croise » deux signaux, en créant un nouveau signal qui combine
les structures temporelles et les spectres des deux entrées. De nombreuses transformations émergent
de la convolution, y compris des filtres exotiques, des spatialiseurs, des modèles d’excitation/réso-
nance, et toute une palette de transformations temporelles (échos, réverbération, lissage d’attaque,
application de rythme). Voir Roads (1992, 1993b, 1997) pour des applications de la convolution dans
la transformation du son musicale. La convolution pure ne possède pas de paramètres de contrôle.
C’est-à-dire que le type d’effet obtenu dépend entièrement de la nature des signaux d’entrée.
Des transformations sophistiquées mettant en jeu du rythme et de l’application spatiale peuvent
être obtenues à travers la convolution. Il est bien connu que n’importe quelle série d’impulsions
convolvée avec un son bref applique ce son dans le modèle temporel des impulsions. Ces impulsions
peuvent être émises par un générateur pulsar comme celui que nous avons implémenté. Si la fré-
quence du train pulsar est située dans la gamme infrasonore, chaque pulsar est remplacé par une
copie de l’objet sonore échantillonné, en créant un modèle rythmique. La convolution d’un modèle
rythmique avec un objet sonore a pour effet que chaque impulsion est remplacée par une copie filtrée
de l’objet sonore. Chaque occurrence de l’objet échantillonné est projetée dans l’espace selon l’empla-
cement spatial d’un pulsar spécifique.
Dans la convolution, chaque pulsar représente la réponse impulsionnelle d’un filtre. Ainsi, les
variations de timbre peuvent provenir de deux facteurs : (1) effets de filtrage imposés par le train pulsar
variant dans le temps, et (2) effets de superposition causés par la convolution avec des trains pulsar
dont la période fondamentale est plus courte que la durée du son échantillonné.
La figure 23.10 montre les effets temporels et filtrants de la convolution sous la forme de sona-
grammes. Le signal d’entrée (a) est le mot italien qui (prononcé « koui »). Il est convolvé avec le train
pulsar (b) avec une fréquence fondamentale infrasonore variable et une fréquence formantique
audio variable. La convolution résultante (c) combine la structure temporelle et les spectres des
deux signaux.
Une base de données d’objets sonores échantillonnés peut être constituée pour croiser avec des trains
sélectionnés dans la base de données pulsar. Si le but de la synthèse est de retenir la structure tempo-
relle du train pulsar (par exemple, maintenir un rythme spécifique), les objets sonores échantillonnés
doivent être de courte durée (inférieure à la période fondamentale du train pulsar) et avoir une attaque
raide (un temps de montée inférieur à 100 ms). Ces contraintes minimisent les effets de brouillage
temporel de la convolution (Roads, 1992, 1993b, 1997). Ainsi, un bon point de départ pour une base
de données sonore est une collection d’échantillons de percussion. Les contraintes peuvent être
assouplies si l’on recherche une texture plus lisse et plus continue. Les échantillons ayant de longues
durées superposent des copies multiples de l’objet échantillonné, en créant un flux sonore ondoyant.
Les échantillons ayant des attaques lentes troublent le départ de chaque copie échantillonnée, en
brouillant le flux en un continuum. Ainsi, en contrôlant la forme d’attaque de l’échantillon, on possède
un moyen pour gérer la texture sonore.
(a) 0 Hz Fréquence 5 kHz
Temps
(b)
*
=
(c)
Temps
Figure 23.10 – Effet de la convolution avec un train pulsar.

(a) Train pulsar infrasonore avec une fréquence fondamentale et formantique variable. (b) Son
échantillonné, le mot italien « qui » (prononcé « koui »). (c) Convolution de (a) et (b).
23.4 Implémentations de la synthèse pulsar

L’auteur de ce livre a développé la première implémentation de la SP en 1991, en utilisant Synth-O-
Matic de James McCartney, un environnement de synthèse sonore programmable pour ordinateurs
Apple Macintosh (McCartney, 1990, 1994). En 1996, M. McCartney remplaça Synth-O-Matic par
SuperCollider 1 — un langage de programmation orienté objet fonctionnant sur Power Macintosh
(McCartney, 1996). En utilisant SuperCollider 1, Stephen T. Pope et l’auteur ont créé une nouvelle
implémentation de la SP de base en 1997.
En se basant sur un SuperCollider 2 amélioré (McCartney, 1998), Alberto de Campo et l’auteur ont
développé une nouvelle réalisation de la synthèse pulsar. Ils l’ont présenté en 1999 lors d’un cours
Figure 23.11 – Panneau de contrôle de l’application PulsarGenerator

par Alberto de Campo et Curtis Roads. Copyright Alberto de Campo, Curtis Roads et les régents de
l’University of California, Santa Barbara, 2000.
d’été au Center for New Music and Audio Technology de l’université de Berkeley. Des raffinements
ultérieurs de ce prototype conduisirent à l’application PulsarGenerator, distribuée par CREATE. La
figure 23.11 présente l’interface graphique de PulsarGenerator, version 1. Remarquez les enveloppes
de contrôle pour les variables de synthèse. Ces enveloppes peuvent être conçues avant la synthèse, ou
manipulées en temps réel lorsque l’instrument joue. Alberto de Campo a implémenté un schéma
pour enregistrer et charger ces enveloppes dans des groupes appelés réglages. Le programme permet
d’effectuer des fondus enchaînés à un taux variable entre des réglages multiples, ce qui fait passer
l’interprétation avec PulsarGenerator à un autre niveau de complexité de la synthèse.
Dans les techniques de synthèse basées sur les ondes, un algorithme boucle dans une table d’onde
et varie le signal selon des fonctions de contrôle mises à jour relativement lentement. Ainsi, l’efficacité
de la synthèse correspond au nombre de générateurs élémentaires simultanés (oscillateurs, filtres,
etc.). Par contraste, la synthèse particulaire est plus gourmande, car l’algorithme de synthèse doit
également gérer la tâche d’inscrire jusqu’à plusieurs milliers d’événements par seconde, chacun pou-
vant être unique. L’efficacité de la synthèse pulsar est ainsi liée au taux d’émission de particule. Des
tests effectués par les programmateurs ont montré que des taux d’émission pulsar supérieurs à
6 000 pulsars/s (correspondant à un instrument à trois formants à une fréquence fondamentale de
2 kHz), peuvent facilement être obtenus avec un processeur Apple G4 ayant une vitesse d’horloge
supérieure ou égale à 500 MHz.
23.5 Composer avec les pulsars

Interagir avec PulsarGenerator en temps réel revient à expérimenter sur des idées sonores. Au cours
de l’expérimentation, un compositeur peut enregistrer plusieurs réglages et prévoir comment ceux-ci
seront utilisés à l’intérieur d’une composition. Le programme PulsarGenerator peut également enre-
gistrer les sons produits lors d’une séance en temps réel. Cette séance peut être éditée par le com-
positeur et par la suite convolvée ou mélangée avec d’autres matériaux sonores.
Une étape finale de la composition pulsar est de fusionner des trains multiples pour former une
texture composite. Il s’agit d’une question de montage, et celle-ci est mieux gérée par un logiciel
d’édition et de mélange conçu à cet effet. Chaque couche de la texture peut posséder son propre modèle
rythmique, son enveloppe de fréquence formantique, son choix d’objets convolvés et son trajet spatial.
En travaillant sur une variété d’échelles temporelles, un compositeur peut appliquer des transfor-
mations de traitement du signal sur des pulsars individuels, des trains pulsar et des textures pulsar.
Ces dernières peuvent inclure du mélange avec d’autres sons, du filtrage, des modulations, de la
réverbération, etc.
23.6 Applications musicales de la synthèse pulsar

L’auteur a développé la synthèse pulsar au cours de la réalisation de Clang-tint (Roads, 1993a), une
composition musicale électronique qui fut commandée par le Ministère de la Culture japonais
(Bunka-cho) et le Kunitachi College of Music, Tokyo. Le second mouvement de cette œuvre, nommé
Organic, se concentre sur le phrasé expressif. Il combine des explosions de sons d’insectes, d’animaux
et d’oiseaux avec des sons impulsifs électroniques. La palette sonore électronique est basée sur la
synthèse pulsar sous de multiples formes : tops d’écho pulsants, sons formantiques allongés et nuages
de pulsars asynchrones. En ce qui concerne ces derniers, l’auteur généra d’abord de multiples trains
pulsar infrasonores, chacun battant à une fréquence différente dans la gamme située de 6 à 18 Hz.
Il les mélangea ensuite ensemble pour obtenir les nuages de pulsars asynchrones.
Le matériau brut de la composition musicale électronique Half-life, composée en 1998 et 1999 par
l’auteur, est un train pulsar d’une minute qui varie énormément. La plupart des sons dans le reste
de la pièce furent dérivés de cette source. Half-life étend le matériau pulsar grâce à des procédés de
granulation, de microfiltration, de déplacement de hauteur granulaire, d’écho avec rétroaction
recirculante, de modelage d’amplitude de pulsar individuel et de réverbération sélective. De façon
similaire, Tenth vortex (2000) et Eleventh vortex (2001) de l’auteur, sont tous deux des granulations
d’un train pulsar.
23.7 Conclusion
La musique passe à travers de multiples échelles temporelles, depuis la macrostructure de haut niveau
jusqu’à une myriade d’objets sonores individuels ou notes. En dessous de ce niveau se trouve une
autre hiérarchie d’échelles temporelles. Ici se trouvent les particules microsoniques comme les
impulsions rectangulaires classiques, les grains, les ondelettes et les pulsars (Roads, 1999). La géné-
ration d’impulsions en tant que moyen efficace de synthèse musicale fut établie il y a plusieurs
décennies dans le studio électronique analogique. Par comparaison, la synthèse pulsar numérique
offre un choix flexible de formes d’onde et d’enveloppes, une précision accrue et un contrôle pro-
grammable graphique.
Contrairement aux techniques de synthèse basées sur les ondes, la notion de rythme est construite
dans les techniques basées sur les particules. Rythme, hauteur et timbre sont tous reliés, mais peuvent
être contrôlés séparément. La synthèse pulsar offre un lien invisible entre les échelles temporelles
des rythmes individuels de particules, des hauteurs périodiques et du niveau de composition méso
(c’est-à-dire de la phrase). Une autre nouvelle fonction de cette technique est la génération de
multiples trajectoires formantiques indépendantes, chacune suivant son propre trajet spatial.
Comme ce chapitre l’a montré, la technique pulsar de base peut être étendue pour créer une large
famille de structures musicales : impulsions singulières, séquences rythmiques, sons continus,
phrases variant dans le temps et textures en battement. Les microévénements pulsar peuvent être
déployés en séquences rythmiques ou, lorsque la densité des événements est suffisamment élevée,
en sons tenus, permettant ainsi à la composition de passer directement de la microstructure à la
mésostructure.
Chapitre 24
La synthèse soustractive
La synthèse soustractive implique l’utilisation de filtres pour modeler le spectre d’une source sonore.
Lorsque le signal sonore passe à travers le filtre, celui-ci amplifie ou atténue des régions sélectionnées
du spectre de fréquence. Si la source originelle possède un spectre riche et que le filtre est flexible, la
synthèse soustractive peut sculpter des approximations proches de beaucoup de sons naturels
(tels que les voix et les instruments traditionnels), ainsi qu’une grande variété de timbres nouveaux
et non classés.
Le reste de cette partie présente le principal outil de la synthèse soustractive — les filtres — et
conduit ainsi à la partie traitant des techniques d’analyse/resynthèse soustractives. Dans le chapitre 4,
nous examinons plus en détail les opérations internes des filtres. Nous nous contenterons ici de
décrire leurs effets.
24.1 Synthèse soustractive

24.1.1 Introduction aux filtres

Un filtre peut être littéralement n’importe quelle opération effectuée sur un signal (Rabiner et coll.,
1972) ! Mais l’utilisation la plus courante de ce terme évoque des amplifications ou des atténuations
de régions du spectre, et c’est le sens que nous garderons ici. De tels filtres travaillent en utilisant
une des deux méthodes ci-dessous, ou une combinaison des deux :
• Retarder légèrement une copie du signal d’entrée (d’une ou plusieurs périodes d’échantillon-
nage) et la combiner avec le nouveau signal d’entrée (figure 24.1a).
• Retarder une copie du signal de sortie et la combiner avec le signal d’entrée (figure 24.1b).
Bien que la figure 24.1 montre une combinaison par addition (+), celle-ci peut également être une
soustraction (–). Dans tous les cas, la combinaison des signaux originels et des signaux retardés crée
une nouvelle forme d’onde ayant un spectre différent. En introduisant plus de retard ou en mélangeant
les additions et les différences avec de nouvelles combinaisons, on peut construire une grande variété
de types de filtres.
(a)
Retard
Entrée + Sortie
(b)
Retard
Entrée + Sortie
Figure 24.1 – Deux filtres numériques de base.

(a) Retarde l’entrée et l’ajoute (FIR) (alimentation directe).
(b) Retarde la sortie et l’ajoute (IIR) (alimentation rétroactive).
Nous allons maintenant parler des propriétés des différents filtres. Puisque notre but principal est
d’expliquer les applications musicales de la synthèse soustractive, nous ne traiterons pas de la façon
dont les filtres numériques sont implémentés, ni de la théorie mathématique des filtres. Voir également
Moorer (1977) et Moore (1978a, 1978b). Ceux qui possèdent des connaissances en ingénierie peuvent
étudier les textes de Moore (1990), Smith (1985a, 1985b), Oppenheim et Willsky (1983), Rabiner
et Gold (1975), et Oppenheim et Schafer (1975), parmi d’autres.
24.1.2 Types de filtres et courbes de réponse

L’une des façons de caractériser les différents types de filtres est de tracer leur courbe de réponse
amplitude en fonction de la fréquence. Les spécifications de l’équipement audio comprennent en
général une illustration pour la « réponse fréquentielle ». Ce terme est une abréviation de la réponse
amplitude en fonction de la fréquence. La réponse impulsionnelle la plus précise est une ligne droite
qui indique une amplitude linéaire ou plate sur l’ensemble du spectre de fréquence. Ceci signifie que
n’importe quelle fréquence à l’intérieur du domaine du matériel audio passe sans amplification ou
atténuation. La figure 24.2a montre une réponse fréquentielle presque plate, typique d’un système
audio de haute qualité. Nous montrons ici une limite supérieure arbitraire de 25 kHz. Pour des com-
posants audio analogiques de haute qualité tels que des préamplificateurs et des amplificateurs,
la réponse fréquentielle peut s’étendre jusqu’à 100 kHz. Comme le chapitre 1 l’explique, les limites
fréquentielles d’un système audionumérique dépendent du taux d’échantillonnage.
En pratique, le matériel n’est jamais complètement plat. La figure 24.2b montre la réponse fréquen-
tielle d’un système non linéaire tel qu’un petit haut-parleur. Nous pourrions décrire ainsi la réponse
fréquentielle de ce petit haut-parleur : +3, –2,5 dB de 100 Hz à 16 kHz. Ceci signifie que le haut-
parleur amplifie certaines fréquences jusqu’à 3 dB et en atténue d’autres jusqu’à 2,5 dB dans le
domaine spécifié. En dessous de 100 Hz et au-dessus de 16 kHz, la réponse chute de façon raide.
Puisque ceci altère le spectre du signal introduit, le haut-parleur agit comme une sorte de filtre.
(a) +4
+2
-2 Presque plate
-4
-6
Amp.
-8
0 Hz Fréquence 25 kHz
(b) +4
+2
-2
Non linéaire
-4
-6
Amp.
-8
0 Hz Fréquence 18 kHz 25 kHz
Figure 24.2 – Réponse amplitude en fonction de la fréquence,

familièrement appelée « réponse fréquentielle ». L’axe vertical est l’amplitude en décibels, et l’axe
horizontal la fréquence. (a) Réponse presque plate. (b) Réponse non linéaire.
Chaque type de filtre a sa propre courbe de réponse fréquentielle caractéristique. Les courbes de
réponse fréquentielle typiques pour quatre types de filtres de base sont montrées à la figure 24.3 :
passe-bas, passe-haut, passe-bande et coupe-bande.
Les filtres en pente, montrés à la figure 24.4, amplifient ou coupent toutes les fréquences au-dessus ou
en dessous d’un seuil donné. Leur nom peut prêter à confusion, car un filtre en pente haut agit
comme un filtre passe-bas lorsqu’il est paramétré pour couper les hautes fréquences, et un filtre en
pente bas agit comme un filtre passe-haut lorsqu’il est paramétré pour couper les basses fréquences.
Une des propriétés importantes d’un filtre est sa fréquence de coupure. Les figures 24.3 et 24.4 montrent
la fréquence de coupure des filtres passe-bas et passe-haut. Par convention, c’est le point dans le
domaine de fréquence où le filtre réduit le signal de 0,707 par rapport à la valeur maximale. Pourquoi
0,707 ? La puissance du signal à la fréquence de coupure est proportionnelle à l’amplitude du signal
au carré, puisque 0,7072 = 0,5. Ainsi, la fréquence de coupure est également appelée point de demi-
puissance. Un autre terme pour nommer la coupure de fréquence est le point 3 dB (Tempelaars,
1977), car la relation de 0,707 à 1 est proche de –3 dB.
Les composants spectraux atténués en dessous du point de demi-puissance d’un filtre sont dans la
bande de coupure du filtre. Ceux situés au-dessus du point de demi-puissance sont dans la bande
de passage du filtre. La différence entre les fréquences de coupure supérieures et inférieures d’un
filtre passe-bande est la largeur de bande du filtre. La fréquence centrale d’un filtre passe-bande est
le point maximum d’amplitude ; la fréquence centrale d’un filtre coupe-bande est le point minimum
d’amplitude.
Passe-bas Passe-haut
Fréquence Fréquence
de coupure de coupure
Amp. Amp.
Passe-bande Coupe- bande
centrale centrale
Amp. Amp.
Figure 24.3 – Quatre types communs de filtres.
(a) Point de pente haut
Amplification
0 dB
Coupure
Amp.
Fréquence
(b) Point de pente bas
Amplification
0 dB
Coupure
Amp.
Fréquence
Figure 24.4 – Filtres en pente.

(a) Filtre haut en pente. Au-dessus du point de pente, le signal peut être soit amplifié soit coupé.
Si le signal est coupé, l’effet d’un filtre haut en pente est équivalent à celui d’un filtre passe-bas.
(b) Filtre bas en pente. En dessous du point de pente, les fréquences peuvent être amplifiées ou
coupées.
(a)
1.0
0.707
Bande Bande
de passage de coupure
Amp.
0
Fréq.
Fréquence de coupure
(b) Bande
1.0 de
transition
0.707
Bande Bande
de passage de coupure
Amp.
0
Fréq.
Fréquence de coupure
Figure 24.5 – Filtre idéal et filtre non idéal.

(a) Dans un filtre idéal, les fréquences affectées par le filtre peuvent être nettement divisées en une
bande de passage et une bande de coupure, et la coupure est linéaire. (b) Dans un filtre non idéal
(réel), la courbe de réponse contient des rides, et il existe une bande transitoire plus ou moins raide
entre la bande de passage et la bande de coupure.
Dans un filtre idéalement étroit, la fréquence de coupure est une sorte de mur de brique : tout ce qui
est situé en dehors est abaissé au minimum, ce qui divise de façon tranchée la réponse fréquentielle
en une bande de coupure et une bande de passage (figure 24.4a). En fait, la pente d’un filtre n’est
pas linéaire jusqu’à la fréquence de coupure : il y a une ondulation dans la réponse fréquentielle,
et la zone entre la bande de passage et la bande de coupure est appelée la bande de transition
(figure 24.5b).
Le degré d’inclinaison de la pente d’un filtre est en général spécifié en décibels d’atténuation ou
d’amplification par octave, abrégés en « dB/octave ». Par exemple, une pente de 6 dB/octave pour
un filtre passe-bas crée une atténuation légère, tandis qu’une pente de 90 dB/octave crée une coupure
raide (figure 24.6).
L’utilisation de pentes raides ou douces dépend de la situation musicale. Par exemple, un filtre coupe-
bande raide peut être nécessaire pour éliminer un son centré sur une fréquence particulière, tandis
qu’un filtre passe-bas à pente douce peut être la façon la plus discrète d’éliminer du bruit de fond
dans le domaine des hautes fréquences.
(a) 0
-6
Pente douce
-12
Amp. -18
en dB
-24
500 1000 2000 4000 8000
Fréquence
(b)
0
-6 Pente raide
-12
Amp. -18
en dB
-24
500 1000 2000 4000 8000
Fréquence
Figure 24.6 – Courbures de filtre.

(a) Courbure douce. (b) Courbure raide.
24.1.3 Coefficient de qualité et gain

De nombreux filtres passe-bande ont un bouton de réglage (matériel ou logiciel) pour le coefficient
de qualité (Q). Une définition intuitive de Q est qu’il représente le degré de « résonance » à l’intérieur
d’un filtre passe-bande. La figure 24.7 montre un filtre ajusté avec plusieurs valeurs de Q. Lorsque
le Q est élevé, comme dans la courbe intérieure la plus étroite, la réponse fréquentielle est centrée
autour d’une fréquence pic (résonante). Si un filtre à Q élevé est excité par un signal proche de sa
fréquence centrale, le filtre sonne à la fréquence de résonance, c’est-à-dire qu’il rentre en oscillation
pendant quelque temps après le passage du signal.
Amp.
Fréquence
Figure 24.7 – Filtre établi à plusieurs valeurs de Q.

Un Q élevé correspond à une réponse étroite. Le gain (hauteur du pic) est constant.
Q peut être défini précisément pour un filtre passe-bande comme le rapport entre sa fréquence
centrale et l’étendue de sa largeur de bande à son point –3 dB (point de coupure) :
f centrale
Q = -----------------------------------------------------------------
-
f coupure supérieure – f coupure inférieure
où fcentrale est la fréquence centrale du filtre, fcoupure supérieure est le point 3 dB supérieur, et fcoupure inférieure
le point 3 dB inférieur. Remarquez que, lorsque la fréquence centrale est constante, ajuster le Q
revient à ajuster la largeur de bande. Voici un exemple du calcul du Q d’un filtre. Nous pouvons
définir un filtre passe-bande avec une fréquence centrale de 2 000 Hz et des points 3 dB à 1 800 et
2 200 Hz. Ce filtre a un Q de 2 000/(2 200 – 1 800) = 5. Les filtres résonants de Q élevés sont utiles
pour générer des sons de percussions. Les tambours accordés comme les tablas, les woodblocks,
les claves, et les effets de marimba peuvent être simulés en excitant un filtre résonant à Q élevé avec
un train d’impulsions.
Une autre propriété d’un filtre passe-bande ou coupe-bande est son gain. Ceci est la quantité
d’amplification ou de coupure d’une bande fréquentielle. Il apparaît sous la forme de la hauteur ou
de la profondeur de la bande dans une courbe de réponse (figure 24.8). Lorsque l’on passe un
signal à travers un filtre à Q élevé, on doit faire attention de s’assurer que le gain à la fréquence
résonante (la hauteur du pic) ne surcharge pas le système, ce qui cause de la distorsion. De nom-
breux systèmes possèdent des circuits de compensation de gain dans leurs filtres qui préviennent
ce genre de surcharge.
Amp.
Fréquence
Figure 24.8 – Différents facteurs de gain appliqués au même filtre.

La largeur de bande et le Q restent constants.
Un type particulier de filtre passe-bande est appelé un filtre à Q constant. Pour maintenir un Q fixe,
un filtre à Q constant doit varier la largeur de bande en fonction de la fréquence centrale. Par exemple,
lorsque la fréquence centrale est 30 Hz et le Q de 1,5 (ou 3/2), la largeur de bande est de 20 Hz,
puisque 30/20 = 1,5. Mais si nous déplaçons le filtre à 9 kHz et gardons le Q à 1,5, la largeur de
bande doit être égale à 2/3 de sa fréquence centrale, c’est-à-dire 6 000 Hz. La figure 24.10 montre
la courbe de deux filtres à Q constants tracées sur des échelles fréquentielles linéaires et logarith-
miques. Sur l’échelle linéaire (figure 24.9a), le filtre centré à 30 Hz apparaît sous forme de bande
très étroite, tandis que le filtre centré à 9 kHz semble avoir une courbe plus large. Sur l’échelle loga-
rithmique, les filtres ont la même forme (figure 24.9b).
Un filtre à Q constant a comme qualité musicale de ne pas changer l’intervalle de fréquence lorsque
la fréquence centrale change. Par exemple, un filtre à Q constant centré sur La 440 Hz avec un Q
de 1,222 couvre le même intervalle musical qu’un filtre avec un Q de 1,222 centré sur La 880 Hz
(respectivement de Do 260 à Ré 620, et de Do 520 à Ré 1 240).
(a)
1 2
0 2K 4K 6K 8K 10K 12K 14K 16K
Fréquence (linéaire)
(b)
1 2
0
20 40 80 160 320 640 1.2K 2.5K 5K 10K 20K
Fréquence (logarithmique)
Figure 24.9 – Les mêmes filtres à Q constant

tracés sur des échelles linéaires et logarithmiques. Le filtre 1 a une fréquence centrale de 30 Hz et
sa largeur de bande s’étend de 20 à 40 Hz. Le filtre 2 a une fréquence centrale de 9 kHz et s’étend
de 6 à 12 kHz. (a) Échelle linéaire. (b) Échelle logarithmique.
24.1.4 Banques de filtres et égaliseurs

Une banque de filtres est un groupe de filtres alimentés en parallèle par le même signal (figure 24.10).
Chaque filtre est en général un filtre passe-bande étroit fixé sur une fréquence spécifique. Les signaux
filtrés sont souvent combinés pour former le signal de sortie. Lorsque chaque filtre possède son propre
contrôleur de niveau, la banque de filtres est appelée un modeleur de spectre, car les contrôleurs
individuels peuvent radicalement modifier le spectre du signal d’entrée. Un modeleur de spectre peut
être utilisé pour amplifier certaines régions fréquentielles ou en éliminer virtuellement d’autres.
Un autre terme pour le modeleur de spectre est égaliseur. Le filtrage qu’il effectue est une égalisation.
Le terme « égalisation » vient de l’une de ses applications originelles, c’est-à-dire la compensation
d’irrégularités dans la réponse fréquentielle des lignes téléphoniques et des systèmes d’adresses
publiques (Fagen, 1975). Par exemple, si une salle a un fort composant à 150 Hz, un égaliseur élec-
tronique peut atténuer cette fréquence et compenser ainsi cette exagération acoustique.
Un égaliseur graphique possède des contrôleurs qui représentent la courbe de réponse fréquentielle
du filtre (figure 24.11a). Chaque filtre possède une fréquence centrale fixe, une largeur de bande
fixe (en général un tiers d’octave), et un coefficient de qualité Q fixe. Certains égaliseurs permettent
de passer entre différentes configurations de Q. La réponse de chaque filtre peut varier grâce à un
Banque de filtres
15 kHz
12.5 kHz
10 kHz
8 kHz
5 kHz
Signal d'entrée Signal de sortie
2.5 kHz
1 kHz
500 Hz
200 Hz
80 Hz
Figure 24.10 – Modeleur de spectre à dix éléments avec une molette de contrôle
(amplification ou atténuation) associée à chaque bande de fréquence.
fadeur linéaire pour couper ou amplifier les bandes fréquentielles spécifiques. La réponse fré-
quentielle potentielle d’un tel filtre est montrée à la figure 24.11b.
Un égaliseur paramétrique met en jeu un nombre moindre de filtres, mais le contrôle de chacun
d’entre eux est plus flexible. Une situation typique est d’avoir trois ou quatre filtres en parallèle.
L’utilisateur peut ajuster de façon indépendante la fréquence centrale, le Q, et la quantité de coupure
ou d’amplification de chaque filtre. Un filtre semi-paramétrique possède un Q fixe.
24.1.5 Filtres en peigne et filtres passe-tout

Deux autres types de filtres méritent d’être mentionnés ici, bien qu’ils soient présentés au chapitre 4.
Un filtre possédant plusieurs courbes étroites et régulières au sein de sa réponse fréquentielle est
appelé un filtre en peigne. La figure 24.12 montre les courbes de réponse fréquentielle de deux types
de filtres en peigne. L’une possède des entailles profondes et l’autre de grands pics. L’origine du terme
« en peigne » devrait être claire au regard de ces deux courbes. Le chapitre 4 contient une description
plus complète des filtres en peigne et de leurs applications musicales.
Le dernier filtre à mentionner est le filtre passe-tout. Lorsqu’on l’alimente avec un son fixe, un filtre
passe-tout laisse passer toutes les fréquences avec un gain égal — d’où son nom. Le but d’un filtre
passe-tout est d’introduire un déphasage en fonction de la fréquence. Tous les filtres introduisent du
déphasage lorsqu’ils atténuent ou amplifient certaines fréquences, mais le principal effet d’un fil-
tre passe-tout est de déphaser. Si le signal d’entrée n’est pas fixe, le passe-tout colore le signal, en rai-
son des effets de déphasage dépendants de la fréquence. Cette coloration est particulièrement évi-
dente sur des sons transitoires où les relations de phase sont primordiales dans la qualité sonore.
(a)
+12 dB
0 dB
-12 dB
40 100 250 600 1200 4000 10000
(b)
+12
+9
+6
+3
0
-3
-6
-9
-12
0
20 40 80 160 320 640 1.2k 2.5 5 10 20
Fréquence
(logarithmique)
Figure 24.11 – Égaliseur graphique.

(a) Égaliseur graphique sept bandes avec des potentiomètres linéaires fixés à des niveaux arbitraires.
(b) Courbe de réponse potentielle d’un égaliseur graphique sept bandes.
Une application d’un filtre passe-tout est de corriger les déphasages non désirés d’un autre filtre.
Les filtres passe-tout peuvent également être utilisés pour le traitement musical du son. Un filtre
passe-tout peut imposer un déphasage variant dans le temps et dépendant de la fréquence, ce qui
peut ajouter de la richesse aux sons. Les filtres passe-tout sont à la base des réverbérations numé-
riques. Le chapitre 4 présente les applications des filtres passe-tout.
(a)
Amp.
Fréquence
(b)
Amp.
Fréquence
Figure 24.12 – Courbes de réponse de fréquence de filtres en peigne :

(a) peigne FIR ; (b) peigne IIR. (Voir le chapitre 4 pour explication de FIR et IIR.)
24.1.6 Synthèse soustractive variant dans le temps

Les filtres peuvent être fixes ou variants dans le temps. Dans un filtre fixe, toutes les propriétés du filtre
sont prédéfinies et ne changent pas dans le temps. Cette situation est typique d’un enregistrement
courant de musique où l’ingénieur du son définit l’égalisation de chaque canal au commencement
du morceau.
Les filtres variant dans le temps ont de nombreuses applications musicales, particulièrement dans
la musique informatique et la musique électronique où le but est de surpasser les limites des ins-
truments traditionnels. Un filtre passe-bande dont le Q, la fréquence centrale, et l’atténuation changent
au cours du temps peut apporter une énorme variété de coloration du son, particulièrement si le
signal filtré varie également dans le temps. Un exemple de filtre variant dans le temps est la section
d’égaliseurs paramétriques dans une console de mixage. L’ingénieur peut changer le Q, la fréquence
centrale, et la quantité de coupure ou d’amplification à n’importe quel moment lors du mixage,
ou bien ces paramètres peuvent être programmés pour changer automatiquement.
Un des premiers exemples d’un système pour la synthèse soustractive variant dans le temps est le
SYTER (SYstème TEmps Réel) — un processeur de traitement numérique du signal développé à
la fin des années 1970 au Groupe de Recherches Musicales (GRM) à Paris par Jean-François Allouis et
ses collègues (Allouis, 1979 ; Allouis et Bernier, 1982). La presque-totalité du logiciel SYTER a depuis
été portée sur une carte de traitement du signal pour ordinateur personnel (INA/GRM, 1993).
SYTER a été utilisé comme appareillage de synthèse soustractive variant dans le temps par des
compositeurs comme Jean-Claude Risset dans ses compositions Voilements, Lurai, et Echo for John
Pierce. Utilisant le logiciel écrit par Benedict Maillard, SYTER réalisait plusieurs douzaines de filtres
passe-bande à Q élevé en temps réel avec des changements de paramètres dynamiques. Les filtres
pouvaient également être pilotés par des données générées par l’analyse de Fourier d’un son (voir
la prochaine partie sur l’analyse/resynthèse soustractive). Lorsque des sons utilisant toute la largeur
de bande audio tels que l’eau ou le vent étaient traités par le système, les filtres résonants « sonnaient »
en accords et en clusters musicaux. De riches filtres en peigne et des effets de phasing pouvaient
également être créés (voir chapitre 4).
24.2 Analyse/resynthèse soustractive

Comme avec la synthèse additive, le pouvoir de la synthèse soustractive est élargi lorsqu’on lui ajoute
une étape d’analyse. Les systèmes d’analyse/resynthèse basés sur des filtres soustractifs plutôt que
sur des oscillateurs additifs sont capables d’approcher n’importe quel son. En pratique, la plupart des
techniques d’analyse et de réduction de données employées dans l’analyse/resynthèse soustractive
sont équipées pour la synthèse de la parole, puisque la recherche s’est depuis toujours concentrée
sur ce sujet (Flanagan et coll., 1970 ; Flanagan, 1972).
La recherche musicale dans l’analyse/resynthèse soustractive s’est attachée à étendre les outils
orientés vers la parole (tels que le codage prédictif linéaire expliqué plus loin dans ce chapitre) au
domaine des sons musicaux ayant de grandes largeurs de bandes.
24.2.1 Vocodeur
Le système d’analyse/synthèse soustractive originel est le vocodeur, dont la première démonstration
fut faite par un robot parlant au World’s Fair de 1936 à New York (Dudley, 1936, 1939a, 1939b, 1955 ;
Dudley et Watkins, 1939 ; Schroeder, 1966 ; Flanagan, 1972). Le vocodeur analogique classique était
constitué de deux parties. Le premier est un groupe de filtres passe-bande de fréquences fixes dis-
tribués sur toute la largeur de bande audio. La sortie de chaque filtre est connectée à un détecteur
d’enveloppe qui génère une tension proportionnelle à la quantité d’énergie de la fréquence suivie
par le filtre (figure 24.13).
La seconde partie du vocodeur est une banque de filtres passe-bande identiques aux premiers. On
envoie le même signal d’entrée à tous les filtres, et la sortie de chaque filtre est envoyée à son propre
amplificateur contrôlé par tension (Voltage-Controlled Amplifier, VCA). Les sorties de tous les ampli-
ficateurs sont combinées pour ne donner qu’un signal de sortie. Les filtres et les détecteurs de la
première partie génèrent des signaux de contrôle (également appelés fonctions de pilotage) qui
déterminent l’amplitude du signal audio passant des filtres à la seconde partie du vocodeur.
Si l’on se réfère à la figure 24.13, la source A est le signal à partir duquel le spectre formantique est
déduit, par exemple une voix chantante. Si nous traçons la bordure de ce spectre, nous pouvons
l’appeler enveloppe spectrale ou courbe de résonance. La source B est la fonction excitatrice. La fonction
excitatrice est en général un signal de large bande tel qu’un bruit blanc ou un train d’impulsion. La
sortie du vocodeur consiste en la fonction d’excitation de la source B et de l’enveloppe spectrale
variante dans le temps de la voix chantante de la source A. La figure 24.14 montre graphiquement
le procédé du filtrage formantique appliqué à une fonction excitatrice.
Le but originel de la recherche sur le vocodeur était la réduction de données pour la parole synthé-
tisée. Le taux de données et les besoins en canaux des fonctions de pilotage sont véritablement
largement inférieurs à celles du signal originel.
Dans les applications musicales, la séparation des fonctions de pilotage (ou résonance) et des
fonctions d’excitation permet de contrôler indépendamment le rythme, la hauteur et le timbre. Par
exemple, un compositeur peut changer la hauteur d’une voix chantée (en changeant la fréquence de
la fonction d’excitation), mais retenir l’articulation spectrale originelle de la voix. En dilatant ou
Source B (excitation)
Source A
(fonctions de pilotage
ou résonances) Fn ... F3 F2 F1
F1 DE1 A1
F2 DE2 A2
F3 DE3 A3
. .
. .
. .
Fn DEn An ...
Signal
de sortie
Étape 1 Étape 2
Figure 24.13 – Vocodeur.

L’étape 1 est la partie d’analyse, et la 2 celle de la synthèse. « F » signifie Filtre, « DE » Détecteur
d’Enveloppe et « A » Amplificateur contrôlé par tension — un amplificateur dont le gain est déter-
miné par une tension de contrôle envoyée par le détecteur d’enveloppe. La même structure peut être
réalisée sous forme numérique.
compressant les fonctions de pilotage dans le temps, un texte parlé peut être ralenti ou accéléré
sans toucher à la hauteur et sans influer sur la structure formantique.
(a)
Amp.
Fréquence
(b)
1
2
3
4
Amp.
Fréquence
Figure 24.14 – L’effet des filtres formantiques sur une fonction excitatrice.
(a) Vue simplifiée d’une fonction excitatrice comme le spectre produit par les cordes vocales à nu ;
un bourdonnement ayant un certain nombre d’harmoniques d’intensités égales. (b) Vue simplifiée du
spectre d’une voyelle montrant quatre pics formantiques numérotés 1, 2, 3 et 4.
24.3 Codage prédictif linéaire

Le codage prédictif linéaire (CPL) ou prédiction linéaire est une méthode d’analyse/resynthèse
soustractive qui a été largement utilisée dans les applications vocales ou musicales (Atal et Hanauer,
1971 ; Flanagan, 1972 ; Makhoul, 1975 ; Markel et Gray, 1976 ; Cann, 1978, 1979, 1980 ; Moorer,
1979a ; Dodge, 1985 ; Lansky, 1989 ; Dodge, 1989 ; Depalle, 1991). Le CPL prend un son tel qu’une
voix parlée, l’analyse sous forme de réduction de données, et en resynthétise une approximation.
La parole CPL est assez efficace dans le sens qu’elle requière beaucoup moins de données que la
parole échantillonnée ; un circuit intégré peu onéreux pour la parole CPL fut développé au début
des années 1980 et construit dans des jouets parlants bon marché (Brightman et Crook, 1982).
Du point de vue du compositeur, la puissance de la technique CPL vient du fait que l’on peut éditer
les données d’analyse et resynthétiser des variations sur le signal d’entrée originel. Le CPL implé-
mente un type de vocodeur. C’est-à-dire qu’il sépare le signal d’excitation de la résonance, rendant
ainsi possible la manipulation indépendante du rythme, de la hauteur et du timbre, et permettant
également une forme de synthèse croisée (expliquée plus bas).
Dans la parole, les cordes vocales génèrent des fonctions excitatrices bourdonnantes et le reste de
l’appareil filtre le son pour créer des résonances. La fréquence de l’impulsion excitatrice détermine
la hauteur du son de sortie. Comme le CPL permet à l’utilisateur de manipuler l’excitation de façon
indépendante, on peut varier la hauteur d’excitation pour transformer une voix parlée en voix
chantée, par exemple.
24.3.1 Qu’est-ce que la prédiction linéaire ?

La prédiction linéaire tire son nom obscur du fait que, dans la partie d’analyse spectrale du système,
les échantillons de sortie sont « prédits » par combinaison linéaire des paramètres de filtrage (coef-
ficients) et des échantillons précédents. Un algorithme prédictif essaie de trouver les échantillons
situés en dehors d’une région où se trouvent déjà des échantillons. C’est-à-dire que n’importe quelle
extrapolation d’un ensemble d’échantillons est de la prédiction. La possibilité de se tromper est inhé-
rente à la prédiction ; ainsi, les algorithmes prédictifs incluent toujours une estimation d’erreur.
Un prévisionneur simple continue la pente de différence entre le dernier échantillon et l’échantillon
précédent (figure 24.15). Ce type de prévisionneur peut être amélioré en tenant compte de plus
d’échantillons. On peut également tenir compte de l’erreur ou de la différence entre l’échantillon qu’il
prédit et la valeur réelle du signal, si elle est connue (et elle est connue dans le CPL). Puisque le pré-
visionneur regarde les sommes et les différences d’échantillons retardés, il peut être considéré
comme un filtre — un filtre qui décrit la forme d’onde qu’il est en train de traiter. Voir le chapitre 4
pour plus d’informations sur les filtres numériques.
x[n+1]
x[n]
x[n-1]
x[n-2]
Figure 24.15 – La prédiction linéaire fait une extrapolation d’un ensemble de points.
Si nous prenons des clichés réguliers de ces coefficients de filtrage dans le temps, que nous les
inversons, et que nous alimentons le filtre résultant avec un son riche et de large bande, nous devrions
avoir une bonne approximation du spectre variant dans le temps du signal d’entrée originel. Ainsi,
un « effet secondaire » de la prédiction est d’estimer le spectre du signal d’entrée : c’est un point
important. Mais l’estimation de spectre n’est qu’une étape dans l’analyse CPL, les autres étant
appliquées à la hauteur, à l’amplitude, et à la décision voisée/dévoisée. Celles-ci sont brièvement
décrites dans la partie suivante.
24.3.2 Analyse CPL

La figure 24.16 montre une analyse CPL. L’analyse CPL se dirige vers quatre directions différentes :
(1) analyse spectrale en termes formantiques, (2) analyse de hauteur, (3) analyse d’amplitude, et
(4) décision pour savoir si le son était voisé (comportant des harmoniques) ou dévoisé (caractéris-
tique des sons bruiteux). Chaque étape de l’analyse est effectuée selon un concept de trame, où une
trame est une sorte d’instantané du signal. Les trames ont en général des taux de 50 à 200 trames
par seconde dans l’analyse CPL.
✦ Estimation du filtre
Les prochains paragraphes décrivent l’opération d’analyse CPL en termes généraux, mais nous com-
mencerons par un point sur la terminologie du filtre utilisée en analyse CPL. Les ingénieurs décrivent
les filtres passe-bande et coupe-bande en termes de positions de leurs pôles et de leurs zéros (Rabiner
Signal
d'entrée
Coefficients
de filtre
omnipolaire
Analyse (par trame)
formantique Résiduel Erreur
− + Détecteur
de
Hauteur
(par trame)
+ hauteur
Décision
Analyse voisée/dévoisée
voisée/dévoisée
(par trame)
Détecteur Amplitude RMS

d'amplitude (par trame)
Figure 24.16 – Quatre étapes de l’analyse CPL.

Analyse spectrale (formantique), détection de hauteur, analyse voisée/dévoisée et détection d’ampli-
tude.
et Gold, 1975). Sans rentrer dans le détail des diagrammes pôles zéros (voir les textes spécialisés
dans le traitement du signal), nous pouvons simplement dire qu’un pôle de filtre est son point de
résonance — un pic ou une région formantique dans le tracé du spectre. Au contraire, un zéro est
un point nul ou une entaille dans le spectre.
Lorsqu’un filtre possède plusieurs pics lisses, il est appelé filtre omnipolaire. Ce type de filtre est
caractéristique du CPL, qui sculpte le spectre avec quelques pics formantiques. Un tel modèle est une
approximation raisonnable de nombreux sons émis par la voix humaine et par certains instruments
de musique.
Comme nous l’avons précédemment mentionné, la prédiction linéaire — ou analyse autorégressive
(voir le chapitre 13) — prend simultanément plusieurs échantillons d’entrée en utilisant l’échan-
tillon le plus récent comme référence. Il tente de prédire cet échantillon à partir de l’addition pon-
dérée des coefficients de filtrage et des échantillons passés. Comme effet secondaire de cette pré-
diction, l’algorithme alimente un filtre inverse du spectre du signal d’entrée. L’inverse d’un filtre
omnipolaire est un filtre omnizéro qui crée un certain nombre d’entailles dans les spectres des
signaux qui lui sont envoyés.
L’analyseur CPL fait une approximation de l’inverse du filtre que l’on souhaite avoir pour la synthèse.
Si l’approximation est satisfaisante, le résultat de la prédiction linéaire devrait être le signal excitateur
(figure 24.17). En d’autres termes, le filtre inverse supprime l’effet de l’enveloppe spectrale du son.
L’approximation n’est jamais parfaite, et il existe donc toujours un signal appelé le résiduel, c’est-
à-dire la fonction excitatrice (une série d’impulsions) plus du bruit. Le but de l’analyse spectrale
CPL est de minimiser le résiduel.
Lorsque le filtre inverse a été convenablement ajusté, celui-ci est lui-même inversé pour créer un
filtre de resynthèse. L’inversion de filtre est mathématiquement directe (Rabiner et Gold, 1975) ;
le signe de tous les coefficients du filtre est inversé, et ils sont appliqués aux sorties précédentes au
(a) Filtre
Excitation formantique Excitation
omnipolaire filtrée
+ =
Amp. Amp. Amp.
Fréquence Fréquence Fréquence
(b) Excitation Filtre inverse

filtrée omnizéro Excitation
+ =
Amp. Amp. Amp.
Figure 24.17 – Relation des filtres formantiques et formantiques inverses

dans un cas idéal. (a) Résultat d’un filtre formantique. (b) Résultat d’un filtre formantique inverse.
lieu de l’être aux entrées précédentes. Le filtre est ainsi transformé d’un filtre FIR en un filtre IIR
(voir le chapitre 4). Le chapitre 13 s’étend sur le fonctionnement interne des analyses de filtrage
CPL. Pour une description de l’ingénierie, voir Markel (1972), Makhoul (1975) et Moore (1990).
Le lecteur peut se demander : comment le CPL connaît-il la fonction excitatrice d’un son arbitraire ?
En fait, il ne la connaît pas. Il suppose que l’excitation est, soit un train d’impulsions harmoniques,
soit du bruit blanc. Cette supposition marche relativement bien pour approcher la parole et certains
instruments, mais elle n’est pas un modèle universel pour tous les sons. Ainsi, la méthode CPL
laisse en général des traces artificielles dans les sons resynthétisés. Certaines méthodes amélio-
rées de l’analyse CPL imposent un cluster à multiple impulsion plutôt qu’une seule impulsion à cha-
que période de hauteur, où la forme du cluster (amplitude et espacement entre les impulsions) pro-
vient des données d’analyse (Atal et Remde, 1982). Ceci aide à réduire le côté artificiel de la
resynthèse CPL.
✦ Analyse de hauteur et d’amplitude
La technique de détection de hauteur utilisée dans le CPL peut être n’importe laquelle des techniques
décrites au chapitre 9. La méthode particulière utilisée varie selon les différentes implémentations.
La figure 24.16 montre un schéma tentant d’estimer la hauteur à partir du signal résiduel.
Plusieurs techniques existent pour caractériser l’amplitude de chaque trame. Une façon typique est
de la calculer trame après trame, comme étant une valeur moyenne de la forme d’onde en entrée
décrite par la trame.
✦ Décision voisée/dévoisée
Lorsque la détection de hauteur a été effectuée, l’analyse CPL essaie de prendre la décision voisée/
dévoisée pour chaque trame. Cette décision est importante, car elle détermine si le son est ou non
harmonique lors de la resynthèse. Un son voisé possède une hauteur, comme les voyelles a, e, i, o, u
créées par le bourdonnement des cordes vocales. Un son dévoisé ressemble aux consonnes sifflantes
s et z, aux explosives t et p, ou à la fricative f. En dehors des sons voisés ou dévoisés, il existe une
troisième catégorie d’excitation appelée « voix mixe », combinant un son harmonique et du bruit,
comme dans le g de « gilet ».
En analysant un son d’instrument à vent, les données voisées/dévoisées indiquent en général la
quantité de souffle, et pour un son comme celui du violon, elles peuvent indiquer le bruit résiduel de
l’archet. Lors de la resynthèse, les sons voisés sont modelés par un train d’impulsions harmonique,
tandis que les sons dévoisés sont modelés par du bruit blanc. Les deux sont bien sûr filtrés.
La décision voisée/dévoisée est difficile à automatiser (Hermes, 1992). Dans les systèmes CPL qui
ont été adaptés pour la musique, l’analyse effectue un premier passage lors de la décision, mais le
compositeur est censé apporter des corrections à certaines trames particulières (Moorer, 1979). La
décision au premier passage utilise différentes heuristiques. La figure 24.16 montre le résultat
d’une détection de hauteur alimentant une décision voisée/dévoisée. Par exemple, si l’analyse ne peut
identifier une hauteur dans le signal d’entrée, elle génère une erreur d’estimation de hauteur. Lorsque
cette erreur — normalisée pour être contenue entre 0 et 1 — est supérieure à une certaine valeur
(autour de 0,2), il est considéré à ce moment que l’on est en présence d’un son bruiteux dévoisé
tel qu’une consonne. L’amplitude moyenne du résiduel est une autre indication. Si l’amplitude du
résiduel est faible en comparaison de l’amplitude du signal d’entrée originel, alors le signal est
probablement voisé.
✦ Trames d’analyse
Le résultat d’une étape d’analyse est une série de trames représentant une version du signal d’entrée
dont les données ont été largement réduites. Chaque trame est décrite par une liste de paramètres :
• Amplitude moyenne du son résiduel.
• Amplitude moyenne du son originel.
• Rapport des deux amplitudes (aide à déterminer si la trame est voisée ou dévoisée).
• Hauteur estimée.
• Durée de la trame.
• Coefficients pour le filtre omnipolaire (chaque pôle crée un pic formantique dans le spectre).
La figure 24.18 montre un exemple des données de trame pour le mot « sit » (Dodge, 1985). Les
coefficients de filtres ont été omis par souci de clarté.
La colonne ERR est une indication précieuse pour savoir si la trame est voisée ou non. Une grande
valeur de ERR (supérieure à 0,2) indique en général une trame dévoisée. Mais cet indicateur doit
être vérifié, car la décision voisée/dévoisée est difficilement automatisable. Remarquez comme les
valeurs de ERR changent de façon significative entre S et I. Les valeurs de RMS1 et RMS2 sont un
meilleur indicateur de changement entre I et T.
24.3.3 Synthèse CPL
La figure 24.19 montre l’étape de synthèse du CPL. Le premier paramètre est la durée de la trame,
qui détermine le nombre d’échantillons de sortie générés à partir d’un ensemble donné de para-
mètres. Le paramètre suivant détermine si la trame est voisée ou dévoisée. Pour des trames voisées
Phonème Trame RMS2 RMS1 ERR PITCH DUR
S 197
198
199
813.27
1189.36
553.71
1618.21
2090.14
838.38
0.252
0.323
0.436
937.50
937.50
937.50
0.010
0.010
0.010
200 742.59 1183.17 0.393 937.50 0.010
201 1041.95 1918.33 0.295 123.95 0.010
202 1449.16 2677.06 0.293 123.95 0.010
203 1454.84 2920.50 0.248 937.50 0.010
204 1430.03 2496.88 0.348 937.50 0.010
205 1570.88 2981.21 0.277 142.84 0.010
206 1443.27 2665.22 0.293 142.84 0.010
207 1172.67 2150.50 0.297 150.00 0.010
208 1200.73 2080.20 0.333 150.00 0.010
209 1095.51 2055.25 0.284 116.26 0.010
210 1260.36 2408.14 0.273 116.26 0.010
211 1105.17 2293.05 0.232 937.50 0.010
212 809.10 1659.80 0.237 937.50 0.010
213 428.20 784.93 0.297 250.00 0.010
I 214
215
216
419.45
925.86
746.28
3886.15
6366.20
8046.81
0.011
0.021
0.008
250.00
208.32
208.32
0.010
0.010
0.010
217 829.82 8277.42 0.010 192.29 0.010
218 754.64 8049.50 0.008 192.29 0.010
219 771.84 8001.70 0.009 197.35 0.010
220 726.81 7955.17 0.008 202.69 0.010
221 807.63 7835.20 0.010 202.69 0.010
222 874.27 7732.59 0.012 205.42 0.010
223 776.87 7491.86 0.010 205.42 0.010
224 684.64 7317.04 0.008 205.42 0.010
225 560.87 6297.36 0.007 102.03 0.010
226 175.63 1842.81 0.009 102.03 0.010
227 46.53 1329.09 0.001 197.85 0.010
T 228
229
38.25
39.26
793.00
316.92
0.002
0.032
197.85
202.69
0.010
0.010
Figure 24.18 – Une séquence de trames CPL comme elle pourrait apparaître
pour des besoins d’édition, d’après Dodge (1985). La colonne Phonème est ajoutée par souci de
clarté. La colonne RMS2 indique l’amplitude résiduelle, RMS1 l’amplitude du signal originel. ERR est
une approximation du rapport entre les deux et indique un signal dévoisé si le rapport est trop élevé.
PITCH est la hauteur estimée en Hz et DUR la durée de la trame en secondes.
standards, le synthétiseur utilise le paramètre de hauteur pour simuler la fonction excitatrice (l’onde
glottale) de la voix humaine. C’est un son « bourdonnant » (en général un train d’impulsions de
bande limitée) utilisé pour les voyelles et les diphtongues (séquences de voyelles telles qu’« oy »
dans le mot anglais toy, jouet). Pour les trames dévoisées, le synthétiseur utilise un générateur de
bruit pour simuler la turbulence du conduit vocal.
La sortie du générateur approprié, modelé par le paramètre d’amplitude, sert d’entrée au filtre omni-
polaire. Pour le travail sur la parole et le chant, le filtre omnipolaire simule les résonances du conduit
vocal. Jusqu’à douze pôles dans le filtre omnipolaire sont utilisés pour la synthèse de la parole,
et plus de 55 pôles peuvent être utilisés dans la synthèse de la musique (Moorer, 1979a).
Lecture
des paramètres
édités
Établissement
de la taille de trame
Décision
voisée/dévoisée
Détection
de hauteur
Générateur
de bruit
Générateur
d'impulsion
Multiplicateur
d'amplitude
Filtre
omnipolaire
Signal de sortie
Figure 24.19 – Vue globale de la synthèse CPL.
24.3.4 Édition des données de trame CPL

La technique CPL peut être adaptée du travail sur la parole pure en outil de travail musical, en asso-
ciant un sous-système d’édition et de mixage. Dans un article sur la composition avec le CPL, Dodge
(1985) décrit un langage de commande d’édition qui effectue les opérations montrées au tableau 24.1
sur des trames de paramètre CPL. L’une des principales applications de ces opérations sur les trames
CPL est de transformer l’émission d’une voix parlée en chant. En utilisant le CPL, un mot peut être
dilaté dans le temps, et la courbe de hauteur parlée originelle peut être remplacée par une mélodie
fluide. Les mots et les locutions peuvent être répétés et réarrangés à volonté. Les phrases peuvent
également être compressées dans le temps sans pour autant toucher à leur hauteur originelle.
Des compositeurs tels que Charles Dodge et Paul Lansky ont utilisé le CPL pour atteindre ces effets,
dans des pièces telles que Speech Songs de Dodge (1975), et Six Fantasies on a Poem by Thomas
Campion (1979) et Idle Chatter (1985, disque compact Wergo 2010-50) de Lansky.
Tableau 24.1 – Opérations sur les trames CPL.
Dilater ou compresser la durée de la trame
Dilater la durée des trames entre trame A et trame B
Modifier des valeurs spécifiques de paramètres dans un groupe de trames
Faire une interpolation de valeurs entre un groupe de trames

(ou créer par exemple un glissando de hauteur)
Déplacer des trames du point A au point B
Augmenter l’amplitude d’une trame
Créer un crescendo sur un groupe de trames
Établir la hauteur d’une trame
Appliquer un trille à une trame sur deux
24.3.5 Extensions musicales du CPL standard

Le CPL peut implémenter une forme de synthèse croisée (Mathews, Miller et David, 1961 ; Petersen,
1975 ; Moorer, 1979a). La synthèse croisée a différentes significations selon le système sur lequel
elle est utilisée (CPL, convolution, vocodeur de phase, ondelettes, etc.). En général, elle fait référence
à des techniques qui partent de l’analyse de deux sons et utilisent les caractéristiques de l’un pour
modifier les caractéristiques de l’autre, ce qui implique souvent une transformation spectrale. La
synthèse croisée CPL prend l’excitation d’une source sonore (hauteur et distribution temporelle des
événements) pour piloter l’enveloppe spectrale variante dans le temps provenant de l’autre source.
Par exemple, on peut remplacer le simple signal de train d’impulsions utilisé pour créer une parole
voisée par une forme d’onde complexe, telle que le son d’un orchestre. Le résultat est un « orchestre
parlant ». La figure 24.20 est globalement la même que celle du vocodeur montré à la figure 24.13,
sauf que la fonction excitatrice simple utilisée normalement dans le vocodeur est remplacée par une
source musicale de large bande (source B), et que la méthode interne d’analyse/resynthèse utilise
le CPL.
Source A Source B
(parole) (orchestre)
Coefficients
de filtrage
Analyseur Filtre
CPL Amplitude CPL
« Orchestre parlant »
Figure 24.20 – La synthèse croisée CPL prend l’enveloppe spectrale d’un son
et l’applique à un autre son.
Lorsque l’effet désiré est de faire « parler » la source B, l’intelligibilité de la parole peut être améliorée
en utilisant des sources de très large bande telles qu’un orchestre complet et un chœur — contraire-
ment à une source de bande étroite telle qu’un violon solo. Si nécessaire, la fonction excitatrice peut
également être blanchie pour amener tous les composants spectraux à un niveau uniforme (Moorer,
1979).
Une autre utilisation de la synthèse CPL extrapole la réponse du filtre d’un instrument seul en une
famille d’instruments proches. Par exemple, en commençant par l’analyse d’un violon, on peut cloner
un alto, un violoncelle, et une contrebasse pour avoir un quatuor à cordes (Lansky et Steiglitz, 1981 ;
Moorer, 1981b, 1983a). Ces transformations de filtres peuvent, en théorie, être étendues pour émuler
les résonances de n’importe quel instrument. Dans la musique de Paul Lansky, cette méthode,
appelée prédiction linéaire faussée, a été utilisée pour synthétiser des versions électroniques de
cordes, de saxophones et d’harmonicas (New Albion Records NA 030CD, 1990).
24.3.6 Évaluation du CPL

La parole CPL est intelligible, et il est facile de reconnaître les origines des instruments traditionnels
simulés avec cette technique. Quoi qu’il en soit, le CPL ne produit pas de parole ou de musique de très
haute qualité audio. C’est-à-dire que la réplique synthétique reste distinctive de l’original. Bien que
cela ne l’empêche pas d’être musicalement utile, une amélioration de la qualité serait désirable dans
les applications compositionnelles. Moorer (1977, 1979a) a expérimenté des filtres omnipolaires de
haute qualité et des fonctions excitatrices plus complexes afin de tenter d’améliorer la qualité du CPL.
Sa conclusion est que l’incrément critique de qualité sonore n’est « pas près d’arriver ». Il attribue
ceci à un manque d’outils efficaces pour modeler les fonctions excitatrices. Voir Depalle (1991) pour
une étude des solutions de rechange en matière de modelage du spectre par CPL.
Si la qualité audio du modèle CPL pouvait être améliorée, la synthèse soustractive aurait plusieurs
avantages par rapport à la synthèse additive de sinusoïdes. Par exemple, les manipulations dans
les domaines de la hauteur, du spectre, et du temps peuvent être effectuées de façon indépendante
dans la synthèse soustractive. Dans la synthèse additive, le spectre est en général lié à une hauteur
fondamentale. Ceci signifie que, si la hauteur change, les harmoniques changent également de fré-
quence. De surcroît, le modèle CPL n’est pas sensible à la fréquence de la fonction excitatrice ;
il peut générer des filtres pour des spectres harmoniques et inharmoniques au-dessus du fonda-
mental (Moorer, 1977).
24.3.7 Analyse/resynthèse diphone

Le concept de synthèse diphone fut établi il y a plusieurs décennies dans le contexte de la recherche
sur la parole (Peterson et Barney, 1952 ; Peterson, Wang et Silvertsen, 1958 ; Olive, 1977 ; Schwartz
et coll., 1979). L’idée de base est que la plupart des sons parlés sont constitués d’une série de sons
stables séparés par des sons transitoires. Bien que cette méthode ait été conçue pour créer une parole
intelligible, il existait des distorsions aux points de concaténation. Le concept diphone fut tout
d’abord testé dans le contexte de l’analyse/resynthèse soustractive, ce qui explique pourquoi nous
le présentons dans ce chapitre. Il a depuis été étendu à d’autres types de resynthèses.
En généralisant ce concept de la parole au royaume des sons musicaux, on peut construire des
dictionnaires de sons stables et de sons transitoires pour couvrir une classe particulière de sons,
tels que des sons d’instruments traditionnels. Chaque diphone est codé comme une hauteur à une
intensité particulière. Pour alléger le problème des distorsions aux limites du diphone, la recherche
récente s’est concentrée sur le développement d’un dictionnaire des règles transitoires pour chaque
instrument, ce qui lisse la concaténation de diphones adjacents (Rodet, Depalle et Poirot, 1988 ;
voir également Depalle, 1991). En conséquence, cette recherche est liée au problème de la création
de transitions convaincantes entre les notes (Strawn, 1985a, 1987a). Mais elle offre également la
possibilité de créer des sons hybrides qui lient les diphones de différents instruments. On peut
également créer des diphones synthétiques.
Des sons individuels sont analysés pour créer un dictionnaire ; nous supposons ici que la méthode
d’analyse est le CPL, avec environ 200 trames par seconde pour le signal d’entrée. Si les données sont
dilatées ou compressées, en vue d’un effet musical, des discontinuités peuvent apparaître dans les
signaux changeants rapidement tels que les attaques et les transitions entre les notes. Ainsi, la
méthode diphone réordonne les données d’analyse d’une transition rapide dans une forme qui
permet des transitions continues, même lorsque les données sont soumises à l’articulation et aux
transformations du phrasé. Par exemple, la règle pour dilater ou compresser un diphone peut varier,
selon le diphone d’où l’on vient et le diphone vers lequel on va (Depalle, 1991). À l’intérieur de chaque
diphone existe une zone de non-interpolation qui est gardée intacte sans souci de la transition
(figure 24.21).
N I Transition I N I Transition I N
Diphone 1 Diphone 2 Diphone 3
Figure 24.21 – Transition entre trois diphones.

La ligne grasse indique la trajectoire d’un paramètre de synthèse d’un son qui a été dilaté dans le
temps. La dilatation déborde les zones d’interpolation (I) définies dans chaque diphone et s’étend sur
la zone de transition. Les zones de non-interpolation (N) ne sont pas dilatées, ce qui préserve la partie
centrale du diphone.
Chapitre 25
La synthèse par modulation
« Modulation » en musique électronique et en musique informatique signifie qu’un aspect d’un

signal (la porteuse) varie d’après l’aspect d’un autre signal (la modulante). Les effets bien connus
de trémolo (variation lente d’amplitude) et de vibrato (variation lente de fréquence) dans les ins-
truments traditionnels et les voix sont des exemples de modulation acoustique. Dans ces cas, la
porteuse est un son de hauteur précise, et la modulante varie relativement lentement (moins de
20 Hz). Au bon moment, et à la bonne vitesse, le trémolo et le vibrato donnent de l’expressivité aux
sons électroniques et acoustiques.
Lorsque la fréquence de modulation parvient à la largeur de bande audio (au-dessus de 20 Hz), des
produits de modulation ou bandes latérales audibles commencent à apparaître. Ce sont de nouvelles
fréquences ajoutées au spectre de la porteuse (en général de chaque côté de la porteuse).
La synthèse par modulation est plus efficace, pour parvenir à une même complexité spectrale, que
la synthèse additive et la synthèse soustractive, en ce qui concerne le nombre de données de para-
mètres, les besoins en mémoire et le temps de calcul. La modulation utilise un petit nombre
d’oscillateurs (en général de deux à six), là où les techniques additives et soustractives nécessitent
plusieurs fois cette quantité de puissance de calcul. La modulation est réalisée par quelques lectures
de tables, quelques multiplications, et quelques opérations d’addition, selon le type de modulation
désirée. Comme il y a moins de paramètres que dans les techniques additives ou soustractives, les
musiciens trouvent souvent que les techniques de modulation sont plus faciles à manipuler.
En changeant les valeurs de paramètre dans le temps, les techniques de modulation produisent
facilement des spectres variant dans le temps. Les modulations réglées avec soin génèrent des sons
riches et dynamiques qui s’approchent des sons naturels des instruments. Il est également possible
d’utiliser les modulations de façon non imitative, pour s’aventurer dans le domaine des sons syn-
thétiques non classés.
Dans cette présentation de la modulation, nous utiliserons un minimum de mathématique accom-
pagnée d’une quantité abondante de diagrammes d’instruments ou « patchs ». Ces diagrammes
décrivent les instruments de synthèse sous forme de configuration de générateurs élémentaires de
traitement du signal. Voir le chapitre 17 pour une présentation des générateurs élémentaires.
Le signal modulant peut varier d’une sinusoïde pure à une fréquence fixe jusqu’au bruit blanc
contenant toutes les fréquences. Voir le chapitre 32 pour plus de détails sur les modulations de bruit.
25.1 Signaux bipolaires et unipolaires

Deux méthodes de synthèse proches sont la modulation en anneau et la modulation d’amplitude.
Afin de comprendre les différences qui existent entre elles, il est important de comprendre deux types
de signaux qu’elles traitent : bipolaires et unipolaires. Un signal bipolaire est par exemple la plupart
des formes d’onde audio, car nous voyons qu’il comporte des excursions négatives et positives
autour du zéro lorsque nous l’examinons dans le domaine temporel (figure 25.1a). Au contraire, les
excursions d’un signal unipolaire restent dans l’une des moitiés du domaine complet du système
(figure 25.1b). L’une des façons de se représenter un signal unipolaire est de s’imaginer que c’est un
signal bipolaire auquel une constante est ajoutée. Cette constante déplace toutes les valeurs d’échan-
tillon dans le domaine situé au-dessus de zéro. Un autre terme pour une telle constante est décalage
de courant continu (DC offset) — un signal variant à une fréquence de 0 Hz (c’est-à-dire ne variant
pas).
Figure 25.1 – Sinusoïde bipolaire et sinusoïde unipolaire.

(a) Une sinusoïde bipolaire varie entre –1 et +1. (b) Une sinusoïde unipolaire varie entre 0 et 1.
Cette distinction est importante, car la différence fondamentale entre la modulation en anneau et
la modulation d’amplitude est que la première module deux signaux bipolaires, tandis que la seconde
module un signal bipolaire avec un signal unipolaire. Les deux prochaines parties expliquent les deux
méthodes en détail.
25.2 Modulation en anneau

Nous commencerons notre explication avec la modulation en anneau. En théorie, elle est une forme
de modulation d’amplitude (Black, 1953). Dans les systèmes numériques, la modulation en anneau
est simplement la multiplication de deux signaux bipolaires. C’est-à-dire que le signal porteur P est
multiplié par un signal modulant M. Les signaux de base P et M sont générés à partir de formes
d’onde stockées, et l’une d’entre elles est en général une sinusoïde. La formule pour déterminer la
valeur du signal modulé ModAnn au temps t est une simple multiplication :
ModAnn t = P t × M t
La figure 25.2 montre deux implémentations équivalentes d’un instrument de modulation en
anneau. Dans la figure 25.2b, nous supposons que l’oscillateur porteur multiplie la valeur qu’il lit
dans la table d’onde par la valeur qu’il prend de l’entrée d’amplitude. Dans la figure 25.2b, la multipli-
cation est plus explicite. Dans les deux cas, la modulante et la porteuse varient entre –1 et +1,
puisqu’elles sont bipolaires.
Lorsque la fréquence de la modulante M est inférieure à 20 Hz, l’effet de la modulation en anneau
est que l’amplitude de P varie à la fréquence de M — un effet de trémolo. Mais lorsque la fréquence
de M est dans le domaine audible, le timbre de P change. Pour chaque composant sinusoïdal de la
porteuse, la modulante apporte une paire de bandes latérales au spectre final. Si l’on met deux sinu-
soïdes en entrée, la modulation en anneau génère un spectre qui contient deux bandes latérales. Ces
bandes latérales sont la somme et la différence des fréquences P et M. Curieusement, la fréquence
de la porteuse disparaît. De plus, si P et M sont en rapport entier, les bandes latérales sont harmo-
niques ; sinon elles sont inharmoniques.
Les bandes latérales de la multiplication du signal proviennent d’une identité trigonométrique
standard :
cos ( P ) × cos ( M ) = 0,5 × [ cos ( P – M ) + cos ( C + M ) ]
Une façon de considérer la modulation en anneau est donc de la considérer comme un cas de con-
volution, comme cela est expliqué au chapitre 5.
Pour donner un exemple de la modulation en anneau, supposons que P et M sont des sinusoïdes,
de respectivement 1 000 Hz et 400 Hz. Comme le montre la figure 25.3, le spectre de la modulation
en anneau contient deux composants à 1 400 Hz (somme de P et M) et 600 Hz (différence entre P
et M).
Les phases des composants du signal de sortie sont également la somme et la différence des phases
des deux entrées. Si P et M sont deux signaux plus complexes que des sinusoïdes, ou si leur fré-
quence change dans le temps, le spectre de sortie contient de nombreuses fréquences de sommes
et de différences. Un tracé spectral montrerait de nombreuses lignes, indiquant un spectre com-
pliqué.
25.2.1 Fréquences négatives

Comme le montre la figure 25.3b, lorsque la fréquence de la modulante est plus élevée que celle de
la porteuse, des fréquences négatives apparaissent, comme dans le cas où P = 100 Hz et M = 400 Hz,
puisque P + M = 500, et P – M = –300. Dans un tracé spectral, une fréquence négative peut être
montrée comme une ligne s’étendant en dessous de l’axe des x. Le changement de signe change
simplement le signe de la phase du signal. Lorsque le signe change, la forme d’onde bascule de l’autre
côté de l’axe des x. La phase devient importante lorsque l’on additionne des composants de fré-
(a) Fréquence
modulante
Amplitude
1.0
+1
OSC
MOD -1
Fréquence
Signal porteuse
bipolaire
+1
OSC
-1 POR
Sortie modulée
en anneau
(b) Fréquence Fréquence

porteuse modulante
Amplitude Amplitude
1.0 1.0
+1 +1
OSC OSC
POR MOD
-1 -1
Signal Signal
bipolaire bipolaire
Sortie modulée
en anneau
Figure 25.2 – Deux implémentations équivalentes de la modulation en anneau

ou modulation de signal bipolaire. La boîte située à la gauche de chaque oscillateur est sa forme
d’onde. L’entrée en haut à gauche de chaque oscillateur est l’amplitude, et l’entrée en haut à droite
est la fréquence. (a) Modulation en anneau par multiplication implicite à l’intérieur de l’oscillateur
de la porteuse. (b) Modulation en anneau par multiplication explicite des signaux de porteuse et
de modulante.
(a) 600 Hz 1400 Hz

(P - M) (P + M)
Amp.
400 Hz 1000 Hz
(M) (P)
Fréquence
(b) 500 Hz
(P + M)
100 Hz
(P)
Amp.
400 Hz
(M)
-300 Hz
(P - M)
Figure 25.3 – Spectre de modulation en anneau.

(a) Pour une porteuse à 1 000 Hz et une modulante à 400 Hz, les fréquences de somme et de dif-
férence sont respectivement de 1 400 et 600 Hz. (b) Pour une porteuse de 100 Hz et une modulante
de 400 Hz, les fréquences de somme et de différence sont respectivement de 500 et –300 Hz.
quences identiques, puisque les composants déphasés peuvent atténuer ou supprimer les compo-
sants en phase.
25.2.2 Applications de la modulation en anneau
L’utilisation musicale de la modulation en anneau met en général en jeu la modification de signaux
porteurs échantillonnés (voix humaine, piano, etc.) par des modulantes sinusoïdales. Une autre
stratégie est de créer des sons purement synthétiques en utilisant des sinusoïdes en rapports soit
harmoniques soit inharmoniques. C’est cette approche que le compositeur James Dashow a utilisée
dans des pièces telles que Sequence Symbols (Dashow, 1987).
25.2.3 Modulation en anneau analogique et déplacement des fréquences

La modulation en anneau numérique se repose sur la multiplication des signaux. En général, elle
devrait toujours sonner de la même façon. En comparaison, les circuits analogiques de modulation
en anneau ont tous des « personnalités » différentes, selon la conception et les composants utilisés.
Ceci en raison du fait que les implémentations analogiques font une approximation d’une multipli-
cation en utilisant un circuit à quatre diodes arrangées en une configuration « en anneau ». Selon le
type de diodes (silicone ou germanium), ces circuits introduisent des fréquences externes (Bode,
1967, 1984 ; Stockhausen, 1968 ; Duesenberry, 1990 ; Strange, 1983 ; Wells, 1981). Par exemple, dans
un modulateur en anneau analogique basé sur des diodes en silicone, celles-ci coupent la porteuse
(la transformant en une onde quasi carrée) lorsqu’elle atteint le niveau momentané de la modulante.
Ceci crée un effet d’addition de plusieurs sommes et différences d’harmoniques impaires de la
porteuse, de la forme :
P + M, P – M, 3P + M, 3P – M, 5P + M, 5P – M…
La figure 25.4 compare les signaux émis par la modulation en anneau multiplicative et la modulation
en anneau avec coupure de diode. La modulation en anneau analogique fut beaucoup utilisée dans
les studios de musique électronique dans les années 1950, 1960 et 1970. Le compositeur allemand
Karlheinz Stockhausen aimait tout particulièrement la modulation en anneau ; il l’a utilisé dans
plusieurs pièces écrites dans les années 1960, dont Kontakte, Mikrophonie I et II, Telemusik, Hymnen,
Prozession, et Kurzwellen (Stockhausen, 1968, 1971b).
(a)
(b)
Figure 25.4 – Deux formes de modulation en anneau.

(a) Modulation en anneau par multiplication.
(b) Modulation en anneau par coupure de diode ou « couperet ».
Un pionnier de la modulation en anneau musicale, l’inventeur Harald Bode, a également développé

une variation de celle-ci, appelée déplacement des fréquences (Bode, 1967, 1984 ; Bode et Moog,
1972). Un déplaceur de fréquences ou Klangumwandler possède des sorties séparées pour les fré-
quences de somme et de différence. Un autre terme pour cette méthode est modulation à bande
latérale unique (Oppenheim et Willsky, 1983).
25.3 Modulation d’amplitude

La modulation d’amplitude (MA) est l’une des plus anciennes techniques de modulation (Black,
1953) et elle a été beaucoup utilisée dans la musique électronique analogique. Comme dans la
modulation en anneau, l’amplitude de la porteuse varie selon l’onde de la modulante. La différence
entre les deux techniques est que dans la MA la modulante est unipolaire (la forme d’onde est située
au-dessus de zéro).
L’exemple le plus répandu de MA infrasonore apparaît lorsque l’on superpose une enveloppe sur une
sinusoïde. L’enveloppe, qui est unipolaire puisqu’elle varie entre 0 et 1, agit comme une modulante.
La sinusoïde, qui est bipolaire puisqu’elle varie entre –1 et +1, agit comme une porteuse. Appliquer
une enveloppe à un signal revient à multiplier les deux formes d’onde P et M :
ModAmp t = P t × M t
où ModAmpt est la valeur du signal modulé en amplitude au temps t. La figure 25.5 montre le
résultat.
(a)
(b) 1
(c)
0
Temps
Figure 25.5 – L’application d’une enveloppe à un signal

est un cas simple de MA infrasonore. Le signal sinusoïdal de (a) est multiplié par le signal d’enve-
loppe de (b) pour produire le signal enveloppé de (c).
Comme la modulation en anneau, la MA génère une paire de bandes latérales pour chaque compo-
sant sinusoïdal de la porteuse et de la modulante. Les bandes latérales sont séparées de la porteuse
par une distance correspondante à l’inverse de la période de la modulante. La différence sonore entre
la modulation en anneau et la MA est que le spectre de celle-ci contient la fréquence de la porteuse
(figure 25.6). L’amplitude des deux bandes latérales augmente proportionnellement à la quantité
de modulation, mais n’excède jamais la moitié du niveau de la porteuse.
1000 Hz
600 Hz 1400 Hz
(P - M) (P + M)
Amp.
Fréquence
Figure 25.6 – Spectre produit par la MA d’une sinusoïde à 1 kHz

par une autre sinusoïde à 400 Hz. Les deux bandes latérales sont les fréquences de somme et de
différence autour de la fréquence de la porteuse. L’amplitude de chacune des bandes latérales est
index/2.
La figure 25.7 montre une vue temporelle de la MA créée par la modulation de sinusoïdes dans la
bande audio.
+1
(a)
-1
(b)
+1
(c)
-1
Figure 25.7 – Vue dans le domaine temporel d’une MA dans les fréquences audio.
Le signal sinusoïdal à 1 kHz de (a) est modulé par le signal sinusoïdal à 40 Hz de (b) pour produire
le signal modulé en amplitude de (c).
25.3.1 Instruments de MA
Pour implémenter la MA classique, on doit avoir un signal unipolaire comme modulante — située
dans le domaine positif entre 0 et 1. La figure 25.8a montre un instrument simple pour la MA où
la modulante est un signal unipolaire.
Fréquence
modulante
Amplitude
1.0
1.0
OSC
MOD
0
Signal Fréquence
unipolaire
[0, 1] porteuse
Enveloppe d'index 1/durée
de modulation +1
1.0
1 OSC
POR
ENV -1
0
OSC
Index Fréquence (a) Sortie MA

de modulation modulante
+1
OSC
-1 MOD
1/durée
Signal 0.5
de modulation 1.0
bipolaire
ENV 0
Échelonneur OSC
positif Enveloppe
d'amplitude
globale
Signal Signal
+
unipolaire unipolaire
[0, 0.5] [0, 0.5]
Fréquence
Modulation
porteuse
positive
OSC
POR
Sortie MA (b)
Figure 25.8 – Deux implémentations de la MA.

(a) Instrument simple de MA où le signal modulant est unipolaire. (b) Instrument plus compliqué
de MA ayant des contrôles pour la quantité de modulation et l’amplitude globale sur toute la durée
de la note. La boîte à la gauche de chaque oscillateur est sa forme d’onde. Dans le cas des oscillateurs
d’enveloppes (appelés ENV OSC), la période de fréquence est 1/durée de la note. Ceci signifie que les
oscillateurs ne lisent qu’une fois la table au cours de la durée de la note. Le module d’échelonnage
positif assure que l’entrée de modulation de l’additionneur variera entre 0 et 0,5.
25.3.2 Index de modulation

Un instrument légèrement plus compliqué est nécessaire pour contrôler la quantité de modulation
et l’enveloppe d’amplitude globale. La figure 25.8b montre un instrument de MA qui contrôle la
quantité de modulation avec une enveloppe (en haut à gauche). Cette enveloppe fonctionne comme
index de modulation, selon le jargon théorique de la modulation que nous expliquerons plus loin.
L’instrument échelonne un signal bipolaire de modulation en un signal unipolaire variant entre 0 et 1,
puis l’ajoute à une enveloppe d’amplitude globale sur la durée de l’événement sonore. L’équation
suivante décrit la forme d’onde résultante :
ModAmp = A p × cos ( P ) + ( I × A p ) ⁄ 2 × cos ( P + M ) + ( I × A p ) ⁄ 2 × cos ( P – M )
où ModAmp est le signal modulé en amplitude, Ap est l’amplitude de la porteuse, I est l’index de
modulation, P la fréquence de la porteuse, et M la fréquence de la modulante.
25.4 Modulation de fréquence

La modulation de fréquence (MF) est une méthode de synthèse numérique bien connue, grâce à son
adoption par la société Yamaha. Quoi qu’il en soit, la MF n’est pas une technique, mais une famille
de méthodes qui ont comme propriété commune la lecture de table d’onde selon une fonction
oscillatoire non linéaire.
25.4.1 Origines : modulation de fréquence

Les applications de la modulation de fréquence dans les systèmes de communication datent du
dix-neuvième siècle. La théorie des fréquences radio MF (dans le domaine des MHz) fut établie au
début du vingtième siècle (Carson, 1922 ; van der Pol, 1930 ; Black, 1953). Ces études sont toujours
intéressantes aujourd’hui, particulièrement le livre de Harold Black, qui conduit le lecteur à travers
un trajet bien conçu le long des vallées et des collines de la modulation de fréquence.
John Chowning à l’université de Stanford fut le premier à explorer systématiquement le potentiel
musical de la synthèse MF numérique (Chowning, 1973). Avant cela, la plupart des sons numériques
étaient produits par des formes d’onde fixes, par des techniques à spectre fixe. Les synthèses addi-
tives et soustractives variantes dans le temps étaient rares et demandaient une grande puissance
de calcul. Comme la plupart des travaux de synthèse numérique devaient être effectués sur des ordi-
nateurs ayant plusieurs utilisateurs, il existait une stimulation profonde pour le développement de
techniques plus efficaces, avec un soin particulier apporté aux spectres variant dans le temps. Cette
motivation fut expliquée par Chowning dans les termes suivants :
Dans les sons naturels, les composants fréquentiels sont dynamiques, ou variants dans le temps. L’énergie
des composants évolue souvent de façon compliquée ; en particulier dans les portions d’attaque et
d’extinction du son. (Chowning, 1973)
Ainsi, Chowning cherchait une façon de générer des sons synthétiques ayant les caractéristiques
des spectres animés des sons naturels. Le bond en avant vint lorsqu’il expérimenta les techniques
de vibrato extrêmes, lorsque le vibrato devient si rapide qu’il influe sur le timbre du signal :
Je découvrais que, avec deux sinusoïdes, je pouvais générer un grand nombre de sons complexes qui
par d’autres moyens auraient demandé des outils beaucoup plus puissants et coûteux. Si vous souhaitez
avoir un son qui contient, disons 50 harmoniques, vous devez avoir 50 oscillateurs. Et je n’utilisais que
deux oscillateurs pour obtenir quelque chose de très similaire. (Chowning, 1987)
Après des expériences effectuées avec soin pour explorer le potentiel de cette technique, Chowning
déposa un brevet pour l’implémentation de la MF. En 1975, la firme japonaise Nippon Gakki (Yamaha
Corporation) obtint une licence pour appliquer le brevet à ses productions. Après plusieurs années
de développements et d’améliorations de la technique de base (décrits plus loin), Yamaha présenta
le coûteux synthétiseur numérique GS1 (80 000 F, et vendu dans un boîtier en bois comme celui d’un
piano) en 1980. Mais ce fut l’introduction du synthétiseur bien connu DX7 (10 000 F) à l’automne
1983 qui rendit la MF synonyme de synthèse numérique pour des centaines de milliers de musiciens.
25.4.2 Modulation de fréquence et modulation de phase
La MF et la technique proche appelée modulation de phase (MP) représentent deux cas virtuellement
identiques de modulation angulaire (Black, 1953, p. 28-30). Les amplitudes des partiels générés
par les deux méthodes sont légèrement différentes, mais, dans la pratique, il n’existe pas de grande
différence entre MP et MF, particulièrement dans le cas des spectres variant dans le temps. Nous
ne parlerons donc pas plus de la MP dans ce livre. Néanmoins, une variation appelée distorsion de
phase est expliquée plus loin dans ce chapitre. Pour plus de détails sur la distinction entre MP et MF,
voir Bate (1990), Holm (1992), et Beauchamp (1992).
25.4.3 MF simple
Dans la technique de modulation de fréquence de base (appelée MF simple ou MF Chowning), un
oscillateur porteur est modulé en fréquence par un oscillateur modulant (Chowning, 1973, 1975).
Fréquence
modulante
Amplitude
de la modulante
OSC
MOD
Fréquence
porteuse
+
Amplitude
de la porteuse
OSC
POR
Signal de sortie MF
Figure 25.9 – Instrument simple de MF.

L’oscillateur bipolaire de l’oscillateur de modulation est ajouté à la fréquence fondamentale de la
porteuse, ce qui la fait varier de haut en bas. L’amplitude de la modulante détermine la quantité de
modulation, autrement dit la déviation fréquentielle de la fréquence fondamentale de la porteuse.
La figure 25.9 montre un instrument de MF simple. Il existe un léger écart entre les amplitudes des
composants spectraux émis par l’instrument montré à la figure 25.9 et le spectre décrit par la formule
de la MF classique, présentée plus loin. Cependant, ces différences sont mineures. Pour un résumé,
voir Holm (1992) et Beauchamp (1992).
Si l’on examine le spectre montré à la figure 25.10, nous pouvons immédiatement voir la différence
entre les méthodes de modulation en anneau, de MA et de MF. Au lieu de n’avoir que des bandes
latérales de somme et de différence, la MF de deux sinusoïdes génère une série de bandes latérales
autour de la fréquence de la porteuse P. Chaque bande latérale apparaît à une distance égale à un
multiple de la fréquence de la modulante M. Nous verrons plus tard le nombre de bandes latérales ;
il suffit pour l’instant de dire que le nombre de bandes latérales dépend de la quantité de modulation
appliquée à la porteuse.
P-5M P-3M P-M P P+M P+3M P+5M

P-4M P-2M P+2M P+4M
Figure 25.10 – Spectre MF montrant des bandes latérales espacées de façon égale
autour de la porteuse P à des multiples de la modulante M.
25.4.4 Rapport P:M

La position des composants fréquentiels générés par la MF dépend du rapport entre la fréquence
de la porteuse et celle de la modulante. On l’appelle rapport P:M. Lorsque P:M est un rapport entier,
tel que 4:1 (comme dans le cas de deux signaux à 800 et 200 Hz), la MF génère un spectre harmo-
nique, c’est-à-dire que les bandes latérales sont des multiples entiers des fréquences de la porteuse
et de la modulante :
P = 800 Hz (porteuse)
P + M = 1 000 Hz (somme)
P + (2 × M) = 1 200 Hz (somme)
P + (3 × M) = 1 400 Hz… (somme)
P – M = 600 Hz (différence)
P – (3 × M) = 200 Hz… (différence)
Lorsque P:M n’est pas un rapport entier, tel que 8:2,1 (comme dans les cas de deux signaux à 800
et 210 Hz), la MF génère un spectre inharmonique (multiples non entiers de la porteuse et de la
modulante) :
P = 800 Hz (porteuse)
P + M = 1 010 Hz (somme)
P + (2 × M) = 1 120 Hz (somme)
P + (3 × M) = 1 230 Hz… (somme)
P – M = 590 Hz (différence)
P – (2 × M) = 380 Hz (différence)
P – (3 × M) = 170 Hz… (différence)
25.4.5 Index de modulation et largeur de bande

La largeur de bande du spectre MF (nombre de bandes latérales) est contrôlée par l’index de modu-
lation I. I est défini mathématiquement grâce à la relation suivante :
I = D⁄M
où D est la quantité de déviation fréquentielle (en Hertz) de la fréquence de la porteuse. Ainsi, D est
une façon d’exprimer la profondeur ou quantité de modulation. Si D est 100 Hz et que la modulante
M est de 100 Hz, l’index de modulation est de 1.
(a)
(b)
(c)
(d)
(e)
Figure 25.11 – Spectre MF ayant un index de modulation en augmentation.

(a) Porteuse. (b) à (e) Porteuse plus bandes latérales pour I = 0 (a) jusqu’à I = 4 (e). Les bandes
latérales sont espacées à des intervalles de la fréquence de modulation M et sont symétriques autour
de la porteuse P (d’après Chowning, 1973).
La figure 25.11 trace les effets de l’augmentation de l’index de modulation. Lorsque I = 0

(figure 25.11a) la déviation fréquentielle est égale à zéro et il n’y a pas de modulation. Lorsque I est
supérieur à zéro, des bandes latérales apparaissent au-dessus et en dessous de la porteuse P à des
intervalles égaux à la modulante M. Lorsque I augmente, le nombre de bandes latérales augmente
également. Remarquez comment, dans ce cas, l’énergie de la porteuse est « volée » et distribuée au
nombre croissant de bandes latérales.
Une règle empirique établit que le nombre de paires de bandes latérales significatives (celles qui sont
supérieures à 1/100 de l’amplitude de la porteuse) est approximativement I + 1 (De Poli, 1983).
La largeur de bande totale est approximativement égale à deux fois la somme de la déviation fré-
quentielle D et de la modulante M (Chowning, 1973). En termes formels :
Largeur de bande MF ≈ 2 × ( D + M )
Comme la largeur de bande augmente avec l’index de modulation, la MF peut simuler des propriétés
de sons d’instruments. En d’autres termes, lorsque l’amplitude augmente, la largeur de bande aug-
mente également. Ceci est typique de beaucoup d’instruments, tels que les cordes, les cors et les
tambours, et peut être réalisé en MF en utilisant des formes d’enveloppe similaires pour l’amplitude
de la porteuse et pour l’index de modulation.
25.4.6 Bandes latérales reflétées

Pour certaines valeurs de fréquences de la porteuse, de la modulante et de I, des bandes latérales
extrêmes se reflètent dans les limites supérieures et inférieures du spectre. Un partiel aigu qui dépasse
la fréquence de Nyquist (la moitié du taux d’échantillonnage) se « replie » et se reflète dans la partie
basse du spectre. Le chapitre 1 décrit le repliement en détail.
Lorsque les bandes latérales inférieures s’étendent en dessous de 0 Hz, elles se reflètent dans le
spectre sous une forme en inversion de phase de 180 degrés. Par « inversion de phase », nous voulons
0.5
Amp. 0
-0.5
100 200 300 400 500 600 700
Fréquence
Figure 25.12 – Tracé spectral montrant les effets des bandes latérales
de basse fréquence reflétées. Le rapport P:M est 1: 2 , et l’index de modulation 5. Les lignes
orientées vers le bas indiquent la présence de composants reflétés en inversion de phase (d’après
Chowning, 1973).
dire que la forme d’onde se retourne par rapport à l’axe des x, et donc que la partie positive de la
sinusoïde devient négative, et inversement. Des partiels en inversion de phase sont dessinés sous
forme de lignes se dirigeant vers le bas, comme dans la figure 25.12. En général, les composants
fréquentiels négatifs ajoutent de la richesse à la portion la plus basse du spectre, mais si les compo-
sants négatifs se superposent exactement avec des composants positifs, ils se suppriment mutuel-
lement.
25.4.7 Formule de la MF
Lorsque la porteuse et la modulante sont deux sinusoïdes, la formule pour connaître le signal modulé
en fréquence MF à l’instant t est la suivante :
MF t = A × sin [ P t + ( I × sin ( M t ) ) ]
où A est l’amplitude pic de la porteuse, Pt = 2π × P, Mt = 2π × M, et I est l’index de modulation.
Comme le montre la formule, la MF simple est assez efficace, ne demandant que deux multiplica-
tions, une addition, et deux lectures de tables. Les lectures de tables renvoient à des sinusoïdes
stockées en mémoire.
25.4.8 Fonctions de Bessel

Les amplitudes des composants individuels de bandes latérales varient selon des fonctions mathé-
matiques appelées fonctions de Bessel de premier ordre ou d’énième ordre Jn(I), où l’argument de la
fonction est l’index de modulation I. L’équation MF ci-dessus peut être exprimée sous une forme
équivalente (d’après De Poli, 1983) qui incorpore directement la fonction de Bessel :
∞
MF t = ∑ J n ( I ) × sin { 2π × [ f c ± ( n × f m ) ] }t
n = –∞
Chaque n est un partiel individuel. Ainsi, pour calculer l’amplitude du troisième partiel, nous multi-
plions la troisième fonction de Bessel au point I, c’est-à-dire J3(I), par deux sinusoïdes sur chaque côté
de la fréquence porteuse. Les composants fréquentiels bas et impairs sont en inversion de phase.
La figure 25.13 montre les fonctions de Bessel dans une représentation tridimensionnelle pour
n = 1 à 15, avec un index de modulation allant de 0 à 20. L’axe vertical (la surface ondulante) montre
comment les amplitudes des bandes latérales varient lorsque l’index de modulation change. La figure
montre que, lorsque le nombre de bandes latérales est faible (à l’arrière du tracé), les variations
d’amplitude sont fortes. Lorsque le nombre de bandes latérales augmente (à l’avant du tracé),
les variations d’amplitude sont plus faibles.
D’un point de vue musical, la propriété importante est que chaque fonction de Bessel ondule comme
une sinusoïde amortie — grosses variations pour I faible, et petites variations pour I élevé. La MF
simple est marquée de façon audible par cette ondulation lorsque l’on modifie l’index de modulation.
Remarquez également que Jn(I) pour différentes valeurs de n traverse l’axe des zéros à différentes
valeurs de I. Ainsi, lorsque l’on modifie l’index de modulation I, les bandes latérales apparaissent
et disparaissent de façon quasi aléatoire.
Une des caractéristiques pratiques de la MF est que l’amplitude maximale et la puissance du signal
n’ont pas à varier avec I. Cela signifie que lorsque I augmente ou décroît, l’amplitude du son ne varie
pas de façon significative. Musicalement, cela signifie que l’on peut manipuler indépendamment
l’amplitude et l’index de modulation en utilisant des enveloppes séparées, et cela, sans se soucier
de savoir si la valeur d’I va influer sur l’amplitude globale. Comme nous le verrons plus tard dans
494
Figure 25.13 – Graphe tridimensionnel des fonctions de Bessel de 1 à 15

(tracées d’avant en arrière) en fonction de l’index de modulation I (tracé de gauche à droite) montrant le nombre de bandes latérales générées
(d’après Chowning, 1973). Les lignes A, B et C montrent les points où l’amplitude chute respectivement de –40, –60 et –80 dB. La ligne D indique le
SYNTHÈSE
point de coupure pour les bandes latérales « significatives d’un point de vue perceptuel ». E est l’amplitude maximum pour chaque ordre. Les lignes F à K
montrent les traversées du point zéro, et donc les valeurs de l’index produisant une amplitude nulle pour les bandes latérales.
SONORE
ce chapitre, ceci n’est pas le cas avec d’autres techniques de synthèse, notamment la distorsion non
linéaire et les formules d’addition discrète. Ces techniques nécessitent une normalisation d’ampli-
tude puisque la modulation peut influer sur l’amplitude de sortie de façon radicale.
25.4.9 Implémentation numérique de la MF

La figure 25.9 montre un instrument de MF simple dans lequel la profondeur de modulation est
contrôlée par une déviation fréquentielle constante. Mais puisque la largeur de bande est directement
liée à l’index de modulation et indirectement liée à la déviation fréquentielle, il est en général plus
pratique de spécifier un son MF en termes d’index de modulation. Dans ce cas, l’instrument doit être
modifié pour effectuer des calculs complémentaires selon la relation suivante :
D = I×M
Un musicien souhaite en général avoir un contrôle dynamique sur l’amplitude globale et sur l’index
de modulation. La figure 25.14 montre ces enveloppes. Dans l’article originel de Chowning (1973),
1/durée
Enveloppe d'index 1.0
de modulation
1
ENV
OSC Fréquence
0 modulante M
Index
de modulation I
×
Forme d'onde
Déviation D de modulation
1
OSC
MOD -1
1/durée
Enveloppe Fréquence
de la porteuse 1.0 porteuse
1
ENV
+
0
OSC
Forme d'onde
de la porteuse
1
OSC
POR -1
Sortie
Figure 25.14 – Instrument simple de MF ayant des enveloppes d’amplitude

et de fréquence. Cet instrument traduit également une enveloppe d’index de modulation spécifiée
par l’utilisateur en paramètres de déviation fréquentielle.
celui-ci décrit une variation de cet instrument avec un index de modulation qui varie entre deux
valeurs I1 et I2 selon une enveloppe. Voir Maillard (1976) pour une autre implémentation.
25.4.10 Applications de la MF simple

Une application directe de la MF est de générer des sons de cuivre. Cette famille de sons possède
une attaque raide sur les enveloppes d’amplitude et d’index, et maintient un rapport P:M de 1. L’index
de modulation doit varier entre 0 et 7.
Lorsque le rapport P:M est de 1:2, des harmoniques impairs sont générés, ce qui rend possible une
simulation de son de clarinette. Un rapport P:M irrationnel tel que :
P: 2P
produit un complexe inharmonique qui peut simuler des sons de percussions ou des sons de cloches
(Moorer, 1977).
En dehors de la simulation de sons instrumentaux, une autre façon de composer avec la MF est de
tirer avantage de ses propriétés « artificielles » et du spectre synthétique unique qu’il génère. C’est
l’approche adoptée par les compositeurs James Dashow et Barry Truax. Dashow utilise la MF pour
« harmoniser » (dans le sens métaphorique du terme) des dyades de hauteurs (Dashow, 1980, 1987 ;
Roads, 1985c). Truax a systématiquement classé les « familles » spectrales rendues possibles par
différents rapports P:M (Truax, 1977). Par exemple, certains rapports P:M génèrent un spectre har-
monique, tandis que d’autres génèrent un mélange de spectre harmonique et de spectre inharmo-
nique. Chaque rapport P:M est le membre d’une famille de rapports produisant le même spectre et
variant seulement par la position de la porteuse autour de laquelle l’énergie spectrale est centrée.
En choisissant soigneusement les fréquences de la porteuse et de la modulante, un compositeur
peut générer une progression de timbres en relation ayant le même ensemble de bandes latérales.
Une autre approche de la composition avec la MF est d’établir une P ou une M constante et de générer
un ensemble de timbres en relation ayant différents rapports P:M.
25.4.11 MF exponentielle
Dans les implémentations numériques usuelles de la MF, les bandes latérales sont réparties à dis-
tances égales autour de la fréquence de la porteuse. Nous appelons cela la MF linéaire. Quoi qu’il en
soit, dans certains synthétiseurs analogiques, l’espacement des bandes latérales est asymétrique,
ce qui crée un type de son différent. Nous appelons cela la MF exponentielle. Cette partie explique
la différence entre ces deux implémentations de la MF.
La plupart des synthétiseurs analogiques possèdent un oscillateur contrôlé par tension (VCO pour
Voltage-Controlled Oscillator) modulé en fréquence par un autre oscillateur. Quoi qu’il en soit,
afin de permettre un contrôle par clavier du VCO qui soit de tempérament égal, celui-ci répond à
une tension donnée dépendante de la fréquence. En particulier, un VCO répond à un protocole d’un
volt par octave, ce qui correspond au protocole tension/octave des claviers analogiques. Dans un tel
système un La de 880 Hz sera obtenu en appliquant un volt supplémentaire à l’entrée de contrôle
du VCO par rapport à la tension nécessaire pour obtenir un La 440.
Dans le cas de la MF, un signal modulant variant entre –1 et +1 V fait que la porteuse établie à
La 440 varie entre La 220 et La 880. Ceci signifie qu’elle module de 220 Hz vers le bas et de 440 Hz
vers le haut, une modulation asymétrique. La fréquence centrale moyenne de la porteuse change,
ce qui signifie en général que la hauteur centrale perçue est désaccordée d’un intervalle significatif.
Ce désaccordage est causé par l’index de modulation, ce qui signifie que largeur de bande et fré-
quence centrale sont liées. D’un point de vue musical ce lien n’est pas idéal. Il est souhaitable de
pouvoir augmenter l’index de modulation sans changer la fréquence centrale. Voir Hutchins (1975)
pour une analyse de la MF exponentielle.
Dans la modulation numérique, les bandes latérales sont à distances égales autour de la porteuse,
d’où le terme de MF linéaire. Lorsque l’index de modulation augmente, la fréquence centrale reste
la même. Toutes les MF numériques sont linéaires, et il existe même un constructeur, Serge Modular,
qui produit un module d’oscillateur analogique MF linéaire.
25.4.12 Analyse et MF
Comme les techniques MF peuvent créer de nombreuses familles différentes de spectres, il pourrait
être utile de posséder un processus d’analyse/resynthèse lié à la MF, similaire à ceux utilisés dans les
techniques additives et soustractives. Un tel processus pourrait prendre un son existant et le traduire
en valeurs de paramètres pour un instrument de MF. En envoyant ces valeurs dans l’instrument,
nous pourrions entendre une approximation de ce son par la synthèse MF. Le nom pour ce type de
processus est en général l’estimation de paramètres (voir le chapitre 13). Différentes tentatives ont
été effectuées pour essayer de faire une approximation d’un spectre fixe donné en utilisant automati-
quement la MF (Justice, 1979 ; Risberg, 1982). Le problème de l’estimation des paramètres de MF
pour des sons complexes en évolution est difficile (Kronland-Martinet et Grossmann, 1991 ; Horner,
Beauchamp et Haken, 1992).
Comme la puissance du matériel numérique n’a cessé d’augmenter, les motivations originelles pour
l’estimation des paramètres de MF ont diminué. La synthèse MF était à l’origine proposée comme
une méthode efficace du point de vue du calcul, mais d’autres techniques de synthèse plus puissantes
(comme la synthèse additive) ne sont plus aussi difficiles. Seuls certains sons sont correctement
modelés avec la modulation. Les synthèses additives et par modèles physiques (chapitre 26) sont
sans doute des modèles plus appropriés des instruments traditionnels.
25.5 Modulation de fréquence à multiples porteuses

La modulation de fréquence à multiples porteuses (MF MP) signifie un instrument de MF dans
lequel un oscillateur module simultanément deux porteuses ou plus. Les sorties des porteuses
s’additionnent pour former une forme d’onde composite qui se superpose au spectre modulé. Les
porteuses multiples peuvent créer des régions formantiques (pics) dans le spectre, comme cela est
montré à la figure 25.15. La présence de régions formantiques est caractéristique du spectre de la
voix humaine et de la plupart des instruments traditionnels. Une autre justification des systèmes
Porteuse 1
fondamentale
Porteuse 2
Porteuse 3
Amp.
Fréquence
Figure 25.15 – Spectre ayant trois régions formantiques

créées par un instrument de MF à trois porteuses.
utilisant des porteuses séparées est de pouvoir établir des retards différents pour chaque région for-
mantique. Cela est pratique pour simuler des sons de cuivres dans lesquels les partiels supérieurs
s’éteignent plus rapidement que les partiels inférieurs.
La figure 25.16 montre un instrument MF à trois porteuses. Afin d’indiquer clairement la struc-
ture à multiples porteuses, la figure omet les contrôles d’enveloppe et les tables de forme d’onde.
Les amplitudes des porteuses sont indépendantes. Lorsque les amplitudes Porteuse 2 et Porteuse 3
sont des fractions de Porteuse 1, l’instrument génère des régions formantiques autour des fréquen-
ces de la seconde et de la troisième porteuse.
Fréquence
modulante
Déviation
de fréquence
OSC
MOD

porteuse 1 porteuse 2 porteuse 3
+ + +
Amp. Amp. Amp.
OSC OSC OSC

POR 1 POR 2 POR 3
Sortie MF à multiples porteuses
Figure 25.16 – Instrument de MF à trois porteuses

piloté par un seul oscillateur de modulation (OSC MOD).
L’équation d’une forme d’onde MF à multiples porteuses au temps t est simplement l’addition de
n équations MF simples :
MFMP t = A w1 × sin [ P 1t + ( I 1 × sin ( M ) ) ] … + A wn × sin [ P nt + ( I n × sin ( M ) ) ]
où : A est une constante d’amplitude, 0 < A = 1,0 ;
w1 est le poids de la Porteuse 1 ;
wn est le poids de la Porteuse n ;
P1 est la hauteur fondamentale = 2π × fréquence de la porteuse 1 (en Hz) ;
Pn est la fréquence formantique = 2π × fréquence de la porteuse n (en Hz), où Pn est un mul-

tiple entier de P1 ;
M est la fréquence modulante, en général égale à P1 (Chowning, 1989) ;
I1 est l’index de modulation de P1 ;
In est l’index de modulation de Pn.
Les exposants w1 et wn déterminent dans quelle mesure la contribution relative des porteuses varie
avec l’amplitude globale A.
25.5.1 Applications musicales de la MF MP
Les applications de MF MP s’efforcent de simuler les sons des instruments traditionnels. Avec la
MF MP — ou pour ce qui nous concerne n’importe quelle technique de synthèse —, le secret de la
simulation réaliste est l’attention aux détails dans tous les aspects du son — amplitude, fréquence,
enveloppes spectrales, vibrato, et contexte musical.
Une application directe de la MF MP est la synthèse de sons de trompette. L’analyse de sons de trom-
pette effectuée par Risset et Mathews en 1969 montrait un spectre quasi harmonique, une élévation
de l’enveloppe d’amplitude de 20 à 25 ms (avec les partiels supérieurs se construisant plus lente-
ment), une petite fluctuation de fréquence quasi aléatoire, et un pic formantique dans les environs
de 1 500 Hz. Morrill (1977) développa des instruments MF à porteuse unique ou à double porteuse
pour une synthèse des sons de cuivres basés sur ces données. Un instrument à double porteuse est
plus réaliste, puisque chaque porteuse produit des fréquences pour différentes parties du spectre.
En particulier, P1 génère le fondamental et les cinq à sept premiers partiels, tandis que P2 est fixée
à 1 500 Hz, la principale région formantique de la trompette. Chaque porteuse possède sa propre
enveloppe d’amplitude pour permettre un réglage de niveau entre les deux systèmes de porteuses
dans le spectre composite. Par exemple, dans les sons de trompette forts, les partiels supérieurs
ressortent de façon plus évidente.
Chowning (1980, 1989) appliqua la technique de MF MP à la synthèse de voyelles chantées par une
soprano et par une voix de basse. Il détermina qu’un vibrato périodique et aléatoire doit être appliqué
à tous les paramètres de fréquence pour simuler de façon réaliste les sons de voix. « Sans vibrato
les sons synthétisés ne sonnent pas naturels » (Chowning, 1989, p. 62). Un vibrato quasi périodique
fait « fusionner » les fréquences en un son ressemblant à la voix. Dans les simulations de Chowning,
le pourcentage de déviation du vibrato V est défini par la relation :
V = 0,2 × log ( hauteur )
Ainsi, pour une hauteur de 440 Hz, V est égal à environ 1,2 %, soit 5,3 Hz de profondeur. La fré-
quence du vibrato s’étend de 5 à 6,5 Hz pour le domaine de fréquences de fondamentales se situant
entre Fa3 et Fa6.
25.6 Modulation de fréquence à multiples modulantes

Dans la modulation de fréquence à multiples modulantes (MF MM), plusieurs oscillateurs modulent
une seule porteuse. Deux configurations de base sont possibles : parallèle et en série (figure 25.17).
La MF MM est plus facile à comprendre lorsque le nombre de modulantes est limité à deux et que
leurs formes d’onde sont des sinusoïdes.
(a) (b)
Mod. 1 Mod. 2 Mod. 1
Amplitude Amplitude
Mod. 1 Mod. 2 Amplitude
Mod. 1
OSC OSC
MOD 1 MOD 2 OSC
Fréquence MOD 1
centrale
Mod. 2
+
+
Amplitude
Fréquence Mod. 2
porteuse
OSC
+ Fréquence
centrale
MOD 2
porteuse
Amplitude
porteuse
OSC
+
POR Amplitude
porteuse
OSC
Sortie MF MM parallèle POR
Sortie MF MM en série
Figure 25.17 – Instruments de MF MM. (a) MF MM parallèle. (b) MF MM en série.
25.6.1 MF MM parallèle
En MF MM parallèle, deux sinusoïdes modulent simultanément une autre sinusoïde porteuse. La
modulation génère des bandes latérales à des fréquences selon l’équation suivante :
P ± ( i × M1 ) ± ( k × M2 )
où i et k sont des nombres entiers et M1 et M2 sont les fréquences de modulation. La MF MM paral-
lèle se conduit comme si chaque bande latérale produite par les modulantes était elle-même modulée
comme une porteuse par l’autre modulante. L’explosion du nombre des partiels est claire dans la
figure 25.18, qui établit une liste des produits de modulation primaires et secondaires.
L’équation d’onde du signal MF à double modulante en parallèle au temps t est la suivante :
MFMMP t = A × sin [ P t + ( I 1 × sin ( M 1t ) ) + ( I 2 × sin ( M 2t ) ) ]
Porteuse Modulante 1 Modulante 2

1000 Hz 100 Hz 30 Hz
MF
700 800 900 1000 1100 1200 1300
MF MF MF MF MF MF MF
790 890 990 1090 1190 1290 1390

760 860 960 1060 1160 1260 1360
730 830 930 1030 1130 1230 1330
700 800 900 1000 1100 1200 1300
670 770 870 970 1070 1170 1270
640 740 840 940 1040 1140 1240
610 710 810 910 1010 1110 1210
Figure 25.18 – Ce diagramme montre l’explosion du nombre des partiels

produits par la MF MM parallèle. Chacun des composants émis par la modulation de Porteuse par
Modulante 1 est lui-même modulé par Modulante 2, produisant la liste des composants spectraux
montrés en bas de la figure.
Pour des descriptions mathématiques du spectre produit par cette classe de techniques, voir
Schottstaedt (1977) et Le Brun (1977).
25.6.2 MF MM en série
Dans la MF MM en série, la sinusoïde modulante M1 est elle-même modulée par M2. Ceci crée une
onde modulée compliquée avec un nombre potentiel de bandes latérales sinusoïdales immense, selon
l’index de modulation. L’amplitude instantanée de la MF à double modulante en série est donnée
par l’équation suivante, adaptée d’après Schottstaedt (1977) :
MFMMP t = A × sin { P t + [ I 1 × sin ( M 1t + [ I 2 × sin ( M 2t ) ] ) ] }
Les différences entre les équations en parallèle et en série reflètent la configuration des oscillateurs.
En pratique, I2 détermine le nombre de bandes latérales significatives dans le signal modulant et I1
détermine le nombre de bandes latérales dans le signal de sortie. Même de petites valeurs de I1 et I2
créent des formes d’onde complexes. Le rapport M1:P détermine le placement des bandes latérales
de la porteuse, chacune ayant elle-même ses propres bandes latérales à des intervalles déterminés
par M2:M1. Ainsi, chaque bande latérale est à la fois modulée et modulante.
25.6.3 Applications musicales de la MF MM

Schottstaedt (1977) utilisa la MF à double modulante pour simuler certaines caractéristiques des
sons de piano. Il fixa la première modulante aux environs de la porteuse, et la seconde aux environs
de quatre fois la fréquence de la porteuse. Selon Schottstaedt, si la porteuse et la première modulante
sont exactement à égalité, le résultat purement harmonique sonne de façon artificielle, comme le son
d’un piano électrique. Ce besoin d’inharmonicité des sons de piano est en accord avec les résultats
des acousticiens (Blackham, 1965 ; Backus, 1977).
Schottstaedt rendit les amplitudes des index de modulation dépendantes de la fréquence. C’est-à-dire
que, lorsque la fréquence de la porteuse augmente, l’index de modulation décroît. Le résultat est
un spectre riche dans le registre bas, mais qui devient plus simple lorsque la hauteur augmente.
Puisque la longueur de la chute d’un son de piano varie également avec la hauteur (les sons graves
ont une chute plus longue), il utilisa une longueur de chute dépendante de la fréquence.
Chowning et Schottstaedt ont également travaillé sur la simulation de sons d’instruments à cordes,
en utilisant de la MF à triple modulante, où le rapport P:M1:M2 était 1:3:4, et où les index de modu-
lation étaient dépendants de la fréquence (Schottstaedt, 1977). Chowning a également développé
une voix de basse profonde en utilisant un instrument combinant MF MP et MF MM. Voir Chowning
(1980, 1989) pour plus de détails sur cet instrument.
25.7 Modulation de fréquence bouclée

La MF bouclée est une technique largement utilisée, grâce à l’application brevetée de cette méthode
que Yamaha a incluse dans ses synthétiseurs numériques (Tomisawa, 1981). Dans cette partie, nous
décrirons trois types de MF bouclée : boucle à un oscillateur, boucle à deux oscillateurs et boucle
indirecte à trois oscillateurs.
La MF bouclée résout certains problèmes des méthodes de MF simples (non bouclées). Dans celles-
ci, lorsque l’index de modulation augmente, l’amplitude des partiels varie de façon inégale, se
déplaçant de bas en haut selon les fonctions de Bessel (figure 25.19). Cette ondulation dans l’ampli-
tude des partiels rend un « son électronique » peu naturel caractéristique du spectre de MF simple :
cela rend la simulation des instruments traditionnels plus difficile.
La MF bouclée rend le spectre plus linéaire dans son évolution. En général, dans la MF bouclée,
lorsque l’index de modulation augmente, le nombre des partiels et leurs amplitudes varient de façon
relativement linéaire.
25.7.1 Origines : oscillateurs bouclés
Un instrument oscillateur bouclé est apparu pour la première fois dans le Introductory Catalog of
Computer Generated Sounds de Jean-Claude Risset en 1969. Comme ce catalogue ne fut pas distribué
commercialement, cette technique apparut publiquement dans un article méconnu sous le titre
vague « De certains aspects idiosyncrasiques des sons synthétisés par ordinateur » (Layzer, 1971).
Dans celui-ci, Arthur Layzer décrivait un travail aux Bell Telephone Laboratories visant à développer
un oscillateur se modulant lui-même dont la sortie était renvoyée dans son entrée. Ce travail fut
effectué en collaboration avec Risset, Max Mathews et Franklin Richard Moore. Moore implémenta
un oscillateur bouclé sous forme de générateur élémentaire dans le langage Music V. Music V est
décrit dans Mathews et coll. (1969).
La différence essentielle entre les oscillateurs bouclés développés aux Bell Telephone Laboratories
et la technique de MF bouclée de Yamaha est que les premiers réinjectent le signal dans l’entrée
d’amplitude, tandis que la deuxième réinjecte le signal dans l’entrée de fréquence ou d’incrément
de phase. Ainsi, les premiers oscillateurs bouclés étaient plutôt une forme de « MA bouclée » plutôt
que de MF bouclée.
(a) (b)
(c) (d)
(e) (f)
Figure 25.19 – Tracé d’un spectre harmonique de modulation de fréquence

lorsque la fréquence de P est égale à celle de M, avec de valeurs de I s’étendant de 0 à 22 (d’après
Mitsuhashi, 1982b). Les graphes se lisent de gauche à droite en descendant. Remarquez comme
le spectre est inégal, avec des partiels montant et descendant lorsque l’index de modulation change.
25.7.2 Boucle à un oscillateur

L’idée de base de la MF bouclée à un oscillateur est facile à décrire. La figure 25.20 montre un oscil-
lateur qui réinjecte sa sortie dans son entrée de fréquence, après être passée par un multiplicateur
et un additionneur. Celui-ci calcule l’index de phase pour l’opération de lecture de table de la sinu-
soïde à l’intérieur de l’oscillateur. À chaque période d’échantillonnage, une valeur x (l’incrément
de fréquence) est ajoutée à la phase existante. La valeur dans la table de sinusoïde à cette nouvelle
(g) (h)
(i) (j)
(k) (l)
Figure 25.19 – Suite
phase est le signal de sortie sin(y). Dans un synthétiseur, x est en général obtenu en enfonçant la
touche d’un clavier musical. Cette pression est traduite en grande valeur d’incrément de phase
pour une note aiguë ou en petite valeur d’incrément de phase pour une note grave.
Dans la MF bouclée, le signal de sortie sin(y) est réinjecté dans l’additionneur après avoir été mul-
tiplié par le facteur de bouclage β. Le facteur β agit comme une sorte de fonction d’échelonnage ou
« index de modulation » pour la boucle. Avec le bouclage, l’adresse de l’échantillon suivant est
x + [β × sin(y)].
La figure 25.21 trace le spectre d’un instrument de MF bouclée à un oscillateur, avec β en augmen-
tation. Remarquez l’augmentation du nombre de partiels, et les différences d’amplitude régulières,
incrémentielles entre les partiels, contribuant toutes à la construction quasi linéaire du spectre. En
Index de
modulation
β
×
Fréquence β × sin(y)
x
+
Amplitude y
OSC
sin(y)
Figure 25.20 – Instrument de MF bouclée. x est l’incrément de phase

d’une table de lecture sinusoïdale. x est ajouté à un signal renvoyé de la sortie que l’on a multiplié
par un facteur de bouclage β.
augmentant la modulation, le signal évolue d’une sinusoïde à une onde en dent-de-scie de façon
continue.
L’équation de la MF bouclée à un oscillateur peut être caractérisée par référence aux fonctions de
Bessel (Tomisawa, 1981) :
∞
2
MFB t = ∑ -----------
n×β n
- × J ( n × β ) × sin ( n × x )t
n–1
où Jn(n) est une fonction de Bessel d’ordre n et n × β est l’index de modulation. Les fonctions de
Bessel agissent de façon différente dans la MF bouclée et dans la MF simple. Dans cette dernière,
l’index de modulation I est commun pour tous les composants de Bessel Jn(I). Ceci signifie que
chaque valeur de fonction de Bessel Jn(n) est représentée par une hauteur à une position où les
index de modulation communs se croisent. En conséquence, lorsque l’index de modulation de la
MF régulière augmente, l’enveloppe spectrale prend un caractère ondulant. Dans la MF bouclée,
l’ordre n de la fonction de Bessel Jn(n × β) est inclus dans l’index de modulation, et le facteur
2/(n × β) est multiplié comme coefficient de l’équation de Bessel (Mitsuhashi, 1982a).
Dans la MF bouclée, l’index de modulation n × β diffère pour chaque ordre n et augmente approxi-
mativement à la façon d’une fonction monotone (c’est-à-dire que l’augmentation se fait selon un
facteur constant). Le coefficient d’échelonnage 2/(n × β) assure que lorsque l’ordre n des partiels
augmente, l’amplitude de ceux-ci décroît.
Figure 25.21 – Spectre d’un instrument de MF bouclée à un oscillateur

lorsque le facteur de bouclage β augmente, avec l’incrément de phase x fixé à 200 Hz. L’axe horizon-
tal montre les fréquences tracées de 0 à 10 kHz. L’axe vertical montre l’amplitude sur une échelle
allant de 0 à 60 dB.
25.7.3 Boucle à deux oscillateurs

Un autre patch de MF bouclée prend la sortie d’un oscillateur en boucle et l’utilise pour moduler
un autre oscillateur (figure 25.22). Le multiplicateur M de la figure fonctionne comme contrôle de
l’index de modulation entre les deux oscillateurs.
Lorsque M est situé entre 0,5 et 2, le spectre possède une tendance décroissante monotone dans
laquelle l’amplitude des partiels décroît lorsque le nombre des partiels augmente (figure 25.23).
Lorsque le paramètre de bouclage β est supérieur à 1, l’amplitude globale des partiels supérieurs
augmente. Ceci crée un effet de filtre variable. Cela sonne ainsi d’une façon plus stridente et plus
criarde. Quoi qu’il en soit, lorsque M est fixé à 1 et que x1 et x2 sont égaux, cet instrument génère le
Fréquence
modulante x1
+
Amplitude
OSC
MOD
×
M
Fréquence
porteuse
×
x2
+
Amplitude
porteuse
OSC
POR
Figure 25.22 – Instrument de MF bouclée à deux oscillateurs.

La sortie d’un oscillateur MF bouclé module un deuxième oscillateur non bouclé.
Figure 25.23 – Spectre généré par un instrument de MF bouclée à deux oscillateurs

lorsque le facteur de bouclage β augmente de 0,0982 à 1,571. Les valeurs de fréquence pour x1 et x2
sont fixées à 200 Hz, et l’index de modulation M est fixé à la valeur constante 2. L’axe horizontal
montre les fréquences de 0 à 10 kHz. L’axe vertical montre l’amplitude sur une échelle allant de 0
à 60 dB.
même spectre qu’un instrument de MF bouclée à un oscillateur, comme cela est montré à la
figure 25.20.
Lorsque le rapport entre x2 (la porteuse) et x1 (la modulante) est 2:1, l’index de modulation M est 1,
et β varie entre 0,09 et 1,571, le résultat d’une variation continue entre une onde quasi sinusoïdale
et une onde quasi carrée.
25.7.4 Boucle indirecte à trois oscillateurs

Une autre variation de la MF bouclée est une technique à trois oscillateurs avec un bouclage indirect,
montré à la figure 25.24. Le paramètre de bouclage est β1. Le bouclage indirect produit une forme
complexe de modulation. Lorsque les fréquences x1, x2 et x3 sont des multiples non entiers, des
sons sans hauteur précise sont créés. Un effet de chorus avec battements est produit lorsque ces
fréquences sont proches d’une relation par nombres entiers. D’après le concepteur sonore David
Bristow (1986), cet instrument génère un spectre riche, et, lorsque le bouclage est augmenté,
l’énergie tend à s’installer à la limite supérieure du spectre.
25.8 Distorsion de phase

La synthèse par distorsion de phase (DP) est un terme inventé par la société Casio pour décrire une
technique simple de modulation développée pour plusieurs de ses synthétiseurs numériques. La
synthèse DP utilise un oscillateur à lecture de table d’onde sinusoïdale dans lequel le taux de lecture
varie au cours du cycle. L’intervalle de lecture augmente de 0 à π puis ralentit de π à 2π. La fré-
quence globale est constante, selon la hauteur de la note, mais la forme d’onde de sortie n’est plus
une sinusoïde. La figure 25.25 montre l’effet de l’inclinaison de la fonction de lecture sur la forme
d’onde de sortie.
Lorsque l’accélération et le ralentissement augmentent, la sinusoïde originelle se transforme en
une sorte d’onde triangulaire, puis enfin en une forme d’onde en dent-de-scie riche en harmoniques.
25.9 Synthèse par distorsion non linéaire

Jean-Claude Risset, travaillant aux Bell Telephone Laboratories au New Jersey, effectua les premières
expériences d’une technique maintenant connue sous le nom de synthèse par distorsion non linéaire
(Risset, 1969). Daniel Arfib (1979) et Marc LeBrun (1979) ont développé indépendamment des
élaborations théoriques et empiriques de la méthode de base. La distorsion non linéaire est intéres-
sante musicalement, car, comme dans la synthèse MF, elle offre une manipulation simple de la largeur
de bande et du spectre variant dans le temps d’un son, et ceci, de façon efficace du point de vue du
calcul.
L’idée fondamentale derrière la distorsion non linéaire est de faire passer un signal sonore x à travers
une « boîte de distorsion ». Sous forme numérique, la boîte de distorsion est une fonction d’une table
stockée dans la mémoire de l’ordinateur. La fonction w relie n’importe quelle valeur x du domaine
[–1, +1] à une valeur de sortie w(x) du même domaine.
Dans le cas le plus simple, x est une sinusoïde générée par un oscillateur. Mais x peut être n’importe
quel signal, pas seulement une sinusoïde. Pour chaque échantillon de sortie devant être calculé,
nous utilisons la valeur de x pour indexer la table w. Celle-ci contient la fonction de distorsion
(également appelée fonction de transfert). Nous n’avons plus qu’à prendre la valeur dans w indexée
par x comme valeur de sortie w(x).
β1
Fréquence x1
×
+
Amplitude
OSC
MOD1
β2
Fréquence x2
×
+
Amplitude
OSC
MOD2
β3
Fréquence x3
×
+
Amplitude
OSC
POR
Figure 25.24 – Instrument de MF bouclée indirecte à trois oscillateurs.

Une série de trois oscillateurs se modulant les uns les autres. Trois facteurs d’index de modulation
β1, β2 et β3 déterminent la quantité de modulation. La sortie globale est réinjectée dans le premier
oscillateur modulant.
(a) (b)
Figure 25.25 – Formes d’onde dans la synthèse par distorsion de phase de Casio.
La forme d’onde audio change lorsque le taux de lecture d’une table sinusoïdale varie. (a) Un taux
de lecture constant génère une sinusoïde. (b) Une lecture dont le taux change deux fois par cycle
crée par distorsion de la sinusoïde une forme d’onde proche d’une dent-de-scie.
25.9.1 Instrument simple de distorsion non linéaire

Un instrument pour la synthèse par distorsion non linéaire simple est montré à la figure 25.26. Un
oscillateur d’enveloppe contrôle ici l’amplitude d’un oscillateur sinusoïdal qui est injecté dans une
table de fonction de distorsion. L’enveloppe d’amplitude α est importante, car elle a pour effet
d’échelonner le signal d’entrée, ce qui lui fait référencer différentes régions dans la fonction de
distorsion w. Nous verrons plus loin les implications de ceci.
25.9.2 Exemples de fonctions de distorsion

Comme le montre la figure 25.27, si la fonction de distorsion dans la table w est une droite diagonale
allant de –1 à +1, la sortie de w sera une réplique exacte de son entrée x. Ceci en raison du fait que
w relie une entrée de –1 (en bas de la fonction) à –1 à la sortie (à la droite de la fonction), que 0 est
relié à 0, 1 à 1, et ainsi de suite. Puisque cette relation simple entre l’entrée et la sortie ne survient
que lorsque la fonction de distorsion est une droite diagonale, nous disons dans ce cas que la sortie
est la fonction linéaire de l’entrée.
Si la table de distorsion contient autre chose qu’une droite diagonale allant de –1 à +1, x est distordu
par la fonction de distorsion dans w. La figure 25.28 montre les effets de plusieurs fonctions de dis-
torsion sur une sinusoïde en entrée. La figure 25.28a montre une fonction de distorsion en inversion.
Pour chaque valeur positive de l’amplitude d’entrée, la distorsion non linéaire émet une valeur
négative correspondante et vice versa. La figure 25.28b est une droite ayant un angle plus étroit que
la courbe de la figure 25.27. Elle relie dans un domaine plus étroit sur le côté droit (sortie) de la
fonction de distorsion, ce qui atténue le signal d’entrée. La figure 25.28c augmente les signaux de
faible niveau et écrête les signaux de niveau élevé. La sensibilité à l’amplitude de la distorsion non
linéaire est bien claire dans la figure 25.28d. La fonction de distorsion est une droite autour de zéro,
ce qui correspond à la partie de faible amplitude de la grille. Une telle fonction fait passer les
1/durée
Amplitude
1
ENV
0 OSC
α Fréquence
1.0
OSC
-1.0
αx
Fonction
de distorsion W
W (αx )
Signal de sortie distordu
Figure 25.26 – Instrument simple de distorsion non linéaire.

Un oscillateur sinusoïdal, dont l’amplitude est contrôlée par le signal d’enveloppe d’amplitude α, indexe
une valeur dans la table de fonction de distorsion w. Comme dans d’autres exemples d’instruments,
l’entrée 1/durée introduite dans l’entrée de fréquence de l’oscillateur d’enveloppe indique que l’enve-
loppe n’est lue qu’une seule fois au cours de la durée de la note.
+1
w
0 Sortie
-0.4
-1
-1 -0.4 0 +1
Entrée
Figure 25.27 – Fonction de distorsion ayant une réponse linéaire.

La fonction relie un signal d’entrée échelonné sur le domaine montré en bas à une fonction de sortie
dont l’échelle est montrée sur la droite. Pour comprendre comment la fonction relie une valeur
d’entrée et une valeur de sortie, lire verticalement en partant du bas, puis regarder sur la droite pour
voir la valeur de sortie correspondante. Ainsi, une valeur d’entrée de –0,4 en bas est reliée à une
valeur de sortie de –0,4 sur la droite. Cette équivalence entre valeur d’entrée et valeur de sortie
n’est vraie que dans le cas d’une fonction de distorsion linéaire.
(a) (b)
+1.0 +1.0
Signal de sortie Signal de sortie
W
W
-1.0 -1.0
-1.0 +1.0 -1.0 +1.0
Signal d'entrée Signal d'entrée
(c) (d)
+1.0 +1.0
Signal de sortie Signal de sortie
W W
-1.0 -1.0
-1.0 +1.0 -1.0 +1.0
Signal d'entrée Signal d'entrée
Figure 25.28 – Quatre fonctions de distorsion.

(a) Inversion du signal d’entrée. (b) Atténuation. (c) Amplification des signaux de bas niveaux
(expansion) et coupure des signaux de niveaux élevés. (d) Distorsion complexe sensible à l’amplitude.
signaux d’entrée de faible amplitude sans distorsion. Lorsque l’amplitude augmente, les extrémités
de la fonction de distorsion soumettent le signal d’entrée à une forme compliquée de distorsion.
25.9.3 Sensibilité à l’amplitude du spectre de distorsion non linéaire

Il est facile de voir que la sensibilité à l’amplitude de la distorsion non linéaire peut modeler les
caractéristiques d’instruments acoustiques. C’est-à-dire que l’on peut jouer d’un instrument acous-
tique de façon plus « dure », en pinçant les cordes d’une guitare avec force, en soufflant de façon
stridente dans un saxophone, ou en frappant sur un tambour avec intensité, ce qui enrichit le spectre.
Avec la distorsion non linéaire, nous pouvons émuler cet effet en faisant passer un signal dont l’ampli-
tude globale varie dans le temps à travers une fonction de distorsion. Lorsque l’amplitude du signal
d’entrée varie, on obtient un spectre variant dans le temps à la sortie. Pour dire les choses d’une
autre façon, une variation dans le domaine temporel à l’entrée se manifeste sous forme de variation
dans le domaine fréquentiel à la sortie. Ceci est une donnée importante. Pour une seule fonction
de distorsion donnée, précalculée et stockée en mémoire, on peut obtenir une variété de formes
d’onde de sortie en variant simplement l’amplitude ou la composante continue du signal d’entrée afin
d’appliquer différentes régions de la fonction de distorsion. Ainsi, la distorsion non linéaire est réel-
lement une technique de synthèse efficace. Arfib (1979) donne des exemples pratiques de distorsion
non linéaire dans des applications musicales spécifiques.
25.9.4 Fonctions de Chebychev

Les recherches de LeBrun (1979) et Arfib (1979) ont montré qu’il est possible de prédire exactement
le spectre de sortie d’une technique de distorsion non linéaire dans des conditions contrôlées mathé-
matiquement. En n’utilisant comme signal x qu’une onde invariante en cosinus et une famille de
polynômes appelés les fonctions de Chebychev, qui prennent des valeurs dans le domaine [–1, +1]
pour construire la fonction de distorsion w, on peut facilement produire n’importe quelle combi-
naison d’harmoniques dans un spectre fixe. Ceci provient de l’identité suivante :
T k × [ cos ( θ ) ] = cos ( k × θ )
où Tk est la kième fonction de Chebychev. En d’autres termes, en appliquant le kième polynôme de
Chebychev à une sinusoïde en entrée, nous obtenons une onde en cosinus au kième harmonique.
Ceci signifie que chaque polynôme séparé de Chebychev, lorsqu’il est utilisé comme fonction de
distorsion, produit un harmonique particulier de x. En additionnant une combinaison pondérée
des polynômes de Chebychev et en plaçant le résultat dans une table de distorsion, un mélange
harmonique correspondant est obtenu à la sortie de la distorsion non linéaire. Par exemple, pour
obtenir une forme d’onde fixe ayant un premier harmonique (fondamental), un deuxième harmo-
nique ayant 0,3 fois l’amplitude du premier, et un troisième ayant 0,17 fois l’amplitude du premier,
nous additionnons les équations
T 0 + ( 0,3 × T 2 ) + ( 0,17 × T 3 )
et nous plaçons le résultat dans la table d’onde de fonction de transfert. Si une onde en cosinus est
passée à travers cette table, alors le spectre de sortie contient les rapports harmoniques désirés.
Tableau 25.1 – Fonctions de Chebychev de T0 à T8.
T0 = 1
T1 = x
T2 = 2x2 – 1
T3 = 4x3 – 3x
T4 = 8x4 – 8x2 + 1
T5 = 16x5 – 20x3 + 5x
T6 = 32x6 – 48x4 + 18x2 – 1
T7 = 64x7 – 112x5 + 56x3 – 7x
T8 = 128x8 – 256x6 + 160x4 – 32x2 + 1
Un des avantages de l’utilisation des fonctions de Chebychev est la garantie que la sortie de la tech-
nique de distorsion non linéaire sera limitée en fréquences. C’est-à-dire qu’elle ne contient pas de
fréquences situées au-dessus de la fréquence de Nyquist, ce qui évite donc tout effet de repliement.
Le tableau 25.1 fait une liste des équations de T0 à T8 où x = cosq.
25.9.5 Normalisation de l’amplitude

Le principal inconvénient de la synthèse par distorsion non linéaire est que l’amplitude de sortie
de l’instrument montré à la figure 25.28 varie considérablement, même lorsque l’on utilise une seule
fonction de distorsion. Cette variation est le résultat de l’application de différentes parties de la
fonction de distorsion. C’est-à-dire qu’elle dépend de l’amplitude du signal d’entrée sur la fonction
de distorsion.
Dans la distorsion non linéaire, l’amplitude de x est en fait utilisée pour contrôler le timbre, et non
l’intensité globale du son. Si nous souhaitons une indépendance complète entre le timbre et l’ampli-
tude de sortie, nous devons appliquer une forme de normalisation d’amplitude. Au moins trois
types de normalisation sont possibles : normalisation d’intensité, normalisation de puissance et
normalisation de pic.
Pour des besoins musicaux, l’idéal serait une normalisation d’intensité, dans laquelle l’intensité
perçue de l’instrument est constante pour toutes les valeurs de α. Quoi qu’il en soit, ceci implique
des interactions psychoacoustiques compliquées et dépendantes du contexte, ce qui est donc difficile
et lourd en calcul pour la plupart des implémentations. La normalisation de puissance est basée sur
la division par la racine carrée de la valeur moyenne du carré (RMS, Root Mean Square) de l’ampli-
tude des harmoniques générés par une fonction de distorsion particulière. LeBrun (1979) donne des
détails sur cette technique. La normalisation de pic est probablement la moins compliquée et la plus
pratique des trois. Elle est effectuée en échelonnant la sortie en relation avec la valeur maximale.
La normalisation de pic assure que l’amplitude de sortie de différents sons aura au moins la même
valeur pic, et ne surchargera pas les convertisseurs numérique-analogique avec une valeur supérieure
à leur capacité.
La figure 25.29 montre un instrument de distorsion non linéaire avec normalisation de pic. La plus
simple façon de réaliser cela est de préparer une table contenant des facteurs de normalisation
pour toutes les valeurs de α, puisque l’enveloppe détermine l’amplitude de x. Par exemple, si la valeur
d’entrée α à la table de normalisation est 0,7, nous multiplions la sortie de la fonction de distorsion
par l’entrée de la table de normalisation correspondante à α.
25.9.6 Variations sur la distorsion non linéaire

La technique de distorsion non linéaire classique — envoyer une onde en cosinus à travers une
fonction de distorsion de polynômes de Chebychev — produit un spectre harmonique. Nous pouvons
étendre ce spectre de distorsion non linéaire en changeant l’entrée ou la fonction de distorsion.
Une autre possibilité est de modifier le signal sortant de l’instrument de distorsion grâce à un autre
moyen de traitement du signal, tel qu’un filtre.
Comme nous l’avons précédemment mentionné, l’entrée x de la distorsion peut être n’importe quel
signal, et pas seulement une onde en cosinus. Reinhard (1981) par exemple, détaille ce qui se passe
lorsque x est la somme de deux ondes en cosinus avec différentes fréquences. Une autre variation
est d’utiliser un signal modulé en fréquence comme entrée. Grâce à cela, nous pouvons obtenir des
combinaisons inharmoniques de partiels et de structures formantiques (Arfib, 1979).
Le signal x peut également être un son concret ou échantillonné. Lorsque la fonction de distorsion
w est un polynôme simple, l’effet ressemble au phasing, puisque les harmoniques d’entrée ondulent
dans le temps. Ainsi, un instrument de distorsion non linéaire peut générer des hybrides intéressants
Fréquence 1/durée
Amplitude Amplitude
1.0 1
OSC ENV
-1.0 0 OSC
x α
×
αx
Fonction Fonction
de distorsion W de normalisation
d'amplitude N
W(αx) N(α)
×
W(αx) × N(α)
Signal distordu normalisé
Figure 25.29 – Instrument de distorsion non linéaire avec section de normalisation.

La valeur de α indexe une valeur de la table de normalisation qui échelonne la sortie de la fonction
de distorsion.
de sons naturels et de sons électroniques. Si w contient des lignes horizontales ou verticales, il se

produit une très forte distorsion, comme celle d’un amplificateur de guitare monté au maximum.
Mais w ne doit pas nécessairement être un polynôme de Chebychev. Le principal bénéfice de l’uti-
lisation des polynômes de Chebychev comme fonctions de distorsion est que la sortie est limitée en
fréquences, ce qui évite tout phénomène de repliement. Mais si ce bénéfice n’est pas de la plus
haute importance, w peut être construite à partir d’autres types d’équations. Elle peut également
être dessinée à la main (Buxton et coll., 1982). Voir le chapitre 32 pour une description de la distorsion
non linéaire avec des fonctions de modulation de bruit.
✦ Distorsion non linéaire mobile
Une autre variation est appelée distorsion non linéaire mobile, et a été inventée par Xin Chong au
Conservatoire Central de Musique de Beijing (Xin, 1987). Dans cette technique, la fonction de dis-
torsion varie elle-même dans le temps. Ceci est accompli en stockant une fonction de distorsion plus
longue et en déplaçant un index pour en lire différentes parties à différents moments. En partant
de signaux d’entrée simples et de fonctions de distorsion variantes dans le temps, il est possible
d’obtenir une grande variété de résultats.
✦ Distorsion non linéaire fractionnée

De Poli (1984) a analysé une configuration dans laquelle une fonction de distorsion est une fraction,
c’est-à-dire un rapport entre deux polynômes. Il appelle cela la distorsion non linéaire fractionnée.
La distorsion non linéaire fractionnée peut générer des effets comme un spectre exponentiel et un
spectre dont la forme ressemble à une onde en cosinus amortie. Les bosses multiples du spectre en
onde cosinus amortie sont entendues comme des formants. Des spectres variant dynamiquement
sont réalisés dans la distorsion non linéaire normale en variant l’amplitude et la composante continue
du signal d’entrée en cosinus.
✦ Post-traitement et estimation de paramètres
Le signal distordu peut être passé à travers un autre outil de traitement du signal, ce que nous appel-
lerons post-traitement du signal distordu. Cet outil peut être par exemple un oscillateur MA, un
oscillateur MF, ou un filtre. MA et MF peuvent enrichir le spectre distordu en ajoutant par exemple
des partiels inharmoniques à un spectre harmonique (Arfib, 1979 ; LeBrun, 1979 ; De Poli, 1984).
De Poli (1984) et Volonnino (1984) ont développé une méthode de filtrage expérimentale appelée
distorsion non linéaire dépendante de la fréquence. Elle est censée offrir un contrôle indépendant de
la phase et de l’amplitude de chaque harmonique généré par le procédé de distorsion non linéaire.
Voir les articles cités pour plus de détails sur ces techniques.
Beauchamp (1979) a ajouté un filtre passe-haut à la sortie de son modèle de distorsion non linéaire
de sons de cuivres pour imiter les effets d’amortissement des tuyaux des cuivres. Plus récemment,
Beauchamp et Horner (1992) ont simulé des sons instrumentaux grâce à un modèle de multiple
distorsion non linéaire + filtre. Ils établissent tout d’abord une estimation de paramètres d’un son
instrumental puis font une approximation de son spectre avec un modèle simple de distorsion non
linéaire + filtre. Ils soustraient cette approximation du son originel pour obtenir un signal de dif-
férence ou résiduel. Puis ils effectuent une approximation du résiduel avec un autre modèle de distor-
sion non linéaire + filtre. L’utilisation de deux ou trois modèles de distorsion non linéaire aboutit
à des simulations beaucoup plus proches qu’avec un seul modèle.
25.10 Modulations générales

De nombreuses techniques de synthèse peuvent être arrangées en techniques de modulation en
substituant une fonction variante dans le temps à la constante de l’équation de la technique d’origine.
Si la fonction variante dans le temps est périodique, la technique fait partie de la famille connue
sous le nom de modulation de paramètres de forme d’onde. Par exemple, les modulations d’amplitude
et de fréquence peuvent être classifiées comme techniques de modulation de paramètres de forme
d’onde. Pour plus d’informations sur les schémas de classification, voir Mitsuhashi (1980).
James A. Moorer (1976) montra que l’équation de la MF simple est un exemple d’une classe géné-
rale d’équations appelées formules de somme discrète (FSD). Les FSD font référence à un ensemble
de formules qui sont la solution sous forme fermée des sommes de la série trigonométrique finie et
infinie. « Forme fermée » signifie la représentation plus compacte et plus efficace d’une formule
d’addition plus longue. Ces formules sont applicables à la synthèse du son si l’on considère qu’elles
décrivent des formes d’onde constituées de sinusoïdes additionnées. Par exemple, la partie droite
de l’équation suivante est la solution sous forme fermée de l’addition montrée dans la partie gauche :
n
∑ sin ( kθ ) = sin [ 1 ⁄ 2 ( n + 1 )θ ] sin [ ( nθ ) ⁄ 2 ] cosec ( θ ⁄ 2 )

k=1
Cette équation montre que l’on peut représenter la somme de n sinusoïdes avec seulement cinq multi-
plications, trois divisions, et trois opérations de lecture de table. En tant qu’équations sous forme
fermée, les FSD ne manipulent qu’un nombre limité de paramètres et peuvent être réalisées de façon
économique sous forme numérique. L’article de Moorer décrit quatre FSD prometteuses quant à la
synthèse du son. Il existe une classe plus large de FSD (Hansen, 1975), mais la plupart d’entre elles
ne sont probablement pas utiles en synthèse musicale.
Certaines FSD peuvent générer des sons variant dans le temps, ayant un spectre ressemblant à ceux
produits par la MF. Moorer a également décrit des FSD générant des spectres impossibles à obtenir
avec la MF simple, tel qu’un spectre unilatéral dont les partiels ne s’étendent que d’un côté de la fré-
quence de la porteuse. Une autre famille de spectres possibles avec les FSD est celle comportant des
partiels dont les amplitudes augmentent selon un facteur constant.
Un désavantage des FSD comparées à la MF est l’absence de normalisation d’amplitude. Il est ainsi
nécessaire d’appliquer une sorte d’échelonnage ou de normalisation à la sortie de l’algorithme de
synthèse FSD. Voir la présentation de la normalisation dans la partie sur la distorsion non linéaire.
Les lecteurs possédant un certain bagage technique et souhaitant approfondir les méthodes FSD
pourront se pencher sur les articles de Moorer (1976, 1977) ou de Moore (1990).
25.11 Conclusion
La modulation du signal est une source riche d’effets et de sonorités musicales. Les modulations
d’amplitude et en anneau ont une longue histoire due à leurs applications dans le domaine des trans-
missions radio. Dans le domaine audio, elles génèrent des sons « radio » classiques. Elles sont cepen-
dant plus limitées que la MF, en partie parce qu’elles ne génèrent pas autant de bandes latérales, et
en partie à cause de la flexibilité des paramètres MF. Dans le cas de cette dernière, de patientes années
de recherche par des douzaines d’ingénieurs aux États-Unis et au Japon ont apporté un grand
nombre de raffinements. Les musiciens ont investi un grand nombre d’heures de travail pour établir
les paramètres des instruments de MF, afin de créer des « voix » ou des timbres intéressants.
L’un des inconvénients des techniques de modulation de base est inhérent aux formules de la modu-
lation. Le spectre des sons générés par les techniques de modulation est limité par les lois mathé-
matiques à quelques types de comportements préétablis. En pratique, cela signifie que chaque type
de modulation simple possède une « signature » sonore caractéristique qui peut être reconnue après
une certaine expérience de la technique. Selon l’habileté du compositeur, cette signature peut être
soit un cliché gênant, soit une force musicale attrayante. Dans cette dernière catégorie, la musique
de film électronique que Louis et Bebe Barron ont composée pour le film Planète interdite (1956) reste
un exemple remarquable d’utilisation musicale de la modulation. Dans le futur, des techniques de
synthèse plus élaborées seront développées, mais il restera quelque chose de profondément évocateur
dans la modulation utilisée artistiquement.
Chapitre 26
La synthèse
par modèles physiques
26.1 Synthèse par modèles physiques

La synthèse par modèles physiques (MP) prend sa source dans les modèles mathématiques de l’acous-
tique de la production sonore des instruments. C’est-à-dire que les équations de MP décrivent le
comportement mécanique et acoustique d’un instrument joué. Cette approche a également été appelée
synthèse par règles (Ferretti, 1965, 1966, 1975), synthèse de principes premiers (Weinreich, 1983),
ou plus récemment acoustique virtuelle (Yamaha, 1993).
Les buts de la synthèse par modèles physiques sont de deux ordres : scientifique et artistique. Tout
d’abord, les MP recherchent dans quelle mesure la logique algorithmique et les équations mathé-
matiques peuvent simuler les mécanismes de production sonore des instruments existants. Cette
approche est basée sur le fait que plus la simulation est proche, meilleure est la compréhension du
système. Dans ce sens, un modèle physique personnifie l’idéal newtonien de modèle mathématique
précis d’un processus mécanique et acoustique complexe. Pour une introduction à la physique des
ondes dans les systèmes mécaniques et acoustiques, voir Pierce (1974), Crawford (1968) ou Olson
(1991).
Le second but des MP est artistique. La simulation par modèles physiques peut créer des sons
d’instruments imaginaires qui seraient impossibles à construire autrement. Dans cette catégorie
nous incluons les instruments fantasmagoriques dont les caractéristiques et la géométrie peuvent
varier au cours du temps — un violoncelle élastique qui se « dilaterait » et se « contracterait » pendant
la durée d’une phrase, ou des tambours impossibles dont les peaux ne pourraient être détruites,
quand bien même elles seraient frappées avec une grande force. Les techniques MP sont souvent
échelonnables, ce qui permet, à partir de la description d’un gong, de fabriquer un ensemble de
douzaines de gongs ayant par exemple des diamètres entre 30 cm et 30 m. En extrapolant les spé-
cifications d’une seule corde, un musicien peut construire une guitare virtuelle dont les cordes sont
aussi longues et aussi épaisses que les câbles de suspension d’un pont. À la grande joie des alchimistes
de la musique, changer les matériaux de construction — de l’argent au cuivre, aux bois exotiques,
au plastique — peut être aussi simple que de rentrer quelques constantes.
Les MP excellent dans la simulation des transitions entre notes et timbres. En changeant dynamique-
ment la taille de certaines parties d’un instrument virtuel — en allongeant par exemple un tube
résonateur —, des transitions sonores crédibles sont souvent produites. Une autre caractéristique
des MP est qu’ils capturent les incidents survenant au cours de l’interprétation, tels que les couacs,
les blocages de mode et les multiphoniques. Ces sons restent imprévisibles lorsqu’un interprète
débutant essaie de les jouer, mais lorsqu’ils sont utilisés de façon contrôlée ils injectent une dose
de réalisme dans la simulation. Dans la synthèse MP, ces sons apparaissent naturellement, comme
effets secondaires lors de certains réglages de paramètres. Comparez cela à la synthèse additive,
dans laquelle des spécifications détaillées doivent être données pour chaque aspect du son.
Les méthodes de synthèse MP n’essaient pas de créer un modèle physique « complet » d’un instru-
ment. Plutôt que de tenir compte de toutes les conditions possibles de l’existence d’un instrument,
elles ne retiennent la physique de celui-ci que dans les conditions extrêmement contenues de l’inter-
prétation. Lors de celle-ci, le musicien n’effectue qu’un petit nombre de gestes idiomatiques sur
l’instrument. Cette information de contrôle de largeur de bande relativement faible peut être en général
représentée de façon concise dans un programme.
26.1.1 Efficacité de la synthèse par modèles physiques

La synthèse MP englobe une famille de techniques développées par plusieurs chercheurs au cours
des trois décennies passées. En raison de la nature mathématique de la plupart de ces techniques
et du poids en calcul qu’elles imposent, la synthèse MP a émergé lentement des laboratoires pour
s’installer dans les studios des musiciens.
Ce n’est que depuis quelques années que des implémentations réellement efficaces ont été développées
pour certains types de synthèse par modèles physiques (McIntyre, Schumacher et Woodhouse,
1983 ; Smith, 1986, 1987a, b, 1992 ; Keefe, 1992 ; Adrien, 1991 ; Woodhouse, 1992 ; Cook, 1991a, b,
1992, 1993 ; Borin, De Poli et Sarti, 1992). Ces algorithmes efficaces, tels que les guides d’onde, sont
basés sur des structures de traitement numérique du signal comme les lignes à retard, les filtres et
les opérations de lecture de table d’onde. Cependant, leur efficacité n’est possible qu’au prix de sim-
plifications radicales. Ceci signifie qu’il génère souvent des sons « comme les instruments » sans
nécessairement atteindre un réalisme frappant. Mais cela ne veut pas dire que ces simulations ne sont
pas intéressantes. Du point de vue du compositeur, des sons flexibles ressemblants aux instruments
peuvent être très utiles. Woodhouse (1992) confronte les points faibles de plusieurs modèles actuels.
Ce chapitre décrit l’approche « classique » et très gourmande en calcul ainsi que les stratégies plus
efficaces telles que la synthèse modale, la synthèse McIntyre, Schumacher et Woodhouse, et les
méthodes par guides d’onde. Nous présenterons également plus loin une méthode très efficace
appelée synthèse Karplus-Strong.
26.1.2 Origines : modèles physiques

Les concepts, la terminologie et certaines des formules employées en synthèse par modèles physiques
remontent aux traités scientifiques du dix-neuvième siècle sur la nature du son, tel que l’ouvrage
extraordinaire de Lord John William Strutt Rayleigh The Theory of Sound (1894-1945). Rayleigh
détaille les principes des systèmes vibrants tels que les membranes, les plaques, les barres, et les
caisses de tambours, et décrit la physique mathématique des vibrations à l’air libre, dans des tubes
et dans des boîtes. D’autres pionniers du siècle dernier construisirent des modèles mécaniques
pour simuler la physique des instruments de musique (Helmholtz, 1863 ; Poynting et Thomson, 1900 ;
Tyndall, 1875 ; Mayer, 1878). Après l’invention de la lampe, des modèles analogiques électroniques
furent construits (Steward, 1922 ; Miller, 1935 ; Stevens et Fant, 1953). Voir Olson (1967) pour des
modèles physiques à circuits analogiques d’instruments de percussion, des instruments à anche,
des instruments à cordes frappées et de la voix. Mais les progrès furent lents avant l’arrivée de
l’ordinateur.
John Kelly et Carol Lochbaum aux Bell Telephone Laboratories furent des pionniers dans l’adaptation
d’un modèle physique de la voix humaine sur un ordinateur numérique (Kelly et Lochbaum, 1962).
Leur interprétation de Bicycle Built for Two, qui apparut sur le disque des Bell Telephone Laboratories
Music from Mathematics produit par Max Mathews en 1960 devint un symbole mondial de la capacité
croissante des ordinateurs. Le film de Stanley Kubrick 2001 : l’odyssée de l’espace fait référence à cet
exploit lorsque l’ordinateur HAL régresse jusqu’à ses premiers jours et chante une chanson. La version
du film fut cependant chantée par un humain.
Lejaren Hiller, James Beauchamp et Pierre Ruiz à l’université de l’Illinois furent les premiers à
adapter les modèles physiques à la synthèse des instruments (Hiller et Beauchamp, 1967 ; Ruiz,
1970 ; Hiller et Ruiz, 1971). Leur travail était centré sur la synthèse du son d’objets vibrants tels que
des cordes, des barres, des plaques, et des membranes, mises en mouvement par pincement et frap-
pement. Un autre pionnier de la synthèse par modèles physiques est Ercolino Ferreti, qui dirigea
des travaux d’étudiants au MIT, à l’université de Harvard et à l’université de l’Utah dans les années
1960 et 1970 (Ferreti, 1965, 1966, 1975).
L’intérêt dans l’application des guides d’onde à la synthèse fut provoqué par la découverte de
l’algorithme de corde pincée de Karplus-Strong décrit plus loin dans ce chapitre. Cette méthode,
efficace du point de vue du calcul, arriva plus comme un accident que comme une tentative inten-
tionnelle de modèles physiques (Karplus et Strong, 1983 ; Jaffe et Smith, 1983). Keefe (1992) fait un
résumé des développements survenus depuis 1963 (voir également Fletcher et Rossing, 1991). En
1993, la compagnie Yamaha présenta des synthétiseurs commerciaux basés sur les guides d’onde,
le VL1 et le VP1.
26.1.3 Excitation et résonance

Question : Les modes de résonance des instruments à vent ne sont pas parfaitement harmoniques,
mais leurs sonorités peuvent l’être. D’un autre côté, un instrument à percussion possède des résonances
inharmoniques et produit des sons inharmoniques. Quelle est la différence ?
Réponse : Il ne faut pas seulement considérer les modes de résonance et la façon dont ils sont placés,
mais également la façon dont l’instrument est excité. Si vous prenez une trompette et que vous la frappez
avec un marteau, le son sera percussif. Si vous prenez une caisse claire et que vous l’excitez avec un
vibrateur, le son sera harmonique. (Bernie Hutchins, 1984)
Un principe fondamental de la synthèse par modèles physiques est l’interaction entre un excitateur
et un résonateur. Une excitation est une action qui provoque des vibrations, telles qu’un coup d’archet,
un coup de baguette, ou un souffle d’air. Une résonance est la réponse du corps d’un instrument à
la vibration excitatrice. Du point de vue du traitement du signal, le corps agit comme un filtre variant
dans le temps appliqué au signal excitateur.
En général, l’excitateur a un comportement non linéaire, et le résonateur a un comportement linéaire.
Pour expliquer intuitivement un système acoustique « linéaire », nous pouvons dire qu’il répond
proportionnellement à la quantité d’énergie qu’on lui applique. Si nous mettons deux signaux dans
un tel système, nous pouvons espérer que la sortie sera leur somme. Un système « non linéaire »
possède des seuils intégrés qui, s’ils sont dépassés, font en sorte que le système répond différemment,
comme si un interrupteur avait été actionné.
Les interactions excitateur/résonateur appartiennent à deux classes de base : découplée (ou alimenta-
tion directe) et couplée (ou alimentation rétroactive). Dans les techniques de synthèse soustractives
comme le codage prédictif linéaire (voir le chapitre 24), la source ou signal excitateur est injectée
dans un filtre résonant. Il n’existe pas d’autre interaction entre le signal et l’excitation que le transfert
d’énergie entre excitateur et résonateur.
Par contraste, le mécanisme de la production du son dans un saxophone est un exemple d’excitation
couplée. Ceci signifie que la partie résonante est réintroduite dans la partie excitatrice. Par exemple,
la fréquence de l’anche vibrante est fortement influencée par la réintroduction acoustique du tube
résonateur de l’instrument, après avoir été initialement excitée par le souffle de la bouche.
L’interaction entre l’excitation et la résonance crée la variété et la subtilité du son que l’on entend
lors des interprétations de virtuoses. Comme les techniques MP peuvent modeler cette interaction,
elles tendent à communiquer une sensation de geste lors de l’émission sonore (Florens et Cadoz,
1991 ; Adrien, 1991). Ceci est différent des méthodes de synthèse abstraites contrôlées par des for-
mules mathématiques qui ne sont pas directement liées au contrôle gestuel.
Dans certaines implémentations de la synthèse MP, l’excitation vient d’un outil d’entrée (ou con-
trôleur d’interprétation) joué par un interprète (Cadoz, Florens, et Luciani, 1984 ; Cook, 1992).
Voir la partie sur les outils d’entrée de la synthèse MP plus loin.
26.1.4 Méthodologie classique des modèles physiques

L’approche « classique » des modèles physiques a commencé avec les recherches de Hiller et Ruiz
(1971) et de nombreux autres chercheurs par la suite. La méthodologie classique se présente comme
suit.
Tout d’abord, on spécifie les dimensions physiques et les constantes des objets vibrants telles que
leur masse et leur élasticité. Ceci est nécessaire, car dans les instruments acoustiques, le son est pro-
duit par des objets vibrants tels que des cordes, des anches, des membranes, ou des souffles d’air à
l’intérieur d’un tube ou d’un corps d’un instrument.
Ensuite, on stipule les conditions limites auxquelles l’objet vibrant est contraint. Ce sont les valeurs
limites des variables qui ne peuvent être dépassées. Les conditions limites permettent également
de rendre possible un système qui ne serait pas « revenu au repos » ou qui ne se serait pas stabilisé
à la suite d’une entrée.
L’état initial est spécifié, par exemple la position de départ d’une corde au repos.
Ensuite, l’excitation est décrite en algorithmes sous forme d’une force entrant en collision avec l’objet
vibrant. Les sources typiques d’excitations dans les instruments acoustiques incluent les sources
percussives telles que les baguettes, les maillets, les marteaux, les sources de souffle telles que le
souffle de l’air entre les anches, et les frottements des instruments à cordes. Un couplage entre l’exci-
tateur et le résonateur peut être spécifié dans l’algorithme.
On doit tenir compte également des effets d’impédance. L’impédance est la résistance à une force ;
dans un milieu d’impédance élevée, une grande force est nécessaire pour générer une petite ampli-
tude. Lorsque les ondes passent d’une partie de l’instrument à une autre, l’impédance des différentes
parties influe sur la propagation de l’onde. Par exemple, on peut imaginer deux cordes jointes, où
l’une est beaucoup plus lourde que l’autre. Si nous frottons la corde légère, l’onde va frapper la corde
la plus lourde et la presque totalité de l’énergie sera renvoyée dans la corde légère. Si par contre les
deux cordes sont d’impédances égales, il n’y aura pas de renvoi. Les chercheurs ont mesuré les impé-
dances de plusieurs composants d’instruments, et les équations adéquates peuvent être insérées
dans les modèles physiques (Campbell et Greated, 1987).
Enfin, le filtrage survenant en raison de facteurs comme la friction et la radiation sonore est spécifié
comme restriction supplémentaire aux conditions de vibration.
À ce stade, nous sommes en face d’un système plutôt compliqué d’équations qui représente le modèle
physique d’un instrument. L’équation d’onde correspondante, qui combine tous ces facteurs, est
soumise aux conditions initiales et à l’excitation (Morse, 1936). L’équation d’onde est ensuite résolue
par un processus d’approximations itératives successives qui cherche simultanément des valeurs
raisonnables pour de nombreuses variables interdépendantes. Cette équation génère une valeur
d’échantillon discrète représentant l’onde de pression sonore à un instant donné.
En dessous de la méthodologie classique, il existe un ensemble d’équations différentielles basées
sur le paradigme masse-ressort — un modèle de structures vibrantes que nous décrirons dans les
prochaines parties.
✦ Équations différentielles
Dans l’approche classique de la synthèse par modèles physiques, les échantillons sont le résultat
d’une évaluation d’équations différentielles qui décrit le comportement vibratoire d’objets physiques.
Une équation différentielle comporte des différences et des dérivées de fonctions. Ces équations
sont généralement utilisées pour décrire les changements d’un signal dans le temps. Par coïncidence,
la première application des équations différentielles faite par Joseph Bernoulli en 1732 était la simu-
lation d’une corde vibrante de longueur finie — une technique centrale de synthèse par modèles
physiques. Les équations différentielles servent également à décrire les filtres numériques. Toutes
les équations de filtres FIR et IIR du chapitre 4 sont des exemples d’équations différentielles. Pour
en savoir plus sur les équations différentielles voir Rabiner et Gold (1975) ou tout autre texte abordant
le traitement numérique du signal.
Les physiciens utilisent des équations différentielles pour décrire les lois de changement de quantités
physiques. En modelant un phénomène de cette façon, la première étape est de déterminer le plus
petit nombre de variables possible pouvant décrire l’état du phénomène modelé avec précision.
L’étape suivante établit les équations différentielles les plus simples qui sont des descriptions précises
des lois gouvernant les changements de ces variables. Certains types d’équations différentielles ont des
solutions algébriques globales, tandis que d’autres ne peuvent être résolues que par des méthodes
d’approximations successives demandant beaucoup de temps (Press et coll., 1988). Dans ces méthodes,
on établit une valeur approximative de solution qui sera affinée par la suite de façon itérative.
✦
Le paradigme masse-ressort pour les cordes vibrantes
L’étude des cordes vibrantes dans les instruments de musique a fasciné les scientifiques et les
musiciens depuis des siècles. Il n’est donc pas surprenant que Hiller et Ruiz (1971) aient pris la corde
vibrante comme point de départ de leur travail de recherche. Ils résolurent les équations différen-
tielles pour les cordes pincées et frottées au centre, près des extrémités, et près du point limite. La
vélocité de l’archet, la pression appliquée, et le coefficient de friction étaient fournis comme partie
des conditions initiales. Ils prenaient également en compte d’autres facteurs, dont la friction de l’air,
l’épaisseur de la corde, le mouvement du chevalet, la transmission d’énergie du chevalet au réso-
nateur, et la radiation d’énergie de la caisse de résonance.
Dans ce travail, comme dans d’autres simulations plus récentes, les cordes sont modelées de façon
classique sous forme de série de masses discrètes reliées par des ressorts. Le modèle masse-ressort
a longtemps été utilisé par les physiciens et les acousticiens pour décrire les objets vibrants et les
ondes qu’ils émettent (Crawford, 1968 ; Benade, 1990 ; Cadoz, Luciani et Florens, 1984 ; Weinreich,
1983 ; Smith 1982, 1983 ; Hutchins, 1978 ; Adrien et Rodet, 1985 ; Boutillon, 1984 ; Chafe, 1985).
Le paradigme masse-ressort capture deux qualités essentielles du milieu vibrant. Tout d’abord,
celui-ci a une densité, qui existe pour une quantité donnée de volume. Pour une corde, la densité peut
être considérée comme son poids. Deuxièmement, les milieux vibrants sont élastiques ; si une partie
du milieu est déplacée de son point d’équilibre, une force de restauration apparaît immédiatement
pour essayer de le ramener à ce point. Si nous créons une perturbation dans l’une des parties d’une
corde en la pinçant, les parties déplacées du milieu exercent des forces sur les parties adjacentes,
ce qui les fait quitter leur position d’équilibre. Ceci fait à leur tour déplacer les parties suivantes,
dans un processus appelé propagation d’onde. En raison de la masse du milieu, les parties ne se
déplacent qu’après un court retard de leur position d’équilibre. Ceci a pour résultat que l’impulsion
de pincement se propage dans le milieu à une vitesse donnée.
La figure 26.1a décrit une corde sous forme de masses identiques reliées par de petits ressorts.
Si la première masse est déplacée vers la droite, le premier ressort se compresse, exerçant une force
sur la seconde masse (figure 26.1b). Celle-ci se déplacera alors vers la droite, compressant le second
(a) Masse Ressort
(b)
(c)
(d)
Déplacement initial
(e)
Figure 26.1 – Modèle masse-ressort des cordes vibrantes.

(a) Le ressort modèle l’élasticité de la corde. (b) Dans une onde longitudinale, la perturbation se
déplace dans la même direction que la propagation de l’onde. Le déplacement initial (compression
du ressort) est marqué d’un astérisque. (c) État suivant. (d) Dans une onde transversale, la pertur-
bation initiale est perpendiculaire à la direction de propagation de l’onde. (e) État suivant.
ressort, et ainsi de suite, comme dans la figure 26.1c. Comme les déplacements des masses succes-
sives se font dans la même direction que le trajet de la perturbation, c’est-à-dire horizontalement,
ce phénomène est appelé onde longitudinale.
Les figures 26.1d et 26.1e montrent une propagation d’onde transversale qui apparaît lorsque le
déplacement initial est perpendiculaire à la direction du trajet de propagation de l’onde. Ceci est le
type principal de vibration d’onde survenant dans les cordes pincées, frappées ou frottées. Il existe
un autre type de vibration dit rotatif, mais qui n’est pas modelé en synthèse sonore.
La séparation de la corde en un ensemble de masses discrètes offre un avantage du point de vue du
calcul : en effet, l’effet d’excitation en un point donné de la corde peut être considéré comme l’appli-
cation d’une force sur une seule masse qui transmet cette force aux autres masses en passant par
les ressorts. Après la frappe d’un ressort, la forme de la corde en un point donné dans le temps est
déterminée par la résolution d’un ensemble d’équations différentielles.
✦ Le paradigme masse-ressort pour les surfaces et les volumes vibrants
La représentation masse-ressort peut être étendue aux surfaces vibrantes et aux volumes. Les sur-
faces peuvent être modelées sous forme d’une structure de masses reliées par plus d’un ressort
(figure 26.2a), ou arrangées de façon circulaire pour modeler la peau d’un tambour (figure 26.2b).
Les volumes prennent la forme d’un treillage (figure 26.2c), avec les masses reliées de six façons
différentes.
(a) (b) (c)
Figure 26.2 – Modèles de surfaces et de volumes vibrants sous forme de masses

connectées par des ressorts. Les points noirs sont les masses, et les lignes représentent les ressorts.
(a) Modèle de surface vibrante. (b) Modèle de peau de tambour sous forme d’arrangement circulaire
de ressorts et de masses. (c) Un volume vibrant peut être modelé sous forme de treillage de masses
connectées par des ressorts sur six faces.
✦ Le paradigme masse-ressort pour l’excitation

Pour l’instant, nous avons décrit des systèmes de masses et de ressorts linéaires comme modèles
de résonateurs. Si les ressorts sont définis pour ne pas avoir un comportement linéaire, ils deviennent
de bons modèles pour l’excitation. Les oscillateurs non linéaires qui sont souvent utilisés comme
excitateur dans les méthodes MP peuvent être compris comme le modèle de masse et de ressort
non linéaire (Rodet, 1992). Les masses représentent le comportement d’inertie, tandis que les ressorts
non linéaires remplissent les propriétés élastiques du corps de l’excitateur. Un composant de friction
non linéaire remplit la condition de contact entre l’excitateur et le résonateur. Une telle représentation
a été appliquée par exemple au modèle d’un marteau de piano (Suzuki, 1987).
26.1.5 Synthèse modale

Le mouvement d’un système complexe ayant de nombreuses parties en mouvement peut toujours être
considéré comme une combinaison de mouvements plus simples, appelés modes, et survenant simul-
tanément. Quelle que soit la complexité du système, nous découvrirons que chacun de ses modes possède
des propriétés très similaires à celles d’un simple oscillateur harmonique. (Frank Crawford, 1968)
La synthèse modale (Calvet, Laurens et Adrien, 1990 ; Adrien, 1991) est une alternative au para-
digme masse-ressort. Elle part du principe qu’un objet produisant du son peut être représenté comme
une collection de sous-structures vibrantes. Le nombre des sous-structures est en général infime
par rapport à l’approche masse-ressort. Les sous-structures typiques sont les chevalets et les corps
de violon, les tubes acoustiques, les cloches, les peaux de tambour, etc. Comme dans le paradigme
masse-ressort, les sous-structures répondent à une excitation appliquée de l’extérieur (forces, souffles
d’air, pressions ou mouvements). Lorsqu’elle est excitée, chaque sous-structure possède un ensemble
de modes de vibration naturels. Ces modes sont propres à une structure particulière et dépendent
d’un grand nombre de facteurs physiques que nous ne détaillerons pas ici (voir par exemple Benade,
1990). Un facteur qui joue en faveur de la synthèse modale est qu’une méthodologie bien définie
de l’analyse des modes de vibration existe déjà, en raison de nombreuses applications industrielles
(Hurty et Rubinstein, 1964 ; Hou, 1969) ; cette méthodologie peut être adaptée à la synthèse du son.
Voir Bork (1992) pour une courte description de l’analyse modale des instruments de musique et
pour des références supplémentaires.
La synthèse modale caractérise chaque sous-structure comme un ensemble de données modales,
constituées (1) des fréquences et des coefficients d’amortissement des modes de résonance des sous-
structures, et (2) d’un ensemble de coordonnées représentant la forme du mode vibrant. Ainsi, la
vibration instantanée globale d’un instrument peut être exprimée comme la somme des contributions
de ses modes.
Dans l’implémentation d’Adrien, la vibration instantanée est décrite par un vecteur de N coordonnées
associées à N points choisis sur la structure. Ces coordonnées sont reliées de telle façon que les élé-
ments géométriques et mécaniques soient proches des caractéristiques de l’instrument. L’ensemble
de N points est équivalent aux N ensembles de données modales. Un mode de vibration donné peut
être décrit par les déplacements relatifs des N points.
Pour des sous-structures simples, telles qu’une corde non amortie, les données modales sont dis-
ponibles dans les livres d’ingénierie mécanique sous forme d’équations. Pour les structures vibrantes
complexes, les données modales peuvent être obtenues grâce à l’expérimentation sur instrument
réel. Les outils pour ce type d’analyse d’ingénierie mécanique — tels que les transducteurs et les
logiciels d’analyse — sont disponibles pour les chercheurs, car ils sont utilisés dans des applications
industrielles telles que la conception des avions.
L’approche modale possède un avantage de flexibilité sur le paradigme masse-ressort. Ceci vient
de la conception modulaire des sous-structures modales. La synthèse modale segmente les méca-
nismes producteurs de son en sous-structures vibrantes. Il est possible d’ajouter ou de retirer des
sous-structures pour créer des effets de synthèse variant dans le temps, tels que « l’expansion » ou
la « compression » de la taille d’un instrument. La méthode permet également des interpolations
timbrales entre deux instruments, par combinaison inhabituelle de sous-structures.
✦ Modalys : une implémentation pratique de la synthèse modale

Le système Modalys, développé par Jean-Marie Adrien et Joseph Morrison, est une réalisation par-
ticulièrement claire de la synthèse modale, et présenté sous forme de boîte à outils logicielle
modulaire (Morrison et Waxman, 1991 ; Morrison et Adrien, 1991). Pour cette raison pédagogique,
nous présenterons ici un exemple complet.
Dans le monde de Modalys, on s’assoit devant un établi virtuel possédant une collection d’objets
que l’on assemble en instruments. Les objets sont des cordes, des colonnes d’air, des plaques métal-
liques, des membranes, et des chevalets de violon et de violoncelle. D’autres objets excitent l’instru-
ment, comme les archets, les marteaux et les plectres. Les interactions entre les objets sont appelées
des connexions. Les connexions peuvent être conçues comme des boîtes noires s’intercalant entre
les objets et spécifiant une relation entre eux. Par exemple, deux objets peuvent être connectés par
collage, par frottement, par pincement, par frappe et par poussée. Il existe des contrôleurs dans
chaque connexion — des molettes stipulant les paramètres du contrôle. Une connexion par frot-
tement, par exemple, possède des contrôleurs pour la vitesse de l’archet, la quantité de colophane,
et ainsi de suite. Enfin, la position physique sur un objet est appelée un accès. Pour connecter deux
objets, nous avons par exemple besoin de spécifier leur accès.
La figure 26.3a est un exemple de l’utilisation des concepts d’objets, de connexions, de contrôleurs
et d’accès. L’exemple est représenté sous forme de diagramme à la figure 26.3b.
Contrôleur de position
Position
Plectre
Pincement
Accès du pincement sur la corde
Accès d'écoute sur la corde
Sortie
Figure 26.3a – Corde frappée simulée par le programme Modalys.

Représentation graphique.
;;; MOSAIC plucked string example, written in Scheme

;;; Make string and plectrum objects
(define my-string (make-object 'monostring))
(define my-plectrum (make-object 'bi-two-mass))
;;; Make pluck connection between plectrum and string
(define my-string-pluck
(make-access my-string (const .6) 'trans0))
(define my-plectrum-pluck
(make-access my-plectrum (const 1) 'trans0))
(make-connection 'pluck my-string-pluck
my-plectrum-pluck 0 .1 (const 50))
;;; Make position connection to push plectrum
(define my-plectrum-move
(make-access my-plectrum (const 0) 'trans0))
;;; Move plectrum from .1 meter to -.5 meter in .5 secs
(make-connection 'position my-plectrum-move
(make-controller 'envelope 1
(list (list 0.00 .1)
(list 0.50 -.5))))
;;; Make listening point on string
(define my-string-out
(make-access my-string (const .3) 'trans0))
(make-point-output my-string-out)
;;; Run the synthesis and play the sound
(run 2) ; Make 2 seconds of sound
(play)
Figure 26.3b – Corde frappée simulée par le programme Modalys.

Code Modalys correspondant à (a). Les lignes commençant par un point-virgule sont des commen-
taires. Voir le texte pour une explication du code.
L’exemple est écrit en Scheme (Abelson et Sussman, 1985), un dialecte du langage de programmation
Lisp. Le langage Scheme possède une syntaxe générale de la forme :
(function arguments)
Cela signifie que le « verbe » ou opération est tout d’abord spécifié, suivi des arguments propres à
cette opération. Lorsque les expressions entre parenthèses sont emboîtées, elles sont exécutées dans
un ordre commençant avec celles situées à l’intérieur. Par exemple, la commande :
(define my-string (make object ‘mono-string))
crée un objet corde appelé my-string et le place sur l’établi virtuel. Lorsque Modalys exécute cette
commande, il effectue une analyse modale complète. Le nom my-string désigne les données
générées par cette analyse. En plus d’une corde, nous avons besoin d’un plectre :
(define my-plectrum (make object ‘bi-two-mass))
Nous souhaitons demander à Modalys d’utiliser le plectre pour pincer la corde, mais Modalys
demande que l’on stipule les points d’accès spécifiques. Ils sont donnés par les lignes suivantes :
(define my-string-pluck
(make-access my-string (const .6) ‘trans0))
(define my-plectrum-pluck
(make-access my-plectrum (const 1) ‘trans0))
Les noms my-string-pluck et my-plectrum-pluck ne sont que des noms pour les points où les
deux objets se touchent. La ligne suivante établit la connexion par pincement :
(make-connection ‘pluck my-string-pluck
my-plectrum-pluck0.1 (const 50))
Le premier argument après le ‘pluck sont les points d’accès pour l’objet pincé et le pinceur. Les
deux arguments suivants disent que la position de l’objet pincé est 0 et que le pinceur est à 0,1 m
de ce point. Le troisième argument dirige un contrôleur qui décide quand relâcher la corde. Le nom-
bre 50 est la force en newtons (1 N pousse une masse de 1 kg pour l’accélérer de 1 m/s). Lorsque le
pinceur exerce une force supérieure à 50 N, la connexion par pincement s’achève. Les lignes suivantes
créent un second accès sur le plectre pour qu’il puisse être déplacé par un contrôleur d’enveloppe.
(define -my-plectrum-move
(make-access my-plectrum (const 0) ‘trans0))
(make-connection ‘position my-plectrum-move
(make-controler ‘envelope 1
(list (list 0.00 .1)
(list 0.50 -.5))))
Les valeurs d’enveloppe sont spécifiées par paires, sous la forme (valeur temporelle). Les fonctions
list créent une liste de deux listes à partir de ces paires. Les dernières phrases (define my-string-
out…) créent un accès pour l’écoute de la corde et commandent à l’instrument de jouer.
26.1.6 Synthèse McIntyre, Schumacher et Woodhouse

Une autre approche des modèles physiques est celle de McIntyre, Schumacher et Woodhouse (1983).
Ils décrivent un modèle élégant, quoique très simplifié, des mécaniques de la production sonore
instrumentale. En partant du principe que ce sont les oscillations (vibrations d’avant en arrière auto-
entretenues) qui génèrent des sons dans les bois, les cordes frottées et les tuyaux d’orgue, MSW se
centrèrent sur le comportement temporel des sons. C’est-à-dire qu’ils étudièrent la naissance et
l’évolution de formes d’onde, et les mécanismes physiques situés derrière ces phénomènes. Avant
la recherche MSW, d’autres travaux, tels que celui de Benade, ont montré l’importance des fréquen-
ces résonantes pour déterminer le son des instruments. Mais ils ne prenaient pas en compte des
détails importants dans la forme d’onde de l’instrument, tels que les transitoires d’attaque. L’approche
temporelle MSW apporte un éclairage sur les raisons physiques des variations de forme d’onde
dans une classe d’instruments et tient compte dans de tels phénomènes de données telles que l’aplatis-
sement des hauteurs dans les cordes frottées, les sous-harmoniques, et la durée des transitoires
d’attaque.
Après avoir étudié plusieurs instruments, McIntyre, Schumacher et Woodhouse décrivirent une
méthode de synthèse efficace, que nous appelons la synthèse MSW. L’un de ses avantages est que les
paramètres de contrôle sont liés à ceux exploités par des interprètes de musique.
La prochaine partie expose la théorie de l’approche MSW. Elle est suivie d’une esquisse de la tech-
nique de synthèse MSW.
✦ Excitation non linéaire et résonance linéaire

Dans la synthèse MSW, la production sonore peut être divisée en deux parties principales : une
excitation non linéaire et une résonance linéaire (figure 26.4). Dans le modèle MSW d’une clarinette,
l’excitation non linéaire est créée par le souffle dans l’embouchure de la clarinette, où l’anche réagit
comme une sorte de commutateur, alternativement ouvert et fermé, pour permettre l’entrée de l’air
dans le tube résonant (corps de la clarinette) (Benade, 1960, 1990). L’action de commutation est
créée par les variations de pression dans l’embouchure. L’anche est à moitié ouverte au début, mais
le souffle d’air dans l’embouchure crée une pression qui ferme l’anche. Ceci laisse une chance à
l’air de s’échapper de l’embouchure vers le corps puis vers la sortie de la clarinette, ce qui rouvre
l’embouchure. Ainsi, l’anche convertit un flux continu d’air en une série de bouffées. La fréquence
des bouffées est déterminée par la longueur effective du corps, qui est variée en ouvrant et en fermant
les clefs. C’est-à-dire que les ondes à l’intérieur du corps résonnent à des hauteurs jouables par la
clarinette. La masse et la raideur du corps lui donnent une domination quasi complète sur l’anche
lors de la détermination de la hauteur. Cette interaction constitue une sorte d’effet rétroactif entre
le résonateur et l’excitateur, comme cela est montré à la figure 26.4. Le modèle MSW prend ainsi
en compte le couplage excitateur/résonateur.
Source d’énergie
Réintroduction
Excitation non linéaire

(archet, embouchure,
plectre, etc.)
Résonateur linéaire
(corde, tube, corps, etc.)
Forme d’onde de sortie
Figure 26.4 – Modèle McIntyre, Schumacher et Woodhouse (1983)

d’une oscillation instrumentale. Les réflexions d’onde du résonateur linéaire influencent l’excitateur
non linéaire, constituant un trajet de réinjection.
Dans le modèle MSW des cordes frottées, une commutation non linéaire apparaît lorsque la friction
de l’archet « capture » la corde pendant un bref intervalle de temps jusqu’à ce que la corde glisse et
soit « relâchée » par l’archet. Puis la friction recommence, la corde est de nouveau « capturée », et
ainsi de suite. Dans une flûte ou un tuyau d’orgue, l’excitation non linéaire est causée par l’accu-
mulation de pression d’air à l’extrémité du tube. Lorsque l’accumulation de pression est élevée, la
force de relâchement résiste au jet d’air entrant et interrompt brièvement le flux d’air dans le tube.
Dans ces trois cas (bois, cordes frottées et tuyaux), l’excitation est un mécanisme de commutation
non linéaire qui envoie une onde rapide d’impulsion dans la partie linéaire de l’instrument. Celle-ci
agit comme un filtre en arrondissant la forme d’onde pour que celle-ci prenne le timbre caractéristique
de l’instrument.
✦ Esquisse de la synthèse MSW
Pour un instrument donné, la synthèse MSW modèle des objets et des actions sous forme d’un
ensemble réduit d’équations. Les équations les plus compliquées et spécifiques aux instruments
décrivent l’excitation. Les variables principales sont la source d’énergie (souffle d’air dans une clari-
nette, une flûte, un tuyau d’orgue, ou force de friction de l’archet d’un instrument à cordes), l’énergie
de l’élément non linéaire fluctuante, et une fonction de réflexion qui décrit l’effet de filtrage de la forme
d’onde jouée par la partie linéaire du système. Les équations pour les parties non linéaires et linéaires
sont évaluées simultanément. Pour plus de détails sur ces équations, voir McIntyre, Schumacher et
Woodhouse (1983). Smith (1986) et Keefe (1992) décrivent des implémentations efficaces du modèle
MSW. Leurs implémentations utilisent des lectures de table et des multiplications, à la place de
solutions d’équations simultanées pour chaque échantillon, très coûteuses en calcul.
Le son produit par le modèle MSW pur n’est pas très réaliste, et ceci à cause de ses trop nombreuses
simplifications. Un raffinement considérable est nécessaire pour réaliser des modèles convaincants
de sons d’instruments réels. Par exemple, Keefe (1992) décrit une extension de la synthèse MSW
aux cuivres. Il a implémenté un sous-programme détaillé pour la spécification des colonnes d’air
(telles que celles des cuivres, des flûtes et des tuyaux d’orgue), afin de tester différentes conceptions
de proximité sonore.
26.1.7 Synthèse par guide d’onde
Les guides d’onde sont une implémentation efficace de la synthèse par MP qui sert de moteur à des
synthétiseurs présentés par Yamaha et Korg en 1993 et 1994 (Smith, 1982, 1983, 1986, 1987a, b,
1991b, 1992 ; Garnett, 1987 ; Garnett et Mont-Reynaud, 1988 ; Cook, 1991a, b, 1992, 1993 ; Hirsch-
man, 1991 ; Hirschman, Cook et Smith, 1991 ; Paladin et Rocchesso, 1992 ; Van Duyne et Smith,
1993). Un guide d’onde (ou filtre par guide d’onde) est un modèle de calcul pour un milieu dans
lequel se déplacent les ondes. Dans les applications musicales, ce milieu est en général un tube ou une
corde. Les guides d’onde ont longtemps été utilisés par les physiciens pour décrire le comportement
d’ondes dans des espaces résonants (Crawford, 1968).
Un bloc de construction de guide d’onde de base est une paire de lignes à retard numériques (voir
le chapitre 6). On injecte dans chaque ligne à retard une onde excitatrice se propageant dans la
direction opposée puis renvoyée vers le centre lorsqu’elle atteint la fin de la ligne. Une ligne à retard
est un bon modèle de ce processus, car les fronts d’onde prennent une quantité finie de temps pour
parcourir la longueur du milieu résonant. Les ondes se déplaçant de long en large dans le guide
d’onde causent des résonances et des interférences à des fréquences liées à ses dimensions. Lorsque
le réseau de guides d’onde est symétrique dans toutes les directions, le son qu’il produit après exci-
tation tend à être harmonique. Si le guide d’onde se tord, change de taille, ou croise un autre guide
d’onde, ceci change sa résonance. Comme nous le verrons, la voix et les instruments tels que les
cuivres, les bois et les cordes peuvent être simulés grâce à des oscillateurs dirigeant un réseau de
guides d’onde. Garnett (1987) a construit un modèle simplifié de piano à partir des guides d’onde.
Le chapitre 8 décrit les applications des guides d’onde pour la réverbération.
Un élément attrayant des guides d’onde est qu’ils sont largement compatibles avec le paradigme de
langage de synthèse Music N. Ceci signifie que les blocs de construction des réseaux de guides d’onde
peuvent être fusionnés dans les générateurs élémentaires standards (Link, 1992).
Les quatre prochaines parties décrivent un modèle de guide d’onde pour les cordes pincées, un
instrument générique de guide d’onde simulant des instruments à cordes ou à vent, et des modèles
plus spécifiques de clarinette et de cor.
✦ Modèle de guide d’onde des cordes pincées
Le modèle de guide d’onde le plus simple est sans doute un instrument monocorde. Ce modèle peut
être compris comme l’image de ce qui arrive lorsqu’une corde est pincée à un point particulier :
deux ondes se déplacent dans des directions opposées à partir de leur point d’impact (figure 26.5).
Frappe du marteau vers le bas
Chevalet Chevalet
Front d'onde Front d'onde
Figure 26.5 – Une corde frappée au centre génère deux ondes

se déplaçant dans des directions opposées. Ce comportement est la base du paradigme de ligne à
retard de la vibration de corde.
Lorsqu’elles atteignent les chevalets, une partie de l’énergie est absorbée, et le reste est renvoyé
dans la direction opposée — vers le point d’impact et au-delà, où les deux ondes rentrent en inter-
action, causant des résonances et des interférences. Dans le langage de la théorie du guide d’onde,
les chevalets agissent comme des jonctions de dispersion puisqu’ils dispersent l’énergie dans tous
les guides d’onde connectés. La hauteur de la corde vibrante est directement liée à la longueur des
deux guides d’onde.
✦ Modèle générique d’instrument par guide d’onde
La figure 26.6 montre un modèle générique d’un simple instrument de guide d’onde capable de
modeler des instruments à cordes ou à vent (Cook, 1992). Une onde excitatrice non linéaire rapide
est envoyée dans la ligne à retard jusqu’à ce qu’elle frappe la jonction de dispersion qui laisse passer
une partie de l’énergie et renvoie le reste en retour. La jonction de dispersion est un filtre linéaire
ou non linéaire qui modèle les effets d’un doigt ou d’un archet appuyant sur la corde, ou le trou d’un
instrument à vent. Le filtre final modèle l’effet du chevalet, du corps, ou du pavillon d’un instrument.
Afin d’approximer un tube non cylindrique tel qu’un cor ou le conduit vocal, le tube est divisé en
sections de longueurs égales, chacune étant représentée par un guide d’onde. Ceci est appelé échantil-
lonnage spatial, ce qui correspond directement à l’échantillonnage temporel, puisqu’il faut une quan-
tité finie de temps à un front d’onde pour parcourir une certaine distance dans l’espace. Les para-
mètres de la jonction de dispersion à la limite des guides d’onde adjacents sont tirés des dimensions
physiques du tube à ce point.
Retard Retard
Excitation Jonction
non linéaire de dispersion Filtre
Retard Retard
Signal
acoustique
simulé
Figure 26.6 – Modèle générique d’instrument par guide d’onde

capable de simuler les instruments à cordes ou à vent (d’après Cook, 1992). Une excitation non
linéaire injectée dans la ligne à retard supérieure se déplace jusqu’à ce qu’elle rencontre la fonction
de dispersion, qui modèle les pertes et la dispersion d’énergie qui apparaissent aux jonctions des
systèmes acoustiques. Une partie de l’énergie retourne à la jonction de l’oscillateur, et une autre
passe à la jonction de sortie, modelée par un filtre.
La figure 26.7 montre un tube acoustique lisse divisé en une série de sections discrètes, chacune
étant modelée par un guide d’onde. Des approximations similaires peuvent être ajustées sur des
surfaces bidimensionnelles ou des espaces tridimensionnels, pour simuler des réverbérations
(Smith, 1991b ; Cook, 1992).
(a) (b)
Figure 26.7 – Approximation par guide d’onde de tubes non cylindriques.

(a) Tube acoustique lisse, tel qu’un cor exotique ou une partie du conduit vocal.
(b) Approximation par division du tube en sections, c’est-à-dire par échantillonnage spatial.
Dans les simulations de cuivres et de vents, les guides d’onde simulent chaque section du tube de
l’instrument. L’anche ou l’embouchure, qui servent d’excitation, sont modelées, soit par un oscil-
lateur simple à lecture de table d’onde, soir par un oscillateur non linéaire plus complexe dirigeant
le réseau de guides d’onde. L’oscillateur non linéaire est modelé comme mécanisme masses-ressorts-
amortisseurs, comme nous l’avons vu plus haut. Le même schéma (oscillateur non linéaire dirigeant
un réseau de guides d’onde) peut également être appliqué à la synthèse des cordes, où l’oscillateur
non linéaire modèle l’interaction entre l’archet et la corde (Chafe, 1985).
En adjoignant différents guides d’onde par des jonctions de dispersion, en ajoutant des filtres à des
points stratégiques, et en insérant des jonctions non linéaires qui excitent le réseau de guides d’onde,
les chercheurs ont construit des modèles de familles entières d’instruments de musique. Les deux
prochaines parties donnent des exemples spécifiques de modèles d’instruments par guides d’onde.
✦ Clarinette par guide d’onde
La figure 26.8 montre le modèle par guide d’onde d’une clarinette, d’après Hirschman, Cook et Smith
(1991), et Hirschman (1991). Le modèle de clarinette possède cinq parties :
1. le bec ;
2. le corps du haut ;
3. le trou ;
4. le corps du bas ;
5. le pavillon.
Trou
(modélisé par Corps du bas
Corps du haut une jonction (modélisé par
(modélisé par une de dispersion une ligne à retard)
ligne à retard) à 3 ports)
Pression Radiation
de la bouche du pavillon
(écrite en
fichier son)
Anche
(modélisée par Pavillon
un oscillateur (modélisé par
non linéaire) des filtres)
Radiation du trou
(écrite en fichier son)
Figure 26.8 – Clarinette modelée sous forme de structure en cinq parties

utilisant les techniques de guide d’onde. Un seul trou est nécessaire, car les tailles des corps du haut
et du bas changent selon la hauteur jouée.
Un seul trou est nécessaire, car les tailles des corps du haut et du bas changent selon la hauteur
jouée. Ce type de modèle produit un son ressemblant à la clarinette avec plusieurs éléments réalistes,
y compris la production d’harmoniques selon l’amplitude d’entrée et les couacs de l’instrument
— pour des entrées appropriées.
✦ Cor par guide d’onde
La figure 26.9 montre une capture d’écran de Tbone, une simulation de cuivres utilisant des guides
d’onde et contrôlée par une interface graphique (Cook, 1991b). L’écran est divisé en trois fenêtres :
French Trumbuba Controller, Performer Controller et Time-varying Event Controller.
Le French Trumbuba Controller, en bas, offre des contrôles graphiques pour la modification de l’ins-
trument. Les curseurs contrôlent la position de la coulisse, l’évasement du pavillon, et les sections
Figure 26.9 – Tbone : un établi pour instrument en cuivre.

Voir le texte pour les détails.
individuelles de l’embouchure. Les champs de texte permettent à l’utilisateur de spécifier la longueur

du pavillon, de la coulisse, et de chaque section du tube associée avec les quatre pistons. Appuyer
sur les boutons des pistons fait remonter ou descendre ceux-ci, et entraîne la mise en place ou l’enlè-
vement de la pièce appropriée du tube dans le circuit acoustique. La fenêtre de spectre montre la
transformée de Fourier de la réponse impulsionnelle pour chaque configuration du cor utilisée.
Ceci est souvent appelé la fonction de transfert et décrit le gain que chaque fréquence aurait lors
d’un déplacement à travers le système du cor.
La fenêtre Performer Controller, en haut à droite, offre des contrôles pour modifier le modèle de la
lèvre de l’interprète. Des contrôles simples de la masse, de la constante de ressort et de l’amortis-
sement suffisent à spécifier la fréquence naturelle d’oscillation de la lèvre. La fonction de transfert
de la lèvre est montrée dans la fenêtre spectrale. Lorsque le bouton « Toot » est enfoncé, l’instrument
synthétise et joue une courte note. Le bouton « Play » permet de rejouer ce même son.
La fenêtre Time-varying Event Controller, en haut à gauche, permet des contrôles de la synthèse
variant dans le temps. Les mouvements de lèvre et les trilles de piston peuvent être spécifiés grâce
à des temps de départ et de fin.
26.1.8 Outils d’entrée pour la synthèse par modèles physiques
Les interfaces graphiques offrent une bonne visualisation de l’instrument MP, mais il est difficile
de jouer de l’instrument de façon réaliste en ayant seulement la souris et le clavier alphanumérique,
en raison de la nécessité de pouvoir manipuler de nombreux paramètres simultanément. On peut
grouper certains paramètres, mais, pour une interprétation efficace, le contrôleur idéal serait un outil
d’entrée musicale ayant plusieurs degrés de liberté. Lorsque le modèle peut être réalisé en temps réel,
comme cela est le cas pour de nombreux modèles par guides d’onde, les techniques MP reviennent
presque au point de départ : d’un instrument réel à un instrument virtuel joué grâce à des outils
d’entrée.
26.1.9 Évaluation de la synthèse par modèles physiques
La synthèse MP a fait de grands progrès ces dernières années. Certains sont même allés jusqu’à dire
que les modèles physiques étaient le futur de la synthèse numérique. Il reste néanmoins un pro-
blème conceptuel : il existe beaucoup de sons pour lesquels aucun modèle n’a encore été construit.
Construire un modèle physique exact d’un instrument est un projet scientifique sérieux. Seuls
quelques laboratoires possèdent l’équipement et l’expérience nécessaires pour mener à bien ce
travail. Les pages des revues d’acoustique sont pleines de détails que les scientifiques ont glanés au
cours de patientes années d’expérimentation et de mesure. Il existe des milliers de types différents
d’instruments acoustiques dans le monde, et seuls quelques modèles MP ont été achevés. Même
lorsque le modèle est construit, il reste à déterminer des douzaines de paramètres pour chaque son.
L’un des problèmes fondamentaux de la synthèse MP est le fait qu’un instrument seul n’est pas un
système complet de production sonore ; les instruments ont besoin d’interprètes. Les premières
tentatives pour jouer des instruments MP sonnent parfois comme les exercices douloureux d’un
débutant. Pour chaque instrument créé, il faut produire beaucoup d’efforts afin d’apprendre à s’en
servir correctement. Lorsque l’instrument est purement contrôlé par un logiciel, plutôt que par un
outil d’entrée, on doit définir un modèle physique de l’interprète en plus de celui de l’instrument.
Ce modèle doit être capable de réaliser des gestes idiomatiques et une bonne technique de jeu
— quelles que soient les façons dont ces buts sont définis pour un instrument particulier. Quelques
avancées ont été faites sur les modèles d’interprètes, mais beaucoup de travail reste à faire (Garton,
1992).
Pour un modèle d’instrument traditionnel donné, le développement d’un modèle d’interprète
pourrait être aidé par un système d’analyse qui pourrait extraire des données de paramètres à partir
d’interprétations. La prochaine partie fait un survol des premières étapes effectuées en matière
d’analyse pour la synthèse MP.
26.2 Analyse de source et de paramètres pour les modèles

physiques
Toute analyse de son peut être vue comme une forme d’estimation de paramètres. C’est-à-dire que
l’analyse tente de caractériser un son en entrée en ce qui concerne la mise en place de paramètres
nécessaires pour faire une approximation de ce son, avec une méthode de resynthèse donnée
(Tenney, 1965 ; Justice, 1979 ; Mian et Tisato, 1984).
Pour un modèle physique donné d’un instrument existant, la méthode habituelle pour la détermina-
tion des paramètres d’interprétation appropriés est d’effectuer des essais et des expérimentations
laborieuses sur des sons seuls, sur des transitions, et des gestes, en collaboration avec des interprètes
accomplis. Ce travail détaillé pourrait être grandement accéléré par une étape d’analyse qui pourrait
écouter la performance d’un virtuose et faire une estimation automatique des paramètres caracté-
ristiques.
Une autre motivation pour l’étape d’analyse dans les modèles physiques est la construction auto-
matique d’instrument. Les modèles physiques existants ne correspondent qu’à une infime partie de
l’univers sonore. Que faire des sons qui ne sont pas facilement réalisables avec les modèles existants ?
On peut rêver d’un compilateur automatique qui créerait un instrument virtuel pour n’importe
quel son en entrée — même pour un son généré synthétiquement. Le modèle physique construit
automatiquement donnerait le geste du musicien, un contrôle « instrumental » de ce son, et une
famille de sons similaires. Une telle idée peut sembler utopique, mais il faut garder en mémoire que
l’analyse de Fourier agit déjà comme une sorte de compilateur similaire, car il réalise un instrument
de synthèse additive pour n’importe quel son en entrée.
26.2.1 Expérimentations d’estimation de paramètres

Les premières expériences d’estimation de paramètres en synthèse MP montrent à la fois les dif-
ficultés et le potentiel de cette direction (Szilas et Cadoz, 1993). Nous présentons ici trois projets.
✦ Séparation de source
Wold (1987) a effectué une importante étude sur l’estimation de paramètres basée sur une approche
par modèles physiques de la resynthèse. Son but n’était pas la synthèse en tant que telle, mais la
séparation de sources polyphoniques. C’est-à-dire, que l’on introduisait dans le système un signal
constitué du mélange de deux instruments différents. Celui-ci essaya ensuite d’estimer quels seraient
les paramètres de resynthèse pour chaque instrument, en référence à un synthétiseur par modèles
physiques, plutôt qu’à un synthétiseur additif, par exemple.
Il commença par concevoir des modèles physiques approximatifs d’instruments acoustiques tels que
des voix, des marimbas et des clarinettes. La forme de ces modèles était un ensemble d’équations
d’état paramétrées. Pour tout son en entrée donné, le but était de comparer le son en entrée avec le
modèle par équation d’état et d’essayer d’identifier une combinaison de mise en place de paramètres
qui pourrait recréer le même son.
La figure 26.10 montre un diagramme représentant le système d’estimation de paramètres de
Wold. La première partie du système abordait le problème en faisant face à tous les estimateurs
— en faisant une conjecture savante pour savoir où commencer. Son système utilisait une analyse
spectrale et une détection de hauteur comme estimation de « premier passage ». En s’appuyant sur
l’estimation initiale, le système affinait son analyse en utilisant des techniques itératives et comparait
ses résultats avec le modèle par équation d’état pour la resynthèse. La partie d’affinage de l’estimation
initiale était basée sur une approche par filtre Kalman. Un filtre Kalman variant dans le temps pro-
Son échantillonné
Préanalyse
par méthode rapide
Données de préanalyse
Recherche initiale
pour l'estimation de paramètres
Estimation initiale
Recommencement
avec l'estimation améliorée
Affinage Modèle
de l'estimation par équation d'état
initiale d'un instrument
Erreur trop
importante
Analyse
de l'erreur
Estimation finale
de paramètres
pour un instrument
Figure 26.10 – Analyseur sonore d’estimation de paramètres

implémenté par Wold (1987). Le but était d’estimer les paramètres pour un synthétiseur basé sur
les modèles physiques, avec comme but la séparation de deux signaux mélangés. Si une estimation
donnée était trop éloignée du modèle d’équation d’état approximatif, le système tentait une autre
itération de l’estimation.
cure, par une technique comparable à l’approximation par moindres carrés, une estimation d’erreur
d’un signal échantillonné basée sur les observations bruiteuses. Sa caractéristique principale est
qu’il est basé sur des critères statistiques. La théorie du filtre Kalman est un sujet complexe ; pour
plus de détails, voir Rabiner et coll. (1972).
Le poids de calcul de ce type de processus — estimation de filtre Kalman des paramètres de synthèse
par modèles physiques — est extrêmement lourd. L’estimation des paramètres de haute fidélité
basée sur les modèles de percussion, de voix ou de clarinette demande des milliards d’opérations
à virgule par seconde de son analysé (Wold, 1987). Il est significatif que Wold ait conclu sa thèse par
un exposé sur les architectures de nouveaux types d’ordinateurs nécessaires pour la réalisation
de ces méthodes en temps réel.
Le programme Singer de Perry Cook est un modèle physique avec filtre par guide d’onde du conduit
vocal humain (Cook, 1991a, 1993). Faisant la distinction entre ce MP pour les sons vocaux, et d’autres
approches comme le codage prédictif linéaire (chapitre 24) ou les méthodes formantiques expliquées
dans le chapitre 28, Singer contient des modèles des lèvres, du conduit vocal et du conduit nasal,
lui permettant de capturer les détails d’articulation de façon plus réaliste.
La complexité du modèle de synthèse est évidente à la vision du patch montré à la figure 26.11. Des
douzaines de paramètres doivent être réglées pour chaque articulation. Un tel modèle pose la
question : où obtenir les données appropriées afin de réaliser de la parole et du chant réalistes ?
En se basant sur le modèle Singer, Cook a employé l’estimation de paramètres sur la parole pour
tenter d’harmoniser les paramètres du modèle et le signal parlé.
Un aspect notable de cette recherche a été l’effort pour modeler la forme d’onde glottale — le signal
d’excitation de la parole émit par les cordes vocales. Cook utilisa la déconvolution pour trouver la
forme d’onde glottale et la hauteur estimée en utilisant une méthode de filtrage en peigne. Le bruit
du conduit vocal était modelé en utilisant une approche de la dynamique des fluides. Voir Blake
(1986) pour plus de détails sur les modèles de dynamique des fluides pour le son et la vibration.
Denis Matignon a également poursuivi la stratégie d’analyse par filtre Kalman, en partant d’un
modèle d’équation d’état, et en employant le modèle de resynthèse par guide d’onde (Matignon,
1991 ; Matignon, De Palle et Rodet, 1992).
26.2.2 Analyse spectrale d’ordre supérieur

Une autre stratégie à mentionner en passant est une famille de nouvelles techniques appelées analyse
spectrale d’ordre supérieur (SOS). Les méthodes SOS sont des sujets techniquement complexes.
Le but de l’analyse SOS est de caractériser les systèmes non linéaires. Son avantage est de montrer
les relations entre les composants. Ceci est tout spécialement important dans les systèmes non
linéaires, car ils contiennent toujours des effets d’intermodulation. SOS peut montrer où un compo-
sant est tiré d’un autre composant par processus non linéaire. Comme nous l’avons vu, beaucoup
de sons commençant par une excitation non linéaire, les méthodes SOS semblent être un bon outil
d’analyse de cette source (Wold, 1992 ; Nikias et Raghuveer, 1987).
26.3 Synthèse Karplus-Strong (corde pincée et tambour)

L’algorithme Karplus-Strong (KS) pour la synthèse des cordes pincées et des tambours est une tech-
nique efficace basée sur le principe d’une ligne à retard ou table d’onde à recirculation (Karplus et
Strong, 1983 ; Jaffe et Smith, 1983). Dans son implémentation, KS est liée aux techniques MSW et à la
synthèse par guide d’onde décrites dans les parties précédentes. Les ressources de calcul nécessaires
pour la synthèse KS de base sont modestes (il n’y a pas de multiplications). Il n’est donc pas surpre-
nant que cette technique ait été implémentée sur du matériel aussi divers qu’un microprocesseur
8 bits, un synthétiseur numérique et un circuit intégré appelé la puce Digitar (Karplus et Strong,
1983).
26.3.1 Cordes pincées

L’algorithme KS de base commence avec une table d’onde de longueur p alimentée avec des valeurs
aléatoires. Lorsque les valeurs sont lues dans la table par la droite (figure 26.12), elles sont modifiées,
et le résultat est renvoyé à la gauche de la table d’onde. La modification la plus simple est une
moyenne de l’échantillon courant et de l’échantillon précédent — l’opération clé d’un simple filtre
passe-bas. Voir le chapitre 4 pour une explication des filtres passe-bas à moyenne. À chaque inter-
540
Figure 26.11 – Diagramme par blocs de Singer, un synthétiseur par modèles physiques des sons de voix.
La partie gauche de la figure montre les sources excitatrices. La partie médiane montre les résonateurs par guide d’onde. La partie droite montre
l’étape de sortie. Deux oscillateurs glottaux par table d’onde (Glotte1 et Glotte2) permettent des variations lentes et synchrones au vibrato dans le signal
excitateur. La source bruiteuse glottale est constituée de bruit blanc filtré, multiplié par une forme d’onde temporelle arbitraire synchronisée aux oscil-
lateurs glottaux. Ce modèle permet au bruit impulsé d’être mélangé à la source périodique. Un oscillateur sinusoïdal simule le vibrato, et la fréquence du
vibrato est rendue aléatoire par du bruit. Du bruit blanc filtré est injecté dans une onde glottale en mouvement. Le bruit peut être inséré dans
SYNTHÈSE
n’importe quel nombre de sections de guide d’onde, avec à chaque fois des contrôles de niveau indépendants. La source glottale mélangée est envoyée
dans le filtre de conduit vocal. Les réflexions glottales sont modelées par un simple coefficient de réflexion, et un filtre passe-bas simule les effets des
lèvres et des narines. Un filtre passe-bas et une ligne à retard modèlent la radiation de la peau dans le trajet de sortie Gorge.
SONORE
Modificateur
Table d'onde
Commutateur à recirculation Sortie
(ligne à retard)
Générateur
de bruit
Figure 26.12 – Partie centrale de la table d’onde à recirculation Karplus-Strong.

L’entrée de la table d’onde à recirculation se commute sur la source bruiteuse au commencement
de chaque événement, puis sur la boucle de modification pendant le reste de l’événement. Le
modificateur fait une moyenne d’échantillons successifs, simulant un effet d’amortissement.
valle d’échantillonnage, les pointeurs de lecture et d’écriture de la table d’onde sont incrémentés.
Lorsque les pointeurs atteignent la fin de la table d’onde, ils effectuent une boucle et recommen-
cent à partir du début. Le résultat audible de cet algorithme simple est un son harmonique qui
sonne de façon « brillante » au début, mais dont le timbre s’obscurcit rapidement jusqu’à un simple
son de sinusoïde lors de la chute — tout comme le son d’une corde pincée.
Si la table d’onde est initialement alimentée avec des valeurs aléatoires, on peut se demander pour-
quoi le résultat ne sonne pas comme du bruit – au moins au début du son. La raison pour laquelle le
son est harmonique est que la table est répétée (avec une légère modification) à chaque passage.
Puisque ces répétitions ont lieu des centaines de fois par seconde, ce qui était initialement une forme
d’onde aléatoire devient en un instant une forme d’onde quasi périodique. Sans la partie de chute
de l’algorithme (le filtre passe-bas), la forme d’onde a (en théorie) un contenu harmonique égal à la
moitié de la fréquence d’échantillonnage, avec un timbre d’harmonium (Karplus et Strong, 1983).
En pratique, il est utile de recharger la table d’onde avec un nouvel ensemble de valeurs aléatoires
pour chaque note. Ceci donne à chaque note une structure harmonique légèrement différente. Une
routine de génération de nombre pseudo aléatoire (tel qu’un générateur à bit aléatoire et déplacement
de registre bouclé ; Knuth, 1981, p. 29) peut fournir ces valeurs.
26.3.2 Timbres de la famille des tambours

KS génère des timbres de tambour en utilisant un modificateur légèrement plus compliqué sur
l’échantillon renvoyé. Le timbre est contrôlé en établissant la valeur d’un paramètre de probabilité b
appelé le facteur de mélange, où 0 = b = 1. L’algorithme de modification est comme suit :
⎧ +1 ⁄ 2 ( Signal t – p + Signal t – [ p – 1 ] ) avec probabilité de b

Signal t = ⎨
⎩ –1 ⁄ 2 ( Signal t – p + Signal t – [ p – 1 ] ) avec probabilité de 1 – b
où t est l’index de l’échantillon courant, et p la longueur de la table d’onde.
Lorsque b est égal à 1, le modificateur est un filtre passe-bas comme précédemment, et le son res-
semble à celui d’une corde pincée. Lorsque b est égal à 0,5 le son ne ressemble plus à une corde. Il perd
son harmonicité et sonne davantage comme un tambour. Lorsque b est fixé à 0, le signal est négatif
tous les p + 0,5 échantillons. Ceci coupe la fréquence perçue de moitié et ne laisse que les harmo-
niques impairs dans le spectre, créant un son ressemblant à la harpe dans les graves.
La figure 26.13 montre un instrument KS pour la synthèse de tambour. Remarquez la moyenne
effectuée entre les échantillons de la table d’onde à recirculation et les échantillons précédents,
ainsi que l’attribution d’un signe positif ou négatif basée sur le facteur de mélange b. Lorsque b est
proche de 0,5 la longueur de la table d’onde ne contrôle plus la hauteur, puisque la forme d’onde
n’est plus périodique. Au contraire, la longueur p détermine le temps de retard de l’éclatement de
bruit au début du son de tambour. Lorsque p est relativement grand (supérieur à 200), l’instrument
sonne comme une caisse claire bruiteuse. Lorsque p est petit (moins de 25), l’effet est celui d’un
tom-tom balayé. Pour créer un tambour résonant, la table d’onde est tout d’abord chargée avec une
constante plutôt qu’avec des valeurs aléatoires.
M
o
y +
Commutateur Retard e
Ligne à retard ou
n
à recirculation -
n
e
Générateur Générateur
de bruit de bit b
pseudoaléatoire
Figure 26.13 – L’algorithme de synthèse du tambour Karplus-Strong.

La quantité b est le facteur de mélange (voir le texte).
26.3.3 Étirement du temps de chute

Puisque le temps de chute du son produit par KS est proportionnel à la longueur p de la table d’onde,
ceci signifie que les notes qui utilisent une table d’onde courte chutent très rapidement. Idéalement,
nous souhaiterions pouvoir séparer le temps de chute et la longueur de table d’onde. Ceci est réalisé
grâce à une technique connue sous le nom d’étirement de la chute. L’algorithme pour l’étirement de
la chute est le suivant :
⎧ Signal t – p , avec probabilité de 1 – ( 1 ⁄ s )

Signal t = ⎨
⎩ 1 ⁄ 2 ( Signal t – p + Signal t – [ p – 1 ] ) avec probabilité de 1 ⁄ s
où s est le facteur d’étirement. Avec s égal à 1, l’algorithme habituel de moyenne est appliqué, et le
temps de chute n’est pas étiré. Lorsque s est proche de zéro, il n’y a pas de moyenne effectuée, et le son
étire donc son temps de chute.
26.3.4 Extensions de la synthèse KS

Les collègues de Karplus et Strong, Jaffe et Smith, ont développé un certain nombre d’extensions
de la technique KS (Jaffe et Smith 1983). En ajoutant des filtres au circuit KS de base, ils ont obtenu
les effets suivants :
• Élimination du son initial « pincé ».
• Variation de l’intensité du son en fonction de sa largeur de bande.
• Glissandos et liaisons.
• Imitations des effets de vibrations sympathiques des cordes.
• Simulation du son d’un pincement se déplaçant en fonction de sa distance au chevalet.
• Simulation de pincements montants et descendants.
Ces techniques sont spécialisées, et leurs descriptions ont été publiées dans Roads (1989). Un autre
ensemble d’extension cherche à simuler les sons de guitare électrique. La recherche se fait surtout
sur les timbres ayant de la distorsion et de la rétroaction, ce qui est caractéristique des guitares
amplifiées avec des circuits de préamplification de haut niveau. Voir Sullivan (1990) pour des détails.
Karjalainen et coll. (1991) appliquent le modèle KS aux sons de flûte.
Chapitre 27
La synthèse analogique virtuelle
Dans les années récentes, les musiciens et le public en général ont redécouvert le monde de la synthèse
analogique (Vail, 2000 ; Pinch et Trocco, 2002). Une des conséquences de cela est que les synthéti-
seurs analogiques « vintage » sont devenus très chers. Les synthétiseurs qui suscitent un intérêt
particulier sont ceux construits avant 1983, lorsque le MIDI et les synthétiseurs numériques à bas
prix furent introduits sur le marché. Depuis, des concepteurs ont présenté une nouvelle génération
de synthétiseurs analogiques, y compris certains qui sont similaires aux modèles classiques plus
anciens de Moog, EMS et autres.
Ce chapitre présente la nouvelle tendance des simulations numériques de techniques de synthèse
analogique. Celles-ci sont en général appelées techniques par émulation analogique ou analogique
virtuelle (AV). Le but de ces techniques est d’imiter pour un faible coût le son des synthétiseurs ana-
logiques classiques. Une tendance proche de cet effort est celle du « modelage analogique » d’amplifi-
cateurs de guitare et d’instrument. Ces unités à bas prix utilisent la technologie numérique pour
simuler les caractéristiques d’amplification et de distorsion d’amplificateurs et de cabinets de haut-
parleurs analogiques à lampes plus chers (Barbour, 1998). Une autre ligne de produits modèle les
compresseurs et les égaliseurs analogiques classiques.
Après un bref aperçu des principes de la technologie analogique, nous évoquons les questions
techniques impliquées dans le modelage de circuits analogiques avec la technologie numérique.
27.1 Comparaison de numérique et d’analogique

Quelle est la différence entre synthèse numérique et synthèse analogique ? La synthèse numérique
génère des signaux audio discrets (échantillonnés) et quantifiés. Échantillonné signifie qu’un signal
audio est divisé en un flux de dizaines de milliers de captures d’une forme d’onde. Quantifié signifie
qu’il existe un nombre fini de valeurs d’amplitude qu’un échantillon peut avoir. À chaque impulsion
de l’horloge d’échantillonnage, le synthétiseur émet un autre échantillon quantifié. Les synthétiseurs
numériques peuvent être implémentés en logiciel — sous la forme d’applications autonomes ou de
modules d’extension dans d’autres programmes — ou comme unité matérielle, avec ou sans clavier.
Quelle que soit l’implémentation, le cœur de n’importe quel synthétiseur numérique est un algo-
rithme pour la génération d’échantillons.
Dans un synthétiseur analogique pur, il n’y a pas de microprocesseur ou de mémoire en soi. Le
synthétiseur contient des circuits matériels construits à partir de composants de base comme des
amplificateurs, des résistances, des condensateurs, des diodes, et des bobines opérationnels. Ces
circuits génèrent des signaux continus (et non discrets). Il n’y a pas d’horloge d’échantillonnage.
Les signaux dans un synthétiseur analogique circulent pratiquement à la vitesse de la lumière.
L’amplitude des signaux analogiques continus varie de façon libre et instantanément à l’intérieur
d’une gamme de tensions spécifiée.
Avant l’invention de l’ordinateur numérique, tous les circuits électroniques étaient de conception
analogique. Le comportement de ces circuits pouvait être prédit selon le flux des quantités continues
de tension et de courant en interaction avec les propriétés du circuit comme la résistance, l’impé-
dance et l’inductance. On retrouve plus d’un siècle d’inventions dans la conception des instruments
de musique électronique analogiques (Roads, 1996b ; Rhea, 1972, 1977, 1984). Pour ceux qui s’inté-
ressent plus en détail aux caractéristiques des circuits analogiques, des textes d’ingénierie présentent
la théorie des circuits analogiques (Black, 1953 ; Chirlian, 1971 ; Benedict, 1976 ; Old Colony Sound
Labs, 2004). Plusieurs livres expliquent les principes de la synthèse de signal analogique et du con-
trôle par tension à la fois d’un point de vue musical et technique (Strange, 1983 ; Manning, 1993 ;
Wells, 1981 ; Chadabe, 1967).
27.2 Analogique virtuelle

Depuis le milieu des années 1990, une nouvelle sorte d’instruments analogiques virtuels est apparue
sur le marché. Ils utilisent du logiciel et du matériel numérique pour émuler les caractéristiques
expressives et la palette de son de l’époque analogique, particulièrement la période située entre 1960
et 1980 (figure 27.1). Nous voyons une tendance correspondante dans le monde des produits audio,
où des modules d’extension logiciels tentent d’imiter les caractéristiques de compression des lam-
pes, le bruit et la distorsion de la bande analogique, et même le craquement des disques vinyles rayés.
En même temps, de nouveaux amplificateurs à modelage analogique émulent les caractéristiques
d’amplificateurs de guitare à lampes haut de gamme.
Puisque les instruments et les amplificateurs analogiques d’époque sont largement disponibles, on
est en droit de se demander : quel est l’intérêt de l’émulation ? D’un point de vue artistique, il y a peu
à gagner à moins que l’émulation ne puisse être étendue au-delà des limites de la technologie ana-
logique traditionnelle. Il pourrait être intéressant, par exemple, de combiner les qualités de la synt-
hèse analogique avec les avantages des techniques numériques (accordage de fréquence précis et
stable, mémorisation, facilité de configuration, formes d’onde arbitraires, rapport signal/bruit aug-
menté, interfaces graphiques, etc.) pour créer une nouvelle approche de la synthèse. Par exemple,
la synthèse pulsar, présentée au chapitre 23, fut conçue avec cette idée à l’esprit.
La technologie AV diminue les coûts. Un synthétiseur analogique virtuel polyphonique à 20 voix
peut coûter moins de 1 500 euros dans un instrument à clavier portable. Un synthétiseur logiciel
avec une capacité similaire peut se vendre pour moins de 330 euros. Un synthétiseur analogique
complet ayant une capacité similaire coûterait par contre plus de 6 000 euros et utiliserait une grande
partie de l’espace du studio. Pour donner un autre exemple, un amplificateur de guitare à lampes
de haute qualité peut coûter plus de 1 000 euros, tandis qu’une unité basée sur des circuits intégrés
contrôlés par un microprocesseur et modelant de multiples types d’amplificateurs analogiques
peut coûter moins d’un tiers de ce prix. Un compresseur analogique classique peut coûter plus de
Figure 27.1 – Copie d’écran du Arturia Moog V, une émulation analogique virtuelle
d’un synthétiseur Moog. Le panneau de contrôle à l’écran imite le matériel original.
700 euros par canal, alors que son homologue logiciel est vendu sous forme de module d’extension
pour une fraction de ce coût.
27.3 Évolution de la synthèse analogique

La synthèse analogique a évolué à travers plusieurs périodes de développement. Avant la Seconde
Guerre mondiale, la majorité des instruments de musique électroniques étaient figés par le cons-
tructeur pour produire une certaine classe de sons. Les instruments à oscillateur à lampes classiques
comme le Theremin et les Ondes Martenot, par exemple, ne fournissaient pas un grand nombre de
variations de timbre. Les musiciens obtenaient surtout de l’expressivité avec ces instruments à travers
des variations sensitives de hauteur et de puissance. D’autres instruments amplifiaient un générateur
acoustique, électromagnétique ou électro-optique comme une anche métallique vibrante ou une
roue sonore rotative (Roads, 1996b). Dans certains cas, comme le merveilleux instrument Ondioline
de Georges Jenny (Fourier, 1994), l’utilisation ingénieuse de filtres et un grand choix de formes d’onde
permettaient une large gamme de variations timbrales.
Les premiers studios de musique électronique construits après la Seconde Guerre mondiale étaient
principalement équipés avec des générateurs de test conçus pour des laboratoires utilisant des cir-
cuits à lampes. Une limite de ce type d’équipement était que tous les contrôles étaient manipulés
manuellement. Ainsi, pour créer un effet variant dans le temps, il était souvent nécessaire que plus
de deux personnes soient présentes dans le studio afin de tourner les molettes sur plusieurs machines
comme des générateurs d’impulsions, des filtres et des enregistreurs à bande à vitesse variable.
Des compositions comme Kontakte (1960) de Karlheinz Stockhausen nécessitaient une préparation
détaillée et un travail d’équipe afin de contrôler les paramètres de multiples machines.
Les années 1960 virent apparaître une percée technologique : les synthétiseurs modulaires contrôlés par
tension (Moog, 1965). « Modulaire » signifiait que les différentes fonctions du synthétiseur
(oscillateurs, filtres, amplificateurs, séquenceurs, etc.) étaient encapsulées dans des modules séparés,
mais jointes dans un châssis commun avec un schéma d’interconnexion commun. « Contrôlé par
tension » signifiait qu’un module pouvait en contrôler un autre, grâce à des cordons de patch. Les
modules contrôlant d’autres modules fournissaient une forme d’automatisation, afin qu’une seule
personne puisse configurer un geste complexe. Par exemple, on pouvait connecter la sortie d’un
oscillateur pour contrôler la fréquence centrale d’un filtre passe-bande, ce qui le faisait balayer de
haut en bas. De nombreux synthétiseurs comprenaient des claviers musicaux ; ceux-ci généraient des
tensions de contrôle qui pouvaient par exemple être utilisées pour contrôler la hauteur des oscil-
lateurs.
Dans un grand synthétiseur analogique, il peut y avoir plus d’une douzaine de modules qui peuvent
être interconnectés dans un patch. En pratique, cependant, la grande majorité des patchs étaient
constitués de variations du schéma montré à la figure 27.2. Ceci est en général appelé un patch de
synthèse soustractive, car des sources de signal spectralement riches sont acheminées à travers un
filtre contrôlé par tension (VCF), qui soustrait des partiels des formes d’onde qui l’alimentent.
D’autres possibilités inhérentes à ce patch sont la modulation de fréquence et d’amplitude (voir le
chapitre 25), qui sont également des fonctions centrales de la synthèse analogique. Dans les synthéti-
seurs réels, il peut y avoir de nombreux autres types de modules, mais le patch de la figure 27.2 est
typique des synthétiseurs AV.
Au début des années 1970, les constructeurs de synthétiseurs analogiques proposaient des séquen-
ceurs analogiques comme modules optionnels. Ceux-ci permettaient aux musiciens de stocker un
nombre fixe de tensions qui pouvaient être déclenchées en séquence. Si les tensions sont achemi-
nées vers un oscillateur audio, par exemple, le résultat sera une séquence de hauteurs différentes.
Pour utiliser le séquenceur, le musicien accordait une série de molettes, chacune correspondant à
une tension. À l’appui d’un bouton, le séquenceur passait alors à travers ces tensions, en envoyant
chaque tension à son tour vers un autre module connecté par un cordon de patch. Si le module était
Clavier
Modulateur VCO
de fréquence 1
C T
C
Générateur VCO
de bruit 2
A A
Mélangeur
A Modulateur
d‘amplitude
VCO
3 EG
C C
VCA
A
VCO Modulateur
4 d‘amplitude
VCF
A
Fiche
de
sortie
Figure 27.2 – Un patch typique pour la synthèse soustractive

dans un synthétiseur analogique. Légendes : VCO = oscillateur contrôlé par tension, VCA = amplifica-
teur contrôlé par tension, EG = générateur d’enveloppe, VCF = filtre contrôlé par tension, A = signal
audio, C = signal de contrôle, T = signal de déclenchement. Dans ce patch, lorsque l’utilisateur
enfonce une touche, le clavier envoie un signal de déclenchement au générateur d’enveloppe, qui
monte le volume du VCA. En même temps, selon la touche qui est enfoncée, une tension est
envoyée au VCO 2, ce qui lui fait produire une hauteur. Remarquez que le VCO peut également être
modulé en fréquence par le VCO 1. Les sorties mélangées du générateur de bruit et du VCO 2 sont
envoyées au VCA. Le VCA peut être modulé en amplitude par le VCO 3. La sortie audio du VCA est
acheminée jusqu’au VCF, qui est modulé par le VCO 4. La sortie audio du VCF part dans la fiche
de sortie.
par exemple un oscillateur, la tension contrôlait sa hauteur. La séquence pouvait être bouclée, per-
mettant ainsi de réaliser une mélodie répétitive. D’une façon plus générale, la séquence de tension
pouvait contrôler n’importe quel module, comme la fréquence centrale d’un filtre, l’amplitude d’un
amplificateur, etc. Le taux auquel le séquenceur passait était réglé grâce à une molette d’horloge ou
contrôlé depuis un autre module.
Une limite majeure des séquenceurs analogiques était le nombre d’étapes différentes qu’ils conte-
naient, correspondant à la taille de leur mémoire de tension, en général entre 24 et 48 étapes. Dans
ces séquenceurs, lorsque plus d’un paramètre était contrôlé à chaque étape, le nombre d’étapes était
réduit de ce facteur. Par exemple, un séquenceur Moog à 24 étapes pouvait contrôler la hauteur, la
durée et l’amplitude de seulement huit notes (24 étapes divisées par 3 paramètres). De plus, chaque
paramètre de chaque étape devait être accordé à la main avec une molette de contrôle. Il n’était pas
possible de programmer le séquenceur en jouant.
Jusqu’à la moitié des années 1970, les synthétiseurs analogiques étaient, pour la plupart, mono-
phoniques. À la fin des années 1970, certains synthétiseurs analogiques polyphoniques firent leur
apparition, comme le Arp Omni, le Moog Memorymoog, le Oberheim Four Voice, le Sequential
Prophet-5 et le Roland Juno. Dans certains cas, ceux-ci opéraient sous contrôle d’un microproces-
seur. Cela signifiait une plus grande capacité de séquenceur : il était possible de passer du stockage
de quelques douzaines de notes à un stockage de milliers de notes dans la mémoire du micropro-
cesseur. Nous appelons de tels instruments des synthétiseurs hybrides, car ils combinent synthèse
analogique et contrôle et acheminement du signal numérique. L’époque MIDI, commençant en 1983,
normalisa les protocoles pour le contrôle numérique de tous les types de synthétiseurs. Les syn-
thétiseurs AV d’aujourd’hui sont tous compatibles MIDI.
27.4 Questions soulevées par l’émulation de synthèse

analogique
Les questions principales soulevées par l’émulation analogique sont les suivantes :
1. La philosophie de l’émulation.
2. Génération de forme d’onde et repliement.
3. Émulation de filtre.
4. Interfaces de contrôle.
5. Interconnexion de modules.
6. Modulation analogique.
Les prochaines parties présentent ces questions plus en détail.
27.4.1 La philosophie de l’émulation

L’émulation pose des questions philosophiques. Le but est-il de créer un modèle parfait qui capture
tous les défauts ainsi que tous les bénéfices de l’original ? Quel est le bénéfice de modeler les bizar-
reries des systèmes analogiques ? Le but est-il au contraire de créer une version numérique idéalisée
de l’original ?
En pratique, les simulations AV font une approximation de la synthèse analogique au niveau de la
figure 27.2. C’est-à-dire que tout module analogique de la figure 27.2 est remplacé par son homo-
logue logiciel. L’oscillateur analogique, par exemple, est remplacé par un algorithme d’oscillateur
numérique.
En général, on n’essaie pas de modeler tous les composants d’un circuit analogique (transistors,
résistances, condensateurs, etc.), car cela ne serait pas efficace du point de vue du calcul. Il est dif-
ficile de généraliser au-delà de cette remarque, car les équipes d’ingénieurs ont des approches dif-
férentes de l’émulation. Certaines étudient les circuits analogiques originaux, tandis que d’autres
travaillent à partir d’un modèle plus abstrait qui n’est lié à aucun synthétiseur analogique spécifique.
Dans tous les cas, le but principal est de modeler précisément le son des synthétiseurs analogiques,
et non leurs circuits.
Pour certains, les défauts et l’imprévisibilité des synthétiseurs analogiques sont un des aspects de
leur charme. Par exemple, dans certains synthétiseurs analogiques des années 1970, la fréquence
des oscillateurs se modifiait avec les changements de température. À cette époque, cela était consi-
déré comme un défaut. Au vingt et unième siècle, cependant, la modification aléatoire de fré-
quence a été réintroduite sous la forme d’une fonction de certains synthétiseurs AV.
De plus, toute machine analogique est construite avec des composants de circuit spécifiques et le
choix de ces composants possède un fort impact sur la performance sonore de la machine. On peut
par exemple construire une famille de modulateurs en anneau différents, employant tous la même
conception de circuit, mais utilisant des composants différents. Chacune sonnera de façon légèrement
différente. L’équivalent numérique de la modulation en anneau est la multiplication, qui produit
par contre le même résultat dans tous les circuits numériques de résolution similaire. Une simple
émulation numérique est ainsi générique et médiocre.
Cependant, même un logiciel d’émulation imparfait peut avoir des bénéfices, y compris un coût
plus faible, une fiabilité plus grande, un meilleur rapport signal/bruit, des bibliothèques de patchs,
des extensions à la conception du synthétiseur original, un encombrement réduit, etc.
27.4.2 Génération de forme d’onde et repliement

L’un des avantages de la synthèse numérique sur la synthèse analogique est sa flexibilité de forme
d’onde. Un oscillateur numérique peut lire n’importe quelle forme d’onde chargée dans sa mémoire,
et la forme d’onde peut être variée de façon continue selon un algorithme de traitement du signal
arbitraire.
Un oscillateur analogique, quant à lui, est restreint par sa topologie de circuit pour produire certains
types de formes d’onde. Des livres entiers sont dédiés à l’art de la synthèse de forme d’onde analo-
gique (Strauss, 1960 ; Dorf, 1958 ; Douglas, 1968). Les circuits les plus courants génèrent des formes
d’onde de type sinusoïde, dent-de-scie, triangle, carrée et impulsion. De nombreux oscillateurs per-
mettent des transitions continues entre, par exemple, une sinusoïde et une dent-de-scie, ou une
sinusoïde et une onde carrée. De telles transitions sont caractéristiques de la synthèse analogique.
Certains oscillateurs numériques imitent ces transitions. Par exemple, les Roland JP-8000 et JP-8080
ne lisent pas des tables d’onde, mais génèrent au contraire les échantillons de façon algorithmique
en temps réel. Voir également Lane et coll. (1997), qui propose un schéma d’oscillateur numérique
limité aux formes d’onde de type sinusoïde, carrée et dent-de-scie.
Les oscillateurs numériques peuvent avoir des difficultés à simuler précisément toutes les formes
d’onde analogiques. Ceci est dû au fait que certaines formes d’onde analogiques comme les impul-
sions, les ondes carrées et les bandes de bruit contiennent des fréquences qui peuvent s’étendre
jusqu’à 100 kHz et au-delà. Nous pouvons les considérer comme étant non limitées en bande. Ceci
est une fonction et non un défaut d’un synthétiseur analogique. Par contre, un synthétiseur numé-
rique doit être contraint afin de générer uniquement des signaux limités en bande, c’est-à-dire des
signaux qui ne contiennent pas de fréquences supérieures à la fréquence de Nyquist (la moitié du
taux d’échantillonnage). Si le synthétiseur n’est pas contraint, le signal de sortie sera défiguré par
le repliement, dans lequel les fréquences supérieures à la fréquence de Nyquist se reflètent dans le
spectre audio. Le repliement est un problème pernicieux dans la synthèse numérique et le traitement
du son (voir le chapitre 1 pour plus de détails sur le repliement).
La première génération de synthétiseurs AV opérait à des taux d’échantillonnage standards de 44,1
et 48 kHz. Le manque de « marge de fréquence » à ces taux ouvrit la porte au repliement depuis
l’intérieur de l’algorithme de synthèse. Des formes d’onde courantes sont la cause de repliement si
elles sont transposées en dehors d’une gamme de fréquences étroite. Par exemple, dans un synthé-
tiseur AV opérant à un taux d’échantillonnage de 44,1 kHz, une onde carrée limitée en bande cons-
truite à partir de 16 composants harmoniques impairs est la cause de repliement à des fréquences
fondamentales supérieures à 760 Hz.
Remarquez que ce genre de repliement interne ne peut pas être résolu en filtrant en passe-bas la
sortie de l’oscillateur, car les fréquences repliées sont déjà présentes dans le signal de sortie ! Comme
d’autres formes de distorsion non linéaire, elles sont virtuellement impossibles à éliminer dès lors
que le repliement est survenu.
L’une des conséquences de ces limites strictes est que les instruments de synthèse numérique néces-
sitent des mesures préventives afin d’éliminer la distorsion de repliement. Au moins quatre stratégies
sont possibles, qui peuvent être utilisées ensemble :
1. Construire des approximations limitées en bande de formes d’onde analogiques. Pour un
exemple simple, on peut faire une approximation des formes d’ondes carrées et des impulsions
en ajoutant ensemble des collections de sinusoïdes à des fréquences harmoniques impaires
(figure 26.3). Pour des techniques de synthèse de forme d’onde limitée en bande plus avancées,
voir Stilson et Smith (1996). Par exemple, certains instruments utilisent du filtrage à l’intérieur
de l’algorithme d’oscillateur lui-même pour éliminer le repliement (Romblom, 2004).
2. Utiliser l’oscillateur à un taux d’échantillonnage interne plus élevé. Par exemple, en considérant
que l’on veut produire une sortie à 44,1 kHz, on peut utiliser l’oscillateur à un taux interne
de 88,2 kHz, ce qui permet à des composants jusqu’à 44,1 kHz d’être générés sans repliement.
Il suffit alors de filtrer en passe-bas la sortie de l’oscillateur avec une fréquence de coupure
de 22,05 kHz avant de convertir le signal à un taux de 44,1 kHz.
3. Utiliser un taux d’échantillonnage haute résolution lors de toute l’émulation. Par exemple, cer-
tains synthétiseurs numériques opèrent à des taux d’échantillonnages de sortie de 96 kHz et
plus. Ces synthétiseurs améliorent le problème, même s’ils ne le résolvent pas complètement.
4. En dernier recours, limiter la gamme de fréquences à l’intérieur de laquelle l’oscillateur peut
opérer. Lancer des tests pour déterminer à quel moment le repliement devient audible, et régler
une limite sur la fréquence de l’oscillateur.
27.4.3 Émulation de filtre

Un synthétiseur analogique fonctionne souvent comme un filtre de source ou comme un synthéti-
seur soustractif. C’est-à-dire que ses filtres sculptent un signal d’entrée ayant un spectre riche grâce à
un ou plusieurs filtres qui soustraient des parties du spectre. Une question majeure de l’émulation
analogique est ainsi le modelage du comportement de circuits de filtrage matériels.
La conception de filtres analogiques est un art qui équilibre la théorie avec la pratique. Comme le
dit un ingénieur en audio :
[Après avoir présenté les équations mathématiques pour les types de filtres standards]. Mais bien
qu’elles soient correctes d’un point de vue académique, il ne sera sans doute jamais possible de calculer
(a) 1er harmonique
5
7
Amp.
31
Numéro d’harmonique
(b)
Amp.
Temps
Figure 27.3 – Approximation par sinusoïde d’une onde carrée analogique.

(a) Spectre de composants sinusoïdaux en harmoniques impairs jusqu’au 31e harmonique.
(b) Forme d’onde numérique produite en ajoutant les composants sinusoïdaux dans (a).
des filtres sonores par ce moyen, car les impédances d’entrée et de sortie ne correspondront pas, et la
régulation de la réponse du filtre est mieux obtenue à l’oreille. (Alan Douglas, 1968)
En pratique, les filtres analogiques peuvent être très compliqués. De nombreuses décennies d’expéri-
mentation ont eu pour résultat une grande variété de conceptions idiosyncrasiques de filtres. De plus,
tout filtre est construit avec des composants de circuit spécifiques et le choix de ces composants peut
avoir un fort impact sur la performance sonore du filtre. Par contre, la théorie des filtres numériques
est relativement récente, et seuls certains types de circuits de filtre ont été intégrés sous forme de
logiciels.
Des techniques existent pour convertir une conception de filtre analogique en conception de filtre
numérique, mais celles-ci ne fonctionnent bien que dans certains cas standards. Comme Smith (2003)
l’a observé, il n’est pas facile de préserver toutes les propriétés désirables d’un filtre analogique
(comme la réponse de fréquence, l’ordre et la structure de contrôle), lorsqu’il est traduit sous
forme numérique par des moyens standards.
Rossum (1992) a analysé les caractéristiques de filtres analogiques et en a déduit que l’une de leur
différence majeure par rapport aux filtres numériques était leur comportement de « limitation
douce » lorsque le filtre résonne. Par contre, lorsque des filtres numériques surchargent, ils deviennent
instantanément rauques et rêches. Il établit un schéma de filtre numérique dans lequel la distorsion
est renvoyée à travers le filtre passe-bas afin qu’il ne surcharge jamais, ce qui produit une qualité
sonore plus lisse.
Une autre question dans l’émulation de filtres analogiques variants dans le temps concerne la nature
discrète de l’échantillonnage. Tandis que les signaux passent instantanément dans un filtre analo-
gique, les changements dans les filtres numériques sont limités par l’horloge d’échantillonnage.
Lorsque les coefficients du filtre changent, les états courants du filtre reflètent ce qui est arrivé avec
l’ensemble précédent de coefficients. Des taux d’échantillonnage plus élevés et une résolution numé-
rique plus grande à l’intérieur du filtre devraient considérablement aider à résoudre cela. Pour des
astuces supplémentaires sur la conception de filtres AV, voir Massie et Stonick (1992) et Stilson et
Smith (1996).
27.4.4 Interfaces de contrôle

Une interface de contrôle d’un synthétiseur (touches, molettes, boutons, manettes de jeu, commu-
tateurs, écrans d’affichage, etc.) a une grande influence sur les types de gestes qui peuvent être joués
dessus. Les synthétiseurs analogiques sont célèbres pour offrir des douzaines de molettes de contrôle
accessibles directement. Une telle surface de contrôle est appelée non modale. C’est-à-dire que la
signification d’un contrôle donné est toujours la même. Une conséquence de la non-modalité est
que tous les contrôles sont disponibles en parallèle pour l’utilisateur. La non-modalité facilite un
accès immédiat.
Par contre, les interfaces de synthétiseur numérique sont souvent modales : une seule molette peut
ajuster de nombreux paramètres différents selon le contexte (mode). Un tel schéma réduit les coûts
pour le constructeur, car des douzaines de molettes et de boutons ajoutent un coût au synthétiseur,
mais il faudra à l’utilisateur des étapes supplémentaires pour ajuster un paramètre. Dans de nom-
breux cas, cela rend impossible le contrôle simultané et indépendant de plus de deux paramètres.
Les synthétiseurs d’émulation analogique d’aujourd’hui sont disponibles sous forme de matériel
(avec clavier ou en présentoir) ou de logiciel. Une fonction caractéristique des synthétiseurs d’ému-
lation analogique matériels est l’assurance d’avoir un panneau de contrôle constitué de molettes et
de boutons (figure 27.4). Évidemment, dans une implémentation purement logicielle, ce panneau
de contrôle est à l’écran, et l’utilisateur doit donc relier un contrôleur MIDI physique aux contrôles
à l’écran ou se contenter d’ajuster une chose à la fois avec la souris.
27.4.5 Interconnexion de modules

Dans les synthétiseurs AV, la question de l’interconnexion de modules est en général résolue avec
des techniques de commutation numérique directes. Dans un logiciel, un « patch » entre deux com-
posants de synthèse signifie très simplement que l’un passe des données à l’autre. Comment cela est
représenté de façon externe pour l’utilisateur varie selon les cas. Par exemple, la figure 27.1 montre
un affichage dans lequel le concept de cordons de patch est pris de façon littérale, et les cordons
Figure 27.4 – Panneau de contrôle du synthétiseur analogique virtuel

Clavia Nord Lead III avec plus de 60 molettes et boutons directement accessibles.
remuent à l’écran lorsqu’ils sont déplacés. D’autres synthétiseurs AV logiciels offrent un éditeur de
patch plus abstrait ou simplement une collection de patchs prédéfinis.
Bien sûr, un des avantages principaux des patchs numériques est qu’un acheminement donné
— peu importe sa complexité — peut être facilement mémorisé et rappelé, avec tous les réglages
de paramètres pour tous les modules. Par contre, dans le monde des synthétiseurs analogiques
modulaires, être capable de reproduire exactement un patch précédent était une exception, en raison
de toutes les connexions de patch et des réglages de paramètres qui devaient être notés et reproduits
précisément.
27.4.6 Modulation analogique

La modulation dans la musique électronique signifie que certains aspects d’un signal (la porteuse)
varient selon les aspects d’un second signal (la modulante). Une modulation expressive est une
technique centrale de la synthèse analogique, qu’elle soit de basse fréquence (correspondant au
trémolo, au vibrato et à la modulation de largeur d’impulsion) ou à un taux audio (correspondant
à la modulation d’amplitude, en anneau et de fréquence).
Le chapitre 25 explore le royaume de la synthèse par modulation numérique, y compris la modu-
lation d’amplitude, la modulation en anneau et les différentes formes de modulation de fréquence.
Le chapitre 23 présente la modulation de largeur d’impulsion (MLI). Les principes de base expliqués
dans ces présentations s’appliquent également dans le domaine de la modulation analogique, avec
certaines qualifications. Par exemple, le chapitre 25 présente les différences entre la modulation en
anneau analogique et son équivalent numérique. Ce même chapitre décrit les différences entre MF
exponentielle (implémentée sur de nombreux synthétiseurs contrôlés par tension) et MF linéaire

(implémentée dans les synthétiseurs numériques). La modulation spatiale ou panoramisation con-
trôlée par tension était également une signature de l’époque analogique.
Enfin, les spectres des sons générés par des techniques de modulation sont contraints par des lois
mathématiques à des types de comportement fixes. En pratique, ceci signifie que chaque type de
modulation simple possède une « signature » sonore caractéristique qui peut être discernée après
une certaine exposition à cette technique. Selon l’habileté du compositeur, cette signature peut être
un cliché ennuyeux ou une force musicale attirante. Dans cette dernière catégorie, la bande-son de
musique électronique de Louis et Bebe Barron pour le film de science-fiction Planète interdite (1956)
constitue un exemple remarquable d’utilisation musicale de la modulation. Les circuits à lampes
de Louis Barron étaient de sa propre conception et leur comportement était parfois imprévisible.
27.5 Amplificateurs, compresseurs et égaliseurs

par modelage analogique
Les amplificateurs par « modelage analogique » sont vendus par plusieurs sociétés. Le but principal
des amplificateurs par modelage analogique est d’émuler les caractéristiques d’amplificateurs analo-
giques à lampes onéreux et de cabinets de haut-parleurs classiques. Conçus à l’origine pour les claviers
et les guitares électriques, les amplificateurs par modelage analogique prennent deux formes :
• Matérielle : amplificateurs analogiques avec une étape d’entrée contenant un processeur de
signal numérique ; le processeur numérique contient des algorithmes qui émulent les ampli-
ficateurs à tube. De nombreuses unités possèdent leurs propres haut-parleurs.
• Logicielle : une application autonome ou un module d’extension qui émulent un ou plusieurs
amplificateurs à tube et cabinets de haut-parleurs.
Comme cela est le cas avec la synthèse AV, le modelage analogique tente de répliquer des caracté-
ristiques sonores bien connues des amplificateurs à tube, et non le circuit en lui-même.
Les amplificateurs de guitare à lampes possèdent une couleur sonore fortement reconnaissable,
particulièrement lorsqu’ils sont distordus. La sagesse populaire dit que les amplificateurs à lampes
augmentent les harmoniques pairs plus doux tandis que les amplificateurs à transistors créent de
la distorsion en augmentant les harmoniques impairs rêches. En suivant cette direction, Lassfolk
(1996) a décrit un schéma de distorsion simple basé sur la technique de distorsion non linéaire
(voir le chapitre 25) pour l’émulation de circuits à lampes. Des émulations plus sophistiquées prennent
en compte le fait que ces amplificateurs possèdent plusieurs étapes internes, chacune colorant le
signal d’une façon différente.
Afin de mesurer les caractéristiques sonores d’un amplificateur, d’un compresseur ou d’un égaliseur
à lampes, les programmateurs soumettent la machine originale à une batterie de tests en utilisant
une grande variété de signaux d’entrée. En utilisant ces données de test, ils développent des algo-
rithmes qui émulent de façon très proche les effets de traitement du signal imposés par différents
types d’amplificateurs. Ils lancent ensuite des tests de différence qui comparent l’opération de la
machine originale avec celle de l’émulation. Dans le cas d’émulations bénéficiant d’une bonne
ingénierie, la différence est moindre que celle des variations de construction d’une unité à une autre
dans les circuits analogiques (Romblom, 2004).
27.6 Conclusion
La synthèse AV et les amplificateurs par modelage analogique offrent un grand nombre des bénéfices
que l’on trouve dans le matériel vintage onéreux sous une forme plus compacte et moins chère.
Certaines conceptions sont impressionnantes de précision et représentent des investissements
sérieux dans de l’ingénierie ; pour d’autres ce n’est pas le cas. Comme avec les techniques de mode-
lage physique, on ne doit pas s’attendre à une émulation parfaite de la part de tous les synthétiseurs
analogiques virtuels.
Comme le son des saxophonistes Coleman Hawkins, Charlie Parker, John Coltrane et Kenny G,
chaque synthétiseur analogique vintage (Moog, Arp, EMS, Buchla, Serge, etc.) possède un son
distinctif et instantanément reconnaissable. Ces différences peuvent être dues à de nombreux
facteurs : topologies de circuit, parties des composants à l’intérieur d’un circuit, âge du circuit, et
interface de contrôle de ce circuit. Par contre, de nombreux synthétiseurs AV sont génériques ;
ils n’essaient pas de modeler un type spécifique de synthétiseur analogique. Quoi qu’il en soit, il y
aura toujours des bizarreries associées avec des circuits analogiques spécifiques qui ne seront pas
pleinement prises en compte dans une émulation numérique donnée.
Il est difficile de savoir jusqu’où la synthèse analogique virtuelle peut évoluer sans perdre contact
avec ses racines analogiques, qui n’évoluent plus. Il y a eu peu de nouveautés en synthèse analogique
réelle depuis de nombreuses années. Au cours de cette même période, il y a eu un développement
constant de nouvelles méthodes de synthèse et de traitement numériques.
Pourtant, le son classique des instruments et des machines analogiques est apprécié par de nom-
breux musiciens. Dans le futur, des techniques numériques plus élaborées seront développées, mais
il restera quelque chose de profondément évocateur dans les sons analogiques déployés avec art,
qu’ils soient réels ou virtuels.
Chapitre 28
La synthèse formantique
Un formant est un pic d’énergie dans le spectre (figure 28.1), qui peut contenir des composants
harmoniques, inharmoniques ou du bruit. Les pics formantiques sont caractéristiques des voyelles
parlées de la voix humaine et des sons émis par de nombreux instruments de musique.
Amp.
0.5 1.0 1.5

Fréquence (kHz)
Figure 28.1 – Une région formantique apparaît dans le spectre sous forme de pic.
Ici, le formant est centré à 1 kHz.
Comme cela est montré à la figure 28.2, dans le domaine situé entre 0 et 5 000 Hz, le conduit vocal
est en général caractérisé par cinq régions formantiques, dont le fondamental. Voir Bennett et Rodet
(1989) pour des graphiques des formants de différents phonèmes émis par une soprano, une alto,
un contre-ténor, un ténor et un baryton.
Les régions formantiques servent de « signature spectrale » ou de clé timbrale pour la source de
nombreux sons. Voir Grey (1975) et Slawson (1985) pour une introduction et des références supplé-
mentaires sur les études de timbre. Mais cela ne signifie pas que les formants d’une voix ou d’un
(a) Soprano /a/

dB
–10
–20
–30
–40
–50
–60
1 2 3 4 5 kHz
(b) Bass /a/

dB
–10
–20
–30
–40
–50
–60
1 2 3 4 5 kHz
Figure 28.2 – Régions formantiques vocales dans le domaine situé entre 0 Hz et 5 kHz.
(a) Soprano chantant la voyelle [a]. (b) Baryton chantant la voyelle [a]
(d’après Bennett et Rodet, 1989).
instrument soient fixes. Au contraire, ils changent en relation avec la fréquence du fondamental
(Luce, 1963 ; Bennett et Rodet, 1989). Quoi qu’il en soit, les formants ne sont qu’une clé parmi d’autres
que l’oreille utilise pour identifier la source d’un son.
Comprendre la nature formantique de la parole humaine a longtemps été un but de recherche scien-
tifique. Des méthodes ingénieuses pour la synthèse des formants des sons de voyelle ont été déve-
loppées à toutes les époques, y compris les « flammes chantantes », les « jets d’eau chantants » et les
dispositifs mécaniques conçus pour émuler les formants des chiens et des humains (Tyndall, 1875).
En empruntant littéralement l’approche par modèles physiques, le Dr René Marage de Paris cons-
truisit un émulateur de sons vocaux dans lequel chaque voyelle était voisée par une paire de lèvres
en caoutchouc attachée à une bouche artificielle. Le souffle d’air pour la parole était fourni par une
paire de poumons électromécaniques : un soufflet alimenté par un moteur électrique (Miller, 1916).
D’autres machines expérimentales utilisaient des combinaisons spéciales de tuyaux d’orgue pour
créer des sons ressemblants à des voyelles.
Il n’est donc pas surprenant que les recherches sur la parole aient servi de source d’inspiration pour
la synthèse formantique. Le reste de cette partie expose trois techniques de synthèse qui génèrent
des formants : la synthèse par fonction d’onde formantique ou FOF, VOSIM, et la synthèse par
fonction de fenêtrage (FF). FOF et VOSIM proviennent directement des tentatives pour simuler les
sons de parole humaine, tandis que FF fut développée pour émuler les formants des instruments
de musique traditionnels.
En fait de nombreuses techniques en dehors de celles présentées ici peuvent générer des formants.
Parmi celles-ci, il y a la synthèse additive (chapitre 19), la synthèse soustractive (chapitre 24), la
synthèse granulaire (chapitre 22), la modulation de fréquence (chapitre 25) et la synthèse par
modèles physiques (chapitre 26), pour n’en citer que quelques-unes. Nous faisons une distinction
pour FOF, VOSIM et FF pour deux raisons : premièrement, elles ne rentrent dans aucune des tech-
niques mentionnées précédemment, et deuxièmement, parce qu’elles ont été conçues dès le départ
pour la synthèse formantique.
28.1 Synthèse par fonction d’onde formantique et CHANT

La synthèse par fonction d’onde formantique (FOF) est la base du système de synthèse sonore CHANT.
Au cours des décennies pendant lesquelles il a été conçu (Rodet et Santamarina, 1975 ; Rodet et
Delatre, 1979 ; Rodet et Bennett, 1980 ; Bennett, 1981 ; Rodet, Potard et Barrière, 1984), CHANT a
été réimplémenté sur de nombreuses plates-formes, depuis d’énormes synthétiseurs comme la 4X

(Asta et coll., 1980) jusqu’aux ordinateurs personnels (Lemouton, 1993). Les générateurs FOF ont
également été implémentés dans le langage de synthèse Csound (Clarke, 1990).
CHANT fut conçu pour modeler une grande classe de mécanismes naturels qui résonnent lorsqu’ils
sont excités, mais qui sont finalement amortis par des forces physiques telles que la friction. Les
cloches résonnent longtemps, par exemple, tandis qu’une clave possède une résonance amortie qui
disparaît presque immédiatement. On peut exciter une résonance de la joue en tapant dessus avec un
doigt. Cette seule impulsion produit un bruit sec. Les cordes vocales génèrent une série d’impul-
sions rapides pour exciter de façon continue les résonances dans le conduit vocal, ce qui crée un son
harmonique. Ces systèmes sont tous des analogies de la façon dont les générateurs FOF opèrent.
Le modèle de base de production sonore intégré dans CHANT est la voix. Quoi qu’il en soit, les uti-
lisateurs peuvent régler les nombreux paramètres de CHANT pour dépasser le cadre de la synthèse
vocale — on peut créer des émulations d’instruments et des effets synthétiques. Xavier Rodet et
ses collègues ont utilisé CHANT pour développer des modèles de chanteurs masculins et féminins,
Impulsions d'excitation virtuelles

...
Paramètres
Générateur
FOF
1
Paramètres
Générateur
FOF
2
Paramètres
Générateur
FOF
3
Paramètres
Générateur
FOF
4
Paramètres
Générateur
FOF
5
Σ
Signal de sortie
Figure 28.3 – Une banque de générateurs FOF pilotés par des impulsions d’entrée
qui déclenchent un « grain » FOF à chaque période de hauteur. La sortie de tous les générateurs FOF
est additionnée pour générer un signal de sortie composite.
d’instruments à cordes traditionnels, de bois, de cuivres et de percussions. Comme nous allons le voir,
CHANT peut également être utilisé comme processeur de banque de filtres pour les sons échantil-
lonnés, une utilisation appréciée par certains compositeurs.
28.1.1 Fondements de la synthèse FOF
FOF, le centre de CHANT, commence avec des méthodes de synthèse formantique basées sur une
approche soustractive traditionnelle telle que la prédiction linéaire (chapitre 24). Dans l’approche
soustractive traditionnelle, un signal source avec un large spectre — tel qu’un train d’impulsion ou
un signal bruiteux — passe à travers un filtre complexe. Le filtre sculpte la plupart des fréquences,
ne laissant que quelques fréquences pic résonantes ou formants dans le spectre.
Rodet a montré que les filtres complexes utilisés dans la synthèse soustractive peuvent être réduits
à un ensemble équivalent de filtres passe-bande parallèles excités par des impulsions. Les filtres
sont de sections de second ordre, comme cela est décrit dans le chapitre 4. Une FOF réalise l’un de ces
filtres passe-bande parallèles ; plusieurs FOF en parallèle peuvent modeler une enveloppe spectrale
complexe ayant plusieurs pics formantiques. L’enveloppe spectrale est un tracé dessinant les contours
des pics du spectre (Depalle, 1991), semblable à la courbe produite par l’analyse par codage prédictif
linéaire.
Cependant, les FOF ont une double nature. Une implémentation alternative remplace les filtres par
une banque de générateurs de sinusoïdes amorties. Le signal et le spectre de ces générateurs sont
équivalents à ceux produits par un filtre piloté par impulsion (figure 28.3). D’après Rodet, il y a
plusieurs avantages à remplacer les filtres par des générateurs de sinusoïdes. Ceux-ci sont efficaces et
demandent moins de précision numérique que les filtres. Également, un ou plusieurs formants
peuvent changer de façon continue en sinusoïde ayant une amplitude et une fréquence contrôlables,
ce qui permet une transition continue entre la synthèse formantique et la synthèse additive (Rodet,
1986).
Les méthodes de filtre et de générateur de sinusoïde amortie peuvent être combinées pour créer
un seul son, comme cela est montré à la figure 28.4.
FOFs Sortie
Source Filtres Sortie

bruiteuse
Son
externe
Figure 28.4 – Synthèse FOF et configuration de traitement.

La sortie peut être des sinusoïdes, du bruit filtré, des sons échantillonnés filtrés, ou une combinaison
du tout.
28.1.2 Anatomie d’une FOF

Pour la synthèse, un générateur FOF produit un grain sonore à chaque période de hauteur. Ainsi,
une seule note de musique contient de nombreux grains. Pour distinguer ces grains de ceux présentés
au chapitre 22, nous les appelons grains FOF. Un grain FOF est une sinusoïde amortie avec une attaque
soit rapide soit lente, et une chute quasi exponentielle (figure 28.5a). L’enveloppe d’un grain FOF
est appelée enveloppe locale, en opposition à l’enveloppe globale de la note.
L’enveloppe locale est définie formellement comme suit.
Pour 0 = t = tex :
env t = 1 ⁄ 2 × [ 1 – cos ( π t ⁄ tex ) ] × exp ( – atten t )
Pour t = tex :
env t = exp ( – atten t )
où π est la phase initiale du signal FOF, tex le temps d’attaque de l’enveloppe locale, et atten le
temps de chute (D’Allessandro et Rodet, 1989).
Comme la durée de chaque grain FOF n’est que de quelques millisecondes, l’enveloppe du grain FOF
développe des bandes latérales audibles autour de la sinusoïde, ce qui crée un formant. Ceci est dû
(a) +1
0
Amp
–1
0 3 6
Temps (millisecondes)
(b) 0
–10
–20
Amp
–30
–40
–50
0 4 kHz 8 kHz
Fréquence
Figure 28.5 – Grain FOF et spectre.

(a) Un seul « grain », émis par un générateur FOF. (b) Spectre de ce grain, tracé sur une échelle
d’amplitude logarithmique (d’après D’Allessandro et Rodet, 1989).
au fait de la convolution de l’enveloppe avec la sinusoïde ; voir le chapitre 5 pour une explication de
la convolution. Le spectre du générateur de sinusoïde amortie est équivalent à la courbe de réponse
fréquentielle de l’un des filtres passe-bande (figure 28.5b).
Le résultat de l’addition de plusieurs générateurs FOF est un spectre ayant plusieurs pics forman-
tiques (figure 28.6).
0 dB
-25
-50
1 2 3 4 5 kHz
Fréquence
Figure 28.6 – Spectre formantique d’un son vocal

produit par plusieurs générateurs FOF en parallèle.
28.1.3 Paramètres de FOF

Chaque générateur FOF est contrôlé par un certain nombre de paramètres, dont la fréquence fonda-
mentale et l’amplitude. La figure 28.7 montre les quatre paramètres formantiques, nommés p1 à p4 :
• p1 est la fréquence centrale du formant ;
• p2 est la largeur de bande formantique, définie comme la largeur entre les points situés à
–6 dB du pic formantique ;
• p3 est l’amplitude pic du formant ;
• p4 est la largeur de la jupe formantique. La jupe formantique est la partie inférieure du pic
formantique, située environ à –40 dB en dessous du pic, semblable aux contreforts d’une mon-
tagne. Le paramètre de jupe est indépendant de la largeur de bande formantique, qui spécifie
la largeur au niveau du pic de la montagne.
Le lien inhérent entre les opérations dans le domaine temporel et les opérations dans le domaine
fréquentiel est exemplaire de la façon dont les paramètres FOF sont spécifiés. Bien que cela ne soit
pas intuitif pour le musicien non versé dans la théorie du traitement du signal, deux des principaux
paramètres du formant (domaine fréquentiel) sont spécifiés dans le domaine temporel — dont les
propriétés de l’enveloppe du grain FOF. Premièrement, la durée de l’attaque FOF contrôle le para-
mètre p4, la largeur de la jupe formantique (autour de –40 dB). C’est-à-dire que plus la durée de
l’attaque est longue, plus la largeur de jupe devient étroite. La figure 28.8 montre cette relation.
Deuxièmement, la durée de la chute FOF détermine p2, la largeur de bande formantique au point
–6 dB. Ainsi, une chute longue se traduit par un pic de résonance étroit, tandis qu’une chute courte
élargit la largeur de bande du signal. Ce lien entre la durée d’un son et sa largeur de bande est éga-
lement montré dans la synthèse granulaire, comme cela a été expliqué en détail au chapitre 22.
(a)
p4
p2, atten
tex
Amp.
Temps
(b) p3 p1
amplitude pic fréquence centrale
p2, largeur
de bande de atten
à -6 dB
p4, largeur
de jupe de tex
Amp.
Fréquence
Figure 28.7 – Paramètres FOF.

(a) Vue temporelle d’une FOF. Le paramètre p4 représente le temps d’attaque (appelé tex dans la
plupart des implémentations), tandis que p2 représente la chute (appelée atten). (b) Vue fréquen-
tielle des quatre paramètres formantiques. Le paramètre p1 est la fréquence centrale du formant,
tandis que p2 est sa largeur de bande. Le paramètre p3 est l’amplitude pic du formant, tandis que
p4 est la largeur de la jupe formantique.
Les applications typiques de la synthèse FOF configurent plusieurs générateurs FOF en parallèle.
En sus des six paramètres principaux de chaque générateur FOF, les implémentations de CHANT
offrent des paramètres supplémentaires pour un contrôle plus global. Le tableau 28.1 fait une liste
des paramètres principaux. Certaines implémentations possèdent plus de 60 paramètres. Les nom-
breux paramètres demandent impérativement une base de données structurée en règles pour le
contrôle de la machine de synthèse. Ceci est particulièrement nécessaire pour l’émulation des sons
vocaux ou instrumentaux, où les réglages de paramètres ont une influence critique sur le résultat.
Une partie du travail de CHANT et des langages de haut niveau associés comme FORMES (Rodet
et Cointe, 1984) et PatchWork (Barrière, Iovino et Laurson, 1991) est de procurer une base de données
de règles.
-25
Amp.
(dB)
-50
1 2 3 4 5 kHz
Fréquence
Figure 28.8 – Effet de la variation du temps d’attaque sur la largeur de bande

de la jupe formantique. Ligne mince, formant large : p4 = 100 μs. Ligne moyenne, formant moyen :
p4 = 1 ms. Ligne épaisse, formant étroit : p4 = 10 ms.
Tableau 28.1 – Principaux paramètres FOF.
Pour chaque générateur FOF
Amplitude
Fréquence fondamentale
Octaviement – atténuation de grains alternés
Fréquence centrale du formant (p1)
Largeur du formant à 6 dB en dessous du pic formantique (p2)
Amplitude pic du formant (p3)

Largeur de la jupe formantique (p4)
Superposition de grains
Tables de fonctions (en général sinusoïdales)
Phase initiale
Correction spectrale pour la synthèse vocale
Paramètres de filtrage
Fréquence centrale du formant
Amplitude du formant
Largeur de bande du formant

28.1.4 Le programme CHANT

Le programme de synthèse CHANT (Baisnée, 1985) offre trois modes d’interaction aux utilisateurs.
Dans le premier et le plus simple, l’utilisateur entre des valeurs pour une liste prédéfinie de variables
pour la synthèse du chant. Ces variables sont traduites en paramètres p1 à p4 pour chaque généra-
teur FOF individuel. Elles peuvent être regroupées dans les catégories suivantes :
• Intensité.
• Fréquence fondamentale.
• Vibrato et variation aléatoire de la fréquence fondamentale.
• Forme du spectre et amplitude formantique.
• Enveloppe locale des formes d’onde formantiques.
• Courbes d’amplitude globale.
Dans le second mode, les FOF servent de filtres variant dans le temps appliqués à des sons échantil-
lonnés. Ce mode a été utilisé par des compositeurs comme technique de transformation du son.
Dans le troisième mode d’interaction, l’utilisateur écrit les règles — des algorithmes qui décrivent
les transitions et les interpolations entre les timbres. Les environnements de composition comme
PatchWork appuient également cette stratégie (Iovino, 1993 ; Barrière, Iovino et Laurson, 1991 ;
Malt, 1993).
28.2 Analyse/resynthèse FOF

Avec ses formants et ses sinusoïdes, la synthèse FOF représente potentiellement une méthode
globale. Nous présentons brièvement ici les efforts fournis pour développer des systèmes d’analyse
générant des paramètres pour la resynthèse FOF.
28.2.1 Modèles de résonance

Les modèles de résonance (MDR) font référence à une méthodologie pour capturer le son des instru-
ments acoustiques traditionnels ; la resynthèse utilise les FOF (Barrière, Potard et Baisnée, 1985 ;
Potard, Baisnée et Barrière, 1986, 1991). La prémisse des MDR est le modèle classique d’excitation-
résonance. C’est-à-dire que les mécanismes de production sonore sont divisés en une étape d’exci-
tation et une étape de résonance. Les MDR supposent que l’excitation est une impulsion comme le
pincement d’un plectre ou le coup d’une baguette de tambour. La résonance est la réponse acous-
tique du corps de l’instrument à l’excitation.
Dans les MDR, chaque résonance est simulée sous forme d’une sinusoïde à une fréquence particu-
lière ayant une chute exponentielle dans le temps. Ceci correspond à la réponse impulsionnelle d’un
filtre passe-bande étroit, un sujet présenté au chapitre 4. Lorsqu’une impulsion (telle que le coup
d’un marteau de piano) excite les résonances, chacune d’entre elles sonne à son amplitude et sa fré-
quence caractéristique. Comme les MDR modèlent le corps de l’instrument, le son d’un instrument
dépend non seulement des notes jouées, mais également de l’état des notes précédentes.
L’analyse MDR ne capture que la partie résonante. Comme telle, elle n’est pas un modèle physique
ou spectral complet d’un instrument. Elle n’a pas non plus été conçue pour répliquer exactement
le signal d’entrée. Son but est plutôt d’extraire des éléments qui pourraient être utilisés pour « l’élabo-
ration et le contrôle de structures timbrales » (Barrière, Potard et Baisnée, 1985).
Selon les développeurs, la méthodologie d’analyse MDR est un processus quelque peu hasardeux
et imparfait (Potard, Baisnée et Barrière, 1986 ; Baisnée, 1988 ; Potard, Baisnée et Barrière, 1991).
À la base, elle effectue une seule transformée de Fourier rapide d’un segment de son. La transformée
rapide de Fourier est expliquée au chapitre 11. Un algorithme d’extraction de pics isole les réso-
nances les plus importantes de son spectre, et élimine les autres composants. Puis une autre analyse
est essayée avec une fenêtre temporelle plus grande, et les pics spectraux sont mélangés dans un
fichier commun. La resynthèse à partir de ces pics peut être tentée pour voir si cela colle avec
l’original. L’utilisateur répète l’analyse avec des fenêtres de plus en plus larges jusqu’à ce qu’une
resynthèse satisfaisante soit obtenue. Pour les sons complexes, l’analyse peut être divisée en plu-
sieurs segments commençant à des moments différents, et le processus itératif appliqué séparément
à chaque segment. Les meilleurs résultats ont été obtenus pour des sons percussifs harmoniques
tels que les marimbas, les vibraphones et les cloches tubulaires (Baisnée, 1988).
La resynthèse MDR utilise jusqu’à plusieurs centaines de générateurs FOF standards, soit des oscil-
lateurs sinusoïdaux avec chute exponentielle, soit des filtres passe-bande excités par des impulsions
de bruit. Une implémentation employait un matériel spécial permettant un contrôle en temps réel
par protocole MIDI (Wessel et coll., 1989).
28.2.2 Transformations MDR
L’un des buts des MDR était de faire le lien entre les sons naturels et les sons synthétiques. La sépa-
ration des parties d’excitation et de résonance d’un son procure une zone fertile en expérimentations
de transformation des sons analysés. Pour créer des effets de synthèse croisée, par exemple, il est
possible de remplacer l’excitation usuelle (impulsions de bruit blanc) par un son instrumental
échantillonné.
Les développeurs ont implémenté une bibliothèque de modèles analysés et une bibliothèque de règles
pour la transformation d’un MDR en un autre. Ces règles peuvent allonger les MDR en temps ou
en fréquence, ou créer des hybrides en additionnant des modèles de résonance. D’autres règles
font une interpolation dans le temps entre les résonances d’un instrument et les résonances d’un
autre instrument.
L’approche MDR est efficace lorsque l’excitation est une simple impulsion ou une explosion de bruit,
mais elle peut être moins bien adaptée aux cas où l’excitation dépend d’un phénomène de couplage
entre les structures résonantes et excitatrices. Dans ces cas, il existe une interaction significative
entre l’excitation et la résonance, comme dans le cas d’un archet sur une corde de violon. En ce qui
concerne les phénomènes de couplage, la méthode la plus convenable semble être les techniques
de synthèse par modèles physiques décrites dans le chapitre 28.
28.2.3 Harmonisation de l’enveloppe spectrale et des FOF

D’Allessandro et Rodet (1989) ont rapporté une expérience d’analyse/resynthèse FOF qui commence
par une analyse spectrale par codage prédictif linéaire (CPL). Après avoir tracé le contour de l’enve-
loppe spectrale fenêtre après fenêtre, le processus extrait les formants correspondant à une banque
de générateurs FOF. Les résultats n’étaient pas une reconstruction d’identité (les auteurs citent des
problèmes dans les deux ou trois premiers harmoniques), mais étaient similaires à l’original. Depalle
(1991) s’est beaucoup servi de l’analyse/resynthèse FOF pour faire des approximations de l’enve-
loppe spectrale variant dans le temps du son analysé. La plupart de ses recherches se sont concentrées
sur les méthodes d’analyse spectrale autorégressive (AR), présentées aux chapitres 13 et 24.
28.3 VOSIM
La technique de synthèse VOSIM fut développée par Werner Kaegi et Stan Tempelaars à l’Institut de
Sonologie d’Utrecht au début des années 1970 (Kaegi, 1973, 1974 ; Tempelaars, 1976 ; Kaegi et Tem-
pelaars, 1978). L’idée clé est la génération d’un signal répété en explosion de son, produisant un
fort composant formantique. Dans ce sens, la technique a des liens avec la technique FOF expliquée
plus haut. Comme les FOF, VOSIM fut à l’origine utilisée pour modeler des sons de voyelles. Plus
tard, elle fut étendue pour modeler des fricatives vocales — consonnes du type [sh] — et des sons
quasi instrumentaux (Kaegi et Tempelaars, 1978).
28.3.1 Forme d’onde VOSIM

La forme d’onde VOSIM était calculée en approximant de façon grossière la voix humaine. Cette
approximation prend la forme d’une série de trains d’impulsions, où chaque impulsion du train est
le carré d’une fonction sinusoïdale. L’amplitude de l’impulsion la plus élevée est établie par le para-
mètre A. Chacun des trains d’impulsions contient N sin2 impulsions en série qui décroissent en
amplitude par un facteur de chute b (figure 28.9). La largeur (durée) de chaque impulsion T déter-
mine la position du spectre formantique. Un retard de longueur variable M suit chaque train
d’impulsions, qui contribue à la période globale d’un train d’impulsions, et aide ainsi à déterminer
la période de fréquence fondamentale. Nous pouvons calculer la période grâce à (N × T) + M, et
donc pour sept impulsions de 200 μs et un retard de 900 μs, la période totale est de 3 ms et la fré-
quence fondamentale de 333,33 Hz. Le formant est centré à 5 000 Hz.
A
Amp.
T
Temps
Figure 28.9 – Un train d’impulsions VOSIM.

Les paramètres sont expliqués dans le texte.
Deux perceptions fortes émergent du signal VOSIM usuel : un fondamental correspondant à la fré-
quence de répétition du signal entier, et un pic formantique dans le spectre correspondant à la largeur
d’impulsion des sin2 impulsions (figure 28.10). Un formant est produit par chaque oscillateur VOSIM.
Pour créer un son ayant plusieurs formants, il est nécessaire de mélanger les sorties de plusieurs
oscillateurs VOSIM (comme dans les générateurs FOF).
4
Amp.
0
0 0,5F 1F 1,5F 2F 2,5F
Fréquence
Figure 28.10 – Spectre produit par un oscillateur VOSIM ayant cinq impulsions
et une constante d’atténuation de 0,8 (d’après De Poli, 1983).
Tableau 28.2 – Paramètres VOSIM.
Nom Description
T Largeur d’impulsion
δT Incrément ou décrément de T
M Retard suivant une série d’impulsions
δM Incrément ou décrément de M
D Déviation maximale de M
A Amplitude de la première impulsion
δA Incrément ou décrément de A
b Constante d’atténuation pour la série d’impulsions
N Nombre d’impulsions par période
S Type de modulation (sinusoïdale ou aléatoire)
NM Taux de modulation
NP Nombre de périodes
Un oscillateur VOSIM est contrôlé en variant un ensemble de paramètres qui influe sur le son
généré (tableau 28.2). T, M, N, A et b sont les paramètres premiers. Pour obtenir du vibrato, de la
modulation de fréquence et des sons bruiteux, on doit moduler la période de retard M. Cette con-
trainte a conduit Kaegi et Tempelaars à introduire trois nouvelles variables : S, D et NM, respective-
ment correspondantes au type de modulation (sinusoïdale ou aléatoire), à la déviation fréquentielle
maximum et au taux de modulation. Ils souhaitaient également être capables de fournir des sons
« transitionnels », ce qui entraîna l’introduction des variables NP, δT, δM et δA. Ce sont respecti-
vement les incréments positifs et négatifs de T, M et A, à l’intérieur du nombre de périodes NP.
En changeant la valeur de la largeur d’impulsion T, le formant peut changer dans le temps. L’effet est
un déplacement formantique, qui sonne différemment de l’enrichissement spectral progressif que
l’on trouve par exemple dans la synthèse par modulation de fréquence.
Le signal VOSIM non altéré n’est pas limité en bande. Ceci crée des problèmes de repliement dans les
systèmes ayant des taux d’échantillonnage peu élevés (voir le chapitre 1). Aux environs du double
de la fréquence formantique, les amplitudes des composants spectraux sont au moins à 30 dB en
dessous de la fondamentale. À six fois la fréquence formantique, les composants sont à 60 dB de
moins (Tempelaars, 1976).
Jo Scherpenisse à l’Institut de Sonologie d’Utrecht conçut et construisit un ensemble d’oscillateurs
VOSIM contrôlables par micro-ordinateur (Tempelaars, 1976 ; Roads, 1978a). Les oscillateurs VOSIM
furent également construits à l’intérieur du synthétiseur numérique SSSP à l’université de Toronto
(Buxton et coll., 1978b).
28.4 Synthèse par fonction de fenêtrage

La synthèse par fonction de fenêtrage (FF) est une technique en plusieurs étapes pour la synthèse
formantique utilisant des partiels harmoniques purs (Bass et Goeddel, 1981 ; Goeddel et Bass, 1984).
Cette technique commence par la création d’un signal harmonique de large bande. Puis une étape
de pondération augmente ou atténue différents harmoniques du signal pour créer des régions
formantiques variant dans le temps qui émulent le spectre des instruments traditionnels.
L’élément de large bande utilisé dans la première étape de la synthèse FF est une impulsion de fonction
de fenêtrage (figure 28.11a). Les fonctions de fenêtrage sont des formes d’ondes spéciales utilisées
dans de nombreuses tâches de traitement du signal, telles que la conception de filtres et l’analyse
du son. Voir le chapitre 11 pour plus d’éléments sur les fonctions de fenêtrage.
Plusieurs fonctions de fenêtrage ont été inventées (voir Harris, 1978 ; Nuttall, 1981). Les tracés de
spectres de fenêtres ont toujours un lobe central ou des lobes latéraux caractéristiques. Le lobe central
a en général plus d’amplitude que les lobes latéraux, ce qui signifie que le signal est limité en bande.
Dans la fonction de fenêtrage Blackman-Harris choisie par Bass et Goeddel, les fréquences des
lobes latéraux sont atténuées d’au moins 60 dB (figure 28.11b). Puisque les harmoniques audibles
sont à l’intérieur du lobe, cela permet d’être sûr qu’il n’y aura pas de problème de repliement.
Le signal de large bande est créé en reliant une série périodique d’impulsions FF séparées par une
période d’amplitude nulle appelée le temps mort. Pour des fréquences fondamentales différentes, la
durée de l’impulsion FF reste la même ; seul le temps mort entre les impulsions varie. La figure 28.12
montre deux signaux séparés d’une octave, et dont la seule différence est l’intervalle de temps mort.
Par cette utilisation d’une impulsion suivie d’une période de temps mort, la technique FF n’est pas
éloignée des méthodes VOSIM et FOF expliquées plus haut. Comme nous allons le montrer, la syn-
thèse FF, comme les synthèses VOSIM et FOF, additionne les sorties de plusieurs générateurs pour
(a)
Amp.
Temps
(b)
Amp.
Fc Fréquence
Figure 28.11 – Impulsion de fonction de fenêtrage.

(a) Impulsion dans le domaine temporel. (b) Une partie du spectre de fréquence. Le sommet à gauche
de la figure correspond à la fréquence centrale de l’impulsion, et les lobes aux bandes latérales, qui
sont tous à au moins 70 dB en dessous du pic de la fréquence centrale (d’après Nuttall, 1981).
créer un spectre complexe et variant dans le temps. Par d’autres aspects, cependant, les techniques
ne sont pas similaires.
Dans la synthèse FF, le nombre des harmoniques s’accroît lorsque la fréquence fondamentale décroît.
Ceci en raison du fait que les harmoniques élevés sortent du lobe central du spectre de l’impulsion
FF. Les sons graves sont ainsi riches timbralement, tandis que les aigus le sont moins. Ceci est
caractéristique de certains instruments traditionnels comme les orgues et les pianos, que Bass et
Goeddel souhaitaient simuler. Notez que d’autres instruments, comme les clavecins, n’ont pas ce
comportement. De plus, certains instruments n’ont pas un spectre harmonique pur et ne sont donc
pas de bons modèles pour la synthèse FF.
Nous avons pour l’instant présenté un schéma dans lequel des sons fixes sont générés. Ces sons
peuvent occuper une large bande (fréquence fondamentale basse) ou une bande étroite (fréquence
Figure 28.12 – Vue temporelle de deux signaux FF séparés d’une octave.

(a) Signal basse fréquence. (b) Signal de plus haute fréquence.
fondamentale élevée). Afin de créer des régions formantiques dans le spectre, un traitement sup-
plémentaire appelé pondération de portion est nécessaire.
Une portion temporelle est définie comme la durée d’une seule impulsion FF plus une partie de son
temps mort. En pondérant les portions, c’est-à-dire en multipliant une portion par une valeur, grâce
à une séquence périodique de N pondérateurs de portion, le timbre du signal de sortie peut être mani-
pulé. Cette pondération est accomplie en injectant un flux d’impulsions FF comme signal d’entrée
à un multiplicateur accompagné d’un flux périodique de pondérateurs de portion. Le multiplicateur
calcule le produit de chaque impulsion d’entrée avec une pondération spécifique. Le résultat est un
flux de sortie contenant des impulsions FF à différentes amplitudes (figure 28.13). Le spectre d’un
tel flux comporte des pics et des creux à différentes fréquences. Pour les timbres variant dans le temps,
chaque pondérateur de portion peut être spécifié sous forme de fonction variant dans le temps.
Figure 28.13 – Flux d’impulsions FF multiplié par une séquence périodique

de pondérateurs de portion pour obtenir une série d’impulsions FF pondérées.
La synthèse FF nécessite un schéma de compensation d’amplitude, car les fréquences basses con-
tiennent peu d’impulsions et beaucoup de temps mort d’amplitude nulle. Une fonction d’échelon-
nage quasi linéaire peut être appliquée pour échelonner l’amplitude inversement à la fréquence.
C’est-à-dire que les sons graves sont augmentés et les sons aigus atténués pour obtenir une balance
égale sur tout le domaine fréquentiel.
Comme l’algorithme de Karplus-Strong pour la corde pincée et le tambour, l’algorithme FF de base

peut être agrémenté de quelques fonctions pour augmenter sa flexibilité tout en préservant son
efficacité de calcul. Pour plus de détails, voir Bass et Goeddel (1981) et Goeddel et Bass (1984).
Dans une implémentation pratique, avec huit oscillateurs FF, 256 portions par période (maximum),
un taux d’échantillonnage de 40 kHz, une largeur d’impulsion FF de 150 μs, et 28 segments linéaires
en morceaux utilisés pour modeler chaque pondérateur de portion sous forme de fonction tempo-
relle, des émulations raisonnables de sons d’instruments traditionnels furent décrites par Bass et
Goeddel.
La figure 28.14 montre deux tracés d’un son de saxophone alto. Celui-ci est en général difficile à
tester pour une méthode de synthèse. La figure 28.14a est le son originel, et la figure 28.14b le son
synthétique généré par la technique FF.
(a)
Amp.
Ha
rm
on
iqu
es
Temps
(b)
Amp.
Ha
rm
on
iqu
es
Temps
Figure 28.14 – Tracé des vingt premiers harmoniques du spectre variant dans le temps
d’un son de saxophone alto. Les harmoniques graves sont à l’arrière du tracé. (a) Son d’origine joué
sur un saxophone alto. (b) Son synthétique créé par synthèse FF (d’après Goeddel et Bass, 1984).
Chapitre 29
La synthèse
par segments de forme d’onde
Toutes les différences dans la perception acoustique peuvent être rapportées aux différences dans la struc-
ture temporelle des ondes sonores… Si toutes les propriétés empiriques du son pouvaient être rapportées
à un principe simple d’ordre — tel que des successions composées temporellement d’impulsions —,
la pensée compositionnelle devrait être radicalement réorientée… On ne démarrerait pas de propriétés
sonores déjà expérimentées et qui permettent ainsi à celles-ci de déterminer des variations temporelles ;
au contraire, on composerait directement les arrangements temporels d’impulsions, et l’on découvrirait
leurs propriétés résultantes de façon expérimentale. (Karlheinz Stockhausen, 1963)
Les techniques par segments de forme d’onde constituent une collection de méthodes pour la cons-
truction de sons à partir d’échantillons individuels et de fragments d’onde qui sont assemblés pour
créer des formes d’onde plus grandes, des sections et des pièces entières. En fait, les sons numériques
sont créés à partir de leurs constituants atomiques : les échantillons. Les techniques par segments
de forme d’onde représentent une approche temporelle de la synthèse, car ils construisent le son à
partir de points d’amplitude individuels. Des concepts tels que « fréquence » et « spectre » ne sont
pas explicitement représentés dans les paramètres de synthèse, mais interviennent comme résultat
des manipulations compositionnelles.
Ce chapitre décrit quatre techniques par segments de forme d’onde :
• L’interpolation de forme d’onde.
• SAWDUST.
• SSP.
• La synthèse par instruction.
L’interpolation de forme d’onde peut être directement liée au domaine fréquentiel, puisque les
méthodes d’interpolation ont des effets prévisibles sur le spectre du signal, comme nous le verrons
plus loin. Dans deux des techniques expliquées ici, SAWDUST et SSP, le compositeur travaille directe-
ment sur les points d’échantillonnage. Un spectre variant dans le temps résulte des opérations du
compositeur sur les formes d’onde. La synthèse par instruction est une approche abstraite de la
synthèse, puisque le compositeur spécifie des sons au moyen d’instructions logiques n’ayant pas de
connexions directes avec les paramètres acoustiques.
29.1 Interpolation de forme d’onde

L’interpolation est une technique mathématique utilisée pour générer une ligne entre deux points
finals ou deux points de rupture, où chaque point de rupture est une paire de points (sur l’axe des x
et des y). De nombreux algorithmes d’interpolation existent, dont le constant, le linéaire, l’exponentiel,
le logarithmique, le demi-cosinus, et le polynôme, parmi d’autres. Chacun génère une famille différente
de courbes entre les points de ruptures. Comme le montre la figure 29.1, une interpolation constante
trace une droite parallèle à l’abscisse entre les deux points de ruptures. L’interpolation linéaire trace
une droite reliant les points de rupture.
(a)
(b)
(c)
Figure 29.1 – Techniques simples d’interpolation.

(a) Points de rupture originels. (b) Interpolation constante. (c) Interpolation linéaire.
Les deux points d’inflexion (courbure) d’une interpolation demi-cosinus permettent d’avoir une
courbe lisse entre les points de rupture. La figure 29.2a montre une interpolation demi-cosinus entre
deux points, tandis que la figure 29.2b montre une interpolation demi-cosinus reliant plusieurs
points. Les techniques d’interpolation par polynôme (dont les rainures cubiques et les polynômes
de Chebychev) remplissent l’espace entre deux points avec des courbes arbitrairement lisses ou
variant énormément, selon le polynôme utilisé.
(a)
(b)
Figure 29.2 – Interpolation demi-cosinus.

(a) Demi-cosinus tracé entre deux points A et B. Remarquez les deux points d’inflexion (points de
courbure). (b) Interpolation demi-cosinus entre plusieurs points (d’après Mitsuhashi, 1982b).
29.1.1 Équation d’interpolation linéaire

L’interpolation linéaire est simple et omniprésente. Elle tente de trouver un point i intermédiaire
entre deux points finals connus. L’équation pour accomplir cela est de la forme suivante :
f ( i ) = f ( début ) + { ( [ i – début ] ⁄ [ fin – début ] ) × [ f ( fin ) – f ( début ) ] }
où f(début) et f(fin) sont les points de rupture de commencement et de fin, et i un point intermé-
diaire sur l’abscisse entre début et fin. En effet, l’interpolation linéaire calcule à combien de distance
de début et de fin se trouve i, puis multiplie ce rapport par la différence entre f(fin) et f(début), pour
finalement l’ajouter à f (début).
29.1.2 Interpolation dans les oscillateurs et les générateurs d’enveloppe
Les systèmes de musique informatique utilisent fréquemment l’interpolation. Nous les trouvons
par exemple dans les oscillateurs (Moore, 1977) et dans les générateurs d’enveloppe. Le chapitre 17
explique comment un oscillateur interpolant génère une forme d’onde ayant un rapport signal/bruit
bien meilleur que celui d’un oscillateur non interpolant. Dans les générateurs d’enveloppe, l’interpo-
lation connecte des paires de points de rupture (coordonnées xy) qui décrivent le tracé de l’enveloppe.
Cette technique est beaucoup plus efficace du point de vue de la mémoire que le stockage de chaque
point d’une enveloppe, mais elle demande plus de calcul.
L’interpolation peut également être utilisée pour générer de nouvelles formes d’onde à partir de
formes d’onde déjà existantes. Certaines implémentations de langages Music N, par exemple, incluent
des générateurs élémentaires pour l’interpolation de formes d’onde (Leibig, 1974). Ces générateurs
prennent deux signaux en entrée et génèrent un signal qui est une interpolation pondérée des deux
(figure 29.3). En variant la pondération au cours du temps, on peut obtenir un mélange variant
dans le temps entre les deux formes d’onde d’entrée.
Figure 29.3 – Instrument pour l’interpolation de formes d’onde

utilisant le générateur élémentaire ITP inclus dans certains langages de synthèse logiciels du type
Music N. L’enveloppe de pondération spécifie quelle forme d’onde va prédominer. Lorsque l’enveloppe
de pondération est 1, la forme d’onde de l’oscillateur de gauche sera entendue. Lorsqu’elle est égale
à 0, l’oscillateur de droite joue. Lorsqu’elle est de 0,5, la forme d’onde est une moyenne point par
point des deux formes d’onde originelles.
29.1.3 Interpolation dans les fonctions GEN

Plusieurs fonctions de génération de table (GEN) des langages Music N, décrits dans le chapitre 17,
font une interpolation entre des points de rupture spécifiés par le compositeur. Ces fonctions GEN
créent des enveloppes et des formes d’onde utilisées dans les instruments Music N. Les fonctions
GEN interpolantes typiques sont le segment de ligne (interpolation linéaire), l’exponentielle, la
rainure cubique (polynôme), et Chebychev (polynôme).
29.1.4 Synthèse par interpolation

Bernstein et Cooper (1976) ont proposé une méthode de synthèse par forme d’onde basée exclusi-
vement sur l’interpolation linéaire. Dans cette méthode, une période d’une forme d’onde est censée
contenir n points de rupture espacés par des intervalles de temps égaux. Le principal défaut de
l’interpolation linéaire dans la synthèse par forme d’onde est que les angles aigus dans les formes
d’onde créent des partiels de haute fréquence incontrôlables et sonnants de façon dure. Mitsuhashi
(1982b) a présenté plusieurs alternatives à l’approche de l’interpolation linéaire, dont l’interpolation
constante, par demi-cosinus et par polynôme. Il a démontré que l’interpolation constante est similaire
à la synthèse par fonction de Walsh (voir chapitre 19) par rapport aux formes d’onde qu’ils génèrent
(avec des angles droits) et au nombre de paramètres nécessaires pour créer celles-ci. Contrairement
à la synthèse par fonction de Walsh, l’interpolation constante n’effectue pas les sommes dont la syn-
thèse Walsh a besoin pour l’addition des coefficients de pondération. Ainsi, elle est potentiellement
plus efficace. Malheureusement, comme l’interpolation linéaire, l’interpolation constante souffre
également de la génération de partiels élevés incontrôlables.
L’interpolation demi-cosinus n’a pas ce problème. En utilisant les fonctions d’interpolation demi-
cosinus, Mitsuhashi a pu déterminer le mélange d’harmoniques dans la forme d’onde, produisant
des résultats équivalents à ceux de la synthèse additive. L’avantage de l’interpolation demi-cosinus
est qu’elle utilise moins de ressources de calcul qu’un système de synthèse additive.
Mitsuhashi a également analysé le cas d’une interpolation par fonctions de polynôme arbitraire.
Lorsque des intervalles de points de rupture uniformément espacés sont utilisés, le polynôme peut
être évalué très efficacement en utilisant la méthode de différences à terme. Les détails mathématiques
de l’interpolation polynôme avec la méthode des différences à terme dépassent le cadre de ce livre.
Pour plus d’informations, voir Mitsuhashi (1982a, b), Cerruti et Rodeghiero (1983).
Le spectre d’un signal généré par interpolation est le résultat de deux termes : les ordonnées des
points de rupture f (i) et la fonction d’interpolation choisie. Lorsque l’on synthétise une forme d’onde
périodique dont une période incorpore n points de rupture, l’amplitude de n/2 harmoniques peut
être contrôlée en variant la hauteur (ordonnée) des points de rupture (Mitsuhashi, 1982b). Ainsi,
si le nombre de points de rupture est de 20, on peut contrôler les harmoniques 0 à 10.
Il s’ensuit qu’un spectre variant dans le temps peut être généré en changeant les ordonnées des points
de rupture à chaque période. Les changements linéaires des ordonnées des points de rupture créent
des changements linéaires d’amplitude des harmoniques.
Jusqu’à maintenant, nous avons considéré le cas d’intervalles de points de rupture espacés unifor-
mément. Des intervalles non uniformes peuvent également être utilisés. Lorsqu’ils sont choisis avec
soin, les intervalles non uniformes de points de rupture peuvent fournir une bien meilleure approxi-
mation d’une forme d’onde donnée que des points de rupture uniformes. La distorsion est moins
importante. La figure 29.4 montre comment des points de rupture répartis uniformément font une
approximation très lointaine de la forme d’onde, tandis que les points non uniformes, positionnés
aux endroits de plus grand changement, procurent une bien meilleure approximation. Bernstein et
Cooper (1976) donnent les coefficients de Fourier déterminant le spectre de formes d’onde approxi-
mées par des intervalles de points de rupture non uniformes. Une étude supplémentaire est néces-
saire pour déterminer tous les bénéfices et tous les risques de cette approche.
(a)
A B C D
(b)
A B C D E F G H I
Figure 29.4 – Effet des points de rupture non uniformes.

(a) Courbe tracée avec des ponts de rupture uniformes. (b) Courbe tracée avec des points de rupture
non uniformes, permettant un ajustement plus précis de la courbe.
29.2 SAWDUST
Le système SAWDUST, conçu par Herbert Brün et implémenté par une équipe de programmateurs
à l’Université de l’Illinois (Blum, 1979), représente une approche originale de la synthèse sonore.
Voir Grossman (1987) pour un commentaire de SAWDUST du point de vue de l’implémentation.
Le terme sawdust est composé de deux mots : saw, la scie, et dust, la poussière. Dans la conception
de Brün, la « scie » est l’ordinateur et la « poussière » les données, constituées de minuscules points
d’amplitude (les échantillons). Le système SAWDUST est un environnement interactif pour la
manipulation de points d’amplitude (que Brün appelle éléments), leur combinaison hiérarchique en
formes d’onde, en sections, et pour finir, en compositions complètes. Comme avec d’autres tech-
niques par segments de formes d’onde, les signaux produits par le système SAWDUST ont souvent
une qualité brute, avec des angles saillants.
Les opérations de base dans SAWDUST incluent la concaténation d’éléments, le cycle (bouclage),
le mixage, et la variation. Les opérations sont effectuées par les sous-programmes LINK, MINGLE,
MERGE et VARY. LINK est une fonction de mise en ordre qui transforme un ensemble d’éléments
non ordonnés A en un ensemble d’éléments ordonnés appelé un lien. De manière formelle, LINK
(A) → L, où A est une liste d’éléments ou de liens.
MINGLE est une opération de bouclage qui prend un ensemble de liens ordonnés et forme un nouvel
ensemble dans lequel l’ensemble originel est répété n fois. C’est un des mécanismes utilisés pour
créer des formes d’onde périodiques dans SAWDUST. Par exemple, MINGLE(2, L3, L4) = {L3, L4,
L3, L4}.
MERGE est une opération de mise en ordre qui sélectionne alternativement des éléments de deux
liens pour former un nouveau lien. Par exemple, pour deux liens donnés Lj et Lk, avec Lj = {e1, e2 … e10}
et Lk = {e21, e22 … e30}, alors MERGE(Lj, Lk) = {e1, e21, e2, e22 … e10, e30}.
VARY transforme un lien en un autre. Le compositeur spécifie un lien initial, une durée et un lien
final. De plus, le compositeur stipule le degré d’un polynôme. Dans le résultat de l’opération VARY,
chaque point du lien initial varie selon le polynôme généré par l’ordinateur et dont le degré a été
spécifié par le compositeur, jusqu’à ce qu’il ait atteint son point final correspondant dans le lien de
destination.
29.3 SSP
SSP est un système de synthèse par segments de formes d’onde conçu par le compositeur germano-
hollandais Gottfried Michael Koenig et implémenté par Paul Berg à l’Institut de Sonologie d’Utrecht
à la fin des années 1970 (Berg, 1978b). Comme dans SAWDUST, SSP est un système interactif pour la
manipulation d’éléments individuels en formes d’onde et en structures compositionnelles de large
échelle.
SSP fut conçu par un compositeur ayant un passé sériel et postsériel. Le système doit donc plus à
la théorie de la composition datant d’après la Seconde Guerre mondiale qu’à la théorie du traite-
ment du signal. En particulier, la bibliothèque d’opérations de SSP provient directement des prin-
cipes de sélection sériels et postsériels, utilisés dans les programmes de composition de Koenig,
Project 1 (Koenig, 1970a) et Project 2 (Koenig, 1970b). Ces opérations agissent comme éléments et
segments. Les éléments dans SSP sont des points de temps et d’amplitude, c’est-à-dire des échan-
tillons. Le système SSP connecte par interpolation linéaire les points d’échantillonnage entre les élé-
ments spécifiés par le compositeur. Les segments sont des formes d’onde construites à partir des
opérations sur les éléments.
En travaillant dans SSP, le compositeur prépare une base de données de points temporels et une
base de données de points d’amplitude. En associant un ensemble de points temporels et de points
d’amplitude, le compositeur peut spécifier des formes d’onde familières telles que la sinusoïde, l’onde
carrée, l’onde en dent-de-scie et l’onde triangulaire, ainsi que des ondes idiosyncrasiques, pouvant
être dérivées de procédures probabilistes. Les principes de sélection SSP créent ou extraient des
parties de la base de données d’éléments et les combinent en segments de formes d’onde. Le compo-
siteur détermine l’ordre temporel des segments en utilisant un autre tour de principes de sélection.
Le tableau 29.1 fait la liste de six principes de sélection dans SSP.
SAWDUST et SSP conviennent bien à la synthèse directe avec un convertisseur numérique-analo-
gique attaché à un petit ordinateur. Le matériau sonore généré par les deux méthodes tend à être
des formes d’onde brutes, ayant un spectre riche, qui ne sont pas tirées d’un modèle de traitement
du signal ou d’un modèle acoustique standard.
Tableau 29.1 – Principes de sélection dans SSP.
Principe
Arguments Explication
de sélection
Alea A, Z, N N valeurs aléatoires choisies entre A et Z.
Series A, Z, N N valeurs aléatoires choisies entre A et Z. Lorsqu’une valeur est

sélectionnée, elle est retirée du domaine des valeurs disponibles.
Le domaine est rempli à nouveau lorsque toutes les valeurs ont
été choisies.
Ratio Factors, A, Z, N N valeurs aléatoires choisies entre A et Z. La probabilité d’occur-

rence des valeurs entre A et Z est spécifiée par une liste de pondé-
rages de probabilité appelée Factors.
Tendency N, M, A1, A2, Z1, Z2… N valeurs aléatoires choisies pour chaque masque de tendance
M. Les N valeurs apparaissent entre les limites initiales A1 et A2
et les limites finales Z1 et Z2.
Sequence Count, Chunks Spécifier directement une séquence d’éléments. Count est le nom-
bre d’éléments spécifiés ; Chunks est une liste de leurs valeurs.
Group A, Z, LA, LZ Une valeur aléatoire entre A et Z est choisie. Ceci est effectué une
ou plusieurs fois, pour former un groupe. La taille du groupe est
choisie aléatoirement entre LA et LZ
29.4 Synthèse par instruction

La synthèse par instruction (également appelée synthèse non standard par G. M. Koenig, voir Roads,
1978a) utilise des séquences d’instructions informatiques (addition binaire, soustraction, AND,
OR, boucle, retard, embranchement) pour générer et manipuler des données binaires. Ces données
sont considérées comme une séquence d’échantillons sonores à envoyer dans un convertisseur
numérique-analogique. Toutes les méthodes de synthèse, bien sûr, utilisent des instructions infor-
matiques au niveau le plus bas du logiciel. La particularité de la synthèse par instruction est que le
son est spécifié exclusivement sous forme d’instructions logiques, plutôt qu’au moyen de concepts
tirés du traitement du signal ou de l’acoustique traditionnelle.
La synthèse par instruction est dans son concept à l’opposé de la synthèse par règles ou de la synthèse
par modèles physiques, présentées au chapitre 26. Les modèles physiques commencent d’une des-
cription mathématique d’un mécanisme acoustique. Ce modèle peut être complexe, nécessitant
une grande quantité de calculs. Au contraire, la synthèse par instruction commence de l’utilisation
idiomatique des instructions informatiques, sans modèle acoustique. La technique est efficace et
peut tourner en temps réel sur des micro-ordinateurs bon marché.
Les sons produits par la synthèse par instruction sont différents de ceux produits par la synthèse
par règles. Dans de nombreux cas, il serait difficile de produire ces sons en utilisant des techniques
de synthèse numérique ou analogique « standards », et encore plus en utilisant des moyens méca-
niques et acoustiques.
La plus grande partie du travail en matière de synthèse par instruction a été effectuée par des associés
de l’Institut de Sonologie, tout d’abord à Utrecht, puis à La Hague. Une catégorie de système de
synthèse par instructions est un assembleur pour une machine virtuelle (Berg, 1975 ; Berg, 1978a,
1979). Un assembleur est un langage de programmation de bas niveau, où chaque déclaration cor-
respond à une instruction matérielle. Une machine virtuelle est un programme qui simule les opé-
rations d’un ordinateur abstrait ayant son propre ensemble d’instructions, ses types de données,
et ainsi de suite. Ces systèmes obligent le compositeur à écrire de longs programmes qui génèrent
les échantillons individuels. Le programme est la spécification pour une composition, et donc il est
également la partition.
Le langage de Paul Berg PILE (Berg, 1978a, 1979) est un exemple canonique de synthèse par ins-
truction. L’origine du langage PILE provient d’une croyance esthétique dans le fait que « les ordi-
nateurs produisent et manipulent les nombres et les autres données symboliques très rapidement.
Ceci peut être considéré comme le dialecte de l’ordinateur » (Berg, 1979). Pour implémenter cette idée,
Berg conçut une machine virtuelle pour les opérations numériques et symboliques, émulée par un
programme écrit pour un petit ordinateur. Le langage PILE est l’ensemble d’instructions de la
machine virtuelle. L’exécution de ces programmes par la machine virtuelle génère des échantillons
et les envoie vers un convertisseur numérique-analogique (CNA).
L’ensemble d’instructions de PILE est constitué d’opérations telles que RANDOM (créer un nombre
aléatoire), INCR (ajouter un à un nombre), SELECT (assigner une valeur aléatoire à une variable)
et CONVERT (envoyer un échantillon au convertisseur numérique-analogique). D’autres opérations
modifient les caches et manipulent le flux de contrôle du programme en effectuant plusieurs opé-
rations aléatoires et en insérant des retards. Bien qu’un léger contrôle de la hauteur, de la durée et
de la sélection du timbre soit possible dans PILE (Berg a réalisé une chanson populaire pour prouver
cela), le programme tend plutôt vers une expérimentation interactive avec le son et vers une improvi-
sation d’essais et d’erreurs successifs. En raison de la présence de variables aléatoires, les résultats
sonores d’un ensemble particulier d’instructions PILE ne peuvent jamais être prévus. Ceci conserve
l’esthétique exploratoire de l’inventeur de ce langage.
Le système de Holtzman (1979) fut une tentative pour contrôler la synthèse par instruction à un
niveau plus élevé. Il développa un générateur de programme qui produisait de petits programmes
pour la synthèse du son. En utilisant une notation de haut niveau, le compositeur pouvait spécifier
l’ordre dans lequel ces programmes étaient exécutés.
C’est dans la nature même de la synthèse par instruction que réside l’impossibilité de prédiction
des qualités acoustiques des sons produits. Sachant cela, le compositeur s’appuyant sur la synthèse
par instruction travaille par essais et erreurs successifs. Puisqu’il est facile de produire rapidement
une grande variété de sons avec ces techniques, de nombreuses possibilités peuvent être essayées
au cours d’une séance de studio. Le compositeur sélectionne ensuite les sons les plus utiles.
Chapitre 30
La synthèse concaténative
Bob L. Sturm
Ce chapitre propose une brève vue d’ensemble de la synthèse concaténative : sa conception et sa

mécanique, ses différentes formes, et sa relation historique avec la synthèse vocale et le micromon-
tage dans la musique électroacoustique. On peut considérer la synthèse concaténative comme une
synthèse par échantillonnage (chapitre 18), une synthèse par tables d’ondes multiples
(chapitre 20), et une synthèse granulaire (chapitre 22), mais pilotée par un moteur d’analyse, de
description et de comparaison du son (Schwarz, 2004, 2006, 2007 ; Sturm, 2006b). Parmi les autres
noms de la synthèse concaténative, nous trouvons le musaïquage audio, de son ou de musique (Zils
et Pachet, 2001), les analogies audio (Basu et coll., 2005), et la transformation pilotée par descrip-
teur (Lindsay et coll., 2003 ; Collins, 2007).
La synthèse concaténative rend possible la synthèse d’interprétations musicales de haute qualité et
même réalistes en incorporant les nuances de musiciens professionnels (Umbert et coll., 2015), une
qualité qui est extrêmement difficile à créer et à conserver avec d’autres approches. En effet, les sys-
tèmes texte-parole de pointe utilisent la synthèse concaténative pour assembler des mots et des
phrases en utilisant des composants (diphones), extraits d’enregistrements de la parole (Taylor,
2009). La synthèse concaténative peut créer des textures sonores réalistes, telles que des foules de
personnes et des averses de pluie (Schwarz, 2011), ou peut chorégraphier des effets sonores, comme
un chant d’oiseau et des expressions vocales de primates (Sturm, 2006b). Il peut générer des varia-
tions de « sons cibles » (Schwarz, 2004, 2006 ; Sturm, 2006a, b), ce qui constitue une forme de syn-
thèse croisée. De plus, on peut utiliser la synthèse concaténative pour naviguer dans des bibliothè-
ques d’enregistrements sonores (Schwarz, 2006, 2007 ; Schwarz et coll., 2006 ; Janer, 2009).
Des implémentations spécifiques de la synthèse concaténative pour la musique sont maintenant
brevetées (Basu et coll., 2010 ; Jehan, 2010) ; et d’autres ont trouvé un succès commercial sous la
forme d’outils pour la réalisation d’interprétation (Lindemann, 2007 ; Bonada et Serra, 2007). Des
logiciels gratuits et libres pour la synthèse concaténative sont également disponibles (Schwarz,
2004, 2006 ; Bernardes, 2014). Il est raisonnable de penser que la synthèse concaténative peut
devenir une méthode encore plus puissante de synthèse de musique puisque les chercheurs font
des progrès constants dans l’analyse, le modelage et la description automatique de contenu dans
les signaux audio (Casey, 2005 ; Casey et coll., 2008).
30.1 Fondamentaux
La figure 30.1 fournit une vue globale de l’algorithme de base de la synthèse concaténative. Son but
est de créer un nouveau son (résultat) qui ressemble d’une certaine façon à un son cible, mais en
utilisant de la matière sonore puisée dans un corpus. Cette approche est celle de Schwarz (2004,
2006) et Sturm (2006a, b). Cet algorithme de base analyse un son cible, puis le segmente en unités.
Une unité est un segment d’audio, par exemple un segment fenêtré de 100 ms ou une note musicale
entière. L’algorithme décrit ensuite chaque unité en utilisant une variété de valeurs quantitatives et
de libellés qualitatifs, nommés descripteurs ou caractéristiques, pouvant être par exemple le bary-
centre spectral ou le nom de la note. Ces derniers décrivent des aspects du contenu de l’unité.
L’algorithme cherche ensuite dans le corpus afin de trouver la « meilleure » unité permettant de
remplacer chaque unité cible. Le corpus est une collection d’enregistrements sonores fournissant
la matière sonore pour la synthèse, par exemple un album de musique en entier. Enfin, il combine
les unités sélectionnées pour synthétiser le résultat.
Figure 30.1 — Un algorithme de base pour la synthèse concaténative.

Il analyse un son cible, et le transforme en un ensemble d’unités décrites de façons spécifiques,
par exemple temps, durée et hauteur. Il compare ces unités dans le corpus, sélectionne les
meilleures, et les synthétise pour créer un résultat.
La cible ne doit pas nécessairement être un son, mais pourrait également être une partition, ou
une autre description comme du MIDI (Schwarz, 2004 ; Simon et coll., 2005 ; Lindemann, 2007 ;
Bonada et Serra, 2007 ; Maestre et coll., 2009), ou même un contrôle interactif (Aucouturier et
Pachet, 2006 ; Collins, 2006 ; Schwarz et coll., 2006 ; Comajuncosas et coll., 2011). Dans ce cas,
l’algorithme analyse la partition ou les gestes, et produit un ensemble de descriptions des unités
cibles pour guider la sélection d’unités dans le corpus.
30.1.1 Segmentation de l’audio en unités

L’approche la plus simple et la plus évidente pour segmenter l’audionumérique en unités est d’uti-
liser une fenêtre coulissante (similaire au fenêtrage d’analyse de Fourier à court terme, voir chapi-
tre 11). Une approche plus complexe est de délimiter les structures significatives dans l’audio
musical, par exemple les changements de timbre, les emplacements des attaques, des notes et des
transitions entre elles, les pulsations, les instruments et les mélodies (Lindsay et coll., 2003 ;
Schwarz, 2004 ; Jehan, 2004 ; Simon et coll., 2005 ; Aucouturier et Pachet, 2006 ; Lindemann,
2007 ; Maestre et coll., 2009 ; Janer, 2009). Cette approche requiert de bonnes connaissances en
acoustique, en perception et en musique afin de fournir des segmentations significatives. Cette
tâche peut être effectuée à la main (Holm-Hudson, 1997 ; Oswald, 2001 ; Simon et coll., 2005 ; Lin-
demann, 2007), mais le travail que cela implique exclut d’utiliser de grands ensembles de données.
Les méthodes de segmentation automatisées sont évolutives, mais leur succès dépend largement
de la nature de l’audionumérique. Par exemple, il est difficile pour un algorithme de trouver et
d’extraire de manière fiable des unités de notes seules à partir de mélanges, sans aucune informa-
tion supplémentaire pour guider le processus (Schwarz, 2004 ; Ewert et coll., 2014). Pour des
signaux vocaux propres, les approches de segmentation actuelles sont assez efficaces pour distin-
guer la parole et le silence, ainsi que des phonèmes particuliers (Rabiner et Schafer, 2011), mais
dans le cas de l’audio et de la musique en général, ce domaine reste le sujet de recherches incessan-
tes (SMC, 2012 ; Serra, 2013).
30.1.2 Description d’unités

Un algorithme de synthèse concaténative sélectionne une unité dans le corpus en se basant sur une
comparaison de sa description quantitative et qualitative en fonction de l’unité cible. Une grande
variété de descripteurs existe à trois différents niveaux : bas, médian et haut. Nous nommons un
descripteur de bas niveau s’il décrit une information quantitative spécifique sans l’imposition d’un
quelconque modèle acoustique ou musical, semblable à des statistiques descriptives telles que
moyenne et variance. Nous nommons un descripteur de niveau médian lorsqu’il implique un type de
modèle, par exemple une fréquence fondamentale dans un modèle harmonique, ou voisé/dévoisé
dans un modèle par autorégression. Enfin, nous nommons un descripteur de haut niveau lorsqu’il
existe à un niveau sémantique, par exemple une note, une durée, une dynamique, un instrument,
etc. Contrairement aux descripteurs de bas niveau et de niveau médian, les descripteurs de haut
niveau sont ceux que l’on utilise en général pour parler de la musique. Schwarz (2004, 2007) four-
nit une grande liste de descripteurs dédiés spécifiquement à la synthèse concaténative. Nous décri-
vons maintenant des descripteurs spécifiques de chacun de ces trois niveaux.
✦ Descripteurs de bas niveau
Un exemple d’un descripteur de bas niveau d’une unité est son énergie moyenne, qui est la somme
des valeurs d’échantillonnage au carré de l’unité divisé par le nombre d’échantillons. Un autre des-
cripteur de bas niveau est le taux de passages par zéro, qui n’est rien d’autre que le nombre d’échan-
tillons consécutifs dans une unité ayant des signes différents, divisé par sa durée. Nous pouvons
également créer des descripteurs de bas niveau à partir d’une transformée de Fourier d’une unité
(chapitre 11). Par exemple, le barycentre spectral d’une unité est la fréquence en dessous de
laquelle la moitié de son énergie existe. Nous pouvons diviser son spectre en quantiles spectraux
plus fins, par exemple la fréquence en dessous de laquelle se trouvent 10 %, 25 %… de sa puis-
sance. Par exemple, le point de pente spectrale d’une unité est la fréquence au-dessus de laquelle
existe 15 % de son énergie. De nombreux autres descripteurs de bas niveau sont spécifiés dans les
normes MPEG-7 (Manjunath et coll., 2002 ; Lindsay et coll., 2003).
✦ Descripteurs de niveau médian
Un descripteur de niveau médian est l’harmonicité, qui est une mesure de la force des relations par
nombres entiers entre les pics dans le spectre de magnitude d’une unité. Si une unité possède un
fort contenu harmonique, un autre descripteur de niveau médian est sa fréquence fondamentale.
Une unité pourrait également contenir plusieurs fréquences fondamentales. On peut également
utiliser un modèle perceptuel sur une unité pour mesurer ses propriétés de masquage de fré-
quence (Bosi et Goldberg, 2003). Parmi d’autres descripteurs de niveau médian, on trouve la forme
spectrale et l’emplacement des formants, provenant du modelage autorégressif des échantillons
dans l’unité.
✦ Descripteurs de haut niveau
Les descripteurs de haut niveau sont sémantiquement significatifs, car ils décrivent ce que nous
entendons, par exemple les hauteurs et les harmonies, les pulsations et les intonations, les instru-
ments, la sonie, etc. En raison des échelles temporelles des événements musicaux (Roads, 2002),
les descripteurs de haut niveau n’ont souvent de sens que s’ils sont appliqués à des unités de durée
substantielle. Par exemple, il existe une durée minimale qui est nécessaire pour que nous puissions
percevoir un son avec une hauteur basse. De même, nous ne pouvons dire d’une unité qu’elle a un
tempo lent si elle ne contient pas plus d’une pulsation.
La description de haut niveau automatique de l’audionumérique constitue actuellement un sujet
d’étude répandu, car elle s’appuie fortement sur la compréhension et le modelage de la perception
humaine du son et de la musique (SMC, 2012 ; Serra, 2013). Certains descripteurs de haut niveau
peuvent provenir de manière fiable de l’analyse de descripteurs de niveau médian. Les techniques
pour estimer des hauteurs simples sont relativement au point (chapitre 9) et celles pour estimer
des hauteurs multiples sont bien répandues (Christensen et Jakobsson, 2009). La détection de
tempo et la reconnaissance de rythme sont également en phase d’affinage (chapitre 10). Cepen-
dant, parmi les problèmes qu’il reste encore à résoudre de façon adéquate, on trouve l’identifica-
tion d’instrument dans des textures polyphoniques, la séparation de sources à partir de mélanges,
et la reconnaissance de genre et d’émotion (SMC, 2012 ; Serra, 2013 ; Sturm, 2014).
30.1.3 Sélection et séquençage d’unités
La méthode de base qu’utilise un algorithme de synthèse concaténative pour sélectionner une
unité de son dans le corpus est de trouver celle ayant les descripteurs les plus proches de ceux de la
cible. Par exemple, si la cible spécifie que l’unité sélectionnée devrait présenter la note Do4 jouée
par un hautbois, ou qu’une unité devrait avoir un barycentre spectral de 1 500 Hz, l’algorithme
cherchera dans le corpus une unité ayant une telle description. Si une telle unité n’existe pas, l’algo-
rithme peut trouver la meilleure unité suivante, peut-être la note Do4 jouée par un cor anglais, ou
une unité avec un barycentre spectral de 1 490 Hz. La figure 30.2 montre un exemple utilisant deux
descripteurs de bas niveau.
L’algorithme de synthèse concaténative peut également transformer une unité pour qu’elle corres-
ponde mieux à l’unité cible ou à ses unités sélectionnées auparavant (Schwarz, 2006 ; Sturm,
2006b; Coleman et coll., 2010). Ceci peut par exemple être effectué en utilisant du modelage
d’enveloppe, de l’étirement temporel ou du déplacement de hauteur (chapitre 6). Pour améliorer la
capacité à se transformer d’une unité, on peut la décomposer en sinusoïdes, transitoires et bruit
(chapitre 19) (Lindemann, 2007 ; Bonada et Serra, 2007).
Figure 30.2 — Chaque unité de corpus (points) et l’unité cible (x)

construit par Diemo Schwarz dans MAX/MSP (catart.lcd5).
sont décrites par les descripteurs de bas niveau énergie moyenne quadratique (RMS) et barycentre
spectral. L’algorithme définit la « meilleure » unité de corpus comme celle étant la plus proche de
l’unité cible à l’intérieur du rectangle démarqué par ΔBS et ΔRMS et centré sur l’unité cible. Dans
ce cas, la meilleure unité de corpus est celle libellée B.
Parce qu’associées elles peuvent faciliter la continuité entre les unités sélectionnées, une bonne
sélection et une bonne transformation d’unité sont cruciales pour synthétiser des performances
réalistes et de haute qualité (Simon et coll., 2005 ; Lindemann, 2007 ; Bonada et Serra, 2007 ;
Maestre et coll., 2009). La synthèse texte-parole de haute qualité adopte en fait la même approche
(Taylor, 2009). De tels algorithmes sélectionnent ensemble les unités afin qu’elles ne nécessitent
qu’une petite quantité de transformation.
Avec la description d’unités audio de niveau médian à haut, l’algorithme de synthèse concaténative
passe du travail avec des échantillons de signaux de pression acoustique au travail avec du contenu
(Amatriain et coll., 2003 ; Jehan, 2004), des objets (Schaeffer, 1966 ; Janer, 2009), ou des lexèmes
(Casey, 2005). Ceci permet à l’algorithme de comparer et de jauger la similitude et la compatibilité
d’unités à de multiples niveaux, ou spécificités. Lorsque l’algorithme effectue des comparaisons
entre les descripteurs de bas niveau, il travaille à une spécificité haute. Cela signifie que les descrip-
teurs sont assez spécifiques aux échantillons numériques d’une unité, et pas nécessairement à son
contenu. Par exemple, la différence entre les taux de passage à zéro de deux unités peut être extrê-
mement grande, mais cela peut ne pas se traduire en une différence perceptuelle aussi grande
entre les unités. En comparant les descripteurs de niveau médian, c’est-à-dire en comparant les
modèles des unités, ou en comparant les descripteurs de haut niveau, par exemple les notes, un
algorithme travaille à une spécificité basse. La similitude d’audio et de musique à toutes les spécifi-
cités fait encore le sujet de recherches actives (SMC, 2012 ; Serra, 2013).
30.2 Deux approches générales

L’approche basique de la synthèse concaténative sélectionne et séquence des unités audio sans
tenir compte de leur contexte originel ou actuel. Ceci crée le besoin d’une analogie avec une mosaï-
que musicale (Zils et Pachet, 2001), et a été appliqué à la composition par micromontage (Sturm,
2006b ; Schwarz et coll., 2008 ; Bernardes, 2014), à la synthèse concaténative audiovisuelle
(Collins, 2007) et à la navigation dans des bibliothèques de sons (Schwarz, 2006, 2007 ; Schwarz et
coll., 2006 ; Janer, 2009). Nous pouvons améliorer cette approche de nombreuses façons, par exem-
ple en utilisant différentes durées d’unité pour l’analyse et la synthèse, en incorporant de l’aléa-
toire, ou en spécifiant des règles si la recherche ne trouve aucune correspondance convenable
(Sturm, 2006b). La figure 30.3 montre un exemple d’application de synthèse concaténative du son.
Figure 30.3 — Copie d’écran du système CataRT,

construit par Diemo Schwarz dans MAX/MSP (catart.lcd5).
Sur le côté gauche se trouvent les paramètres pour modifier l’affichage montré dans la zone de
droite. Chaque point de l’affichage est une unité de son dans le corpus. L’axe des X décrit le bary-
centre spectral d’une unité, l’axe des Y décrit sa périodicité, et la couleur d’un point décrit son
volume. Ici, l’utilisateur a sélectionné un ensemble d’unités du corpus en dessinant une ellipse. Le
système joue aléatoirement les unités sélectionnées. Le pointeur de la souris peut également être
utilisé pour explorer les unités dans cet espace.
Une approche prenant en compte le contexte de la synthèse concaténative sélectionne, trans-

forme et séquence les unités selon des manières qui sont sensibles au contexte (Aucouturier et
Pachet, 2006 ; Schwarz, 2004 ; Basu et coll., 2005 ; Lindemann, 2007 ; Bonada et Serra, 2007 ;
Maestre et coll., 2009). Considérer le contexte crée un problème complexe qui implique de penser
à plusieurs unités en même temps, mais celui-ci peut être rapidement résolu avec des méthodes
de suivi (Zils et Pachet, 2001 ; Schwarz, 2004, 2007 ; Aucouturier et Pachet, 2006 ; Lindemann,
2007 ; Bonada et Serra, 2007 ; Maestre et coll., 2009 ; Rabiner et Schafer, 2011). La transforma-
tion d’unités peut également faciliter de telles contraintes, comme ce qui se fait dans la synthèse
texte-parole (Taylor, 2009).
30.3 Perspectives historiques

Les méthodes de pointe pour la synthèse texte-parole réaliste sont en fait basées sur la synthèse
concaténative (Taylor, 2009). Dans ce cas, le texte sert de partition dirigeant l’algorithme pour
sélectionner et regrouper des unités puisées dans un large corpus d’unités vocales libellées, par
exemple consonnes, voyelles, diphtongues, phonèmes, et même mots entiers. Le succès de la
synthèse concaténative par rapport aux modèles physiques vocaux montre son efficacité pour la
synthèse réaliste de la parole. La synthèse de la voix chantée réaliste est également possible avec
la même approche et constitue actuellement un produit très populaire au Japon (Bonada et
Serra, 2007).
Dans le domaine de la musique électroacoustique, nous pouvons relier la synthèse concaténative
au travail effectué dans la composition par micromontage (Schwarz, 2006 ; Sturm, 2006b). Le tra-
vail de Pierre Schaeffer (1966) sur la description du son est très proche de la description de niveaux
médian et haut des unités de son (Casey, 2005 ; Janer et coll., 2009). La partition de la composition
de John Cage de 1952, William’s Mix (Kostelanetz, 1970), spécifie la sélection, la segmentation et le
séquençage de morceaux (unités) de bande magnétique audio qui ont été classés en cinq classes de
son différentes. On trouve des applications similaires de collage de bande dans les œuvres Analo-
gique B (1959) et Concret PH (1958) de Iannis Xenakis. Un exemple moderne de micromontage est
celui du compositeur canadien John Oswald, qui segmente manuellement des douzaines d’heures
de musique numérique, décrit et catalogue les unités, puis compose des œuvres en les arrangeant
avec une station de travail audionumérique (Holm-Hudson, 1997 ; Oswald, 2001). Il existe de
nombreux autres exemples de la synthèse concaténative appliquée à la composition musicale
(Schwarz, 2006 ; Sturm, 2006b ; Collins, 2007 ; Schwarz et coll., 2008).
Sous un certain angle, nous pouvons considérer la synthèse concaténative comme étant un type de
synthèse granulaire (chapitre 22), mais contrôlé par des descripteurs. Nous pouvons également la
considérer comme une méthode basée sur un dictionnaire (chapitre 12), dans laquelle le corpus
agit comme un dictionnaire d’atomes, et la resynthèse résultante comme une approximation de la
partition.
30.4 Conclusion
Composer quatre minutes de la pièce William’s Mix de John Cage a nécessité que six personnes tra-
vaillent pendant neuf mois pour couper et coller de la bande magnétique (Kostelanetz, 1970). La
synthèse concaténative cherche à faciliter automatiquement de telles pratiques avec une quantité
illimitée de matériau musical enregistré. Elle peut transformer de grandes bases de données
d’audio enregistré numériquement en moteurs de synthèse de musique, tout en préservant les
nuances de musiciens réels. Grâce aux améliorations de la segmentation et de la description auto-
matique du contenu de l’audio, les données avec lesquelles la synthèse concaténative travaille peu-
vent atteindre des tailles qui empêchent tout travail fait à la main.
Chapitre 31
La synthèse graphique
La synthèse sonore graphique caractérise des démarches ayant pour origine une approche visuelle
de la spécification du son. Ces systèmes traduisent les images en son. Ce chapitre examine l’histoire
de cette approche, puis s’attache à l’étude de récents travaux basés sur ce principe.
31.1 Graphiques dans la synthèse sonore : origines

La Musique Libre nécessite une interprétation non humaine. Comme la plupart des vraies musiques,
c’est une production émotionnelle, et non cérébrale, et elle devrait passer directement de l’imagination
du compositeur à l’oreille de l’auditeur, grâce à des machines musicales contrôlées de façon délicate.
(Percy Grainger, 1938, cité dans Bird, 1982)
Les techniques graphiques pour la génération de son ont un passé illustre. En 1925, R. Michel déposa
un brevet pour un procédé de notation photographique des sons musicaux, similaire à la technique
utilisée pour la fabrication de bandes-son optiques sur film (Rhea, 1972). Quatre ans plus tard,
A. Schmalz développa un instrument de musique électronique ayant des générateurs de son photo-
électriques. En plaçant un nouveau phonogramme dans l’instrument (l’image d’une forme d’onde
gravée sur du verre), le timbre joué par le générateur de son changeait.
Ces premières expériences furent suivies d’instruments commerciaux basés sur des générateurs
de son photoélectriques rotatifs, tels que le Cellulophone, le Superpiano, le Welte Organ, le Syntronic
Organ, et le Photona. Les deux derniers furent développés par Ivan Eremeef, travaillant à la station
de radio WCAU à Philadelphie. Un consultant et défenseur des expériences de Eremeef fut le célèbre chef
d’orchestre Leopold Stokowski (qui créa également nombre d’œuvres de Varèse dans les années 1920).
Ceci représente l’une des rares collaborations entre ingénieurs et musiciens avant les années 1950.
Voir également Clark (1959) pour la description d’un instrument photoélectrique.
L’utilisation la plus imaginative et la plus élaborée des techniques optiques est sans doute celle du
réalisateur canadien Norman McLaren. Au prix d’efforts incroyables, celui-ci réalisait des films
dans lesquels il dessinait les formes d’onde sonore directement sur la piste son optique dentelée,
image après image (McLaren et Lewis, 1948).
Les techniques optiques ont également été utilisées pour contrôler la synthèse analogique. Dans le
système graphique Oramics, développé par Daphne Oram au Royaume-Uni (Douglas, 1973), le
compositeur dessinait des fonctions de contrôle sur un film transparent pour piloter un synthétiseur
analogique. Ces fonctions de contrôle déterminaient la hauteur, le vibrato, le trémolo, la qualité du
filtrage, et le niveau d’amplitude de plusieurs voix. Le film dentelé passait devant une tête de lecture
optique ; la tête transformait l’image en tension de contrôle électronique qui alimentait différents
modules d’un synthétiseur.
Un autre groupe d’instruments pouvaient lire la notation graphique. La sonothèque de L. Lavallée
lisait la musique codée graphiquement en utilisant une encre conductrice captée par une série de
brosses chargées électriquement (Rhea, 1972). La Free Music Machine de Cross-Grainger (première
version en 1944) lisait une notation graphique inscrite sur du papier (Bird, 1982), et synthétisait
un son avec huit oscillateurs à lampes.
Le Coded Music Apparatus (1952) de Hugh Le Caine permettait aux compositeurs de contrôler la
génération sonore grâce à cinq courbes continues : pour la hauteur, l’amplitude et pour trois contrôles
de timbre (Young, 1989). Son Oscillator Bank analogique (1959) était pilotée par un dispositif optique
pour lire une partition ressemblant à un sonagramme (Young, 1989). Voir le chapitre 11 pour une
explication des sonagrammes. Le Composer-Tron, développé par O. Kendall à la fin des années 1950,
lisait des enveloppes tracées à la main sur la surface d’un tube cathodique à rayons (un écran). Il uti-
lisait ensuite ces enveloppes pour contrôler un équipement de synthèse analogique.
Le contrôle graphique du son numérique commença avec les expériences de Mathews et Rosler
(1969). Plusieurs systèmes de synthèse orientés graphique ont été implémentés sur des ordinateurs
personnels ces dernières années (voir Oppenheim, 1987, par exemple). Le système UPIC, décrit ci-
dessous, est le plus élaboré.
31.2 Interaction avec l’UPIC

L’UPIC (Unité Polyagogique Informatique du CEMAMu) est un système de synthèse conçu par
Iannis Xenakis et mis au point par les chercheurs du Centre d’Études de Mathématique et Automa-
tique Musicales (CEMAMu) à Paris (Xenakis, 1992). Le système UPIC combine différentes méthodes
de synthèse et une interface graphique flexible pour créer une approche unique de la composition
sonore.
31.2.1 La première UPIC

Une version initiale du système UPIC date de 1977. Dans cette implémentation, l’interaction se faisait
par une grande tablette graphique haute résolution, montée verticalement comme le chevalet d’un
peintre (Lohner, 1986). Nous décrirons quelques-unes des fonctions de ce système, car beaucoup
d’entre elles sont présentes dans les versions ultérieures de l’UPIC.
Au niveau de la création d’une microstructure sonore, les formes d’onde et les enveloppes d’événe-
ments pouvaient être dessinées sur la tablette et montrées sur un terminal graphique. Les compo-
siteurs pouvaient également entrer un ensemble de points devant être reliés par l’ordinateur grâce
à l’interpolation. Lorsque la forme d’onde et l’enveloppe étaient définies, le résultat pouvait être
écouté.
À un niveau supérieur d’organisation, les compositeurs pouvaient dessiner une structure fréquence
/temps dans une page de partition. Lorsque le compositeur déplaçait un outil de pointage, des lignes
— appelées arcs dans la terminologie UPIC — apparaissaient sur l’écran. Les arcs individuels pou-
Figure 31.1 – Une page de Mycenae-Alpha de Iannis Xenakis (1980),

créée sur système UPIC. L’axe vertical est la fréquence, et l’axe horizontal le temps.
vaient être déplacés, allongés ou rétrécis, coupés, copiés, ou collés. La figure 31.1 est un exemple
de Mycenae-Alpha de Iannis Xenakis (1980), créé sur le système UPIC.
Les musiciens avaient également la possibilité d’enregistrer, d’éditer, et de noter des sons échantillon-
nés. Les signaux échantillonnés pouvaient être utilisés comme formes d’onde ou comme enveloppes.
Lorsque les échantillons étaient utilisés comme enveloppes, des effets de modulation d’amplitude
importants apparaissaient. Les partitions graphiques pouvaient être orchestrées avec une combi-
naison de sons synthétiques et échantillonnés, si désiré.
Comme le montre la figure 31.2, l’interaction gestuelle et graphique permet au compositeur de créer
facilement des structures de notation qui seraient incommodes à spécifier par d’autres moyens. Au
niveau d’une page, l’UPIC capture simultanément des détails microstructurels et des évolutions
macrostructurelles.
31.2.2 UPIC en temps réel
La première version du système UPIC tournait sur un mini-ordinateur lent et volumineux. Bien que
la conception des graphiques était un processus interactif, le calcul des échantillons sonores à partir
de la partition graphique du compositeur impliquait un temps d’attente. Une évolution majeure
de l’UPIC fut le développement d’une version en temps réel, basée sur un moteur de synthèse à
64 oscillateurs (Raczinski et Marino, 1988). En 1991, ce moteur fut couplé à un ordinateur personnel
tournant sous système Windows, permettant une interface graphique sophistiquée (Marino,
Raczinski et Serra, 1990 ; Raczinski, Marino et Serra, 1991 ; Marino, Serra et Raczinski, 1992 ;
Pape, 1992).
La figure 31.3 est une page créée avec l’UPIC en temps réel. Une page peut contenir 64 arcs simul-
tanés, et 4 000 arcs par page. La durée de chaque page peut être de 6 ms à plus de 2 heures. Les opé-
Figure 31.2 – Une page de Message de Curtis Roads (1987).

Chaque arc représente la courbe de hauteur d’un son de saxophone alto.
Figure 31.3 – Page d’une partition de 1992 de Gérard Pape, réalisée sur système UPIC
en temps réel aux Ateliers UPIC, Paris. Les icônes de la partie inférieure de l’écran représentent un
ensemble de travail comportant des formes d’onde et des enveloppes.
rations d’édition telles que couper, copier, et coller réarrangent les arcs, qui peuvent également être
allongés ou compressés en temps et en fréquence. Ces opérations peuvent survenir lorsqu’une page
est jouée. Quatre échelles musicales différentes peuvent être assignées à la même page. Lorsqu’ils
sont joués avec une échelle discrète, les arcs suivent la progression de fréquences définie dans une
table d’accordage.
La synthèse en temps réel transforme l’UPIC en instrument d’interprétation. Normalement, les unités
de synthèse interprètent la partition de gauche à droite, se déplaçant à un taux constant défini par
la durée de la page établie par l’utilisateur. Quoi qu’il en soit, le taux et la direction de lecture de
partition peuvent également être contrôlés en temps réel par la souris. Ceci permet par exemple des
sauts discontinus d’une partie de la partition à une autre. La séquence de déplacement de contrôle
peut être enregistrée par le système lors de l’interprétation d’une partition. Cette interprétation
peut plus tard être rejouée ou éditée.
31.3 Synthèse graphique avec le MIDI

Après l’exemple de l’UPIC, un certain nombre d’environnements de composition graphique avec
sortie MIDI sont apparus (Yavelow, 1992). Certains possèdent des outils élaborés, comme le mode
« harmoniques multiples » où une ligne tracée par une souris engendre une série de lignes espacées
par des intervalles harmoniques (Lesbros, 1993).
L’un des problèmes de cette approche est l’envoi d’une grande quantité de données de contrôle gra-
phique dans les limites du protocole MIDI. Une image telle que celle de la figure 31.4 peut contenir
plus d’une centaine d’événements simultanés. Peu de synthétiseurs MIDI acceptent ce volume de
données, et il faut donc passer un temps considérable à configurer un environnement MIDI capable
de le traiter.
31.4 Évaluation de la synthèse sonore graphique

La synthèse sonore graphique est une approche directe et intuitive de la sculpture du son. Au niveau
des événements inscrits dans un plan temps-fréquence, l’interaction avec la synthèse graphique
peut être soit précise soit imprécise, selon la façon dont l’utilisateur traite le processus. Un compo-
siteur prévoyant chaque ligne et sa correspondance sonore pourra obtenir des résultats exacts. Le
compositeur improvisant sur l’écran traitera le support comme un cahier de brouillon, où les dessins
initiaux seront retravaillés pour donner un tracé achevé.

Le contrôle graphique de la hauteur est naturel pour de nombreux compositeurs, ce qui rend aisé la
création de formes et de phrases mélodiques qui seraient difficiles à obtenir par d’autres moyens :
phrases microtonales ayant des glissandos multiples, ou effets de portamento ou de vibrato détaillés
en filigrane.
La conception graphique des formes d’enveloppe s’est montrée efficace dans de nombreux systèmes.
Mais le problème avec les formes d’onde dessinées à la main reste qu’il est difficile de prévoir à la
vue de la forme d’onde comment celle-ci va sonner. Le chapitre 1 traite de ce problème. En dehors
de sa forme, n’importe quelle forme d’onde répétée sans variation devient statique. Ainsi, dans les
systèmes de synthèse graphique, comme dans d’autres systèmes, la génération de forme d’onde est
passée des formes d’onde individuelles fixes aux sources en évolution telles que des sons échantil-
lonnés ou des groupes de formes d’onde variant dans le temps.
Le système UPIC est un outil musical spécialement flexible puisqu’il intègre de nombreux niveaux
de composition à l’intérieur d’une interface utilisateur commune. Les fonctions graphiques créées
Figure 31.4 – Page de la partition Poly5 créée par Vincent Lesbros

en utilisant son programme Phonogramme développé en 1993. Dans ce mode, l’utilisateur trace une
seule ligne, et les harmoniques apparaissent automatiquement au-dessus d’elle.
sur l’écran peuvent être traitées indifféremment comme enveloppes, comme formes d’onde, comme
partitions hauteur-temps, comme courbes de tempo, ou comme trajectoires d’interprétation. Dans ce
traitement uniforme des données de composition se trouve une généralité qui devrait être étendue à
un plus grand nombre de systèmes de musique informatique.
Chapitre 32
La synthèse
stochastique et chaotique
32.1 Modulation de bruit

Je pense que l’utilisation du bruit pour faire de la musique continuera, et augmentera jusqu’à ce que
l’on atteigne une musique produite par des instruments électriques… Là où, dans le passé, le point de
désaccord était entre la consonance et la dissonance, il sera, dans le futur immédiat, entre le bruit et
les soi-disant sons musicaux. (John Cage, 1937)
Cette partie explore les méthodes pour générer des sons bruiteux. L’idée première est d’utiliser du
bruit filtré pour moduler d’autres formes d’onde telles que des sinusoïdes. Cette catégorie de tech-
niques inclut de la modulation d’amplitude pilotée par du bruit, de la modulation de fréquence et
de la distorsion non linéaire.
32.1.1 Présentation du bruit

Pour implémenter la modulation de bruit, nous avons besoin d’une source de bruit numérique.
Elle prend la forme d’une série d’échantillons de valeurs aléatoires. Mais définir un algorithme pour
générer des nombres aléatoires est très difficile mathématiquement (Chaiten, 1975). N’importe
quelle méthode informatique pour la génération de nombres aléatoires repose finalement sur un pro-
cessus fini et déterministe. Ainsi, nous faisons référence à un algorithme de génération de nombres
« aléatoires » sous le nom de générateur de nombre pseudo aléatoire, puisque la séquence générée
par un tel algorithme se répète au bout de plusieurs milliers ou plusieurs millions de sorties. Les
environnements de langages de programmation offrent des générateurs de nombre pseudo aléatoire
ayant différentes caractéristiques, telles que le domaine fréquentiel et la longueur de la séquence.
Nous ne détaillerons pas la création d’un tel algorithme ici. Knuth (1973a) et Rabiner et Gold (1975)
contiennent des algorithmes.
Le bruit pseudo aléatoire, défini par des critères statistiques, n’est qu’une famille dans l’ensemble des
textures bruiteuses. De nombreuses techniques de synthèse peuvent également générer des bruits
chaotiques intéressants, dont les modulations sinusoïdales (chapitre 25) et la synthèse granulaire
(chapitre 22).
En fait, le terme « bruit » sert de substitut linguistique à une description plus précise d’un signal
compliqué et mal compris, tel que les parties inharmoniques et chaotiques des sons de vents et de
cordes, ou les transitoires d’attaque des instruments à percussion. Le processus qui crée ces courbes
de pression d’air est constitué de turbulences compliquées que la science commence tout juste à
comprendre — celles-ci n’ayant pas nécessairement un comportement « aléatoire » (quel que soit
le sens que l’on donne à ce terme).
Aujourd’hui, l’un des défis principaux de l’acoustique musicale est de créer des modèles algorith-
miques plus sophistiqués du bruit. Les critères statistiques globaux qui définissent une séquence
numérique pseudo aléatoire, par exemple, ne sont pas complètement adaptés à la description de
nombreux sons bruiteux. Comme les premières boîtes à rythmes l’ont montré, le bruit blanc est un
pauvre substitut de la cymbale crash. Le paradigme de chaos non linéaire — algorithmes détermi-
nistes générant un comportement complexe — a remplacé les modèles stochastiques de certains
phénomènes observés par les scientifiques (Gleick, 1988).
32.1.2 MA et MF modulées par du bruit

Le compositeur disposant de modulation aléatoire… découvrira que ce type de modulation conduit
directement à un monde de phénomènes décrits auparavant comme des « bruits ». (Werner Meyer-
Eppler, 1955)
(a)
(b)
Figure 32.1 – Formes d’onde générées par modulation de bruit.

(a) Sinusoïde modulée en amplitude à 50 pour cent par du bruit filtré en passe-bas. (b) Sinusoïde
modulée en fréquence à 50 pour cent par du bruit filtré en passe-bas. Remarquez que la largeur de
chaque période de hauteur varie légèrement.
Les techniques de modulation de bruit utilisent un générateur de signal pseudo aléatoire ou géné-
rateur de bruit pour contrôler la fréquence ou l’amplitude d’un oscillateur. Voir le chapitre 25 pour
une description de la MA et de la MF. Comme le montre la figure 32.1, lorsque le bruit est filtré pour
ne laisser passer que des fréquences du domaine infrasonore (en dessous de 20 Hz), l’effet est une
sorte de trémolo (dans la MA) ou de vibrato (dans la MF) aléatoire.
Lorsque le bruit a une largeur de bande plus grande, le résultat de la modulation est un type de
bruit coloré, c’est-à-dire une bande bruiteuse centrée autour de la fréquence porteuse de l’oscillateur.
La figure 32.2 montre les diagrammes de patch pour les instruments de MA et de MF modulés par
du bruit. Dans les deux cas, il est recommandé d’utiliser une source bruiteuse filtrée en passe-bas
pour que l’élément aléatoire introduit par le bruit soit lui-même proche de la fréquence porteuse.
Si le bruit n’est pas filtré, l’effet peut sonner comme un composant bruiteux de haute fréquence
simplement ajouté à la porteuse.
Figure 32.2 – Diagrammes en patchs d’instruments de modulation de bruit.

(a) MA modulée par du bruit. La sortie du générateur de bruit est filtrée et échelonnée par un para-
mètre de profondeur de modulation. Puis elle est ajoutée à une constante d’amplitude pour former la
valeur d’amplitude composite injectée dans l’oscillateur. (b) MF modulée par du bruit. La sortie du
générateur de bruit est filtrée et échelonnée par un paramètre de profondeur de modulation, qui
spécifie la largeur de bande située de chaque côté de la fréquence porteuse.
32.1.3 Distorsion non linéaire avec fonction de distorsion aléatoire

La distorsion non linéaire, expliquée au chapitre 25, rend possible un autre type de modulation de
bruit. Dans la distorsion non linéaire, l’amplitude instantanée d’un signal est transformée par une
fonction de transfert. Une fonction de transfert aléatoire crée une distorsion du signal périodique,
ce qui crée un son de plus large bande. La figure 32.3 montre quatre fonctions de transfert progres-
(a) (b)
(c) (d)
Figure 32.3 – Quatre fonctions de transfert progressivement aléatoires.

Les fonctions de transfert relient les valeurs d’entrée (venant du bas) à des valeurs de sortie (sortant
par la droite). Voir le chapitre 25 pour une explication de la distorsion non linéaire.
(a) (b)
(c) (d)
Figure 32.4 – Sinusoïde soumise aux quatre fonctions de transfert de la figure 32.3.
sivement bruiteuses, tandis que la figure 32.4 montre les effets de ces fonctions sur une sinusoïde
passée à travers la table de distorsion.
Une utilisation plus subtile de l’aléatoire dans la distorsion non linéaire emploie une fonction de
distorsion lisse aux amplitudes basses et introduit progressivement de l’aléatoire dans les amplitudes
plus fortes. Une autre possibilité est de lier la quantité d’aléatoire dans la fonction de distorsion à
la durée du son ou à un autre paramètre de l’événement.
32.2 Synthèse stochastique de forme d’onde

Les sons musicaux sont trop limités en ce qui concerne les variétés de timbres. Les orchestres les plus
complexes peuvent être réduits à quatre ou cinq classes d’instruments ayant des timbres différents : les
instruments à archet, les cuivres, les bois et les percussions. La musique moderne patauge dans ce cercle
étriqué, s’efforçant vainement de créer de nouvelles variétés de timbres. Nous devons nous échapper de
ce cercle limité de sons et devons conquérir la variété infinie des sons bruiteux ! (Luigi Russolo, 1916)
La synthèse stochastique de forme d’onde génère des échantillons sonores en comparant la valeur
d’un nombre pseudo aléatoire avec une distribution de probabilité. Une distribution de probabilité
est une courbe (stockée dans une partie de la mémoire de l’ordinateur) qui indique la probabilité
numérique d’une étendue de sorties possibles. Dans le cas de la synthèse de forme d’onde, les
« sorties » sont les valeurs d’amplitude des échantillons.
Puisque les algorithmes pour la génération de formes d’onde doivent produire des dizaines de mil-
liers de valeurs d’échantillons pour chaque seconde de son, des améliorations dans le traitement
devraient permettre d’économiser de grandes quantités de temps de calcul. Par exemple, il est
possible de charger une grande table avec des valeurs pseudo aléatoires, plutôt que de mettre en
marche une routine de génération de nombre pseudo aléatoire pour chaque échantillon. Dans ce cas,
une lecture de la table suffit pour obtenir ce nombre pseudo aléatoire.
L’invention d’une distribution de probabilité appropriée pour une application particulière de compo-
sition est réellement de l’art. De nombreux textes sur la théorie de la probabilité sont disponibles ;
voir par exemple Drake (1967). Un excellent article de référence ayant des exemples musicaux et des
codes de programme est celui de Lorrain (1980) ; une version révisée et corrigée de cet article est
disponible dans une anthologie largement distribuée (Roads, 1989). D’autres références intéressantes
sur les techniques stochastiques dans la composition incluent Xenakis (1992), Jones (1981) et Ames
(1987a, 1989a). Des expériences proches de générations de formes d’onde fractales ont été rapportées
dans Waschka et Kurepa (1989).

La génération de formes d’onde par simple lecture de table de probabilité sans contraintes supplé-
mentaires génère un bruit de spectre fixe. Il est donc important d’imposer des contraintes — des
règles additionnelles qui varient les probabilités afin de produire des sons intéressants et variants
dans le temps. Ceci est le but de la synthèse dynamique stochastique, expliquée maintenant.
32.2.1 Synthèse dynamique stochastique

Dans Formalized Music, le compositeur Iannis Xenakis (1992) propose une alternative aux méthodes
usuelles de synthèse sonore. Plutôt que de commencer par de simples fonctions périodiques et de
tenter de les animer en injectant du « désordre » (c’est-à-dire différentes distorsions ou modulations),
pourquoi ne pas commencer par des fonctions pseudo aléatoires et les domestiquer en ajoutant de
l’ordre (pondérations, contraintes et barrières) ? Cette proposition prend la forme de huit stratégies
pour l’exploration d’une approche dynamique stochastique de la synthèse de formes d’onde, listées
dans le tableau 32.1.
La figure 32.5 montre deux formes d’onde générées grâce aux méthodes stochastiques. La figure 32.5a
montre le produit d’un cosinus hyperbolique avec des densités exponentielles utilisant des barrières
et un temps non aléatoire. La figure 32.5b montre le même algorithme, mais les intervalles de temps
sont cette fois déterminés aléatoirement.
(a)
(b)
Figure 32.5 – Deux formes d’onde générées par des méthodes stochastiques.
(a) Le produit d’une fonction cosinus hyperbolique avec des densités exponentielles utilisant des
barrières et des intervalles de temps non aléatoire. (b) Le même algorithme, avec des intervalles
de temps rendus aléatoires (d’après Xenakis, 1992).
Tableau 32.1 – Propositions de Xenakis pour la génération stochastique de formes d’onde.
1. Utilisation directe de distributions de probabilité (Poisson, exponentielle, gaussienne, uniforme, Cauchy,

arcsinus et logistique) pour créer des formes d’onde.
2. Multiplications des fonctions de probabilité avec elles-mêmes.
3. Combinaison des fonctions de probabilité en mélanges grâce à l’addition, si possible dans le temps.
4. Utilisation de variables aléatoires d’amplitude et de temps comme fonctions de forces élastiques ou

d’autres variables aléatoires.
5. Utilisation de variables aléatoires rebondissant sur des barrières élastiques.
6. Utilisation de fonctions de probabilité pour générer les valeurs de paramètres d’autres fonctions de
probabilité servant quant à elles à produire les formes d’onde sonores.
7. Assigner des courbes de probabilité à des classes, et considérer ces classes comme éléments
d’ensembles ou de processus d’ordre supérieur (c’est-à-dire introduire un contrôle hiérarchique dans la
génération de forme d’onde).
8. Injecter le choix de techniques de synthèse sonore stochastiques dans un programme de composition

stochastique (extension de la proposition 7).
32.2.2 GENDY
Le programme GENDY (GÉNération DYnamique) est une implémentation de synthèse dynamique
stochastique, ayant des liens conceptuels avec les techniques de synthèse par interpolation décrites
dans le chapitre 29. Cette partie décrit en particulier le programme GENDY3 (Xenakis, 1992 ; Serra,
1992).
GENDY crée du son en répétant une forme d’onde initiale et en la distordant en temps et en amplitude.
Ainsi, l’algorithme de synthèse calcule chaque nouvelle forme d’onde en appliquant des variations
stochastiques à la forme d’onde précédente.
Dans le programme, la forme d’onde est représentée sous forme de polygone, limité par des côtés sur
l’axe du temps et l’axe d’amplitude. Les segments du polygone sont définis par des sommets sur les
axes de temps et d’amplitude (figure 32.6). Le programme effectue une interpolation de segments
de droites entre ces sommets.
Sommets
Amp. 0
Temps
Figure 32.6 – Structure de forme d’onde dans GENDY.

La forme d’onde est une collection de polygones formés en traçant des segments de droite reliant
des sommets dans le domaine temps-fréquence. Remarquez les intervalles de temps inégaux
entre les sommets.
GENDY synthétise les points de sommet selon diverses distributions stochastiques. Si celles-ci ne
sont pas contenues à l’intérieur d’un intervalle fin, le signal devient rapidement du bruit blanc.
Pour cette raison, le programme contraint les variations de temps et d’amplitude pour rester à
l’intérieur des limites d’un miroir. Le miroir est constitué d’une barrière d’amplitude et d’une barrière
de temps. Les points qui tombent en dehors du miroir sont reflétés dans celui-ci (figure 32.7). En fait,
le miroir filtre les variations stochastiques. En augmentant ou diminuant la barrière d’amplitude,
le compositeur contrôle la quantité de réflexions. Celles-ci représentent les discontinuités de la forme

d’onde, et sont donc un moyen de contrôler le timbre. Puisque la barrière de temps établit l’inter-
valle entre les points temporels, elle exerce une influence sur la fréquence perçue du son.
Les paramètres de contrôle du système GENDY sont donc le nombre de segments temporels, les
limites du miroir, et le choix de distribution stochastique des sommets de temps et d’amplitude.
Ceux-ci sont établis par voix. La figure 32.8 montre l’évolution d’une forme d’onde produite par
GENDY. Elle est quasi périodique, c’est-à-dire contrôlée par un petit miroir. En ajoutant des miroirs
secondaires, des effets tels que le vibrato et le trémolo peuvent également être imposés à la forme
d’onde en variation.
I
↑ Miroir
P
↓R
∗
Amp. 0
Temps T
Figure 32.7 – Les barrières de temps et d’amplitude (P, N, T) définissant un miroir
contraignent le sommet généré par celui marqué d’un astérisque. Si le sommet tombe de façon
stochastique en dehors des barrières indiquées par la boîte (point initial I), la barrière P outrepasse
le choix, et reflète le sommet dans la boîte (reflet R).
Figure 32.8 – Évolution d’une forme d’onde générée par le programme GENDY.
L’évolution s’effectue de haut en bas, avec le temps tracé de gauche à droite sur chaque ligne.
Bibliographie
ABDALLAH, S.A. et PLUMBLEY, M.D. 2006. « Unsupervised analysis of polyphonic music by

sparse coding. » IEEE Transactions on Neural Networks 17(1) : 179-196.
ABELSON, H. et SUSSMANN, G. 1985. Structure and Interpretation of Computer Programs. Cam-
bridge, MA : MIT Press.
ADALBJÖRNSSON, S.I. 2014. « Sparse modeling heuristics for parameter estimation : Applica-
tions in statistical signal processing. » Thèse de doctorat. Lund, Suède : Université de Lund.
ADAMS, R. 1986. Brevet américain n° 4 588 979. (Convertisseurs suréchantillonneurs.)
ADAMS, R. 1990. « An IC chip set for 20-bit A/D conversion. » Journal of the Audio Engineering
Society 38(6) : 440-458.
ADAMS, R., FERGUSON, P., GANESAN, A., VINCELETTE, S., VOLPE, A. et LIBERT, R. 1991.
« Theory and practical implementation of a fifth-order sigma-delta A/D converter. » Journal
of the Audio Engineering Society 29(7/8) : 515-528.
ADLER, A., EMIYA, V., JAFARI, G., MARIA, ELAD, M., GRIBONVAL, R. et PLUMBLEY, M.D. 2012.
« Audio Inpainting. » IEEE Transactions on Audio, Speech and Language Processing 20(3) :
922-932.
ADRIEN, J.-M. 1991. « The missing link: modal synthesis. » Dans G. De Poli, A. Piccialli et C. Roads,
eds. Representations of Musical Signals. Cambridge, MA : MIT Press. p. 269-297.
ADRIEN, J.-M. et RODET, X.. 1985. « Physical models of instruments, a modular approach, appli-
cations to strings. » Dans B. Truax, ed. Proceedings of the 1985 International Computer Music
Conference. San Francisco : International Computer Music Association. p. 85-89.
AHARON, M., ELAD, M. et BRUCKSTEIN, A. 2006. « K-SVD : An algorithm for designing of over-
complete dictionaries for sparse representation. » IEEE Transactions on Signal Processing
54(11) : 4311-4322.
ALLEN, J.B. et RABINER, L.R. 1977. « A unified approach to short-time Fourier analysis and
synthesis. » Proceedings of the IEEE 65 : 1558-1564.
ALLEN, P. et DANNENBERG, R.1990. « Tracking musical beats in real time. » Dans S. Arnold et
G. Hair, eds. Proceedings of the 1990 International Computer Music Conference. San Francisco :
International Computer Music Association. p. 140-143.
612 L’AUDIONUMÉRIQUE
ALLES, H. 1977a. « A portable digital sound synthesis system. » Computer Music Journal 1(4) : 5-6.
Version révisée dans C. Roads et J. Strawn, eds. 1985. Foundations of Computer Music. Cam-
bridge, MA : MIT Press. p. 244-249.
ALLOUIS, J.-F. 1979. « The use of high-speed microprocessors for sound synthesis. » Computer
Music Journal 3(1) : 14-16. Réimprimé dans C. Roads et J. Strawn, eds. 1985. Foundations of
Computer Music. Cambridge, MA : MIT Press. p. 281-288.
ALLOUIS, J.-F. et BERNIER, J.-Y. 1982. « The SYTER project: sound processor design and software
overview. » Dans J. Strawn et T. Blum, eds. Proceedings of the 1982 International Computer
Music Conference. San Francisco : International Computer Music Association. p. 232-240.
AMATRIAIN, X., BONADA, J., LOSCO, A., ARCOS, J. et VERFAILLE, V. 2003. « Content-based
transformations. » Journal of New Music Research 32(1) : 95-114.
AMERICAN CINEMATOGRAPHER. 1953. « CinemaScope: What it is; How it Works ». American
Cinematographer, mars 1953.
AMES, C. 1987a. « Automated composition in retrospect: 1956-1986. » Leonardo 20(2) : 169-186.
AMES, C. 1989a. « The Markov process as a compositional model: a survey and tutorial. » Leo-
nardo 22(2) : 175-188.
AMUEDO, J. 1984. « Estimation of musical pitch when F[0] is large. » Présenté à la « 1984 Interna-
tional Computer Music Conference », Paris, France.
ANDRLE, M., REBOLLO-NEIRA, L. et SAGIANOS, E. 2004. « Backward-optimized orthogonal
matching pursuit approach. » IEEE Signal Processing Letters 11(9) : 705-708.
ANGUS, J. et FAULKNER, T. 1990. « Practical 20 bit. » Studio Sound 32(4) : 38-45.
APEL, W. 1972. Harvard Dictionary of Music. Cambridge, MA : Harvard University Press.
ARFIB, D. 1979. « Digital synthesis of complex spectra by means of multiplication of non-linear
distorted sine waves. » Journal of the Audio Engineering Society 27(10) : 757-779.
ARFIB, D. 1991. « Analysis, transformation, and resynthesis of musical sounds with the help of a
time-frequency representation. » Dans G. De Poli, A. Piccialli et C. Roads, eds. Representa-
tions of Musical Signals. Cambridge, MA : MIT Press. p. 87-118.
ASTA, V., CHAUVEAU, A., DI GIUGNO, G. et KOTT, J.. 1980. « The 4X: a real-time digital synthesis
system. » Automazione e Strumentazione 28(2) : 119-133.
ATAL, B. et HANAUER, S. 1971. « Speech analysis and synthesis by linear prediction of the speech
wave. » Journal of the Acoustical Society of America 50(2) : 637-655.
ATAL, B. et REMDE, J. 1982. « A new model of LPC excitation for producing natural sounding
speech at low bit rates. » Proceedings of the 1982 IEEE Conference on Speech and Acoustics.
New York. IEEE.
AUCOUTURIER, J.-J. et PACHET, F. 2006. « Jamming with Plunderphonics : Interactive Concate-
native Synthesis of Music. » Journal of New Music Research 32(1) : 35-50.
AUDIO ENGINEERING SOCIETY. 1992a. « AES recommended practice for digital audio enginee-
ring – serial transmission format for two-channel linearly represented digital audio data. »
Journal of the Audio Engineering Society 40(3) : 148-163.
AUDIO ENGINEERING SOCIETY. 1992b. « AES recommended practice for digital audio enginee-
ring – format for the user data channel of the AES digital audio interface. » Journal of the
Audio Engineering Society 40(3) : 167-183.
AUDIO ENGINEERING SOCIETY. 2005. « AES standard for digital audio engineering – High-reso-
lution multi-channel audio interconnection (HRMAI). »
BIBLIOGRAPHIE 613
BACKHAUS, J. 1932. « Über die Bedeutung der Ausgleichsvorgänge in der Akustik. » Zeitschrift für
technische Physik 13(1) : 31-46.
BACKUS, J. 1977. The Acoustical Foundations of Music. 2e édition. New York : Norton.
BAISNÉE, P.-F. 1985. Chant Manual. Paris : IRCAM.
BAISNÉE, P.-F., BARRIÈRE, J.-B., DALBAVIE, M.-A., DUTHEN, J., LINDBERG, M., POTARD, Y. et
SAARIAHO, K. 1988. « Esquisse: a compositional environment. » Dans C. Lischka et J.
Fritsch. Proceedings of the 1988 International Computer Music Conference. San Francisco :
International Computer Music Association et Cologne : Feedback Papers. p. 108-118.
BAMFORD, J.S. 1995. « An Analysis of Ambisonic Sound Systems of First and Second Order. »
Thèse de doctorat, université de Waterloo, Canada. Internet : http://audiolab.uwaterloo.ca/
~jeffb/thesis/thesis.html
BARBAUD, P. 1966. Initiation à la musique algorithmique. Paris : Dunod.
BARBOUR, E. 1998. « The cool sound of tubes. » IEEE Spectrum 35(8) : 24-35.
BARRIÈRE, J.-B. 1991. Le timbre, métaphore pour la composition. Paris : IRCAM et Christian Bour-
geois.
BARRIÈRE, J.-B., IOVINO, F. et LAURSON, M. 1991. « A new CHANT synthesizer in C and its control
environment in Patchwork. » Dans B. Alphonce et B. Pennycook, eds. Proceedings of the 1991
International Computer Music Conference. San Francisco : International Computer Music
Association. p. 11-14.
BARRIÈRE, J.-B., POTARD, Y. et BAISNÉE, P.-F.. 1985. « Models of continuity between synthesis
and processing for the elaboration and control of timbre structure. » Dans B. Truax, ed. Pro-
ceedings of the 1985 International Computer Music Conference. San Francisco : International
Computer Music Association. p. 193-198.
BASS, S. et GOEDDEL, T. 1981. « The efficient digital implementation of subtractive music
synthesis. » IEEE Micro 1(3) : 24-37.
BASTIAANS, M. 1980. « Gabor’s expansion of a signal into Gaussian elementary signals. » Procee-
dings of the IEEE 68 : 538-539.
BASTIAANS, M. 1985. « On the sliding-window representation of signals. » IEEE Transactions on
Acoustics, Speech, and Signal Processing ASSP-33(4) : 868-873.
BATE, J. 1990. « The effect of modulator phase on timbres in FM synthesis. » Computer Music Jour-
nal 14(3) : 38-45.
BASU, S., SIMON, I., SALESIN, D., AGRAWALA, M., SHERWANI, A. et GIBSON, C. 2006. « Creating
Music via Concatenative Synthesis. » Brevet US 7,737,354 Washington : U.S. Patent Office.
BAYLE, F. 1989. « La musique acousmatique ou l’art des sons projetés. » Paris : Encyclopedia Uni-
versalis.
BAYLE, F. 1993. Musique Acousmatique. Paris : Institut National de l’Audiovisuel/Groupe de
Recherches Musicales et Buchet/Chastel.
BEAUCHAMP, J. 1969. « A computer system for time-variant harmonic analysis and synthesis of
musical tones. » Dans H. von Foerster et J. Beauchamp, eds. Music by Computers. New York :
Wiley.
BEAUCHAMP, J. 1975. « Analysis and synthesis of cornet tones using nonlinear interharmonic
relationships. » Journal of the Audio Engineering Society 23(10) : 718-795.
BEAUCHAMP, J. 1979. « Brass-tone synthesis by spectrum evolution matching with nonlinear
functions. » Computer Music Journal 3(2) : 35-43. Version révisée et mise à jour dans
C. Roads et J. Strawn, eds. 1985. Foundations of Computer Music. Cambridge, MA : MIT
Press. p. 95-113.
BEAUCHAMP, J. 1981. « Data reduction and resynthesis of connected solo passages using fre-
quency, amplitude, and ‘brightness’ detection and the nonlinear synthesis technique. » Dans
L. Austin et T. Clark, eds. Proceedings of the 1981 International Computer Music Conference.
San Francisco : International Computer Music Association. p. 316-323.
BEAUCHAMP, J. 1992a. « Will the real FM equation please stand up? » dans Letters section du
Computer Music Journal 16(4) : 6-7.
BEAUCHAMP, J. 1993. « Unix workstation software for analysis, graphics, modification, and syn-
thesis of musical sounds. » Manuscrit inédit.
BEAUCHAMP, J. et HORNER, A. 1992. « Extended nonlinear waveshaping analysis/synthesis
technique. » Dans A. Strange, ed. Proceedings of the 1992 International Computer Music Confe-
rence. San Francisco : International Computer Music Association. p. 2-5.
BEAUCHAMP, J., MAHER, R. et BROWN, R.. 1993. « Detection of musical pitch from recorded solo
performances. » Manuscrit inédit.
BEEKMAN, I. 1604-1634. Journal tenu par Isaac Beekman de 1604 à 1634. Quatre volumes. C. de
Waard, ed. 1953. La Hague.
BEGAULT, D. 1991. « Challenges to successful implementation of 3-D sound. » Journal of the
BEIGEL, M. 1979. « A digital ‘phase shifter’ for musical applications using the Bell Labs (Alles-
Fischer) digital filter module. » Journal of the Audio Engineering Society 27(9) : 673-676
BENADE, A. 1960. « The physics of wood winds. » Réimprimé dans C.M. Hutchins, ed. 1978. The
Physics of Music. San Francisco : Freeman. p. 34-43.
BENADE, A. 1990. Fundamentals of Musical Acoustics. New York : Dover Publications. Première
publication en 1976.
BENEDICT, R. 1976. Electronics for Scientists and Engineers. Englewood Cliffs : Prentice-Hall.
BENNETT, G. 1981. « Singing synthesis in electronic music. » Dans J. Sundberg, ed. Research Aspects
of Singing. Publication 33. Stockholm : Royal Swedish Academy of Music. p. 34-50.
BENNETT, G. et RODET, X. 1989. « Synthesis of the singing voice. » Dans M. Mathews et J. Pierce,
eds. Current Directions in Computer Music Research. Cambridge, MA : MIT Press. p. 19-44.
BERANEK, L. 1949. Acoustic Measurements. New York : John Wiley and Sons.
BERG, P. 1975. « ASP – automated synthesis program. » Utrecht : Institut de Sonologie.
BERG, P. 1978a. « PILE2 – a description of the language. » Utrecht : Institut de Sonologie.
BERG, P. 1978b. « A user’s manual for SSP. » Utrecht : Institut de Sonologie.
BERG, P. 1979. « PILE – A language for sound synthesis. » Computer Music Journal 3(1) : 30-41.
Version révisée et mise à jour dans C. Roads et J. Strawn, eds. 1985. Foundations of Computer
Music. Cambridge, MA : MIT Press. p. 160-190.
BERNARDES, G. 2014. « Composing Music by Selection : Content-Based Algorithmic-Assisted
Audio Composition. » Thèse de doctorat. Faculté d’ingénieur, Université de Porto, Portugal.
BERNARDINI, N. et OTTO, P. 1989. « TRAILS : an interactive system for sound location. » Dans
T. Wells et D. Butler, eds. Proceedings of the 1989 International Computer Music Conference.
BERNSTEIN, A. et COOPER, E.D. 1976. « The piecewise-linear technique of electronic music
synthesis. » Journal of the Audio Engineering Society 24(7/8) : 446-454.
BILSEN, F.A., 1977. « Pitch of noise signals: evidence for a ‘central’ spectrum. » Journal of the
Acoustical Society of America 61 : 150-161.
BIBLIOGRAPHIE 615
BILSEN, F. et RITSMA, R. 1969. « Repetition pitch and its implications for hearing theory. »
Acustica 22 : 205-213.
BIRD, J. 1982. Percy Grainger. South Melbourne : Sun Books.
BISCHOFF, J., GOLD, R. et HORTON, J. 1978. « A microcomputer-based network for live
performance. » Computer Music Journal 2(3) : 24-29. Version révisée et mise à jour dans
C. Roads et J. Strawn, eds. 1985. Foundations of Computer Music. Cambridge, MA : MIT Press.
p. 588-600.
BLACK, H. 1953. Modulation Theory. New York : Van Nostrand-Reinhold.
BLACKHAM, E.D. 1965. « The physics of the piano. » Scientific American 235(12). Réimprimé dans
C. Hutchins, ed. 1978. The Physics of Music. San Francisco : W. H. Freeman. p. 24-33.
BLACKMAN, R. et TUKEY, J. 1958. The Measurement of Power Spectra. New York : Dover.
BLAKE, W. 1986. Mechanics of Flow-induced Sound and Vibration. Deux volumes. New York :
Academic Press.
BLAUERT, J. 1983. Spatial Hearing. Cambridge, MA : MIT Press.
BLESSER, B. 1978. « Digitization of audio. » Journal of the Audio Engineering Society 26(10) : 739-
771.
BLESSER, B. 1983. « Advanced analog-to-digital conversion and filtering : data conversion. » Dans
B. Blesser, B. Locanthi, et T. Stockham, eds. Digital Audio. New York : Audio Engineering
Society. p. 37-53.
BLEVIS, E., JENKINS, M. et GLASGOW, J. 1988. « Motivations, sources, and initial design ideas for
CALM: a composition analysis/generation language for music. » Dans Workshop on Artificial
Intelligence and Music, AAAI-88 Conference. Menlo Park : American Association for Artificial
Intelligence.
BLOCH, G., et coll. 1992. « Spatializer: from room acoustics to virtual acoustics. » Dans A. Strange,
ed. Proceedings of the 1992 International Computer Music Conference. San Francisco : Interna-
tional Computer Music Association. p. 253-256.
BLOOM, P.J. 1977. « Determination of monaural sensitivity changes due to the pinna by use of
minimum audible field measurements in the lateral vertical plane. » Journal of the Acoustic
Society of America 61 : 1264-1269.
BLOOM, P.J. 1985. « High-quality digital audio in the entertainment industry: an overview of
achievements and challenges. » IEEE ASSP Magazine 2(4) : 2-25.
BLUM, T. 1979. « Review of Herbert Brün: SAWDUST. » Computer Music Journal 3(1) : 6-7.
BLUMENSATH, T. et DAVIES, M.E. 2006. « Sparse and shift-invariant representations of music. »

IEEE Transactions on Audio, Speech and Language Processing 14(1) : 50-57.
BLUMENSATH, T. et DAVIES, M.E. 2007. « On the difference between orthogonal matching pur-
suit and orthogonal least squares. » Technical Report : University of Edinburgh, Écosse, UK.
BLUMENSATH, T. et DAVIES, M.E. 2008. « Gradient pursuits. » IEEE Transactions on Signal Pro-
cessing 56(6) : 2370-2382.
BLUMLEIN, A. 1931. « Improvements in and relating to sound-transmission, sound-recording,
and sound-reproducing systems. » British Patent Specification 394,325. Réimprimé dans
Audio Engineering Society. 1986. Stereophonic Techniques : An Anthology. New York : Audio
Engineering Society.
BODE, H. 1967. « The multiplier type ring modulator. » Electronic Music Review 1.
BODE, H. 1984. « History of electronic sound modification. » Journal of the Audio Engineering
Society 32(10) : 730-739.
BODE, H. et MOOG, R. 1972. « A highly-accurate frequency shifter for professional audio

applications. » Journal of the Audio Engineering Society 20(6) : 453.
BONADA, J. et SERRA, X. 2007. « Synthesis of the Singing Voice by Performance Sampling and
Spectral Models. » IEEE Signal Processing Magazine 24(2) : 67-78.
BORGONOVO, A. et HAUS, G. 1984. « Musical sound synthesis by means of two-variable func-
tions: experimental criteria and results. » Dans D. Wessel, ed. Proceedings of the1984 Interna-
tional Computer Music Conference. San Francisco : International Computer Music Associa-
tion. p. 35-42.
BORGONOVO, A. et HAUS, G. 1986. « Sound synthesis by means of two-variable functions: expe-
rimental criteria and results. » Computer Music Journal 10(4) : 57-71.
BORIN, G., DE POLI, G. et SARTI, A.. 1992. « Algorithms and structures for synthesis using physical
models. » Computer Music Journal 16(4) : 30-42.
BORK, I. 1992. « Modal analysis of sound fields of musical instruments. » Preprint 3243. Presenté
à la 92e Convention de l’Audio Engineering Society. New York : Audio Engineering Society.
BOSI, M. 1990. « An interactive real-time system for the control of sound localization. » Computer
Music Journal 14(4) : 59-64.
BOSI, M. et GOLDBERG, R. 2003. Introduction to Digital Audio Coding and Standards. Boston,
MA : Kluwer Academic Publishers.
BOULEZ, P. et GERZSO, A. 1988. « Computers in music. » Scientific American 258(4) : 44-50.
BOUTILLON, X. 1984. « Fonctionnement des instruments à cordes libres. Approche mécanique,
traitement du signal. » Thèse de doctorat. Paris : Université de Paris Sud.
BOWCOTT, P. 1989. « Cellular automata as a means of high level compositional control of granular
synthesis. » Dans T. Wells et D. Butler, eds. Proceedings of the 1989 International Computer
Music Conference. San Francisco. p. 55-57.
BOWEN, B. et BROWN, W. 1980. VLSI Systems Design for Digital Signal Processing. Reading, MA :
Addison-Wesley.
BOYD, S. et VANDENBERGHE, L. 2004. Convex Optimization. Cambridge, UK : Cambridge Univer-
sity Press.
BOYER, F. et KRONLAND-MARTINET, R. 1989. « Granular resynthesis and transformation of
sounds through wavelet transform analysis. » Dans T. Wells et T. Butler, eds. Proceedings of
the 1989 International Computer Music Conference. San Francisco : International Computer
Music Association. p. 51-54.
BRIGHTMAN, T. et CROOK, S. 1982. « Exploring practical speech I/O. » Mini-Micro Systems May :
291-304.
BRINKMAN, A. 1990. Pascal Programs for Music Research. Chicago : University of Chicago Press.
BRISTOW, D. 1986. Communication personnelle.
BROWN, J. et PUCKETTE, M. 1987. « Musical information from a narrowed autocorrelation
function. » Cambridge, MA : MIT Experimental Music Studio.
BURG, J. 1967. « Maximum entropy spectrum analysis. » Dans Proceedings of the 37th Meeting of
the Society of Exploration Geophysicists, Oklahoma City, 31 October 1967.
BURNS, E. et VIEMEISTER, N. 1976. « Nonspectral pitch. » Journal of the Acoustical Society of
America 60 : 863-869.
BUSER, P. et IMBERT, M. 1992. Audition. Cambridge, MA : MIT Press.
BIBLIOGRAPHIE 617
BUXTON, W., et coll. 1978a. « The use of hierarchy and instance in a data structure for computer
music. » Computer Music Journal 2(4) : 10-20. Version révisée et mise à jour dans C. Roads et
J. Strawn, eds. 1985. Foundations of Computer Music Cambridge, MA : MIT Press. p. 443-466.
BUXTON, W., et coll. 1978b. « An introduction to the SSSP digital synthesizer. » Computer Music
Journal 2(4) : 28-38. Version révisée et mise à jour dans C. Roads et J. Strawn, eds. 1985.
Foundations of Computer Music Cambridge, MA : MIT Press. p. 206-224.
BUXTON, W., PATEL, S., REEVES, W. et BAECKER, R. 1982. « Objed and the design of timbral
resources. » Computer Music Journal 6(2) : 32-44. Réimprimé dans C. Roads, ed. 1989. The
Music Machine. Cambridge, MA : MIT Press. p. 263-275.
CADOZ, C., LUCIANI, M. et FLORENS, J.-L. 1984. « Responsive input devices and sound synthesis
by simulation of instrumental mechanisms. » Computer Music Journal 8(3) : 60-73.
CAGE, J. 1937. « The future of music : credo. » Dans J. Cage. 1961. Silence. Middletown : Wesleyan
University Press.
CAGE, J. 1952. « William’s Mix » (partition musicale), New York, NY.
CAHILL, T. 1897. Brevets américains n° 580 035 (1897), n° 1 107 261 (1914), n° 1 213 803 (1917)
et n° 1 295 691 (1919). (Telharmonium.)
CALVET, O., LAURENS, R. et ADRIEN, J.-M. 1990. « Modal synthesis : compilation of mechanical
sub-structures and acoustical sub-systems. » Dans S. Arnold et G. Hair, eds. Proceedings of
CAMPBELL, M. et GREATED, C.. 1987. The Musician’s Guide to Acoustics. London : J.M. Dent and
Sons.
CANN, R. 1978. « Speech analysis/synthesis for electronic vocal music. » Ph.D dissertation.
Princeton : Princeton University Department of Music.
CANN, R. 1979-1980. « An analysis/synthesis tutorial. » Computer Music Journal 3(3) : 6-11 ; 3(4) :
9-13 ; 4(1) : 36-42. Réimprimé dans C. Roads et J. Strawn, eds. 1985. Foundations of Compu-
ter Music. Cambridge, MA : MIT Press. p. 114-144.
CARROUSO. 2001. « CARROUSO – System Specification and Functional Architecture. » Internet :
http://www.idmt.fraunhofer.de/projects/carrouso/Deliverables/CARROUSO_D1__Public_July
_10th_2001.pdf
CARSON, J. 1922. « Notes on the theory of modulation. » Proceedings of the Institute of Radio Engi-
neers 10 : 57-64.
CASEY, M.A. 2005. « Acoustic Lexemes for Organizing Internet Audio. » Contemporary Music
Review 24(6) : 489-508.
CASEY M., VELTKAMP, R., GOTO, M., LEMAN, M., RHODES, C. et SLANEY, M. 2008. « Content-
based music information retrieval : Current directions and future challenges. » Proceedings
of the IEEE 96(4) : 668-696.
CASTINE, P. 1993. « Whatever happened to CMAP for Macintosh? A status report. » Dans S. Ohteru,
CAVALIERE, S., ORTOSECCO, I., et PICCIALLI, A. 1986. « Synthesis by formants: a new approach. »
Dans Proceedings of the 1986 IEEE ASSP Workshop on Applications of Signal Processing to
Audio and Acoustics. New York : IEEE Acoustics, Speech, and Signal Processing Society.
CERRUTI, R. et RODEGHIERO, G. 1983. « Comments on ‘Musical sound synthesis by forward
differences’. » Journal of the Audio Engineering Society 31(6) : 446.
CHABOT, X., DANNENBERG, R. et BLOCH, G. 1986. « A workstation in live performance: composed

improvisation. » Dans P. Berg, ed. Proceedings of the 1986 International Computer Music
CHAFE, C. 1985. « Control of bowed string synthesis from a physical model. » Manuscrit inédit.
CHAFE, C. et JAFFE, D. 1986. « Source separation and note identification in polyphonic music. »
Dans Proceedings of the International Conference on Acoustics, Speech and Signal Processing,
Tokyo. New York : IEEE.
CHAFE, C., JAFFE, D., KASHIMA, K., MONT-REYNAUD, B. et SMITH, J. 1985. « Techniques for note
identification in polyphonic music. » Dans B. Truax, ed. Proceedings of the 1985 International
Computer Music Conference. San Francisco : International Computer Music Association.
p. 399-405.
CHAFE, C., MONT-REYNAUD, B. et RUSH, L. 1982. « Toward an intelligent editor for digital audio:
recognition of musical concepts. » Computer Music Journal 6(1) : 30-41. Réimprimé dans
C. Roads, ed. 1989. The Music Machine. Cambridge, MA : MIT Press. p. 537-548.
CHAITIN, G. 1975. « Randomness and mathematical proof. » Scientific American 232(5) : 47-54.
CHAMBERLIN, H., 1985. Musical Applications of Microprocessors. 2e édition. Rochelle Park, NJ :
Hayden Books.
CHARBONNEAU, G.-R. 1981. « Timbre and the effects of three types of data reduction. » Computer
Music Journal 5(2) :10-19. Réimprimé dans C. Roads, ed. 1989. The Music Machine. Cam-
bridge, MA : MIT Press. p. 521-530.
CHEN, S.S., DONOHO, D.L. et SAUNDERS, M.A. 1998. « Atomic decomposition by basis pursuit. »
SIAM Journal of the Science of Computation. 20(1) : 33-61.
CHERRY, C. 1949. Pulses and Transients in Communication Circuits. Londres : Chapman and Hall.
CHION, M. 1982. La musique électroacoustique. Paris : Les Presses Universitaires de France.
CHION, M. et REIBEL, G. 1976. Les musiques électroacoustiques. Aix-en-Provence : Edisud.
CHIRLIAN, P. 1971. Electronic Circuits: Physical Principles, Analysis, and Design. New York : McGraw-
Hill Book Company.
CHOWNING, J. 1971. « The simulation of moving sound sources. » Journal of the Audio Engineering
Society 19 : 2-6. Réimprimé dans Computer Music Journal 1(3) : 48-52, 1977.
CHOWNING, J. 1973. « The synthesis of complex audio spectra by means of frequency
modulation. » Journal of the Audio Engineering Society 21(7) : 526-534. Réimprimé dans
C. Roads et J. Strawn, eds. 1985. Foundations of Computer Music. Cambridge, MA : MIT
Press. p. 6-29.
CHOWNING, J. 1975. « Computers, composition, and research. » Dans G. Bennett, ed. 1975. Erste
Woche fuer Elektronische Musik. Basel : Verlag der Musik-Akademie der Stadt Basel. p. 38-48.
CHOWNING, J. 1980. « Computer synthesis of the singing voice. » Dans J. Sundberg et E. Jansson,
eds. 1980. Sound Generation in Winds, Strings, Computers. Publication 29. Stockholm : Royal
Swedish Academy of Music. p. 4-13.
CHOWNING, J. 1987. « FM is a universe of possibilities with a lot of surprises. » Publicité du maga-
zine Yamaha.
CHOWNING, J. 1989. « Frequency modulation synthesis of the singing voice. » Dans M. Mathews
et J. Pierce, eds. 1989. Current Directions in Computer Music Research. Cambridge, MA : MIT
Press. p. 57-63.
CHOWNING, J. et MONT-REYNAUD, B. 1986. « Intelligent analysis of composite acoustic signals. »
Department of Music Report STAN-M-36. Stanford : Stanford University.
BIBLIOGRAPHIE 619
CHOWNING, J., RUSH, L., MONT-REYNAUD, B., CHAFE, C., SCHLOSS, W.A, et SMITH, J. 1984.
« Intelligent systems for the analysis of digitized acoustic signals. » Department of Music
Report STAN-M-15. Stanford : Stanford University.
CHRISTENSEN, M.G. et JENSEN, S.H. 2007. « The cyclic matching pursuit and its application to
audio modeling and coding. » Proceedings of the Asilomar Conference on Signals, Systems, and
Computers. Pacific Grove, CA. pp. 550-554.
CHRISTENSEN, M. et JAKOBSSON, A. 2009. Multi-Pitch Estimation. Morgan & Claypool
Publishers.
CHRISTENSEN, M.G. et JENSEN, S.H. 2011. « A perceptually reweighted mixed-norm method for
sparse approximation of audio signals. » Proceedings of the Asilomar Conference on Signals,
Systems, and Computers. Pacific Grove, CA. pp. 575-579.
CHRISTENSEN, O. et CHRISTENSEN, K. L. Approximation Theory : From Taylor Polynomials to
Wavelets. Boston, MA : Birkhäuser.
CLARK, M. 1959. « A new musical instrument. » Gravenser Blätter 14 : 110-123.
CLARKE, E. 1987. « Levels of structure in the organization of musical time. » Contemporary Music
Review 2(1) : 211-238.
CLARKE, J. 1990. « An FOF synthesis tutorial. » Dans B. Vercoe, ed. Csound : A Manual for the
Audio Processing System. Cambridge, MA : MIT Media Laboratory.
CLOZIER, C. 1993. « Le Gmebaphone. » Bourges : Groupe de Musique Expérimentale de Bourges.
CLYNES, M. ed. 1982. Music, Mind, and Brain: The Neuropsychology of Music. New York : Plenum.
CLYNES, M. et NETTHEIM, N. 1982. « The living quality of music. » Dans M. Clynes, ed. Music,
Mind, and Brain : The Neuropsychology of Music. New York : Plenum. p. 47-82.
CLYNES, M. et WALKER, J. 1982. « Neurobiologic functions of rhythm, time, and pulse in music. »
Dans M. Clynes, ed. Music, Mind, and Brain : The Neuropsychology of Music. New York : Plenum.
p. 47-82.
COGAN, R. 1984. New Images of Musical Sound. Cambridge, MA : Harvard University Press.
COHEN, E. 1980. « The influence of nonharmonic partials on tone perception. » Ph.D dissertation.
Stanford : Stanford University.
COHEN, H. 1984. Quantifying Music. Dordrecht : Reidel.
COHEN, L. 1989. « Time-frequency distributions — A review. » Proceedings of the IEEE 77(7) :

941-981.
COLBURN, H. et DURLACH, N. 1978. « Models of binaural interaction. » Dans E. Carterette et
M. Friedman, eds. Handbook of Perception, vol. 4. New York : Academic. p. 467-518.
COLEMAN, G., MAESTRE, E. et BONADA, J. 2010. « Augmenting Sound Mosaicing with Descrip-
tor-driven Transformation. » Proceedings of the COST-G6 International Conference on Digital
Audio Effects. Graz, Autriche. pp. 1-4.
COLLINS, M. 1993. « Infinity: DSP sampling tools for Macintosh. » Sound on Sound 9(1) : 44-47.
COLLINS, N. 2007. « Audiovisual Concatenative Synthesis. » Proceedings of the International
Computer Music Conference. Copenhagen, Danemark. pp. 389-392.
COLLINS, N. et STURM, B.L. 2011. « Sound cross-synthesis and morphing using dictionary-
based methods. » Proceedings of the International Computer Music Conference. Huddersfield,
UK. pp. 595-601.
COMAJUNCOSAS, J.M., BARRACHINA, A., O’CONNELL, J. et GUAUS, E. 2011. « Nuvolet : 3D Ges-

ture-driven Collaborative Audio Mosaicing. » Proceedings of the International Conference on
New Interfaces for Musical Expression. Oslo, Norvège. pp. 252-255.
COOK, P. 1991a. « Identification of control parameters in an articulatory vocal tract model, with
applications to the synthesis of singing. » Ph.D dissertation. Stanford : Stanford University
Department of Electrical Engineering.
COOK, P. 1991b. « TBone: an interactive waveguide brass instrument synthesis workbench for the
NeXT Machine. » Dans B. Alphonce et B. Pennycook, eds. Proceedings of the 1991 Internatio-
nal Computer Music Conference. San Francisco : International Computer Music Association.
p. 297-299.
COOK, P. 1992. « A meta-wind-instrument physical model, and a meta-controller for real-time
performance control. » Dans A. Strange, ed. Proceedings of the 1992 International Computer
COOK, P. 1993. « SPASM: a real-time vocal tract physical model controller and Singer: the compa-
nion software synthesis system. » Computer Music Journal 17(1) : 30-44.
COOLEY, J. et TUKEY, J. 1965. « An algorithm for the machine computation of complex Fourier
series. » Mathematical Computation 19 : 297-301.
COOPER, J. 1989. « MIDI-based automation. » Recording Engineer/Producer 20(2) : 52-54.
CRAWFORD, F. 1968. Waves. Berkeley Physics Course, vol. 3. New York : McGraw-Hill.
CROCHIERE, R. et RABINER, L. 1983. Multirate digital signal processing. Englewood Cliffs : Prentice-
Hall.
CUTLER, C. 1960. « Transmission systems employing quantization. » Brevet américain n° 2 927 962
(1954).
D’ALLESSANDRO, C. et RODET, X. 1989. « Synthèse et analyse-synthèse par fonctions d’ondes
formantiques. » Journal Acoustique 2 : 163-169.
DANIEL, J. 2000. « Représentation de champs acoustiques, application à la transmission et à la
reproduction de scènes sonores complexes dans un contexte multimédia. » Thèse de doctorat,
université Paris VI. Internet : http://gyronymo.free.fr/audio3D/accueil.html
DANIÉLOU, A. 1958. Tableau Comparatif des Intervalles Musicaux. Pondichéry : Institut Français
d’Indologie.
DANNENBERG, R. et MONT-REYNAUD, B. 1987. « Following an improvisation in real time. »
Dans J. Beauchamp, ed. Proceedings of the 1987 International Computer Music Conference.
DASHOW, J. 1980. « Spectra as chords. » Computer Music Journal 4(1) : 43-52.
DASHOW, J. 1987. « Looking into Sequence Symbols. » Perspectives of New Music 25(1 et 2) : 108-
137.
DAUDET, L. 2006. « Sparse and structured decompositions of signals with the molecular matching
pursuit. » IEEE Transactions on Audio, Speech and Language Processing 14(5) : 1808-1816.
D’AUTILIA, R. et GUERRA, F. 1991. « Qualitative aspects of signal processing through dynamic
neural networks. » Dans G. De Poli, A. Piccialli et C. Roads, eds. Representations of Musical
Signals. Cambridge, MA : MIT Press. p. 447-462.
DAVID, E., MATHEWS, M. et MCDONALD, H. 1958. « Description and results of experiments
with speech using digital computer simulation. » Proceedings of the 1958 National Electronics
Conference. New York : Institute of Radio Engineers. p. 766-775.
DAVIS, D. 1988. Computer Applications in Music: A Bibliography. Madison : A-R Éditions.
BIBLIOGRAPHIE 621
DAVIS, D. 1992. Computer Applications in Music: A Bibliography. Supplement 1. Madison : A-R

Éditions.
DAVIS, G., MALLAT, S. et AVELLANEDA, M. 1997. « Adaptive greedy approximations. » Journal of
Constructive Approximations 13(1) : 57-98.
DEER, J., BLOOM, P. et PREIS, D. 1985. « Perception of phase distortion in allpass filters. » Journal
of the Audio Engineering Society 33(10) : 782-786.
DELGUTTE, B. 1980. « Representation of speech-like sounds in the discharge patterns of auditory-
nerve fibers. » Journal of the Acoustical Society of America 68 : 843-857.
DEPALLE, P. 1991. « Analyse, modélisation et synthèse des sons basées sur le modèle source-filtre. »
Nantes : Université du Maine, Faculté des sciences.
DEPALLE, P. et POIROT, G. 1991. « Svp : phase vocodeur modulaire à deux canaux d’entrée. »
Paris : IRCAM.
DE POLI, G. 1983. « A tutorial on digital sound synthesis techniques. » Computer Music Journal 7(4) :
8-26. Réimprimé dans C. Roads, ed. 1989. The Music Machine. Cambridge, MA : MIT Press.
p. 429-447.
DE POLI, G. 1984. « Frequency-dependent waveshaping. » Dans W. Buxton, ed. 1985. Proceedings
of the 1984 International Computer Music Conference.San Francisco : International Computer
DE POLI, G. et PICCIALLI, A. 1991. « Pitch-synchronous granular synthesis. » Dans G. De Poli,
A. Piccialli et C. Roads, eds. 1991. Representations of Musical Signals. Cambridge, MA : MIT
Press : 187-219.
DESAIN, P. et HONING, H. 1989. « Quantization of musical time: a connectionist approach. » Com-
puter Music Journal 13(3) : 56-66. Réimprimé dans P. Todd et D. G. Loy, eds. 1991. Music and
Connectionism. Cambridge, MA : MIT Press.
DESAIN, P. et HONING, H. 1992b. Music, Mind, and Machine. Amsterdam : Thesis Publishers.
DESAIN, P. et HONING, H. 1992c. « The quantization problem: traditional and connectionist
approaches. » Dans M. Balaban, K. Ebcioglu et O. Laske, eds. Understanding Music with AI.
Cambridge, MA and Menlo Park, CA : MIT Press and AAAI Press. p. 448-462.
DEUTSCH, D. ed. 1982. The Psychology of Music. Orlando : Academic Press.
DIE REIHE. 1955. « Vol. 1. Elektronische Musik. » Vienna : Universal Edition.
DIGIPRESS. 1991. « Century Master. » Knoxville : Digipress.
DODGE, C. 1985. « In Celebration: the composition and its realization in synthetic speech. » Dans
C. Roads, ed. 1985. Composers and the Computer. Madison : A-R Éditions.
DODGE, C. 1989. « On Speech Songs. » Dans M. Mathews et J. Pierce, eds. Current Directions in
Computer Music Research. Cambridge, MA : MIT Press. p. 9-17.
DODGE, C. et JERSE, C. 1985. Computer Music. New York : Schirmer.
DOLBY. 2005. 5.1-Channel Music Production Guidelines. Dolby Laboratories Inc. Internet :
http://www.dolby.com/assets/pdf/tech_library/4_Multichannel_Music_Mixing.pdf
DOLSON, M. 1983. « A tracking phase vocoder and its use in the analysis of ensemble sounds. »
Ph.D dissertation. Pasadena : California Institute of Technology.
DOLSON, M. 1985. « Recent advances in musique concrète at CARL. » Dans B. Truax, ed. Proceedings
of the 1985 International Computer Music Conference. San Francisco : International Computer
DOLSON, M. 1986. « The phase vocoder : a tutorial. » Computer Music Journal 10(4) :14-27.
DOLSON, M. 1989b. « Fourier-transform-based timbral manipulations. » Dans M. Mathews et

J.R. Pierce, eds. Current Directions in Computer Music Research. Cambridge, MA : MIT Press.
p. 105-112.
DOLSON, M. et BOULANGER, R. 1985. New directions in the musical use of resonators. » Manuscrit
inédit.
DONOHO, D. L. et HUO, X. 2001. « Uncertainty principles and ideal atomic decomposition. » IEEE
Transactions on Information Theory 47(7) : 2845-2862.
DOPPLER, C. 1842. Theorie des farbigen Lichtes der Doppelsterne. Prague.
DORF, R. 1958. Electronic Musical Instruments. New York : Radiofile.
DÖRFLER, M., VELASCO, G., FLEXER, A. et KLIEN, V. 2010. « Sparse regression in time-
frequency representations of complex audio. » Proceedings of Sound and Music Computing.
Barcelone, Espagne.
DOUGLAS, A. 1968. The Electronic Musical Instrument Manual. 5e édition. New York : Pitman.
1re édition 1947.
DOUGLAS, A. 1973. Electronic Music Production. New York : Pitman.
DOWLING, W. et HARWOOD, J. 1986. Music Cognition. Orlando : Academic Press.
DRAKE, A. 1967. Fundamentals of Applied Probability Theory. New York : McGraw-Hill.
DUDLEY, H. 1936. « Synthesizing speech. » Bell Laboratories Record, décembre : 98-102.
DUDLEY, H. 1939a. « The vocoder. » Bell Laboratories Record 17 : 122-126.
DUDLEY, H. 1939b. « Remaking Speech. » Journal of the Acoustical Society of America 11 : 167-177.
DUDLEY, H. 1955. « Fundamentals of speech synthesis. » Journal of the Audio Engineering Society
3(4) : 170-185.
DUDLEY, H. et WATKINS, S.A. 1939. « A synthetic speaker. » Journal of the Franklin Institute 227 :
739-764.
DUESENBERRY, J. 1990. « Understanding amplitude modulation. » Electronic Musician 6(11) :
56-65, 124.
DUFFY, C. 1982. « Digital recording: the 3M system. » Studio Sound 24(12) :30-32.
DUMAS, J.-G. et coll. 2007. Théorie des codes : compression, cryptage, correction. » Paris : Dunod.
DUNCAN, A. et ROSSUM, D. 1988. « Fundamentals of pitch-shifting. » Preprint 2714 (A-1). Présenté
DURLACH, N. et COLBURN, H. 1978. « Binaural phenomena. » Dans E. Carterette et M. Friedman,
eds. Handbook of Perception, vol. 4. New York : Academic. p. 365-466.
DUTILLEUX, H., GROSSMANN, A. et KRONLAND-MARTINET, R. 1988. « Application of the wave-
let transform to the analysis, transformation, and synthesis of musical sounds. » Preprint
2727 (A-2). Présenté à la 85e Convention de l’Audio Engineering Society. New York : Audio
EAGLESTONE, B. et OATES, S. 1990. « Analytic tools for group additive synthesis. » Dans S. Arnold et
G. Hair, eds. Proceedings of the 1990 International Computer Music Conference. San Francisco :
ECKEL, G. 1990. « A signal editor for the IRCAM Musical Workstation. » Dans S. Arnold et G. Hair,
eds. Proceedings of the 1990 International Computer Music Conference. San Francisco : Inter-
national Computer Music Association. p. 69-71.
EGAN, J. et HAKE, H. 1950. « On the masking pattern of a simple auditory stimulus. » Journal of
the Acoustical Society of America 22 : 622-630.
BIBLIOGRAPHIE 623
ELAD, M. 2010. Sparse and Redundant Representations : From Theory to Applications in Signal and
Image Processing. New York, NY : Springer.
ELEN, R. 1998. « Ambisonics for the New Millenium. » Internet : http://www.ambisonic.net/
gformat.html
ERBE, T. 1992. SoundHack User’s Manual. Oakland : Mills College.
ERNST, D. 1977. The Evolution of Electronic Music. New York : Schirmer.
EVANGELISTA, G. 1991. « Wavelet transforms that we can play. » Dans G. De Poli, A. Piccialli et
C. Roads, eds. Representations of Musical Signals. Cambridge, MA : MIT Press. p. 119-136.
EVANGELISTA, G. 1992. « Comb and multiplexed wavelet transforms and their applications to signal
processing. » Manuscrit inédit.
EWERT, S., PARDO, B., MULLER, M. et PLUMBLEY, M. 2014. « Score-informed source separation
for musical audio recordings : An overview. » IEEE Signal Processing Magazine 31(5) : 116-
124.
FACTOR, R. et KATZ, S. 1972. « The digital audio delay line. » db Magazine, mai : 18.
FAIRBANKS, G., EVERITT, W. et JAEGER, R. 1954. « Method for time or frequency compression-
expansion of speech. » Institute of Radio Engineers Transactions on Audio AV-2(1) : 7-12.
FEDERKOW, G., BUXTON, W. et SMITH, K. 1978. « A computer-controlled sound distribution
system for performance of electroacoustic music. » Computer Music Journal 2(3) : 33-42.
FELLGETT, P. 1975. « Ambisonics. Part One: General System Description. » Studio Sound 17(8),
août 1975 : p. 20-40.
FERRETTI, E. 1965. « The computer as a tool for the creative musician. » Dans Computers for the
Humanities. New Haven : Yale University Press. p. 107-112.
FERRETTI, E. 1966. « Exploration and organizationof sound with the computer. » Journal of the
Acoustical Society of America 39(6) : 1245.
FERRETTI, E. 1975. « Sound synthesis by rule. » Dans J. Beauchamp et J. Melby, eds. Proceedings
of the Second Annual Music Computation Conference. Urbana, IL : University of Illinois. p. 1-21.
FIGUEIREDO, M., NOWAK, R. et WRIGHT, S.J. 2007. « Gradient projection for sparse
reconstruction : Application to compressed sensing and other inverse problems. » IEEE Jour-
nal of Selected Topics in Signal Processing 1(4) : 586-597.
FINE, R. 1954. « Perspecta – the All-Purpose Recording and Reproducing Sound System. » Inter-
national Projectionist, juillet 1954.
FLANAGAN, J.L. 1972. Speech Analysis, Synthesis, and Perception. New York : Springer-Verlag.
FLANAGAN, J.L. et coll. 1970. « Synthetic voices for computers. » IEEE Spectrum 7(10) : 22-45.
FLANAGAN, J.L. et GOLDEN, R. 1966. « Phase vocoder. » Bell System Technical Journal 45 : 1493-
1509.
FLETCHER, H. 1940a. « Auditory patterns. » Review of Modern Physics 12 : 47-56.
FLETCHER, H. 1940b. « Stereophonic Reproduction from Film. » Bell Laboratories Record, mai 1940.
FLETCHER, H., BLACKHAM, E. et STRATTON, R. 1962. « Quality of piano tones. » Journal of the
Acoustical Society of America 34(6) : 749-761.
FLETCHER, H., BLACKHAM, E. et CHRISTENSEN, D. 1963. « Quality of organ tones. » Journal of
the Acoustical Society of America 35(3) : 314-325.
FLETCHER, H. et MUNSON, W., 1933. « Loudness, its definition, measurement, and calculation. »
Journal of the Acoustical Society of America 5 : 82-108.
FLETCHER, N. et ROSSING, T. 1991. The Physics of Musical Instruments. New York : Springer-Verlag.
FLORENS, J. et CADOZ, C. 1991. « The physical model: modeling and simulating the instrumental
universe. » Dans G. De Poli, A. Piccialli et C. Roads, eds. Representations of Musical Signals.
Cambridge, MA : MIT Press. p. 227-268.
FOSTER, S., SCHLOSS, W.A. et ROCKMORE, A.J. 1982. « Toward an intelligent editor fordigital audio:
signal processing methods. » Computer Music Journal 6(1) : 42-51. Réimprimé dans C. Roads,
ed. 1989. The Music Machine. Cambridge, MA : MIT Press. p. 549-558.
FOURIER, L. 1994. « Jean-Jacques Perrey and the Ondioline. » Computer Music Journal 18(4) : 18-25.
FOURRÉ, R., SCHWARZENBACH, S. et POWERS, R. 1990. « 20 bit evolution. » Studio Sound 32(5) :
32-36.
FRAMJEE, P.F. 1958. Text Book of Indian Music. Hathras : Sakhi Prakashan.
FREED, A. et GOLDSTEIN, M. 1988. « MacMix: professional sound recording, editing, processing,
and mixing software for the DYAXIS digital audio system. » Menlo Park, CA : Studer Editech.
FREEDMAN, M.D. 1965. « A technique for analysis of musical instrument tones. » Ph.D disserta-
tion. Urbana, IL : University of Illinois.
FREEDMAN, M.D. 1967. « Analysis of musical instrument tones. » Journal of the Acoustical Society
of America 41 : 793-806.
FRIEDMAN, J.H. et TUKEY, J.W. 1974. « A projection pursuit algorithm for exploratory data
analysis. » IEEE Transactions on Computation C-23(9) : 881-890.
FRY, C. 1992. « MidiVox Voice-to-MIDI converter. » Computer Music Journal 16(1) : 94-95.
GABOR, D. 1946. « Theory of communication. » Journal of the Institute of Electrical Engineers,
Part 3, 93 : 429-457.
GABOR, D. 1947. « Acoustical quanta and the theory of hearing. » Nature 159(1044) : 591-594.
GABOR, D. 1947. « Acoustical quanta and the theory of hearing. » Nature 159(4044) : 591-594.
GABOR, D. 1952. « Lectures on communication theory. » Technical Report 238, Research Laboratory
of Electronics. Cambridge, Massachusetts : Massachusetts Institute of Technology.
GALAS, T. et RODET, X. 1990. « An improved cepstral method for deconvolution of source-filter
systems with discrete spectra : application to musical signals. » Dans S. Arnold et G. Hair, eds.
Proceedings of the 1990 International Computer Music Conference. San Francisco : International
GANDOLFI, A. 2002. Techniques audio appliquées au mixage cinéma. Paris : Dunod.
GARDNER, T.J. et M.O. 2006. « Sparse time-frequency representations. » Proceedings of the
National Academy of the Sciences 103(16) : 6094-6099.
GARNETT, G. 1987. « Modeling piano sound using waveguide digital filtering techniques. » Dans
J. Beauchamp, ed. Proceedings of the 1987 International Computer Music Conference. San
Francisco : International Computer Music Association. p. 89-95.
GARNETT, G. 1991. « Music, signals, and representations: a survey. » Dans G. De Poli, A. Piccialli
et C. Roads, eds. Representations of Musical Signals. Cambridge, MA : MIT Press. p. 325-369.
GARNETT, G. et MONT-REYNAUD, B. 1988. « Hierarchical waveguide networks. » Dans C. Lischka
et J. Fritsch, eds. Proceedings of the 1988 International Computer Music Conference. San
GARITY, W.E. et HAWKINS, J.N.A. 1941 « Fantasound. ». Journal of the Society of Motion Picture
Engineers. Août 1941.
GARITY, W.E. et JONES, W. 1942 « Experiences in Road-Showing Walt Disney’s Fantasia. ». Jour-
nal of the Society of Motion Picture Engineers. Juillet 1942.
BIBLIOGRAPHIE 625
GARTON, B. 1992. « Virtual performance modeling. » Dans A. Strange, ed. Proceedings of the 1992
GEORGE, E. et SMITH, M. 1992. « Analysis-by-synthesis/overlap-add sinusoidal modeling applied to
the analysis and synthesis of musical tones. » Journal of the Audio Engineering Society 40(6) :
497-516.
GERZON, M. 1973. « Periphony: with-height sound reproduction. » Journal of the Audio Engineering
Society 21(3).
GERZON, M. 1975. « Ambisonics. Part Two: Studio Techniques. » Studio Sound 17(8) août 1975 :
p. 24-30, et 17(10) octobre 1975 : p. 60.
GERZON, M. 1985. « Ambisonics in Multichannel Broadcasting and Video. » Journal of the Audio
Engineering Society 33(11), novembre 1985 : p. 859-871.
GERZON, M. 1990. « Why do equalisers sound different? » Studio Sound 32(7) : 58-65.
GERZON, M. 1991. « Super-resolving short-term spectral analyzers. » Preprint 3174 (T-5). Présenté
GERZON, M. et BARTON, G. 1992 « Ambisonics Decoders for HDTV. » Article présenté lors de la
92e Convention de l’Audio Engineering Society, Vienne, Autriche. 24-27 mars 1992.
GISH, W. 1978. « Analysis and synthesis of musical instrument tones. » Preprint 1410. Présenté à
la 61e Convention de l’Audio Engineering Society. New York : Audio Engineering Society.
GISH, W. 1992. « Multistage signal analysis. » Dans A. Strange, ed. Proceedings of the 1992 Interna-
tional Computer Music Conference. San Francisco : International Computer Music Association.
p. 387-388.
GJERDINGEN, R. 1988. « Shape and motion in the microstructure of song. » Music Perception 6(1) :
35-64.
GLASER, E. et RUCHKIN, D. 1976. Principles of Neurobiological Signal Analysis. Orlando : Academic
Press.
GLEICK, J. 1988. Chaos. London : Cardinal.
GOEDDEL, T. et BASS, S. 1984. « High-quality synthesis of musical voices in discrete time. » IEEE
Transactions on Acoustics, Speech, and Signal Processing ASSP-32(3) : 623-633.
GOLD, B. 1962. « A computer program for pitch extraction. » Journal of the Acoustical Society of
America 34 : 916.
GOLDBERG, D. 1989. Genetic Algorithms in Search, Optimization, and Machine Learning. Reading,
MA : Addison-Wesley.
GOLDSTEIN, J. 1973. « An optimum processor theory for the central formation of the pitch of
complex tones. » Journal of the Acoustical Society of America 54(6) : 1496-1516.
GOODWIN, M.M. 1997. Adaptive Signal Models : Theory, Algorithms, and Audio Applications.
Thèse de doctorat. Berkeley, CA : University of California, Berkeley.
GOODWIN, M.M. et VETTERLI, M. 1999. « Matching pursuit and atomic signal models based on
recursive filter banks. » IEEE Transactions on Signal Processing vol. 47 (juillet 1999) : 1890-
1902.
GORDON, J.W. 1984. « Perception of attack transients in musical tones. » Department of Music
Report Number STAN-M-17. Stanford : Stanford University.
GORDON, J. et GREY, J. 1977. « Perception of spectral modifications on orchestral instrument
tones. » Computer Music Journal 2(1) : 24-31.
GORDON, J. et STRAWN, J. 1985. « An introduction to the phase vocoder ». Dans J. Strawn, ed.
Digital Audio Signal Processing : An Anthology. Madison : A-R Éditions. p. 221-270.
GREENSPUN, P. 1984. « Audio analysis I: phase correction for digital systems. » Computer Music
Journal 8(4) : 13-19.
GREINER, R. et MELTON, D. 1991. « Observations on the audibility of acoustic polarity. » Preprint
3170-( K-4). Présenté à la 91e Convention de l’Audio Engineering Society, 4-8 octobre 1991,
New York. New York : Audio Engineering Society.
GREY, J. 1975. « An exploration of musical timbre. » Report STAN-M-2. Stanford University
Department of Music.
GREY, J. 1978. « Timbre discrimination in musical patterns. » Journal of the Acoustical Society of
America 64 : 467-472.
GREY, J. et GORDON, J. 1978. « Perceptual effects of spectral modifications on musical timbres. »
GRIBONVAL, R. 1999. Approximations non-linéaires pour l’analyse des signaux sonores. Thèse de
doctorat. Paris, France : Université de Paris IX Dauphine.
GRIBONVAL, R. 2001. « Fast matching pursuit with a multiscale dictionary of Gaussian chirps. »
IEEE Transactions on Signal Processing 49(5) : 994-1001.
GRIBONVAL, R. 2002. « Sparse decomposition of stereo signals with matching pursuit and appli-
cation to blind separation of more than two sources from a stereo mixture. » Proceedings of
the International Conference on Audio, Speech, and Signal Processing. Orlando, Fl. pp. 3057-
3060.
GRIBONVAL, R. et BACRY, E. 2003. « Harmonic decompositions of audio signals with matching
pursuit. » IEEE Transactions on Signal Processing 51(1) : 101-111.
GROGONO, P. 1984. « Brief history of EMS. » Manuscrit inédit.
GROSSMAN, G. 1987. « Instruments, cybernetics, and music. » Dans J. Beauchamp, ed. Proceedings
GUTTMAN, N. 1980. Communication personnelle.
HAIDANT, L. 2001. Guide pratique du son surround. Paris : Dunod.
HAIDANT, L. 2002. Prise de son et mixage en surround 5.1. Paris : Dunod.
HALL, H. 1937. « Sound analysis. » Journal of the Acoustical Society of America 8 : 257-262.
HALLER, H.P. 1980. « Live-Elektronik. » Dans Teilton Schriftenreihe der Heinrich-Strobel-Stiftung
des Südwestfunks. Kassel : Barenreiter-Verlag. p. 41-46.
HAMMING, R. 1987. Numerical Methods for Scientists and Engineers. Dover.
HANERT, J. 1944. Brevet américain n° 2 498 367. (Proposition d’un système produisant un effet
chorus.)
HANERT, J. 1945. « Electronic musical apparatus (L-C delay line with variable inductors for post
source vibrato processing). » Brevet américain n° 2 382 413.
HANERT, J. 1946. Brevet américain n° 2 509 923. (Système fabriqué pour produire un effet cho-
rus.)
HANSEN, E. 1975. A Table of Series and Products. Englewood Cliffs : Prentice-Hall.
HARADA, T., SATO, A., HASHIMOTO, S. et OHTERU, S. 1992. « Real-time control of 3D space by
gesture.» Dans A. Strange, ed. Proceedings of the 1992 International Computer Music Conference.
BIBLIOGRAPHIE 627
HARRIS, F. 1978. « On the use of windows for harmonic analysis with the discrete Fourier
transform. » Proceedings of the IEEE 66(1) : 51-83.
HARTMAN, W.H. 1978. « Flanging and phasers. » Journal of the Audio Engineering Society 26(6) :
439-443.
HAUS, G. 1983. « EMPS: A system for graphic transcriptionof electronic music scores. » Computer
HAUSER, M. 1991. « Principles of oversampling A/D conversion. » Journal of the Audio Engineering
Society 39(1-2) : 3-21.
HAWKINS, T., Jr. et STEVENS, S. 1950. « Masking of pure tones and speech by white noise. » Journal
of the Acoustical Society of America 22 : 6-13.
HEBEL, K. 1987. « Javelina: an environment for the development of software for digital signal
processing. » Dans J. Beauchamp, ed. Proceedings of the 1987 International Computer Music
HEBEL, K. 1989. « Javelina: an environment for digital signal processing. » Computer Music Journal
13(2) : 39-47.
HELMHOLTZ, H. 1863. On the Sensations of Tone as a Physiological Basis for the Theory of Music.
Reprinted 1954, A. Ellis, trans. New York : Dover.
HELMHOLTZ, H. 1885. The Sensations of Tone. Translated by A. Ellis. Reprinted 1954. New York :
Dover.
HELSTROM, C. 1966. « An expansion of a signal in Gaussian elementary signals. » IEEE Transactions
on Information Theory IT-12 : 81-82.
HERMES, D. 1992. « Pitch analysis. » Dans M. Cooke et S. Beet, eds. Visual Representations of Speech
Signals. New York : John Wiley and Sons.
HESS, W. 1983. Pitch Determination of Speech Signals: Algorithms and Devices. Berlin : Springer-
Verlag.
HEUSDENS, R., VAFIN, R. et KLEIJN, W.B. 2002. « Sinusoidal modeling using psychoacoustic-
adaptive matching pursuits. » IEEE Signal Processing Letters 9(8) : 262-265.
HICKMAN, W. 1984. Time Code Handbook. Boston : Cipher Digital.
HILLER, L. et BEAUCHAMP, J. 1967. « Review of completed and proposed research on analysis
and synthesis of musical sounds by analog and digital techniques. » Technical Report 19.
Urbana, IL : University of Illinois Experimental Music Studio.
HILLER, L. et ISAACSON, L. 1959. Experimental Music. New York : McGraw-Hill.
HILLER, L. et RUIZ, P. 1971. « Synthesizing sounds by solving the wave equation for vibrating
objects. » Journal of the Audio Engineering Society 19 : 463-470, 542-551..
HIRSCHMAN, S. 1991. « Digital waveguide modeling and simulation of reed woodwind
instruments. » Engineer thesis. Stanford : Stanford University Department of Electrical Engi-
neering.
HIRSCHMAN, S., COOK, P. et SMITH, J. 1991. « Digital waveguide modelling of reed woodwinds:
an interactive development. Dans B. Alphonce et B. Pennycook, eds. Proceedings of the 1991
HOLLOWAY, B. et HAKEN, L. 1992. « A sinusoidal synthesis algorithm for generating transitions
between notes. » Dans A. Strange, ed. Proceedings of the 1992 International Computer Music
HOLM, F. 1992. « Understanding FM implementations: a call for common standards. » Computer
HOLM-HUDSON, K. 1997. « Quotation and Context : Sampling and John Oswald’s

Plunderphonics. » Leonardo Music Journal 7 : 17-25.
HOLMAN, T. 1997. Sound for Film and Television. Burlington, MA : Focal Press.
HOLMAN, T. 2000. 5.1 Surround Sound: Up and Running. Burlington, MA : Focal Press.
HOLTZMAN, S. 1980. « Non-uniform time-scale modification of speech. » M. Sc. and E.E. thesis.
Cambridge, MA : MIT Department of Electrical Engineering and Computer Science.
HOLTZMAN, S.R. 1977. « A program for key determination. » Interface 6 : 29-56.
HOLTZMAN, S.R. 1979. « An automated synthesis instrument. » Computer Music Journal 3(3) : 53-
61.
HORNER, A., BEAUCHAMP, J. et HAKEN, L. 1992. « Wavetable and FM matching synthesis of
musical instrument tones. » Dans A. Strange, ed. Proceedings of the 1992 International Com-
puter Music Conference. San Francisco : International Computer Music Association. p. 18-21.
HORNER, A., BEAUCHAMP, J. et HAKEN, L. 1993. « Methods for multiple wavetable synthesis of
musical instrument tones. » Journal of the Audio Engineering Society 41(5) : 336-356.
HOU, S. 1969. « Review of modal synthesis techniques and a new approach. » Shock and Vibration
Bulletin, US Naval Laboratories Proceedings 40(4) : 25-39.
HOWE, H.S., Jr. 1975. Electronic Music Synthesis. New York : Norton.
HUBER, P.J. 1985. « Projection pursuit. » The Annals of Statistics 13(2) : 435-475.
HULL, J. 1999. Surround Sound Past, Present and Future. Dolby Laboratories Inc. Internet :
http://www.dolby.com/assets/pdf/tech_library/2_Surround_Past.Present.pdf
HURTY, W. et RUBENSTEIN, M. 1964. Dynamics of Structures. Englewood Cliffs : Prentice-Hall.
HUSH, D. et coll. 1986. « An adaptive IIR structure for sinusoidal enhancement, frequency estima-
tion, and detection. » IEEE Transactions on Acoustics, Speech, and Signal Processing 34(6) :
1380-1390.
HUTCHINS, B. 1973. « Experimental electronic music devices employing Walsh functions. » Journal
HUTCHINS, B. 1975. « Application of real-time Hadamard transform network to sound synthesis. »
Journal of the Audio Engineering Society 23 : 558-562.
HUTCHINS, B. 1982-1988. Various tutorials, appplication notes, and code listings published in
Electronotes.(1 Pheasant Lane, Ithaca, NY 14850.)
HUTCHINS, B. 1984. « Special issue D: A review of Fourier methods in signal processing and
musical engineering. » Electronotes 15 (155-160) : 2.
HUTCHINS, B. 1986a. « Interpolation, decimation, and prediction of digital signals. » Electronotes
15(164-167) : 3-46.
HUTCHINS, B. et KU, W. 1982. « A simple hardware pitch extractor. » Journal of the Audio Enginee-
ring Society 30(3) : 135-139.
HUTCHINS, B., PAROLA, D. et LUDWIG, L. 1982. « A pitch extraction scheme based on Hilbert
transformations. » Electronotes 14(136).
HUTCHINS, C. 1978. The Physics of Music. San Francisco : W.H. Freeman.
HYPERCEPTION. 1992. Hypersignal. Computer software. Dallas : Hyperception.
INA/GRM. 1993. « GRM Tools. ». Paris : Institut National de l’Audiovisuel/Groupe de Recherches
Musicales.
INGEBRETSEN, R. et STOCKHAM, T. 1984. « Random access editing of digital audio. » Journal of
the Audio Engineering Society 32.
BIBLIOGRAPHIE 629
INSAM, E. 1974. « Walsh functions in waveform synthesis. » Journal of the Audio Engineering Society
22 : 422-425.
IOVINO, F. 1993. Chant-PatchWork Manual. Paris : IRCAM.
IWAMURA, H., HAYASHI, H., MIYASHITA, A. et ANAZAWA, T. 1973. « Pulse-code-modulation
Recording System. » Journal of the Audio Engineering Society 21(7) : 535-541.
JAFFE, D. 1989. « From the classical software synthesis note-list to the NeXT scorefile. » Redwood
City, CA : NeXT Computer, Inc.
JAFFE, D. et BOYNTON, L. 1989. « An overview of the sound and music kits for the NeXT computer. »
JAFFE, D. et SMITH, J. 1983. « Extensions of the Karplus-Strong plucked string algorithm. »
JANER, J., HERE, M., ROMA, G., FUJISHIMA, T. et KOJIMA, N. 2009. « Sound Object Classifica-
tion for Symbolic Audio Mosaicing : A Proof-of-concept. » Proceedings of the Sound and
Music Computing Conference. Porto, Portugal. pp. 297-302.
JANSE, P. et KAIZER, A. 1983. « Time-frequency distributions of loudspeakers: the application of
the Wigner distribution. » Journal of the Audio Engineering Society 31-(4) : 198-223.
JANSE, P. et KAIZER, A. 1984. « The Wigner distribution: a valuable tool for investigating transient
distortion. » Journal of the Audio Engineering Society 32 : 868-882.
JANSEN, C. 1991. « Sine Circuitu: 10,000 high-quality sine waves without detours.» Dans B. Alphonce
et B. Pennycook, eds. Proceedings of the 1991 International Computer Music Conference. San
JEFFRESS, L. 1970. « Masking. » Dans J. Tobias, ed. Foundations of Modern Auditory Theory,
Vol. 1. Orlando : Academic Press. p. 85-114.
JEHAN, T. 2004. « Event-synchronous Music Analysis/Synthesis. » Proceedings of the COST-G6
Conference on Digital Audio Effects. Naples, Italie. pp. 1-6.
JEHAN, T. 2010. « Creating Music by Concatenative Synthesis. » Brevet US 7,842,874 Washington :
U. S. Patent Office.
JENNY, G. 1958. « L’Ondioline : conception et réalisation. » Paris : Toute la Radio.
JONES, D. et PARKS, T. 1988. « Generation and combination of grains for music synthesis. »
JONES, K. 1981. « Compositional applications of stochastic processes. » Computer Music Journal

5(2) : 45-61. Réimprimé dans C. Roads, ed. 1989. The Music Machine. Cambridge, MA : MIT
Press. p. 381-398.
JUSTICE, J. 1979. « Analytic signal processing in music computation. » IEEE Transactions on
KAEGI, W. 1973. « A minimum description of the linguistic sign repertoire (part 1). » Interface 2 :
141-156.
KAEGI, W. 1974. « A minimum description of the linguistic sign repertoire (part 2). » Interface 3 :
137-158.
KAEGI, W. et TEMPELAARS, S. 1978. « VOSIM – a new sound synthesis system. » Journal of the
KAISER, J. 1963. « Design methods for sampled data filters. » Proceedings of the First Annual Allerton
Conference on Circuit Systems Theory. Réimprimé dans L. Rabiner et C. Rader, eds. 1972.
Digital Signal Processing. New York : IEEE Press. p. 20-34.
KARJALAINEN, M., LAINE, U., LAAKSO, T. et VÄLIMÄKI, V. 1991. « Transmission-line modeling

and real-time synthesis of string and wind instruments. » Dans B. Alphonce et B. Pennycook,
eds. Proceedings of the 1991 International Computer Music Conference. San Francisco :
KARPLUS, K. et STRONG, A. 1983. « Digital synthesis of plucked string and drum timbres. »
Computer Music Journal 7(2) : 43-55. Réimprimé dans C. Roads, ed. 1989. The Music
Machine. Cambridge, MA : MIT Press. p. 467-480.
KASHINO, K. et TANAKA, H. 1993. « A sound source separation system with the ability of automatic
tone modeling. » Dans S. Ohteru, ed. Proceedings of the 1993 International Computer Music
KATAYOSE, H. et INOKUCHI, S. 1989. « The Kansei music system. » Computer Music Journal 11(4) :
72-77.
KATAYOSE, H., TAKAMI, K., FUKUOKA, T. et INOKUCHI, S. 1989. « Music interpreter in the Kansei
Music System. » Dans T. Wells et D. Butler, eds. Proceedings of the 1989 International Computer
KAY, S. et MARPLE, S. 1981. « Spectrum analysis – a modern perspective. » Proceedings of the
Institute of Electrical and Electronics Engineers 69(11) : 1380-1419.
KEEFE, D. 1992. « Physical modeling of wind instruments. » Computer Music Journal 16(4) : 57-73.
KEELE, D. 1973. « The design and use of a simple pseudorandom pink-noise generator. » Journal
KELLER, A. 1981. « Early hi-fi and stereo recording at Bell Laboratories (1931-1932). » Journal of
the Audio Engineering Society 29(4) : 274-280.
KELLY, J. et LOCHBAUM, C. 1962. « Speech synthesis. » Proceedings of the Fourth International
Congress on Acoustics. Paper G42 : 1-4.
KENDALL, G. et MARTENS, W. 1984. « Simulating the cues of spatial hearing in natural
environments. » Dans D. Wessel, ed. 1984. Proceedings of the 1984 International Computer
KENDALL, G., MARTENS, W., FREED, D., LUDWIG, D. et KARSTENS, R. 1986. « Spatial processing
softxware at Northwestern Computer Music. » Dans P. Berg, ed. Proceedings of the 1986 Inter-
national Computer Music Conference. San Francisco : International Computer Music Associa-
tion. p. 285-292.
KENDALL, G., MARTENS, W. et DECKER, S. 1989. « Spatial reverberation : discussion and
demonstration. » Dans M. Mathews et J.R. Pierce, eds. 1989. Current Directions in Computer
Music Research. Cambridge, MA : MIT Press. p. 65-87.
KERELIUK, C., 2012. Sparse and Structured Atomic Modeling of Audio. Thèse de doctorat. McGill,
Montréal : McGill University.
KERELIUK, C. et DEPALLE, P. 2011. « Sparse atomic modeling of audio : A review. » Proceedings of
Digital Audio Effects. Paris, France. pp. 81-92.
KERELIUK, C. et DEPALLE, P. 2013. « Analysis/Synthesis Using Time-Varying Windows and
Chirped Atoms. » Proceedings of Digital Audio Effects. Maynooth, Irlande. pp. 1-6.
KERSTEN, S. et PURWINS, H. 2012. « Sparse Decomposition, Clustering and Noise for Fire
Texture Sound Re-Synthesis. » Proceedings of Digital Audio Effects. York, UK. pp. 1-5.
KIANG, N. et MOXON, E. 1972. « Physiological considerations in artificial stimulation of the inner
ear. » Annals of Otolology, Rhinology, and Laryngology 81 : 714-730.
KLECZKOWSKI, P. 1989. « Group additive synthesis. » Computer Music Journal 13(1) : 12-20.
BIBLIOGRAPHIE 631
KNUTH, D., 1973a. The Art of Computer Programming, Vol. 1: Fundamental Algorithms. Seconde
édition. Reading, MA : Addison-Wesley.
KNUTH, D., 1974. « Structured programming with goto statements. » ACM Computing Surveys 6 :
260-301.
KOBRIN, E. 1977. Computer in performance. Berlin : DAAD.
KOENIG, G.M. 1957. Essay. Composition for electronic sounds. Score. Vienna : Universal Edition.
KOENIG, G.M. 1959. « Studium im Studio. » die Reihe 5.
KOENIG, G.M. 1962. « Commentary. » die Reihe 8.
KOENIG, G.M. 1970a. « Project 1: a programme for musical composition. » Electronic Music Reports
2 : 32-44. (Réimprimé en 1977, Amsterdam : Swets and Zeitlinger).
KOENIG, G.M. 1970b. « Project 2: a programme for musical composition. » Electronic Music Reports
3 : 1-16. (Réimprimé en 1977, Amsterdam : Swets and Zeitlinger).
KOENIG, R. 1899. Articles dans Annalen der Physik 69 : 626-660, 721-738. Cités dans Miller 1916,
1935.
KOENIG, W., et coll. 1946. « The sound spectrograph. » Journal of the Acoustical Society of America
18 : 19-49.
KOENIGSBERG, C. 1996. « Some Thoughts on Modular Analog Synthesis and Interface. » World
Wide Web.
KOSTELANETZ, R. (dir.). 1970. John Cage. New York, NY : Praeger.
KRONLAND-MARTINET, R. 1988. « The wavelet transform for the analysis, synthesis, and pro-
cessing of speech and music sounds. » Computer Music Journal 12(4) : 11-20.
KRONLAND-MARTINET, R. et GROSSMANN, A. 1991. « Application of time-frequency and time-
scale methods (wavelet transforms) to the analysis, synthesis and transformation of natural
sounds. » Dans G. De Poli, A. Piccialli et C. Roads, eds. Representations of Musical Signals.
KRSTULOVIC, S. et GRIBONVAL, R. 2006. « MPTK : Matching pursuit made tractable. » Proceed-
ings of the International Conference on Audio, Speech, and Signal Processing. Toulouse, France.
pp. 496-499.
KUHN, W. 1990. « A real-time pitch recognition algorithm for music applications. » Computer Music
Journal 14(3) : 60-71.
KUNT, M. 1981. Traitement numérique des signaux. Paris : Dunod.
KUSSMAUL, C. 1991. « Applications of the wavelet transform at the level of pitch contour. » Dans
B. Alphonce et B. Pennycook, eds. Proceedings of the 1991 International Computer Music
LAGADEC, R. 1983. « Digital sampling frequency conversion. » Dans B. Blesser, B. Locanthi et
T. Stockham, eds. Digital Audio. New York : Audio Engineering Society. p. 90-96.
LAGADEC, R. et PELLONI, D. 1983. « Signal enhancement via digital signal processing. » Preprint
2037 (G-6). Présenté à la 74e Convention de l’Audio Engineering Society. New York : Audio
LANE, J. 1990. « Pitch detection using a tunable IIR filter. » Computer Music Journal 14(3) : 46-59.
LANE, J., et coll. 1997. « Modeling analog synthesis with DSPs. » Computer Music Journal 21(4) :
23-41.
LANSKY, P. 1982. « Digital mixing and editing. » Princeton : Godfrey Winham Laboratory, Depart-
ment of Music, Princeton University.
LANSKY, P. 1987. « Linear prediction: the hard but interesting way to do things. » Dans J. Strawn,
ed. Proceedings of the Fifth International Conference : Music and Digital Technology. New York :
Audio Engineering Society.
LANSKY, P. 1989. « Compositional applications of linear predictive coding. » Dans M. Mathews et
J. Pierce, eds. Current Directions in Computer Music Research. Cambridge, MA : MIT Press.
p. 5-8.
LANSKY, P. 1990a.»Cmix.» Princeton : Godfrey Winham Laboratory, Department of Music, Princeton
University.
LANSKY, P. 1990b. « It’s about time: some NeXT perspectives (part two). » Perspectives of New Music
28(1) : 170-179.
LANSKY, P. 1990c. « The architecture and musical logic of Cmix. » Dans S. Arnold et G. Hair, eds.
LANSKY, P. et STEIGLITZ, K. 1981. « Synthesis of timbral families by warped linear prediction. »
Computer Music Journal 5(3) : 45-49. Réimprimé dans C. Roads, ed. 1989. The Music Machine.
LAROCHE, J. 1989a. « Étude d’une système d’analyse et de synthèse utilisant la méthode de Prony :
application aux instrument de musique de type percussif. » Thèse de doctorat. Paris : École
Nationale Supérieure des Télécommunications.
LAROCHE, J. 1989b. « A new analysis/synthesis system based on the use of Prony’s method. Appli-
cation to heavily damped percussive sounds. » Proceedings of the International Conference on
Acoustics, Speech, and Signal Processing. New York : Institute of Electrical and Electronics
Engineers.
LAROCHE, J. et RODET, X. 1989. « The use of Prony’s method for the analysis of musical sounds:
applications to percussive sounds. » Dans T. Wells et D. Butler, eds. Proceedings of the 1989
International Computer Music Conference. San Francisco : International Computer Music Asso-
ciation. p. 168-171.
LASSFOLK, K. 1996. « Simulation of electron tube audio circuits. » Dans D. Rossiter, ed. 1996. Pro-
ceedings of the 1996 International Computer Music Conference. San Francisco : International
LAYZER, A. 1971. « Some idiosyncratic aspects of computer synthesized sound. » Proceedings of
the Sixth ASUC Conference. New York : American Society of University Composers. p. 27-39.
LEBRUN, M. 1977. « A derivation of the spectrum of FM with a complex modulating wave. » Com-
puter Music Journal 1(4) : 51-52. Réimprimé dans C. Roads et J. Strawn, eds. 1985. Foundations
of Computer Music. Cambridge, MA : MIT Press. p. 65-67.
LEBRUN, M. 1979. « Digital waveshaping synthesis. » Journal of the Audio Engineering Society
27(4) : 250-266.
LEE, F. 1972. « Time compression and expansion of speech by the sampling method. » Journal of
LEIBIG, B. 1974. Documentation on Music V for the Burroughs B6700 computer. La Jolla : Depart-
ment of Music, University of California, San Diego.
LEMOUTON, S. 1993. « CHANT-Macintosh. » Manuscrit inédit.
LERDAHL, F. et JACKENDOFF, R. 1983. A Generative Theory of Tonal Music. Cambridge, MA : MIT
Press.
LESBROS, V. 1993. Phonogramme. Logiciel informatique.
BIBLIOGRAPHIE 633
LEVEAU, P., VINCENT, E., RICHARD, G. et DAUDET, L. 2008. « Instrument-specific harmonic

atoms for mid-level music representation. » IEEE Transactions on Audio, Speech and
Language Processing 16(1) : 116-128.
LEWICKI, M.S. 2002. « Efficient coding of natural sounds. » Nature Neuroscience 5(4) : 356-363.
LICKLIDER, J.C.R. 1950. « Intelligibility of amplitude-dichotomized time quantized speech waves. »
LICKLIDER, J. 1951. « A duplex theory of pitch perception. » Experimentia 7 : 128-133.
LICKLIDER, J. 1959. « Three auditory theories. » Dans S. Koch. Psychology : A Study of Science, vol. 1.
New York : McGraw-Hill. p. 41-144.
LINK, B. 1992. « A real-time waveguide toolkit. » Dans A. Strange, ed. Proceedings of the 1992 Inter-
tion. p. 396-397.
LINDEMANN, E. 2007. « Music Synthesis with Reconstructive Phrase Modeling. » IEEE Signal
Processing Magazine 24(2) : 80-91.
LINDSAY, A.T., PARKES, A.P. et FITZGERALD, R.A. 2003. « Descriptor-driven context-sensitive
effects. » Proceedings of the COST-G6 International Conference on Digital Audio Effects.
Londres, Royaume-Uni. pp. 350-353.
LINSTER, C. 1992. « On analyzing and representing musical rhythm. » Dans M. Balaban, K. Ebcioglu
et O. Laske, eds. Understanding Music with AI. Cambridge, MA and Menlo Park, CA : MIT Press
and AAAI Press. p. 415-427.
LIPSHITZ, S., WANNAMAKER, R. et VANDERKOOY, J. 1992. « Quantization and dither: a theoretical
survey. » Journal of the Audio Engineering Society 40(5) : 355-375.
LOESCHER, F.A. 1959. « The active loudspeaker. » Gravesaner Blätter 14 : 7-9.
LOESCHER, F.A. 1960. « The problem of the secondary electro-acoustical transducers. » Gravensaner
Blätter 18 : 53-60.
LOHNER, H. 1986. « The UPIC system: a user’s report. » Computer Music Journal 10(4) : 42-49.
Reprinted 1987 in Musik-Konzepte 54/55 : 71-82.
LONGUET-HIGGINS, H.C. 1976. « The perception of melodies. » Nature 263 : 646-653. Réimprimé
dans H.C. Longuet-Higgens. 1987. Mental Processes. Cambridge, MA : MIT Press.
LONGUET-HIGGINS, H.C. 1987. Mental Processes. Cambridge, MA : MIT Press.
LONGUET-HIGGINS, H.C. et LEE, C.S. 1983. « The rhythmic interpretation of monophonic music. »
Dans J. Sundberg, ed. 1983. Studies in Musical Performance 39. Stockholm : Royal Swedish
Academy of Music. p. 7-26.
LORRAIN, D. 1980. « A panoply of stochastic ‘cannons’. » Computer Music Journal 4(1) : 53-81.
Réimprimé dans C. Roads. 1989. The Music Machine. Cambridge, MA : MIT Press. p. 351-379.
LOUGHLIN, P., ATLAS, L. et PITTON, J. 1992. « Advanced time-frequency representations for
speech processing. » Dans M. Cooke et S. Beet, eds. Visual Representations of Speech Signals.
New York : J. Wiley.
LOY, D.G. 1985b. « About AUDIUM: a conversation with Stanley Shaff. » Computer Music Journal
9(2) : 41-48.
LOY, D.G. 1989a. « Composing with computers – a survey of some compositional formalisms and
music programming languages. » Dans M. Mathews et J.R. Pierce, eds. Current Directions in
Computer Music Research. Cambridge, MA : MIT Press. p. 292-396.
LUCE, D. 1963. « Physical correlates of nonpercussive instrument tones. » Sc.D. dissertation.
Cambridge, MA : MIT Department of Physics.
LUMINET, J.-P. 1996. « Musique avec pulsar obligé (À propos du Noir de l’Étoile, de Gérard Grisey). »
Internet : darc.obspm.fr/~luminet/Art/musique.html.
LUNDÉN, P. et UNGVARY, T. 1991. « MacSonogram: a programme to produce large scale sonograms
for musical purposes. » Dans B. Alphonce et B. Pennycook, eds. Proceedings of the 1991 Inter-
tion. p. 554-554C.
LYON, R. et DYER, L. 1986. « Experiments with a computational model of the cochlea. » Proceedings
of the International Conference on Acoustics, Speech, and Signal Processing, Tokyo. New York :
IEEE. p. 1975-1978.
LYON, R. F., REHN, M., BENGIO, S., WALTERS, T.C. et CHECHIK, G. 2010. « Sound retrieval and
ranking using sparse auditory representations. » Neural Computation 22(9) : 2390-2416.
MAESTRE, E., RAMIREZ, R., KERSTEN, S. et SERRA, X. 2009. « Expressive Concatenative Syn-
thesis by Reusing Samples from Real Performance Recordings. » Computer Music Journal
33(4) : 23-42.
MAHER, R. 1990. « Evaluation of a method for separating digitized duet signals. » Journal of the
MAHER, R. 1992. « On the nature of granulation noise in uniform quantization systems. » Journal
of the Audio Engineering Society 40(1/2) : 12-20.
MAHER, R. et BEAUCHAMP, J. 1990. « An investigation of vocal vibrato for synthesis. » Applied
Acoustics 30 : 219-245.
MAILLARD, B. 1976. « Sur la modulation de fréquence. » Cahiers recherche/musique 3 : 179-204.
MAKHOUL, J. 1975. « Linear prediction: a tutorial review. » Proceedings of the Institute for Electrical
and Electronic Engineers 63 : 561-580.
MALHAM, D. 1998. « Spatial Hearing Mechanisms and Sound Reproduction. » Internet :
http://www.york.ac.uk/inst/mustech/3d_audio/ambis2.htm
MALLAT, S. 1989. « A theory of multiresolution signal decomposition : the wavelet representation.
« IEEE Transactions on Pattern Analysis and Machine Intelligence 11(7) : 674-693.
MALLAT, S. 2009. A Wavelet Tour of Signal Processing : The Sparse Way. Amsterdam, Pays-Bas :
Academic Press, Elsevier.
MALLAT, S. et ZHANG, Z. 1993. « Matching pursuits with time-frequency dictionaries. » IEEE
Transactions on Signal Processing 41(12) : 3397-3415.
MALT, M. 1993. PatchWork Introduction Paris : IRCAM.
MANJUNATH, B.S., SALEMBIER, P. et SIKORA, T. (dir.). 2002. Multimedia Content Description
Interface. New York, NY : Wiley, John and Sons, Inc.
MANZAGOL, P.-A., BERTIN-MAHIEUX, T. et ECK, D. 2008. « On the use of sparse time-relative
auditory codes for music. » Proceedings of the International Society on Music Information
Retrieval. Philadelphia, PA. pp. 603-608.
MARINO, G., RACZINSKI, J.-M. et SERRA, M.-H. 1990. « The new UPIC system. » Dans S. Arnold
et G. Hair, eds. Proceedings of the 1990 International Computer Music Conference. San Francisco :
MARINO, G., SERRA, M.-H. et RACZINSKI, J.-M. 1992. « The UPIC system, origins and innovations.»
Perspectives of New Music.
MARKEL, J. 1972. « Digital inverse filtering – a new tool for formant trajectory tracking. » IEEE
Transactions on Audio and Acoustics AU-20(5) : 367-377.
MARKEL, J. et GRAY, A., Jr. 1976. Linear Prediction of Speech. New York : Springer.
BIBLIOGRAPHIE 635
MARPLE, S.L. 1987. Digital Spectral Analysis. Englewood Cliffs : Prentice-Hall.

MARTIRANO, S. 1971. « An electronic music instrument which combines the composing process
with performance in real time. » Progress Report 1. Department of Music. Urbana, IL Univer-
sity of Illinois.
MASSIE, D. 1986. « A survey of looping algorithms for sampled data musical instruments. » Final
Program of the IEEE Acoustic, Speech, and Signal Processing Workshop on Applications of Signal
Processing to Audio and Acoustics. New York : IEEE.
MASSIE, D. et STONICK, V. 1992. « The musical intrigue of pole-zero pairs. » Dans A. Strange, ed.
MATHEWS, M. 1969. The Technology of Computer Music. Cambridge, MA : MIT Press.
MATHEWS, M. et MILLER, J. 1963. Music IV programmer’s manual. Murray Hill : Bell Telephone
Laboratories.
MATHEWS, M., MILLER, J. et DAVID, E., Jr. 1961. « Pitch synchronous analysis of voiced sounds. »
Journal of the Audio Engineering Society of America 33 : 179-186.
MATHEWS, M. et ROSLER, L. 1969. « Graphical language for the scores of computer-generated
sounds.» Dans H. von Foerster et J. Beauchamp, eds. Music by Computers. New York : John Wiley
and Sons. p. 84-114.
MATIGNON, D. 1991. « Étude de l’application des modèles en variables d’état à l’analyse/synthèse. »
Paris : Université de Paris Sud.
MATIGNON, D., DEPALLE, P. et RODET, X. 1992. « State-space models for wind-instrument
synthesis. » Dans A. Strange, ed. Proceedings of the 1992 International Computer Music Confer-
ence. San Francisco : International Computer Music Association. p. 142-145.
MATSUSHIMA, T., HARADA, T., SONOMOTO, I., KANAMORI, K., UESUGI, A., NIMURA, Y.,
HASHIMOTO, S. et OHTERU, S. 1985. « Automated recognition system for musical score –
the visual system of WABOT-2. » Bulletin of Science and Engineering Research Laboratory,
Waseda University, n° 112, p. 25-52.
MATOSSIAN, N. 1987. Xenakis. New York : Taplinger.
MAYER, A. 1878. Sound. New York : D. Appleton and Co.
McADAMS, S. 1981. « Spectral fusion and the creation of auditory images. » Dans M. Clynes, ed.
Music, Mind, and Brain : The Neuropsychology of Music. New York : Plenum.
McADAMS, S. 1987. « Music: a science of mind? » Contemporary Music Review 2(1) : 1-61.
McADAMS, S. et BREGMAN, A. 1979. « Hearing musical streams. » Computer Music Journal 3(4) :
26-44. Réimprimé dans C. Roads et J. Strawn, eds. 1985. Foundations of Computer Music.
McAULAY, R. et QUATIERI, T. 1986. « Speech analysis/synthesis based on a sinusoidal
representation. » IEEE Transactions on Acoustics, Speech, and Signal Processing ASSP-34 :
744-754.
McCARTNEY, J. 1990. Logiciel Synth-O-Matic version 0.06.
McCARTNEY, J. 1994. Logiciel Synth-O-Matic version 0.45.
McCARTNEY, J. 1995. Logiciel SuperCollider version 1.
McCARTNEY, J. 1998. Logiciel SuperCollider version 2.
McCLELLAN, J., PARKS, T. et RABINER, L. 1973. « A computer program for designing optimal
FIR linear phase digital filters. » IEEE Transactions on Audio and Electroacoustics AU-21 :
506-526.
McGEE, D. 1990. « George Massenburg considers new development in automation. » Pro Sound News
(avril) : 13, 37.
McGILL, J.F. 1985. « Digital recording and reproduction: an introduction. » Dans John Strawn, ed.
Digital Audio Engineering : An Anthology. Madison : A-R Éditions. p. 1-28.
McGINN, R.E. 1983. « Stokowski and the Bell Telephone Laboratories: Collaboration in the Develop-
ment of High-Fidelity Sound Reproduction. » Technology and Culture, vol. 24, n° 1 (janvier) :
38-75
McINTYRE, M., SCHUMACHER, R. et WOODHOUSE, J. 1983. « On the oscillations of musical
instruments. » Journal of the Acoustical Society of America 74(5) : 1325-1345.
McLAREN, N. 1948. « Synthetic sound on film. » Journal of the Society of Motion Picture Engineers
(mars) : 233-247.
McMILLEN, K., WESSEL, D.L. et WRIGHT, M. 1994. « The ZIPI Music Parameter Description
Language ». Computer Music Journal 18(4).
McNALLY, G. 1984 « Dynamic range control of digital audio signals. » Journal of the Audio Enginee-
ring Society 32(5) : 316-327.
MEDDIS, R., HEWITT, M. et SCHACKLETON, T. 1990. « Implementation details of a computation
model of the inner hair-cell/auditory-nerve synapse. » Journal of the Acoustical Society of
America 87 : 1813-1816.
MELLINGER, S. 1991. » Event formation and separation in musical sound. » Ph. D. dissertation.
Stanford : Center for Computer Research in Music and Acoustics, Department of Music,
Stanford University.
MERSENNE, M. 1636. Harmonie Universelle. Réimprimé en 1957, traduit en anglais par Roger E.
Chapman. La Hague : Martinus Nijhoff.
MEYER, E. et BUCHMANN, G. 1931. « Die Klangspektren der Musikinstrumente. » Sïtzungsberichte
der Preussischen Akademie der Wissenschaften. Berlin : Verlag der Akademie der Wissenschaf-
ten/Walter de Gruyter. p. 735-778.
MEYER, J. 1984. « Time correction of anti-aliasing filters used in digital audio systems. » Journal
MEYER-EPPLER, W. 1955. « Statistic and psychologic problems of sound. » die Reihe 1 : 55-61.
(English edition)
MIAN, A. et TISATO, G. 1984. « Sound structuring techniques using parameters derived from a
voice analysis/synthesis system. » Dans D. Wessel, ed. Proceedings of the 1984 International
Computer Music Conference. San Francisco : International Computer Music Association.
MILLER, B., SCARBOROUGH, D. et JONES, J. 1992. « On the perception of meter. » Dans M. Balaban,
K. Ebcioglu et O. Laske, eds. Understanding Music with AI. Cambridge, MA and Menlo Park,
CA : MIT Press and AAAI Press. p. 429-447.
MILLER, D.C. 1916. The Science of Musical Sounds. New York : MacMillan.
MILLER, D.C. 1935. Anecdotal History of the Science of Sound. New York : MacMillan.
MILLER, H. 1960. History of Music. New York : Barnes and Noble.
MINSKY, M. 1981. « Music, mind, and meaning. » Computer Music Journal 5(3) : 28-44. Réimprimé
dans C. Roads, ed. 1989. The Music Machine. Cambridge, MA : MIT Press. p. 639-658.
MITSUBISHI. 1986. « Preliminary specification sheet for X-86. » Osaka : The Mitsubishi PCM
Section, Communication Equipment Works.
MITSUHASHI, Y. 1980. « Waveshape parameter modulation in producing complex spectra. » Journal
BIBLIOGRAPHIE 637
MITSUHASHI, Y. 1982a. « Musical sound synthesis by forward differences. » Journal of the Audio
Engineering Society 30(1/2) : 2-9.
MITSUHASHI, Y. 1982b. « Piecewise interpolation technique for audio signal synthesis. » Journal
MITSUHASHI, Y. 1982c. « Audio signal synthesis by functions of two variables. » Journal of the
MOLES, A. 1968. Information Theory and Esthetic Perception. Urbana, IL : University of Illinois Press.
MONT-REYNAUD, B. 1985a. « The bounded-Q approach to time-varying spectral analysis. » Tech-
nical Report STAN-M-28. Stanford : Stanford University Department of Music.
MONT-REYNAUD, B. 1985b. « Problem-solving strategies in a music transcription system. » Dans
Proceedings of the International Joint Conference on Artificial Intelligence, Los Angeles. Los
Altos : Morgan-Kaufmann. p. 915-918.
MONT-REYNAUD, B. et GOLDSTEIN, M. 1985. « On finding rhythmic patterns in musical lines. »
Dans B. Truax, ed. Proceedings of the 1985 International Computer Music Conference. San
MOOG, R. 1965. Voltage-controlled electronic music modules. » Journal of the Audio Engineering
Society 13(3) : 200-206.
MOORE, F.R. 1977. « Table lookup noise for sinusoidal digital oscillators. » Computer Music Journal
1(2) : 26-29. Réimprimé dans C. Roads et J. Strawn, eds. 1985. Foundations of Computer Music.
MOORE, F.R. 1978a. « An introduction to the mathematics of digital signal processing. Part 1:
algebra, trigonometry, and the most beautiful formula in mathematics. » Computer Music
Journal 2(1) : 38-47. Réimprimé dans J. Strawn, ed. 1985. Digital Audio Signal Processing: An
Anthology. Madison : A-R Éditions.
MOORE, F.R. 1978b. « An introduction to the mathematics of digital signal processing. Part 2:
sampling, transforms, and digital filtering. » Computer Music Journal 2(2) : 38-60. Réimprimé
dans J. Strawn, ed. 1985. Digital Audio Signal Processing: An Anthology. Madison : A-R Éditions.
MOORE, F.R. 1983. « A general model for spatial processing of sounds. » Computer Music Journal
7(3) : 6-15. Réimprimé dans C. Roads, ed. 1989. The Music Machine. Cambridge, MA : MIT
Press. p. 559-568.
MOORE, F.R. 1990. Elements of Computer Music. Englewood Cliffs : Prentice-Hall.
MOORER, J.A. 1973. « The optimum comb method of pitch period analysis of continuous digitized
speech. » AIM-207. Stanford : Stanford Artificial Intelligence Laboratory.
MOORER, J.A. 1975. « On the segmentation and analysis of continuous musical sound. » STAN-M-3.
Stanford : Stanford University Department of Music.
MOORER, J.A. 1976. « The synthesis of complex audio spectra by means of discrete summation
formulas. » Journal of the Audio Engineering Society 24 : 717-724.
MOORER, J.A. 1977. « Signal processing aspects of computer music. » Proceeding of the IEEE 65(8) :
1108-1137. Réimprimé dans Computer Music Journal 1(1) : 4-37 et dans J. Strawn, ed. 1985.
Digital Audio Signal Processing: An Anthology. Madison : A-R Éditions.
MOORER, J.A. 1978. « The use of the phase vocoder in computer music applications. » Journal of
the Audio Engineering Society 26(1/2) : 42-45.
MOORER, J.A. 1979a. « The use of linear prediction of speech in computer music applications. »
Journal of the Audio Engineering Society 27(3) : 134-140.
MOORER, J.A. 1979b. « The digital coding of high-quality musical sound. » Journal of the Audio
Engineering Society 27(9) : 657-666.
MOORER, J.A. 1979c. « About this reverberation business. » Computer Music Journal 3(2) : 13-28.
Réimprimé dans C. Roads et J. Strawn, eds. 1985. Foundations of Computer Music. Cambridge,
MA : MIT Press. p. 605-639.
MOORER, J.A. 1981b. « General spectral transformations for digital filters. » IEEE Transactions on
MOORER, J.A. 1983a. « The manifold joys of conformal mapping : applications to digital filtering
in the studio. » Journal of the Audio Engineering Society 31(11) : 826-841.
MOORER, J.A. 1983b. « The audio signal processor: the next step in digital audio. » Dans B. Blesser,
B. Locanthi et T. Stockham, eds. 1983. Digital Audio. New York : Audio Engineering Society.
p. 205-215.
MOORER, J.A., GREY, J. et SNELL, J. 1977. « Lexicon of analyzed tones – Part 1: a violin tone. »
MOORER, J.A., GREY, J. et STRAWN, J. 1978. « Lexicon of analyzed tones – Part 3: trumpet. » Com-
puter Music Journal 2(2) : 23-31.
MORAWSKA-BÜNGLER, M. 1988. Schwingende Elektronen. Cologne : P.J. Tonger.
MORRILL, D. 1977. « Trumpet algorithms for computer composition.» Computer Music Journal 1(1) :
MORRILL, D. 1981b. « Loudspeakers and performers : some problems and proposals. » Computer
Music Journal 5(4) : 25-29. Réimprimé dans C. Roads, ed, 1989. The Music Machine. Cambridge,
MORRISON, J. et ADRIEN, J.-M. 1991. « Control mechanisms in the MOSAIC synthesis program. »
Dans B. Alphonce et B. Pennycook, eds. Proceedings of the 1991 International Computer Music
MORRISON, J. et WAXMAN, D. 1991. MOSAIC 3.0. Paris : IRCAM.
MORSE, P. 1936. Vibration and Sound. Woodbury, New York : American Institute of Physics.
MURAIL, T. 1991. « Spectres et Lutins. » Dans D. Cohen-Levinas, ed. 1991. L’Itinéraire. Paris : La
Revue Musicale.
MUSICUS, B. 1984. « Optimal frequency-warped short time analysis/synthesis. » Manuscrit inédit.
MUSICUS, B., STAUTNER, J. et ANDERSON, J. 1984. « Optimal least squares short time
analysis/synthesis. » Technical report. Cambridge, MA : Research Laboratory of Electronics,
Massachusetts Institute of Technology.
NAKAJIMA, H, DOI, T., FUKUDA, J. et IGA, A. 1983. Digital Audio Technology. Blue Bell, PA : Tab
Books.
NAKAJIMA, H., DOI, T., TSUCHIYA, Y. et IGA, A. 1978. « A new PCM system as an adapter of digital
audio tape recorders. « Preprint 1352. Présenté à la 60e Convention de l’Audio Engineering
Society. New York : Audio Engineering Society.
NAWAB, S., QUATIERI, T. et LIM, J. 1983. « Signal reconstruction from short-time Fourier transform
magnitude. » IEEE Transactions on Acoustics, Speech, and Signal Processing ASSP-31(4) : 986-
998.
NEEDHAM, J., LING, W. et GIRDWOOD-ROBINSON, K.. 1962. Science and Civilisation in China.
Vol. 4 : Physics and Physical Technology. Cambridge : Cambridge University Press.
NII, H., FEIGENBAUM, E., ANTON, J. et ROCKMORE, A. 1982. « Signal-to-symbol transformation :
HASP/SIAM case study. » AI Magazine 3(2) : 25-35.
BIBLIOGRAPHIE 639
NIKIAS, C. et RAGHUVEER, M. 1987. « Bispectrum estimation: a digital signal processing frame-

work. » Proceedings of the IEEE 75(5) : 869-891.
NOLL, A.M. 1967. « Cepstrum pitch determination. » Journal of the Acoustical Society of America
41(2) : 23.
NORDMARK, J.O. 1970. « Time and frequency analysis. » Dans J. Tobias, ed. Foundations of Modern
Auditory Theory, vol. 1. New York : Academic Press. p. 57-83.
NORDMARK, J.O. 1978. « Frequency and periodicity analysis. » Dans E. Carterette et M. Friedman,
eds. Handbook of Perception, vol. 4. New York : Academic Press. p. 243-282.
NUTTALL, A. 1981. « Some windows with very good sidelobe behavior. » IEEE Transactions on
NYQUIST, H. 1928. « Certain topics in telegraph transmission theory. » Transactions of the American
Institute of Electrical Engineers (avril).
OLD COLONY SOUND LABS. 2004. Catalogue de livres sur l’électronique analogique. Internet :
www.audioXpress.com.
OLIVE, J. 1977. « Rule synthesis of speech from dyadic units. » Proceedings of the 1977 IEEE Con-
ference on Acoustics, Speech, and Signal Processing. New York : IEEE. p. 568-570.
OLSON, H. 1967. Music, Physics, and Engineering. 2e édition. New York : Dover.
OLSON, H. 1991. Acoustical Engineering. Philadelphia : Professional Audio Journals. Réimpression
de l’édition de 1957.
OOHASHI, T., NISHINA, E., KAWAI, N., FUWAMOTO, Y. et IMAI, H. 1991. « High frequency sound
above the audible range affects brain electric activity and sound perception. » Preprint
3207(W-1). Présenté à la 91e Convention de l’Audio Engineering Society. New York : Audio
OOHASHI, T., NISHINA, E., FUWAMOTO, Y. et KAWAI, N. 1993. « On the mechanism of hypersonic
effect. » Dans S. Ohteru, ed. Proceedings of the 1993 International Computer Music Conference.
OPPENHEIM, A. et NAWAB, H. 1992. Symbolic and Knowledge-based Signal Processing.
Englewood Cliffs : Prentice-Hall.
OPPENHEIM, A. et SCHAFER, R. 1975. Digital Signal Processing. Englewood Cliffs : Prentice-Hall.
OPPENHEIM, A. et WILLSKY, A. 1983. Signals and Systems. Englewood Cliffs : Prentice Hall.
OPPENHEIM, D. 1987. « The P-G-G environment for music composition. » Dans J. Beauchamp, ed.

ORTON, R., HUNT, A. et KIRK, R. 1991. « Graphical control of granular synthesis using cellular
automata and the Freehand program. » Dans B. Alphonce et B. Pennycook, eds. Proceedings
OTIS, A., GROSSMAN, G. et CUOMO, J. 1968. « Four sound-processing programs for the Illiac II
computer and D/A converter.» Experimental Music Studios Technical Report n° 14. Urbana, IL :
University of Illinois.
OSWALD, J. 2001. 69plunderphonics69 (Disques compacts audio). Seeland Records 515.
PALADIN, A. et ROCCHESSO, D. 1992. « Towards a generalized model of one-dimensional musical
instruments. » Dans A. Piccialli, ed. Proceedings of the International Workshop on Models and
Representations of Musical Signals. Naples : Università di Napoli Federico II.
PAPE, G. 1992. « Some musical possibilities of the new UPIC system. » Massy : Les Ateliers UPIC.
PATI, Y., REZAIIFAR, R. et KRISHNAPRASAD, P. 1993. « Orthogonal matching pursuit : Recursive

function approximation with applications to wavelet decomposition. » Proceedings of the Asi-
lomar Conference on Signals, Systems, and Computers. Pacific Grove, CA. pp. 40-44.
PEEL, T., EMIYA, V., RALAIVOLA, L. et ANTHOINE, S. 2012. « Matching Pursuit With Stochastic
Selection. » Proceedings of the European Signal Processing Conference. Bucarest, Roumanie.
pp. 1-5.
PETERSEN, T.L. 1975. « Vocal tract modulation of instrumental sounds by digital filtering. » Dans
J. Beauchamp et J. Melby, eds. Proceedings of the Second Annual Music Computation Conference.
Part 1. Urbana, IL : Office of Continuing Education and Public Service in Music, University of
Illinois. p. 33-41.
PETERSEN, T.L. 1980. « Acoustic signal processing in the context of a perceptual model. » Technical
Report UTEC-CSc-80-113. Salt Lake City : University of Utah, Department of Computer
Science.
PETERSEN, T.L. et BOLL, S. 1983. « Critical band analysis-synthesis. » IEEE Proceedings on Acoustics,
Speech, and Signal Processing ASSP-31(3) : 656-663.
PETERSON, G. et BARNEY, H. 1952. « Control methods used in a study of the vowels. » Journal of
the Acoustical Society of America 24 : 175-184.
PETERSON, G., WANG, W. et SILVERTSEN, E. 1958. « Segmentation techniques in speech synthesis.»
PETRAUSCH, S., SPORS, S. et RABENSTEIN, R. 2005. « Simulation and Visualization of Room
Compensation for Wave Field Synthesis with the Functional Transformation Method. » Article
présenté lors de la 119e Convention de l’Audio Engineering Society, New York, NY. 7-10 octobre
2005.
PICCIALLI, A., CAVALIERE, S., ORTOSECCO, I. et BASILE, P. 1992. « Modifications of natural
sounds using a pitch synchronous technique. » Dans A. Piccialli, ed. Proceedings of the Inter-
national Workshop on Models and Representations of Musical Signals. Napoli : Università di
Napoli Federico II.
PIELEMEIER, W.J., WAKEFIELD, G.H. et SIMONI, M.H. 1996. « Time-frequency analysis of musi-
cal signals. » Proceedings of the IEEE 84(9) : 1216-1230.
PIERCE, J.R. 1974. Almost All About Waves. Cambridge, MA : MIT Press.
PINCH, T., et TROCCO, F.. 2002. Analog Days. Cambridge, Massachusetts : Harvard University Press.
PISZCZALSKI, M. 1979a. « Spectral surfaces from performed music: part 1. » Computer Music
Journal 3(1) : 18-24.
PISZCZALSKI, M. 1979b. « Spectral surfaces from performed music: part 2. » Computer Music
Journal 3(3) : 25-27.
PISZCZALSKI, M. et GALLER, B. 1977. « Automatic music transcription. » Computer Music Journal
1(4) : 24-31.
PISZCZALSKI, M., et coll. 1981. « Performed music: analysis, synthesis, and display by computer. »
Journal of the Audio Engineering Society 21(1/2) : 38-46.
PLOMP, R. 1976. Aspects of Tone Sensation. London : Academic Press.
PLUMB, E.H. 1942. « The Future of Fantasound. » Journal of the Society of Motion Picture Engineers
(juillet).
PLUMBLEY, M.D., BLUMENSATH, T., DAUDET, L., GRIBONVAL, R. et DAVIES, M.E. 2009.
« Sparse representations in audio and music : from coding to source separation. » Proceedings
of the IEEE.
BIBLIOGRAPHIE 641
POHLMANN, K. 1989a. Principles of Digital Audio. Indianapolis : Howard Sams.

POHLMANN, K. 1989b. The Compact Disc: A Handbook of Theory and Use. Madison : A-R Éditions.
PORTNOFF, M. 1976. « Implementation of the digital phase vocoder using the fast Fourier
transform. » IEEE Transactions on Acoustics, Speech and Signal Processing 24(3) : 243-248.
PORTNOFF, M. 1978. « Time-scale modification of speech based on short-time fourier analysis. »
Sc.D. dissertation. Cambridge, MA : MIT Department of Electrical Engineering and Computer
Science.
PORTNOFF, M. 1980. « Time-frequency representation of digital signals and systems based on
short-time Fourier analysis. » IEEE Transactions on Acoustics, Speech, and Signal Processing
ASSP-28 : 55-69.
POTARD, Y., BAISNÉE, P.-F. et BARRIÈRE, J.-B. 1986. « Experimenting with models of resonance
produced by a new technique for the analysis of impulsive sounds. » Dans P. Berg, ed. Procee-
dings of the 1986 International Computer Music Conference. San Francisco : International
POTARD, Y., BAISNÉE, P.-F. et BARRIÈRE, J.-B. 1991. « Méthodologie de synthèse du timbre :
l’exemple des modèles de résonance. » Dans J.-B. Barrière, ed. 1991. Le timbre, métaphore pour
la composition. Paris : IRCAM et Christian Bourgeois. p. 135-163.
POTTER, R. 1946. Article on visible speech. Bell Laboratories Record 24(1) : 7.
POYNTING, J. et THOMSON, J. 1900. Sound. 2e édition. London : Charles Griffin.
PREIS, D. 1982. « Phase distortion and phase equalization in audio signal processing – a tutorial
review. » Journal of the Audio Engineering Society 30(11) : 774-794.
PREIS, D. et BLOOM, P. 1983. « Perception of phase distortion in anti-alias filters. » Preprint 2008
(H-3). Présenté à la 74e Convention de l’Audio Engineering Society, 8-12 octobre 1983. New
York : Audio Engineering Society.
PREIS, D. et GEORGOPOULOS, V.C. 1999. « Wigner distribution representation and analysis of
audio signals : An illustrated tutorial review. » Journal of the Audio Engineering Society
47(12) : 1043-1053.
PREIS, D., HLAWATSCH, F., BLOOM, P. et DEER, J. 1987. « Wigner distribution analysis of filters
with perceptible phase distortion. » Journal of the Audio Engineering Society 35(12) : 1004-1012.
PRESS, W., FLANNERY, B., TEUKOLSKY, S. et VETTERLING, W.. 1988. Numerical Recipes in C.
Cambridge, England : Cambridge University Press.
PRESSING, J. et LAWRENCE, P. 1993. « Transcribe: a comprehensive autotranscription program. »

Dans S. Ohteru, ed. Proceedings of the 1993 International Computer Music Conference. San
PRONY, G.-R.-B. de, 1795. « Essai expérimentale et analytique. » Paris Journal de l’Ecole Polytech-
nique 1(2) : 24-76.
QUATIERI, T. et McAULAY, R. 1986. « Speech transformations based on a sinusoidal model. » IEEE
Transactions on Acoustics, Speech, and Signal Processing ASSP-34 : 1449-1464.
RABENSTEIN, R. et SPORS, S. 2005. « Spatial Sound Reproduction with Wave Field Synthesis. »
Article présenté lors de la réunion annuelle de la section italienne de l’Audio Engineering
Society. Como, Italie. 3-5 novembre 2005.
RABINER, L. 1977. « On the use of autocorrelation analysis for pitch detection. » IEEE Transactions
on Acoustics, Speech, and Signal Processing ASSP-25(1).
RABINER, L. 1983. « Digital techniques for changing the sampling rate of a signal. » Dans B. Blesser,
B. Locanthi et T. Stockham, eds. Digital Audio. New York : Audio Engineering Society. p. 79-89.
RABINER, L., CHENG, M., ROSENBERG, A. et McGONEGAL, M. 1976. « A comparitive performance

study of several pitch detection algorithms. » IEEE Transactions on Acoustics, Speech, and Signal
Processing ASSP-24(5).
RABINER, L., COOLEY, J., HELMS, H., JACKSON, L., KAISER, J., RADER, C., SCHAFER, R., STEI-
GLITZ, K. et WEINSTEIN, C. 1972. « Terminology in digital signal processing. » IEEE
Transactions on Audio and Electroacoustics AU-20 : 322-337.
RABINER, L. et GOLD, B. 1975. Theory and Applications of Digital Signal Processing. Englewood
Cliffs : Prentice-Hall.
RABINER, L. et SHAFER, R. 2011. Theory and Applications of Digital Speech Processing. New
Jersey, NJ : Prentice Hall.
RACZINSKI. J.-M. et MARINO, G. 1988. « A real time synthesis unit. » Dans C. Lischka et J. Fritsch,
eds. Proceedings of the 1988 International Computer Music Conference. San Francisco : Inter-
RACZINSKI, J.-M., MARINO, G. et SERRA, M.-H. 1991. « New UPIC system demonstration. »
Dans B. Alphonce et B. Pennycook, eds. Proceedings of the 1991 International Computer Music
RAVELLI, E., RICHARD, G. et DAUDET, L. 2008. « Union of MDCT bases for audio coding. » IEEE
Transactions on Audio, Speech and Language Processing 16(8) : 1361-1372.
RAVELLI, E., RICHARD, G. et DAUDET, L. 2010. « Audio signal representations for indexing in the
transform domain. » IEEE Transactions on Audio, Speech and Language Processing 18(3) :
434-446.
RAYLEIGH, J. 1894. The Theory of Sound. Reprinted 1945. New York : Dover.
RAYLEIGH, J. 1907. « On our Perception of Sound Direction. » Phil Mag 13 : 214-232.
READ, O. et WELCH, W. 1976. From Tin Foil to Stereo: Evolution of the Phonograph. Indianapolis :
Howard Sams.
REEVES, A. 1938. « Electric signal system. » Brevet britannique n° 535 860. Brevet américain
n° 2 272 070 (1942).
REEVES, W. 1983. « Particle systems – a technique for modeling a class of fuzzy objects. » ACM
Transactions on Graphics 2(2) : 359-376.
RHEA, T. 1972. « The evolution of electronic musical instruments in the United States. » Ph.D
dissertation. Nashville : George Peabody College for Teachers.
RHEA, T. 1977. « Electronic Perspectives: photoelectric acoustic-sound instruments. » Contemporary
Keyboard (octobre) : 62.
RHEA, T. 1984. « The history of electronic musical instruments. » Dans T. Darter, ed. 1984. The Art
of Electronic Music. New York : Quill. p. 1-63.
RISBERG, J. 1982. « Non-linear estimation of FM synthesis parameters. Manuscrit inédit.
RISSET, J.-C. 1966. « Computer study of trumpet tones. » Murray Hill : Bell Telephone Laboratories.
RISSET, J.-C. 1969. « Catalog of computer-synthesized sound. » Murray Hill : Bell Telephone Labora-
tories.
RISSET, J.-C. 1985a. « Computer music experiments : 1964. » Computer Music Journal 9(1) : 11-18.
Réimprimé dans C. Roads, ed. 1989. The Music Machine. Cambridge, MA : MIT Press. p. 67-74.
RISSET, J.-C. 1985b. « Digital techniques and sound structure in music. » Dans C. Roads, ed.
Composers and the Computer. Madison : A-R Éditions. p. 113-138.
BIBLIOGRAPHIE 643
RISSET, J.-C. 1991. « Timbre analysis by synthesis: representations, imitations, and variants for
musical composition. » Dans G. De Poli, A. Piccialli et C. Roads, ed. 1991. Representations of
Musical Signals. Cambridge, MA : MIT Press. p. 7-43.
RISSET, J.-C. et MATHEWS, M. 1969. « Analysis of musical instrument tones. » Physics Today
22(2) : 23-40.
RISSET, J.-C. et WESSEL, D. 1982. « Exploration of timbre by analysis and synthesis. » Dans
D. Deutsch, ed. 1982. Psychology of Music. Orlando : Academic Press.
RISTOW, J. 1993. « Audiotechnology in Berlin to 1943: optical sound. » Preprint 3487 (H2-8). Pré-
senté à la 94e Convention de l’Audio Engineering Society, mars 1993, Berlin. New York : Audio
ROADS, C. 1978a. « An interview with Gottfried Michael Koenig. » Computer Music Journal 2(3) :
ROADS, C. 1978c. « Automated granular synthesis of sound. » Computer Music Journal 2(2) : 61-62.
Version révisée et mise à jour imprimée sous le titre « Granular synthesis of sound » dans
p. 145-159.
ROADS, C. 1980. « Interview with Max Mathews. » Computer Music Journal 4(4) : 15-22. Réimprimé
dans C. Roads, ed. 1989. The Music Machine. Cambridge, MA : MIT Press. p. 5-12.
ROADS, C. 1985b. « Improvisation with George Lewis. » Dans C. Roads, ed. Composers and the Com-
puter. Madison : A-R Éditions. p. 75-87.
ROADS, C. 1985c. « Interview with James Dashow. » Dans C. Roads, ed. Composers and the Computer.
Madison : A-R Éditions. p. 27-45.
ROADS, C. 1985d. « Research in music and artificial intelligence : a survey. » ACM Computing Surveys
17(2) : 163-190. Réimprimé sous le titre « Richerche sulla musica e l’intelligenza artificiale. »
dans A. Vidolin et R. Doati, eds. 1986. Nuova Atlantide. Venice : La Biennale di Venezia.
p. 121-147. Réimprimé dans le journal japonais d’informatique bit (Tokyo), 1987.
ROADS, C. 1985e. « Grammars as representations for music. » Dans C. Roads et J. Strawn, eds. 1985.
Foundations of Computer Music. Cambridge, MA : MIT Press. p. 403-442.
ROADS, C. 1985f. « The realization of nscor. » Dans C. Roads, ed. 1985. Composers and the Computer.
Madison : A-R Éditions. p. 140-168.
ROADS, C. 1985g. « Granular synthesis of sound. » Dans C. Roads et J. Strawn, eds. 1985. Foundations
of Computer Music. Cambridge, MA : MIT Press. p. 145-159.

ROADS, C. 1986b. « The Tsukuba musical robot. » Computer Music Journal 10(2) : 39-43.
ROADS, C., ed. 1989. The Music Machine. Cambridge, MA : MIT Press.
ROADS, C. 1991. « Asynchronous granular synthesis. » Dans G. De Poli, A. Piccialli et C. Roads, eds.
1991. Representations of Musical Signals. Cambridge, MA : MIT Press. p. 143-185.
ROADS, C. 1992b. « Musical applications of advanced signal representations. » Présenté à l’Inter-
national Workshop on Models and Representations of Musical Signals, Capri, Italie, octobre
1992.
ROADS, C. 1993a. « Musical sound transformation by convolution. » Dans S. Ohteru, ed. Proceedings
ROADS, C. 1993b. « Organization of Clang-tint. » Dans S. Ohteru, ed. Proceedings of the 1993 Inter-
tion. p. 346-348.
ROADS, C. 1994. « Sound composition with pulsars. » Manuscrit inédit.

ROADS, C. 1996a. The Computer Music Tutorial. Cambridge, Massachusetts : The MIT Press.
ROADS, C. 1996b. « Early Electronic Music Instruments : Time Line 1899-1950. » Computer Music
Journal 20(3) : 20-23.
ROADS, C. 1997. « Sound transformation via convolution. » Dans C. Roads, S. Pope, A. Piccialli, et
G. De Poli, eds. 1997. Musical Signal Processing. Amsterdam : Swets & Zeitlinger.
ROADS, C. 1999. « Time scales of musical structure. » Dans F. Barrière et G. Bennett, eds. Actes V.
Académie Internationale de Musique Électroacoustique. Bourges : Éditions Mnemosyne.
ROADS, C. 2001 « Sound composition with pulsars. » Journal of the Audio Engineering Society 49(3) :
134-147.
ROADS, C. 2002. Microsound, Cambridge, MA : The MIT Press.
ROADS, C. 2004. Pictor Alpha. POINT LINE CLOUD [CD et DVD]. San Francisco, CA : Asphodel
Records.
ROADS, C. et STRAWN, J., eds. 1985. Foundations of Computer Music. Cambridge, MA : MIT Press.
ROBINSON, E. 1982. « A historical perspective of spectrum estimation. » Proceedings of the Institute
of Electrical and Electronics Engineers 70(9) : 885-907.
RODET, X. 1980. « Time-domain formant-wave-function synthesis. » Dans J. G. Simon, ed. 1980.
Spoken Language Generation and Understanding. Dordrecht : Reidel. Réimprimé dans Com-
puter Music Journal 8(3) : 9-14. 1984.
RODET, X. 1986. Communication personnelle.
RODET, X. 1992. « Nonlinear oscillator models of musical instrument excitation. » Dans A. Strange,
ed. Proceedings of the 1992 International Computer Music Conference. San Francisco : Inter-
RODET, X. et BENNETT, G. 1980. « Synthèse de la voix chantée par ordinateur. » Dans Conferences
des journées d’études 1980. Paris : Festival International du Son. p. 73-91.
RODET, X. et COINTE, P. 1984. « FORMES : composition and scheduling of processes. » Computer
Music Journal 8(3) : 32-50. Réimprimé dans C. Roads, ed. 1989. The Music Machine. Cambridge,
RODET, X. et DELATRE, J. 1979. « Time-domain speech synthesis by rules using a flexible and fast
signal management system. » Proceedings of the IEEE International Conference on Acoustics,
Speech, and Signal Processing, Washington, DC, 2-4 avril. New York : IEEE. p. 895-898.
RODET, X. et DEPALLE, P. 1992. « A new additive synthesis method using inverse Fourier transform
and spectral envelopes. » Dans A. Strange, ed. Proceedings of the 1992 International Computer
RODET, X., DEPALLE, P. et POIROT, G. 1988. « Diphone sound synthesis based on spectral envelopes
and harmonic/noise excitation functions. » Dans C. Lischka et J. Fritsch, eds. Proceedings of
RODET, X., POTARD, Y. et BARRIÈRE, J.-B. 1984. « The CHANT project : from synthesis of the sin-
ging voice to synthesis in general. » Computer Music Journal 8(3) : 15-31. Réimprimé dans
C. Roads, ed. 1989. The Music Machine. Cambridge, MA. : MIT Press. p. 449-466.
RODET, X. et SANTAMARINA, C. 1975. « Synthèse, sur un miniordinateur, du signal vocal dans la
représentation amplitude-temps. » Actes des sixièmes journées d’étude sur la parole du GALF,
Toulouse. Paris : GALF. p. 364-371.
BIBLIOGRAPHIE 645
RODGERS, C.A.P. 1981. « Pinna transformations and sound reproduction. » Journal of the Audio
ROEDERER, J. 1975. Introduction to the Physics and Psychophysics of Music. 2e édition. New York :
Springer-Verlag.
ROGERS, G. 1987. « Console design and MIDI. » Studio Sound 29(2) : 42-44.
ROMBLOM, D. 2004. Communication personnelle.
ROSENTHAL, D. 1988. « A model of the process of listening to simple rhythms. » Dans C. Lischka
et J. Fritsch. 1988. Proceedings of the 1988 International Computer Music Conference. San
ROSENTHAL, D. 1992. « Emulation of human rhythm perception. » Computer Music Journal 16(1) :
64-76.
ROSSUM, D. 1992. « Making digital filters sound ‘analog’. » Dans A. Strange, ed. Proceedings of the
1992 International Computer Music Conference. San Francisco : International Computer Music
ROWE, N. 1975. « Machine perception of musical rhythm.» B.S. thesis. Cambridge, MA : MIT Depart-
ment of Electrical Engineering.
ROWE, R. 1992a. « Machine listening and composing with Cypher. » Computer Music Journal 16(1) :
43-63.
ROWE, R. 1992b. Interactive Music Systems. Cambridge, MA : MIT Press.
ROZENBERG, M. 1979. « Microcomputer-controlled sound processing using Walsh functions. »
RUIZ, P. 1970. « A technique for simulating the vibrations of strings with a digital computer. »
M.M. thesis. Urbana, IL : University of Illinois School of Music.
RUSSOLO, L. 1916. Publication 1986. The Art of Noises. Barclay Brown, traducteur. New York :
Pendragon.
SABINE, W. 1922. Collected Papers on Acoustics. Reprinted 1964. New York : Dover.
SALOMON, D. 1998. Data Compression: The Complete Reference. New York : Springer-Verlag.
SAMSON, P. 1980. « A general-purpose synthesizer. » Journal of the Audio Engineering Society 28(3) :
106-113.
SAMSON, P. 1985. « Architectural issues in the design of the Systems Concepts Digital Synthesizer. »
Dans J. Strawn, ed. Digital Audio Engineering : An Anthology. Madison : A-R Éditions. p. 61-94.
SANDELL, G. et MARTENS, W. 1992. « Prototyping and interpolation of multiple musical timbres

using principle components-based analysis. » Dans A. Strange, ed. Proceedings of the 1992
International Computer Music Conference. San Francisco : International Computer Music Asso-
ciation. p. 34-37.
SASAKI, L. et SMITH, K.C. 1980. « A simple data reduction scheme for additive synthesis. » Computer
SAYOOD, K. 2000. Introduction to Data Compression. Burlington, MA : Morgan Kaufmann.
SCHAEFFER, P. 1966. Traité des objets musicaux. Paris : Le Seuil.
SCHAEFFER, P. 1977. Traité des Objets Musicaux. 2e édition. Paris : Le Seuil.
SCHAEFFER, P., REIBEL, G. et FERREYRA, B. 1967. Trois microsillons d’exemples sonores de G. Reibel
et Beatriz Ferreyra illustrant le Traité des Objets Sonores et présentés par l’auteur. Paris : Le Seuil.
SCHAFER, R. 1970. « Electronic tone production by nonlinear waveshaping. » Journal of the Audio
SCHAFER, R. et RABINER, L. 1970. « System for automatic formant analysis of voiced speech. »
Journal of the Acoustical Society of America 47(2) : 634.
SCHAFER, R. et RABINER, L. 1973a. « A digital signal processing approach to interpolation. » Pro-
ceedings of the IEEE 61(6) : 692-702.
SCHAFER, R. et RABINER, L. 1973b. « Design and simulation of a speech analysis-synthesis system
based on short-time Fourier analysis. » IEEE Transactions on Audio and Electroacoustics AU-
21 : 165-174.
SCHARF, B. 1961. « Complex sounds and critical bands. » Psychological Bulletin 58 : 205-217.
SCHARF, B. 1970. « Critical bands.» Dans J. Tobias, ed. 1970. Foundations of Modern Auditory Theory.
Orlando : Academic Press.
SCHARF, B. 1978. « Loudness. » Dans E. Carterette et M. Friedman, eds., Handbook of Perception,
vol. 4. New York : Academic Press. p. 187-242.
SCHEIBER, P. 1969. Brevet américain n° 888 440. « Quadrasonic Sound System ».
SCHINDLER, K. 1984. « Dynamic timbre control for real-time digital synthesis. » Computer Music
Journal 8(1) : 28-42.
SCHLOSS, W. 1985. « On the automatic transcription of percussive music – from acoustic signal to
high-level analysis. » Report STAN-M-27. Stanford : Stanford University Department of Music.
SCHOTTSTAEDT, W. 1977. « The simulation of natural instrument tones using frequency modulation
with a complex modulation wave. » Computer Music Journal 1(4) : 46-50. Réimprimé dans
p. 54-64.
SCHOTTSTAEDT, W. 1983. « Pla – a composer’s idea of a language. » Computer Music Journal 7(1) :
11-20. Réimprimé dans C. Roads, ed. 1989. The Music Machine. Cambridge, MA : MIT Press.
p. 285-294.
SCHOTTSTAEDT, W. 1989a. « A computer music language. » Dans M. Mathews et J.R. Pierce, eds.
1989. Current Directions in Computer Music Research. Cambridge, MA : MIT Press. p. 215-224.
SCHROEDER, M. 1961. « Improved quasi-stereophony and colorless artificial reverberation.» Journal
of the Acoustical Society of America 33 : 1061.
SCHROEDER, M. 1962. « Natural sounding artificial reverberation.» Journal of the Audio Engineering
Society 10(3) : 219-223.
SCHROEDER, M. 1966. « Vocoders: analysis and synthesis of speech. » Proceedings of the IEEE 54 :
720-734.
SCHROEDER, M. 1970. « Digital simulation of sound transmission in reverberant spaces. » Journal of
the Acoustical Society of America 47(2) : 424-431.
SCHROEDER, M. et ATAL, B.S. 1962. « Generalized short-time power spectra and autocorrelation
functions. » Journal of the Acoustical Society of America 34 : 1679-1683.
SCHUBERT, E. 1979a. « Editor’s comments on papers 1 through 5. » Dans E. Schubert, ed., Psycho-
logical Acoustics. Stroudsburg : Dowden, Hutchinson et Ross. p. 8-16.
SCHUBERT, E. 1979b. « Editor’s comments on papers 25 through 31. » Dans E. Schubert, ed., Psycho-
logical Acoustics. Stroudsburg : Dowden, Hutchinson et Ross. p. 254-263.
SCHWARZ, D. 2004. « Data-driven Concatenative Sound Synthesis. » Thèse de doctorat. Paris,
France : Université Paris 6 (Pierre et Marie Curie).
SCHWARZ, D. 2006. « Concatenative Sound Synthesis : The Early Years. » Journal of New Music
Research 35(1) : 3-22.
BIBLIOGRAPHIE 647
SCHWARZ, D. 2007. « Corpus-based Concatenative Synthesis. » IEEE Signal Processing Magazine

24(2) : 92-104.
SCHWARZ, D. 2011. « State of the Art in Sound Texture Synthesis. » Proceedings of the COST-G6
International Conference on Digital Audio Effects. Paris, France. pp. 221-231.
SCHWARZ, D., BELLER, G., VERBRUGGHE, B., et BRITTON, S. 2006. « Real-time Corpus-based
Concatenative Synthesis with CataRT. » Proceedings of the COST-G6 International Conference
on Digital Audio Effects. Montréal, Canada. pp. 279-282.
SCHWARZ, D., CAHEN, R. et BRITTON, S. 2008. « Principles and Applications of Interactive Cor-
pus-based Concatenative Synthesis. » Proceedings Journées d’Informatique Musicale. Albi,
France.
SCHWARTZ, R., KLOVSTAD, J., MAKHOUL, J., KLATT, D. et ZAC, V. 1979. « Diphone synthesis for
phonetic coding. » Proceedings of the IEEE Acoustics, Speech and Signal Processing Conference.
New York : IEEE. p. 891-894.
SCHWEDE, G. 1983. « An algorithm and architecture for constant-Q spectrum analysis.» Proceedings
of the International Conference on Acoustics, Speech, and Signal Processing. New York : IEEE.
SEEGER, C. 1951. « An instantaneous music notator. » Journal of the International Folk Music Society
3 : 103-107.
SELFRIDGE, O. et NEISSER, U. 1960. « Pattern recognition by machine.» Scientific American 203 : 60.
SERRA, M.-H. 1992. « Stochastic composition and stochastic timbre : GENDY3 by Iannis Xenakis. »
Paris : Centre d’Études de Mathématiques et Automatiques Musicale.
SERRA, M.-H., RUBINE, D. et DANNENBERG, R. 1990. « Analysis and synthesis of tones by spectral
interpolation. » Journal of the Audio Engineering Society 38(3) : 111-128.
SERRA, X. 1989. « A system for sound analysis/transformation/synthesis based on a deterministic
plus stochastic decomposition. » Stanford : Center for Computer Research in Music and Acous-
tics, Department of Music, Stanford University.
SERRA, X., MAGAS, M., BENETOS, E., CHUDY, M., DIXON, S., FLEXER, A., GOMEZ, E., GOU-
YON, F., HERRERA, P., JORDA, S., PAYTUVI, O., PEETERS, G., SCHLÜTER, J., VINET, H. et
WIDMER, G. 2013. Roadmap for Music Information ReSearch. Creative Commons.
SERRA, X. et SMITH, J. 1990. »Spectral modeling synthesis: a sound analysis/synthesis system
based on a deterministic plus stochastic decomposition.» Computer Music Journal 14(4) : 12-24.
SHANNON, C. 1948. « A mathematical theory of communication. » Bell System Technical Journal 27.
SHANNON, C. et WEAVER, W. 1949. The Mathematical Theory of Communication. Urbana, IL:

University of Illinois Press.
SHEELINE, C. 1982. « An investigation of the effects of direct and reverberant signal interactions on
auditory distance perception. « Stanford : Stanford University Department of Music Report
Number STAN-M-13.
SHENSA, M. 1992. « The discrete wavelet transform : wedding the à trous and Mallat algorithms. »
IEEE Transactions on Signal Processing 40(10) : 2464-2482.
SHPAK, D. 1992. « Analytic design of biquadratic filter sections for parametric filters. » Journal of
SIEDENBURG, K. et DÖRFLER, M. 2011. « Structured sparsity for audio signals. » Proceedings of
Digital Audio Effects. Paris, France. pp. 1-4.
SILVER, A.L.L. 1957. « Equal beating chromatic scale. » Journal of the Acoustical Society of America
29 : 476-481.
SIMON, I., BASU, S., SALESIN, D. et AGRAWALA, M. 2005. « Audio Analogies : Creating New
Music from an Existing Performance by Concatenative Synthesis. » Proceedings of the Inter-
national Computer Music Conference. Barcelone, Espagne. pp. 65-72.
SINGLETON, R. 1967. « A method for computing the fast Fourier transform with auxiliary memory
and limited high-speed storage. » IEEE Transactions on Audio and Electroacoustics AU-15(2) :
91-98.
SLANEY, M. et LYON, R. 1991a. Apple Hearing Demo Reel. Apple Computer Technical Report 25.
Cupertino : Apple Corporate Library.
SLANEY, M. et LYON, R. 1991b. » Visualizing sound with auditory correlograms. » Submitted to
the Journal of the Acoustical Society of America.
SLANEY, M. et LYON, R. 1992. « On the importance of time–a temporal representation of sound. »
Dans M. Cooke et S. Beet, eds. 1992. Visual Representations of Speech Signals. New York : John
Wiley.
SLANEY, R., NAAR, D. et LYON, R. 1994. « Auditory model inversion for sound separation. » Procee-
dings of the ICASSP 94. New York : IEEE.
SLAWSON, A.W. 1985. Sound Color. Berkeley : University of California Press.
SLOBODA, J. 1985. The Musical Mind. Oxford : The Clarendon Press.
SMC. 2012. « Sound and Music Computing Roadmap : Challenges and Strategies. »
SMITH, D. 1984. Interviewé dans D. Milano. 1984. « Turmoil in MIDI Land. » Keyboard 10(6).
SMITH, E. et LEWICKI, M.S. 2005a. « Efficient auditory coding. » Nature 439(23) : 978-982.
SMITH, E. et LEWICKI, M.S. 2005b. « Efficient coding of time-relative structure using spikes. »
Neural Computation 17(1) : 19-45.
SMITH, J. 1981. « Digital signal processing committee, IEEE ASSP: Programs for digital signal
processing. » Computer Music Journal 5(2) : 62-65.
SMITH, J. 1982. « Synthesis of bowed strings. » Dans J. Strawn et T. Blum, eds. 1982. Proceedings of
SMITH, J. 1983. « Techniques for digital filter design and system identification with application to
the violin. » Ph.D dissertation. Technical Report STAN-M-14. Stanford : Stanford University
Department of Music.
SMITH, J. 1985a. « Introduction to digital filter theory. » Dans J. Strawn, ed. 1985. Digital Audio
Signal Processing : An Anthology. Madison : A-R Éditions. p. 69-135.
SMITH, J. 1985b. « Fundamentals of digital filter theory. » Computer Music Journal 9(3) : 13-23.
Réimprimé dans C. Roads, ed. 1989. The Music Machine. Cambridge, MA : MIT Press. p. 509-
520.
SMITH, J. 1985c. « A new approach to reverberation using closed waveguide networks. » Dans
B. Truax, ed. Proceedings of the 1985 International Computer Music Conference. San Francisco :
SMITH, J. 1986. « Efficient simulation of the reed-bore mechanism and bow-string interactions. »
Dans P. Berg, ed. Proceedings of the 1986 International Computer Music Conference. San
SMITH, J. 1987a. « Waveguide filter tutorial. » Dans J. Beauchamp, ed. Proceedings of the 1987 Inter-
tion. p. 9-16.
BIBLIOGRAPHIE 649
SMITH, J. 1987b. « Musical applications of digital waveguides. » Technical Report STAN-M-39.

Stanford : Stanford University Department of Music.
SMITH, J. 1991b. « Waveguide simulation of non-cylindrical acoustic tubes. » Dans B. Alphonce et
B. Pennycook, eds. Proceedings of the 1991 International Computer Music Conference. San
Francisco : International Computer Music Conference. p. 304-307.
SMITH, J. 1992. « Physical modeling using digital waveguides. » Computer Music Journal 16(4) :
74-91.
SMITH, J. 2003. « Four-pole tunable lowpass/bandpass filters. » Internet : www-ccrma.stanford.edu/
~jos/filters.
SMITH, L. 1973. « Editing and printing music by computer. » Journal of Music Theory 9 : 129-150.
SMITH, R. et BRACHMAN, M. 1980. « Operating range and maximum response of single auditory-
nerve fibers. » Brain Research 184 : 499-505.
SNELL, J. 1977b. « Design of a digital oscillator that will generate up to 256 low-distortion sine
waves in real time. » Computer Music Journal 1(2) : 4-25. Version révisée et mise à jour dans
p. 289-325.
SPONABLE, E.I., et coll. 1953. « CinemaScope – Information for the Theater: Equipment, Installation
Procedures, Maintenance Practices, Operating Considerations ». Bulletin conçu par le Départe-
ment de Recherche et Développement de la Twentieth Century-Fox, et distribué aux salles de
cinéma. Seconde impression révisée, novembre 1953. Internet : http://www.widescreenmu-
seum.com/Widescreen/cinemascope.htm#a5.5
SPRINGER, A. 1955. « Ein akusticher Zeitregler. » Gravesaner Blätter 1 : 32-37.
STAUTNER, J. 1983. « Analysis and synthesis of music using the auditory transform. » M.S. thesis.
Cambridge, MA : MIT Department of Electrical Engineering and Computer Science.
STAUTNER, J. et PUCKETTE, M. 1982. « Designing multi-channel reverberators. » Computer Music
Journal 6(1) : 62-65.
STEVENS, K. et FANT, G. 1953. « An electrical analog of the vocal tract. » Journal of the Acoustical
Society of America 25 : 734-742.
STEWARD, J. 1922. « An electrical analogue of the vocal organs. » Nature 110 : 311-312.
STILSON, T., et SMITH, J. 1996. « Alias-free digital synthesis of classic analog waveforms. » Dans
D. Rossiter, ed. 1996. Proceedings of the 1996 International Computer Music Conference. San
STOCKHAM, T. 1969. « High-speed convolution and convolution with applications to digital

filtering. » Dans B. Gold et C. Rader, eds. 1969. Digital Processing of Signals. New York : McGraw-
Hill. p. 203-232.
STOCKHAUSEN, K. 1955. « Actualia. » die Reihe 1.
STOCKHAUSEN, K. 1957. « …how time passes… » die Reihe 3 : 10-43. Édition anglaise 1959.
Réimprimé sous le titre « … wie die Zeit vergeht… » dans K. Stockhausen. 1963. Texte zur
elektronischen und instrumentalen Musik. Band 1. Cologne : DuMont Schauberg : p. 99-139.
STOCKHAUSEN, K. 1958. « Musik im Raum. » Réimprimé dans K. Stockhausen. 1963. Texte zur
elektronischen und instrumentalen Musik. Band 1. Cologne : DuMont Schauberg. p. 152-175.
STOCKHAUSEN, K. 1961. « Two lectures. » die Reihe 5. Édition anglaise. Bryn Mawr : Theodore
Presser Company. p. 59-82.
STOCKHAUSEN, K. 1963. « Die Einheit der musikalischen Zeit. » Dans K. Stockhausen. 1963.
Texte zur elektronischen und instrumentalen Musik. Band 1. Cologne : DuMont Schauberg.
p. 211-221. Réimprimé sous le titre « The concept of unity in electronic music. » E. Barkin,
traducteur, dans B. Boretz et E. Cone, eds. 1972. Perspectives on Contemporary Music Theory.
New York : Norton. p. 129-147.
STOCKHAUSEN, K. 1964. « Elektronische Studien I und II. » Dans Texte zu eigenen Werken zur
Kunst Anderer. Cologne : DuMont Schauberg.
STOCKHAUSEN, K. 1968. Kontakte. Score number UE 13678. London : Universal Edition.
STOCKHAUSEN, K. 1971a. « Osaka-Projekt. » Dans Texte zur Musik 1963-1970. Cologne : DuMont
Schauberg. p. 153-187.
STOCKHAUSEN, K. 1971b. Texte zur Musik 1963-1970. Band 3. Cologne : DuMont Schauberg.
STRANG, G. 1989. « Wavelets and dilation equations : a brief introduction. » SIAM Review 31(4) :
614-627.
STRANGE, A. 1983. Electronic Music : Systems, Techniques, Controls. Seconde édition. Dubuque :
W. C. Brown.
STRAUSS, L. 1960. Wave Generation and Shaping. New York : McGraw-Hill.
STRAWN, J. 1980. « Approximation and syntactic analysis of amplitude and frequency functions
for digital sound synthesis. » Computer Music Journal 4(3) : 3-24.
STRAWN, J. 1985a. « Modelling musical transitions. » Ph.D dissertation. Stanford : Stanford Uni-
versity Department of Music.
STRAWN, J. ed. 1985b. Digital Audio Signal Processing: An Anthology. Madison : A-R Éditions.
STRAWN, J. ed. 1985c. Digital Audio Engineering: An Anthology. Madison : A-R Éditions.
STRAWN, J. 1987a. « Analysis and synthesis of musical transitions using the discrete short-time
Fourier transform. » Journal of the Audio Engineering Society 35(1/2) : 3-14.
STREICHER, R. et DOOLEY, W. 1978. « Basic stereo microphone perspectives – a review. » Journal
of the Audio Engineering Society 33(7/8) : 548-556. Réimprimé dans Audio Engineering Society.
1986. Stereophonic Techniques : An Anthology. New York : Audio Engineering Society.
STURM, B.L. 2006a. « Concatenative sound synthesis and intellectual property : An analysis of the
legal issues surrounding the synthesis of novel sounds from copyright-protected work. »
Journal of New Music Research 35(1) : 23-33.
STURM, B.L. 2006b. « Adaptive concatenative sound synthesis and its application to micromon-
tage composition. » Computer Music Journal 30(4) : 44-66.
STURM, B.L. 2009. Sparse Approximation and Atomic Decomposition : Considering Atom Interac-
tions in Evaluating and Building Signal Representations. Thèse de doctorat, Santa Barbara,
CA : University of California.
STURM, B. L. 2014. « The state of the art ten years after a state of the art : Future research in music
information retrieval. » Journal of New Music Research 43(2) : 147-172.
STURM, B.L. et CHRISTENSEN, M. 2010. « Cyclic matching pursuit with multiscale time-fre-
quency dictionaries. » Proceedings of the Asilomar Conference on Signals, Systems, and Com-
puters. Pacific Grove, CA. pp. 581-585.
STURM, B.L. et SHYNK, J.J. 2010. « Sparse approximation and the pursuit of meaningful signal
models with interference adaptation. » IEEE Transactions on Audio, Speech and Language
Processing 18(3) : 461-472.
STURM, B.L., DAUDET, L. et ROADS, C. 2006. « Pitch-shifting audio signals using sparse atomic
approximations. » Proceedings of the ACM Workshop on Audio and Music Computation in
Multimedia. Santa Barbara, CA. pp. 45-52.
STURM, B.L., SHYNK, J.J., DAUDET, L. et ROADS, C. 2008. « Dark energy in sparse atomic
estimations. » IEEE Transactions on Audio, Speech and Language Processing 16(3) : 671-676.
BIBLIOGRAPHIE 651
STURM, B.L., ROADS, C., MCLERAN, A. et SHYNK, J.J. 2009. « Analysis, visualization, and trans-
formation of audio signals using dictionary-based methods. » Journal of New Music Research
38 (hiver) : 325-341.
SUEN, C. 1970. « Derivation of harmonic equations in nonlinear circuits. » Journal of the Audio
SULLIVAN, C. 1990. « Extending the Karplus-Strong plucked-string algorithm to synthesize electric
guitar timbres with disortion and feedback. » Computer Music Journal 14(3) : 26-37.
SUNDBERG, J. 1972. « A perceptual function of the ‘singing formant’. » Speech Transmission Lab
Quarterly Progress and Status Report 1972. Stockholm : K.T.H. p. 2-3, 61-63.
SUZUKI, H. 1987. « Modal analysis of a hammer-string interaction. » Journal of the Acoustical
Society of America 82(4) : 1145-1151.
SZILAS, N. et CADOZ, C. 1993. « Physical models that learn. » S. Ohteru, ed. Proceedings of the 1993
Conference. p. 72-75.
TADOKORO, Y. et HIGISHI, T. 1978. « Discrete Fourier transform computation via the Walsh
transform. » IEEE Transactions on Acoustics, Speech and Signal Processing ASSP-26(3) : 236-
240.
TALAMBIRUS, R. 1985. « Limitations on the dynamic range of digitized audio. » Dans J. Strawn,
ed. Digital Audio Engineering : An Anthology. Madison : A-R Éditions. p. 29-60.
TAYLOR, P. 2009. Text-to-Speech Synthesis. Cambridge, MA : Cambridge University Press.
TEMPELAARS, S. 1976. « The VOSIM oscillator. » Présenté à l’International Computer Music
Conference 1976, MIT, Cambridge, MA, 28-31 octobre.
TEMPELAARS, S. 1977. Sound Signal Processing. Ruth Koenig, traducteur. Utrecht : Institut de
Sonologie.
TENNEY, J. 1963. « Sound generation by means of a digital computer. » Journal of Music Theory 7 :
24-70.
TENNEY, J. 1965. « The physical correlates of timbre. » Gravesaner Blätter 26 : 103-109.
TENNEY, J. 1969. « Computer music experiments : 1961-64. » Electronic Music Reports 1 : 23-60.
TERHARDT, E. 1982. « Algorithm for extraction of pitch and pitch salience from complex tonal
signals. » Journal of the Acoustical Society of America 71(3) : 679.
TIBSHIRANI, R. 1996. « Regression shrinkage and selection via the LASSO. » Journal of the Royal
Statistical Society. Series B 58(1) : 267-288.
TOMISAWA, N. 1981. « Tone production method for an electronic music instrument. » Brevet améri-
cain n° 4 249 447.
TOSIC, I. et FROSSARD, P. 2011. « Dictionary learning : What is the right representation for my
signal? » IEEE Signal Processing Magazine 28(2) : 27-38.
TROPP, J. 2004. « Greed is good : Algorithmic results for sparse approximation. » IEEE Transac-
tions on Information Theory 50(10) : 2231-2242.
TRUAX, B. 1977. « The POD system of interactive composition programs. » Computer Music Journal
1(3) : 30-39.
TRUAX, B. 1987. « Real-time granulation of sampled sound with the DMX-1000.» Dans J. Beauchamp,
TRUAX, B. 1988. « Real-time granular synthesis with a digital signal processing computer. »
TRUAX, B. 1990a. « Time-shifting of sampled sound with a real-time granulation technique. » Dans
S. Arnold et G. Hair, eds. Proceedings of the 1990 International Computer Music Conference.
TRUAX, B. 1990b. « Composing with real-time granular sound. » Perspectives of New Music 28(2) :
120-134.
TYNDALL, J. 1875. Sound. Third ed. Akron : Werner.
UMAN, M. 1984. Lightning. New York : Dover.
UMBERT, M., BONADA, J., GOTO, M., NAKANO, T. et SUNDBERG, J. (à paraître). Expression
Control in Singing Voice Synthesis : Features, Approaches, Evaluation, and Challenges.
IEEE Signal Processing Magazine.
VAGGIONE, H. 1996. « Autour de l’approche électroacoustique : situations, perspectives. » Dans
Esthétique et Musique électroacoustique. Bourges : Éditions Mnémosyne.
VAIL, M. 1993. « The E-mu Emulator. » Keyboard 19(1) : 108-111.
VAIL, M. 2000. Vintage Synthesizers. 2e édition. San Francisco : Miller-Freeman Books.
VAN DE PLASSCHE, R. 1983. « Dynamic element matching puts trimless converters on chip. »
Electronics 16, juin 1983.
VAN DE PLASSCHE, R. et DIJKMANS, E. 1983. « A monolithic 16-bit d/a conversion system for
digital audio. » Dans B. Blesser, B. Locanthi et T. Stockham, eds. Digital Audio. New York :
Audio Engineering Society. p. 54-60.
VAN DER POL, B. 1930. « Frequency modulation. » Proceedings of the Institute of Radio Engineers
18 : 1194-1205.
VANDERKOOY, J. et LIPSCHITZ, S. 1984. « Resolution below the least significant bit in digital sys-
tems with dither. » Journal of the Audio Engineering Society 32(3) : 106-113.
VAN DUYNE, S. et SMITH, J. 1993. « Physical modeling with a 2-D digital waveguide mesh. » Dans
S. Ohteru, ed. Proceedings of the 1993 International Computer Music Conference. San
VETTERLI, M. 1992. « Wavelets and filter banks: theory and design. » IEEE Transactions on Signal
Processing 40(9) : 2207-2233.
VIDOLIN, A. 1993. Communication personnelle.
VOELKEL, A. 1985. « A cost-effective input processor pitch-detector for electronic violin. » Dans
B. Truax, ed. Proceedings of the 1985 International Computer Music Conference. San Francisco :
VOLONNINO, B. 1984. « Programmi per la sintisi del suono tramite distortione non lineare dipen-
dente dalla frequenza. » Padua : Centro di Sonologià Computazionale, Università di Padova.
VON FOERSTER, H. et BEAUCHAMP, J., eds. 1969. Music by Computers. New York : Wiley.
WALKER, B. et FITZ, K. 1992. Lemur Manual. Urbana, IL : CERL Sound Group, University of Illinois.
WALSH, J. 1923. « A closed set of orthonormal functions. » American Journal of Mathematics 45 :
5-24.
WASCHKA, R. et KUREPA, A. 1989. « Using fractals in timbre construction : an exploratory study. »
Dans T. Wells et D. Butler, eds. Proceedings of the 1989 International Computer Music Conference.
WAYNE, W.C., Jr. 1961. « Audio modulation system (choral tone modulator). » Brevet américain
n° 3 004 460.
WEGEL, R. et LANE, C. 1924. « The auditory masking of one pure tone by another and its probable
relation to the dynamics of the inner ear. » Physics Review 23 : 266-285.
BIBLIOGRAPHIE 653
WEINREICH, G. 1983. « Violin sound synthesis from first principles. » Journal of the Acoustical
Society of America 74 : 1S52.
WELLS, T. 1981. The Technique of Electronic Music. New York : Schirmer.
WESSEL, D. 1979. « Timbre space as a musical control structure. » Computer Music Journal 3(2) :
WESSEL, D., FELCIANO, R., FREED, A. et WAWRYZNEK, J. 1989. « The Center for New Music and
Audio Technologies. » Dans T. Wells et D. Butler, eds. Proceedings of the 1989 International Com-
puter Music Conference. San Francisco : International Computer Music Association. p. 336-339.
WHITFIELD, I. 1978. « The neural code. » Dans E. Carterette et M. Friedman, eds. 1983. Handbook of
Perception, vol. 4. Orlando : Academic Press. p. 163-183.
WIENER, N. 1930. « Generalized harmonic analysis. » Acta Mathematica 55 : 117-258.
WIENER, N. 1964. « Spatial-temporal continuity, quantum theory, and music. » Dans M. Capek,
ed. 1975. The Concepts of Space and Time. Boston : D. Reidel.
WIGNER, E. 1932. « On the quantum correction for thermodynamic equilibrium. » Physical Review
40 : 749-759.
WINCKEL, F. 1967. Music, Sound, and Sensation. New York : Dover Publications.
WINHAM, G. 1966. The Reference Manual for Music 4B. Princeton : Princeton University Music
Department.
WISHART, T. 1988. « The composition of Vox-5. » Computer Music Journal 12(4) : 21-27.
WOLD, E. 1987. « Nonlinear parameter estimation of acoustic models. » Ph.D dissertation. Report
Number UCB/CSD 87/354. Berkeley : Department of Electrical Engineering and Computer
Science.
WOOD, A. 1940. Acoustics. London : Blackie and Sons.
WOOD, P. 1991. « Recollections with John Robinson Pierce. » Computer Music Journal 15(4) : 17-28.
WOODHOUSE, J. 1992. « Physical modeling of bowed strings.» Computer Music Journal 16(4) : 43-56.
WOSZCZYK, W. et TOOLE, F. 1983. « A subjective comparison of five analog and digital tape
recorders. » Preprint 2033 (H-8), présenté à la 74e Convention de l’Audio Engineering Society,
8-12 octobre 1983. New York : Audio Engineering Society.
WRIGHT, M. et FREED, A. 1997. « Open SoundControl : A New Protocol for Communicating with
Sound Synthesizers ». International Computer Music Conference. Thessalonique, Grèce, 1997.
WRIGHT; M. 1998. « Implementation and Performance Issues with Open Sound Control ». Inter-
national Computer Music Conference. Ann Arbor, MI, États-Unis.

WRIGHT, M., FREED, A. et MOMENI, A. 2003. « Open Sound Control : State of the Art 2003 ». Pro-
ceedings of the Conference on New Interfaces for Musical Expression. Montréal, Canada. p. 153-
159.
XENAKIS, I. 1960. « Elements of stochastic music. » Gravesaner Blätter 18 : 84-105.
XENAKIS, I. 1971. Formalized Music. Bloomington : Indiana University Press.
XENAKIS, I. 1992. Formalized Music. Édition révisée. New York : Pendragon Press.
XIN CHONG. 1987. Communication personnelle.
YAMAHA. 1993. Documentation pour le synthétiseur VL1. Buena Park : Yamaha.
YAVELOW, C. 1992. Macworld Music and Sound Bible. San Mateo : IDG Books.
YESTON, M. 1976. The Stratification of Musical Rhythm. New Haven : Yale University Press.
YOST, W. 1980. « Temporal properties of pitch and pitch strength of ripple noise. » Dans G. van den
Brin et F. Bilsen, eds. Psychophysical, Physiological and Behavioural Studies in Hearing : Pro-
ceedings of the 5th International Symposium on Hearing. Noordwijkerhout : Delft University

Press. p. 367-373.
YOST, W. et HILL, R. 1978. « Strength of the pitches associated with ripple noise. » Journal of the
Acoustical Society of America 64 : 485-492.
YOST, W. et NIELSEN, D. 1977. Fundamentals of Hearing. New York : Holt, Reinhart et Winston.
YOUNG, G. 1989. The Sackbut Blues. Ottawa : National Museum of Science and Technology.
ZARIPOV, R. 1969. « Cyberbetics and music. » Perspectives of New Music 7(2) : 115-154. Traduction
par J. Russell de Kibernetika i Muzyka (1963).
ZILS, A. et PACHET, F. 2001. « Musical Mosaicing. » Proceedings of the COST-G6 International
Conference on Digital Audio Effects. Limerick, Irlande. pp. 1-6.
ZOLA TECHNOLOGIES. 1991. DSP Designer. Logiciel informatique. Atlanta : Zola Technologies.
ZWICKER, E., FLOTTORP, G. et STEVENS, S. 1957. « Critical band width in loudness summation. »
ZWICKER, E. et SCHARF., B.1965. « A model of loudness summation. » Psychological Review 72 :
3-26.
ZWISLOCKI, J. 1978. « Masking : experiments and theoretical aspects of simultaneous, forward,
backward, and central masking. » Dans E. Carterette et M. Friedman, eds. Handbook of
Perception, vol. 4. New York : Academic Press. p. 283-336.
© 1996-2016 Curtis Roads

Index des sujets
2001 : l’odyssée de l’espace (Stanley Kubrick), Analyse à Q constant, 247, 401

521 Comparaison avec les méthodes de Fourier,
3M Inc., 9 245
Analyse autorégressive, 470, 569
mouvante moyenne (ARMA), 258
A Analyse cepstrale, 185
Acousmonium, 123, 126 Analyse de source et de paramètre, 258
Acoustique Analyse déterministe et stochastique, 229
linéaire, 521 Analyse du son
non linéaire, 521, 531 Analyse spectrale, 231, 265
ADAT Optical Interface (liaison Estimation de la hauteur, 186
audionumérique), 317 Histoire, 172
ADSR (enveloppe), 358 Reconnaissance du rythme, 195
AES/EBU (liaison audionumérique), 315 Synchrone à la hauteur, 206
AES10 (liaison audionumérique), 316 Analyse harmonique généralisée, 205
Albis Tonfrequenz (matériel audio), 76 Analyse multirésolution, 215
Alesis, 317 Analyse spectrale, 231, 265
Algorithme prédictif, 469 Affichage en chute d’eau, 200

Alignement de phase, 14 Analyse à Q constant, 401
Alimentations en courant alternatif, 308 Analyse synchrone aux hauteurs, 401
Ambisonics, 148 Applications, 198
B-format, 147 Compromis temps/fréquence, 215
G-format, 148 d’ordre supérieur, 539
UHJ, 147 Définition, 197
Ampex Corporation, 54 Échos parasites, 219, 256
Amplificateur contrôlé par tension (VCA), 50, Enveloppe spectrale, 204
549 Fenêtres, 206
Amplion (matériel audio), 4 Filtres hétérodynes, 207
Analogique (représentation du son), 16 Histoire, 208
Analogique A-B (Iannis Xenakis), 422 mécanique, 205
Analogique B (Iannis Xenakis), 593 Méthodes de Prony, 260
Modèles utilisés, 201 Phonogramme, 600

Ondelettes, 206 Project 1, 583
Ordre supérieur, 539 Project 2, 583
par autorégression, 259 PulsarGenerator, 438, 451
pour la synthèse additive, 401 SAWDUST, 577, 583
Quanta, 206 Singer, 539
Représentation sonagramme, 220 SSP, 577, 583
Résolution, 215 SuperCollider 1, 450
Spectre SuperCollider 2, 450
de puissance, 200 Synth-O-Matic, 450
discret, 198 TBone, 534
synchrone à la hauteur, 198 Apprenti sorcier, L’ (Paul Dukas), 140
Timbre, 203 Approximation de segments de ligne, 403
Tracés statiques, 200 Arp, 557
Vocodeur de phase, 208, 231, 265, 401 Arp Omni (instrument), 550
Analyse synchrone à la hauteur, 198, 401 Arturia Moog V (instrument), 547
Analyse/Resynthèse Assignation des durées de note, 193
additive, 407 Ateliers UPIC, 598
Fonctions excitatrices, 466 Atténuateur contrôlé par MIDI (MCA), 60
liée à la MF, 497 Audio Engineering Society, 7, 315, 330
par ondelettes, 253, 423 Audionumérique, 3
Comparaison avec les méthodes de Formats de fichier, 318
Fourier, 253 Synchro, 321
Détection de transitoires, 255 AUDIUM, 124
Dilatation, 249 Autocorrélation, 262
Resynthèse, 252 Automatisation de fader, 59
soustractive, 467
Analyse-par-synthèse/superposition-addition
(ABS/OLA), 219 B
Apple Macintosh (ordinateur), 450 Bande
Apple G4, 451 de coupure d’un filtre, 457
Quadra, 55 de passage d’un filtre, 457
Applications de transition d’un filtre, 459
CHANT, 260, 561, 568 Bandes
FORMES, 566 critiques, 246, 339
GENDY, 607 Dissonance, 340
Max, 304 latérales, 479, 481, 485
Midiscope, 297 reflétées dans la MF, 492
Music 4B, 76 Banque
Music I, 351 d’oscillateurs VOSIM (instrument), 572
Music II, 351 de filtres, 462
Music III, 351 Base
Music IV, 76, 351 de Fourier, 234
Music N, 351, 580 dirac, 234–235
Music V, 351, 502 sinusoïde, 234–235
PatchWork, 568 Basic (langage), 304
Basilique Saint Marc (Venise), 122 Center for Computer Music and Music
BBC (British Broadcasting Company), 9 Technology, 55
Bell Telephone Laboratories, 6, 139, 154, 206, Chamberlin (instrument), 375
208, 270, 349, 502, 509, 521 Champ de paramètre, 361, 369
Bicycle Built for Two (John Kelly et Carol Changement temps/hauteur, 120
Lochbaum), 521 CHANT (application), 260, 561, 568
Binaural, 136 Chaos non linéaire, 602
Blackman-Harris (fenêtre), 572 Chorus, 114
Bouclage, 379 Cinéma (diffusion du son), 141
bidirectionnel, 379 CinemaScope, 141
Bruit Cinerama, 140
Analyse, 231 Circuits analogiques, 546
blanc, 602 Cirrus Logic, 330
chaotique, 601 Clang-tint (Curtis Roads), 422, 452
coloré, 603 Clang-tint (définition du terme), 205
de lecture de table, 355 Clavia Nord Lead III (instrument), 555
de quantification, 29 Clavier-Übung (Johann Sebastian Bach), 285
Générateur, 603 Clavioline (instrument), 76
Perception, 342 CMU MIDI Toolkit (langage), 304
Réduction du bruit et compresseurs- Cochlée, 261, 337
extenseurs, 71 Cochléagramme, 261
Buchla, 557 Modèles logiciels, 262
Bus Codage prédictif linéaire (CPL), 183, 477, 563,
Adresse de diffusion, 323 569
asynchrone, 323 Coded Music Apparatus (instrument), 596
esclave, 323 Commission Électrotechnique Internationale,
État d’attente, 324 316
logique d’arbitrage, 323 Composer-Tron (instrument), 596
maître, 323 Composition
Priorité, 323 algorithmique, 370
Protocole spectrale, 400
d’attente, 324 Compresseurs, 71
de transfert, 323 Compresseurs-extenseurs, 71

Signal d’interruption, 324 Détection de pics et de moyenne, 70
synchrone, 324 Rapport de compression, 71
Transaction, 323 Compression des données audio, 39
Compression-expansion temporelle, 120, 208,
422
C Codage prédictif linéaire, 119
C (langage), 304 électromécanique, 116
Cabine Leslie, 137 numérique, 116
Câbles audio analogiques, 310 Transformée en ondelettes, 119
Calcul en virgule fixe et flottante, 45 Vocodeur de phase, 119
Capri Digital Studio, 51 Concret PH (Iannis Xenakis), 122, 593
Casio, 509 Connecteurs
Cellulophone (instrument), 595 biconiques, 319
ST, 319 Décomposition

Conservatoire Central de Musique de Beijing, atomique, 233, 235–236, 238–239,
516 241–242
Constitution Hall, Washington, 139 gloutonne, 236–237
Construction Déconvolution, 105, 184
automatique d’instrument, 537 autorégressive, 106
Sal-Mar, 123 homomorphique, 106
Continuum entre infrasons et sons, 442 Départs/Retours auxiliaires, 46
Contrôleurs Déphasage, 14
d’interprétation, 363 Déplacement
DMA, 324 des fréquences, 484
Convertisseur formantique, 572
analogique-numérique (CAN), 17 Désintégrations (Tristan Murail), 400
hauteur-MIDI, 173, 272 Détecteur
numérique-analogique (CNA), 20 d’enveloppe, 466
SMPTE-MIDI, 64, 298 de période (dans l’oreille), 338
Convolution, 106, 443, 449 DFT, 100
circulaire, 105 Différences à terme, 581
Définition mathématique, 98 Digigram S.A., 330
Effet de filtrage, 101 Digital Moonscapes (Wendy Carlos), 400
Effets Digitar (puce), 539
de modulation, 103 Dimension 150, 141
temporels, 97, 102 Diphone (méthode de transition), 385, 476
linéaire, 105 Diracgramme, 239–240
Loi, 99 Disque compact (CD), 7
rapide, 100 CD-I, 7
Synthèse croisée, 95 CD-R, 7
Correction CD-Rom, 7
d’erreur numérique, 6 Disque Raleigh, 170
de phase, 25 Distance de câble, 310
Corrélogrammes, 262 Distorsion de phase, 489, 509
Coupure (mute) de canal, 60 Distorsion non linéaire, 517, 552, 556
Courbes dépendante de la fréquence, 517
de Fletcher-Munson, 335 Fonction de transfert aléatoire, 604
de Lissajous, 170 Fonctions de Chebychev, 514
de phone, 335 fractionnée, 517
isosoniques, 335 mobile, 516
Coût de l’émulation analogique virtuelle, 546 Normalisation de l’amplitude, 515
Post-traitement, 517
Signal résiduel, 517
D Variations, 516
DAT (Digital Audio Tape), 7 Distribution
DCC (Digital Compact Cassette), 7 de probabilité, 605–606
Décibels, 31 de Wigner-Ville, 237, 239, 255–257, 260
Décimation, 380 Dolby Laboratories, 72, 143
Décision voisée/dévoisée, 472 Dolby A, 143
Dolby Digital, 143 Émulation

Dolby Pro Logic II, 144 de circuits à lampes, 556
Dolby SR, 143 de filtres analogiques, 553
Dolby Stereo, 143 Enarmonikos, 169
Downsampling, 380 Enregistrement
DSP (traitement numérique du signal), 360 multipiste, 9, 54, 56
DTS, 143 Avantages et problèmes, 54
DTS Neo 6, 144 optique, 5
stéréophonique, 54
sur site, 57
E Enveloppe, 356
Earth’s Magnetic Field (Charles Dodge), 397 ADSR, 358
Échantillonnage, 6, 373 normalisée, 358
vers le bas (downsampling), 380 spectrale, 466, 563
vers le haut (upsampling), 380 Epitaph für Aikichi Kuboyama (Herbert
Echo for John Pierce (Jean-Claude Risset), 465 Eimert), 115
Échos parasites, 219, 256 Epsco Corporation, 6
Écoute audio, 59 Équation
Écran, 426 d’interpolation linéaire, 579
Éditeur différentielle linéaire, 79
de partition, 363 Erreur d’approximation, 236–238
de patch, 363 Espace sonore cinématique, 121
graphique d’instrument, 360 Estimation de la hauteur, 186
Effet Analyse cepstrale, 185
de masque, 345 Autocorrélation, 179
en avant, 442 Détection
de précédence, 126 de la période fondamentale, 177
de retard temporel, 114 polyphonique, 186
fixe, 111 Domaine fréquentiel, 185
variable, 114 Filtre adaptatif, 179
Doppler, 127, 135 Méthode en peigne optimum, 179
Égaliseur Modèles auditifs, 185

graphique, 462 Vocodeur de phase pisteur, 181
paramétrique, 463 Estimation de paramètres, 259, 497, 539
EIAJ (Electronics Industry Association of European Broadcast Union, 315
Japan), 6 Eventide H910 Harmonizer (matériel audio),
Liaison audionumérique, 315 117
Electronic Industries Association, 312 Excitation
Electronic Music Studios, 207 dans la synthèse, 521, 531, 568
Eleventh vortex (Curtis Roads), 452 non linéaire, 530
Empilement Excitation/Résonance
d’ondes, 412 couplée, 522
de tables d’ondes, 412 découplée, 522
EMS, 207, 545, 557 Experimental Music Studio, 116
E-mu Emulator (instrument), 376 Extenseurs, 71
F passe-bas, 81, 457

passe-haut, 83, 457
Facteur
passe-tout, 94, 463
de bouclage b, 504
Effet chorus, 94
de superposition, 223
Fréquence de renversement, 94
Fairlight Computer Music Instrument (CMI)
Largeur de transition, 94
(instrument), 376
Premier ordre, 88
Fantasia (Walt Disney), 140
Q (coefficient de qualité), 463
Fantasound, 140
récursifs, 85
Fenêtrage, 400
Réponse
dans l’analyse spectrale, 206, 209 de phase, 79
dans le traitement audio, 572 impulsionnelle, 79
Fermeture de fenêtre, 225 finie (FIR), 85
FFT, 569 infinie (IIR), 87
FFT-1 (Transformée de Fourier rapide inverse), Réponse amplitude en fonction de la
219 fréquence, 456
Fichier son, 362 Second ordre, 88
Field (Curtis Roads), 422 Stabilité, 85
Filtre transversaux, 83
antirepliement, 25 Flammes
contrôlé par tension (VCF), 549 chantantes, 561
de correction temporelle, 26 manométriques, 170
Kalman, 537 Flanger, 113
par guide d’onde, 531 Fonction
Filtres, 94, 477 de distorsion, 513
à Q constant, 461 de transfert, 509
Antirepliement, 25 Compresseur, 69
Bande Fonctions
de coupure, 457 de Bessel, 495, 502
de passage, 457 de Chebychev, 514
de transition, 459 excitatrices dans l’analyse/resynthèse, 466
biquadratiques, 88 Fondu enchaîné de tables d’onde, 409
Conception et réalisation, 89 Formalized Music (Iannis Xenakis), 605
Convolution, 228 Formants dans la voix, 561
Correction temporelle, 26 Formats
Coupe-bande, 457 de compression en audionumérique, 40
Distorsion de phase, 87 de fichier en audionumérique, 318
en peigne, 93, 457, 463 de transmission en audionumérique, 318
Fréquence de coupure, 457 Forme d’onde
Gain, 461 limitée en bande, 551
Largeur de bande, 457 non limitée en bande, 551
Moyenne de temps exponentielle (ETA), 85 périodique, 10
numériques, 94 FORMES (application), 566
omnipolaires, 470 Formula (langage), 304
omnizéro, 470 Formules de somme discrète, 517
passe-bande, 457, 463 Forth (langage), 304
Free Music Machine (instrument), 596 Hammond B3 (instrument), 137, 391

Fréquence Hammond Novachord (instrument), 76
d’échantillonnage, 21 Harmoniques, 11, 391
de coupure d’un filtre, 457 Harmoniseur, 117
de Nyquist, 24, 515, 551 Haut-parleurs
négative, 481 à pavillon, 5
Fusion et perception du timbre, 343 dynamiques, 58
électrostatiques, 58
G rotatifs, 139
Hibiki Hana Ma (Iannis Xenakis), 123
Gain d’un filtre, 461 HMSL (langage), 304
Gamme dynamique, 45 Hohner Elektronium (instrument), 437
Audionumérique, 31 HRTF (Fonction de transfert relative à la tête),
GENDY (application), 607 135
Générateur Huygens (Principe), 144
de nombre pseudo aléatoire, 541, 601 HYBRID (instrument), 270
de son photoélectrique, 595 HYBRID IV (instrument), 124
élémentaire, 351, 451 Hymnen (Karlheinz Stockhausen), 137, 484
Gesang der Jünglinge (Karlheinz Stockhausen),
122
Gibson Guitar Corporation, 330
Gmebaphone, 123, 126
I
IBM 704 (ordinateur), 349
Granulation temporelle de sons échantillonnés,
IBM 7094 (ordinateur), 351
431
Idle Chatter (Paul Lansky), 474
Green (fonction), 148
IEC 958 (liaison audionumérique), 316
GRM, 465
Illusions
GROOVE (instrument), 270
auditives, 345
Groupe de Musique Expérimentale de Bourges
(GMEB), 123 sonores verticales, 136
Groupe de Recherches Musicales (GRM), 123, Impulsion élémentaire, 79
465 In a silver scale (Newman Guttman), 351
Guides d’onde, 536 Incrément dans un oscillateur numérique, 352
Cordes pincées, 532 Index de modulation, 488, 502, 505

Jonctions de dispersion, 532, 534 En modulation de fréquence, 491
Modèle générique d’instrument, 532 Index de phase, 352
Réverbération, 165 Indication
Simulation d’azimut (Simulation), 131
de clarinette, 534 de distance (Simulation), 132
de cuivres, 534 de localisation, 137
de vents, 533 de vélocité (Simulation), 135
Synthèse de cordes, 534 de zénith (Simulation), 136
Inharmonique (Jean-Claude Risset), 398
Institut de Sonologie, 570, 572, 583–584
H Institut Polytechnique de Nuremberg, 205
HAL (ordinateur), 521 Institute of Eletrical and Electronic Engineers
Half-life (Curtis Roads), 452 (IEEE), 312
IEEE 802 Local Network Standards

Committee, 328
J
Jets d’eau chantants, 561
IEEE1394 (Firewire), 330
Jonctions de dispersion, 532, 534
Intégration temporelle, 338
Jupe formantique, 565
Intensité du son, 334
Interconnexions de systèmes, 331
Alimentations en courant alternatif, 308
Câbles audio analogiques, 310
K
Karplus-Strong, 543
Cobranet, 330 Cordes pincées, 539
Conditionneur d’alimentation, 308 Timbres de tambour, 541
Connexions MIDI, 315 Klangfarbe, 205
Contrôleurs DMA, 324 Klangfarbenmelodie, 345
Ethernet, 330 Klangumwandler, 484
EtherSound, 330 Kodak CDS, 143
Firewire, 330 Kontakte (Karlheinz Stockhausen), 54, 122,
HRMAI (AES50), 331 137, 484, 548
Liaisons de synchro, 322 Korg, 531
Liaisons en fibre optique, 318 Kunitachi College of Music, 55, 452
Lignes série, 312 Kurzweil Music Systems, 297
MaGIC, 330 Kurzwellen (Karlheinz Stockhausen), 484
mLan, 330
Open Sound Control (OSC), 330
Patchbays, 312 L
Ports parallèles, 324 Langage de partition pour la synthèse, 364
Protocoles réseau pour la musique, 331 Langages
Régulateur de tension, 308 Basic, 304
Rejet du mode commun, 309 C, 304
Réseaux, 331 CMU MIDI Toolkit, 304
symétriques et asymétriques, 309 de synthèse, 360
USB, 330 Formula, 304
Zeta Instrument Processor Interface Forth, 304
(ZIPI), 329 HMSL, 304
International MIDI Association, 271, 304 Lisp, 304, 528
International Standards Organisation (ISO), Logo, 304
326 Modalys, 529
Interpolation, 380, 581 MoxC, 304
Différents types, 578 Pascal, 304
Fonctions GEN, 580 PILE, 585
Formes d’onde, 577 Scheme, 528
Oscillateurs et générateurs d’enveloppe, Largeur de bande d’un filtre, 457
579 Lexicon Varispeech (matériel audio), 116
Introductory Catalog of Computer Generated Liaisons audionumériques, 318
Sounds (Jean-Claude Risset), 502 ADAT Optical Interface, 317
Inversion de phase, 14 AES/EBU, 315
Ircam 4X (instrument), 76, 124 AES10, 316
EIAJ, 315 Soundstream, 9

Fibre optique, 318 Springer Tempophon, 115
IEC 958, 316 Studer Dyaxis II, 55
Norme Sample Dump (SDS), 317 Telefunken T9, 54, 122
ProDigi, 316 Telegraphone, 5, 170
S/PDIF, 316 Matriçage 4/2/4, 143
SDIF-2, 316 Max (application), 304
SMDI, 292, 317 MD (Mini-Disc), 7
TDIF, 317 Mellotron (instrument), 375
Yamaha Digital Cascade, 317 Message (Curtis Roads), 598
Licht-Ton Orgel (instrument), 374 Méthodes de Prony, 260
Ligne à retard numérique (LRN), 109, 531 Micromontage, 587, 591, 593
Limiteurs, 71 MIDI, 305
Lisp (langage), 304, 528 Accessoires, 296, 315
Listes Automatisation de table, 60
d’appel MIDI, 295, 321 Câbles, 315
de lecture, 369 Canaux, 280
de notes, 369 Code temporel MIDI, 63, 282, 293, 320
Localisation spatiale et retard, 111 Connexion en chaîne, 275
Logo (langage), 304 Contacts, 304
Longueur d’onde, 11 Contrôle de machine (MMC), 295
Lurai (Jean-Claude Risset), 465 Contrôle de show (MSC), 295
Lyric Variations for Violin and Computer (J. K. Contrôleurs, 290
Randall), 362 Fichiers MIDI standards, 292
Interface, 276
Langages de programmation, 304
M Limites, 300
Matching pursuit Voir Poursuite adaptative Listes d’appel, 295, 321
Matériel audio Messages, 286
Albis Tonfrequenz, 76 d’horloge, 293, 320
Amplion, 4 Système exclusif, 283
Eventide H910 Harmonizer, 117 Modes, 288
Gramophone, 170 General MIDI (GM), 288

Kaleidophone Wheatstone, 170 Multi, 288
Lexicon Varispeech, 116 Omni, 287
Magnetophon, 170 Poly, 288
Melograph Seeger, 173 Norme Sample Dump (SDS), 292, 317
Mitsubishi X-86, 7 Origines, 271
Phonautograph, 170 Patchbay, 275, 315
Phonodeik, 170 Pilote, 278
Phonograph, 170 Ports, 276
Photophone, 318 Possibilités musicales, 272
Publison, 117 Puce UART, 274
Solid State Logic 01, 55 MIDI Manufacturers Association (MMA), 304
Solid State Logic 4072G, 51 Midiscope (application), 297
Sony PCM-1, F1, 1600, 1610 et 1630, 6 Mikrophonie (Karlheinz Stockhausen), 484
Ministère de la Culture japonais (Bunka-cho), à multiples modulantes (MF MM), 502

452 en série, 501
MIT (Massachusetts Institute of Technology), parallèle, 500
167, 206, 208, 422, 521 à multiples porteuses (MF MP), 497
Mitsubishi Group, 316 analogique, 496
Mitsubishi X-86 (Matériel audio), 7 Bandes latérales reflétées, 492
Mixage audio, 56 Bouclage indirect, 509
Automatisation de fader, 59 bouclée, 509
Tables, 54 MF Chowning, 489
assignables, 53 MF exponentielle, 496, 556
Bandeau de Vumètres, 46 MF linéaire, 496, 556
Bus de sortie, 46 MF simple, 489
Crêtemètres, 50 Modulations générales, 517
Départs/Retours auxiliaires, 46 Moog, 545, 550, 557
hybrides, 52 Moog Memorymoog (instrument), 550
numériques, 54 Mortuos Plango, Vivos Voco (Jonathan Harvey),
Section 400
d’entrée, 46 MoxC (langage), 304
d’envoi d’ordres, 49 Music
de contrôle d’écoute, 50 4B (application), 76
de retours auxiliaires, 48 I (application), 351
de sortie, 46 II (application), 351
Sous-groupes, 50 III (application), 351
Vumètres, 50 IV (application), 76, 351
Mixtur-Trautonium (instrument), 76 N (applications), 351, 580
MLP (Meridian Lossless Packing), 143 V (application), 351, 502
Modalys (langage), 529 Musique
Modèle concrète, 375
d’audition, 262 libre, 595
de dispersion d’un haut-parleur, 137 Mycenae-Alpha (Iannis Xenakis), 597
de radiation, 137
de résonance (MDR), 568
par équation d’état, 537 N
par forme d’onde glottale, 539 NHK (Japan Broadcasting Corporation), 6, 144
Modes de vibration, 526 Nippon Gakki, 489
Modulation, 518 Niveau de pression sonore, 334
à bande latérale unique, 484 Nombres à virgule flottante, 18
angulaire, 489 Comparaison avec virgule fixe, 45
d’amplitude (MA), 99, 447, 488, 555 Nombres binaires, 17
de largeur d’impulsion, 441, 555 Normalisation de l’amplitude, 515
de paramètres de forme d’onde, 517 Northwestern University, 166
de phase, 489 nscor (Curtis Roads), 422
delta-sigma, 34 Nuage
en anneau, 99, 484, 555 cumulus, 430
spatiale, 556 monochrome, 430
Modulation de fréquence (MF), 509, 555 polychrome, 430
pulsar asynchrone, 452 Outils d’entrée, 363, 367

stratus, 430 pour la synthèse par modèles physiques,
transchrome, 430 536
O P
Panoramisation
Oberheim Electronics, 271
à puissance constante, 128
Oberheim Four Voice (instrument), 550 définition, 122
Objet sonore, 364 linéaire, 127
Onde Paradigme masse-ressort
modulante, 479 pour l’excitation, 525
longitudinales, 525 pour les cordes vibrantes, 523
Martenot (instrument), 548 pour les surfaces et les volumes vibrants,
525
porteuse, 479
Parcimonie, 235–238, 241
transversales, 525 Parole visible, 200
Ondelettes dans l’analyse spectrale, 206 Partiels inharmoniques, 394
Ondioline (instrument), 76, 437, 548 Partita III (Johann Sebastian Bach), 181
Opcode Systems, 290 Pascal (langage), 304
Open Systems Interconnexion (OSI), 326 Patch, 357, 554
Optimisation, 219, 236, 238, 253, 301 analogique, 555
Oramics (instrument), 596 cordons, 554
Éditeur, 363, 555
Orbite en synthèse par terrain d’ondes, 415
numérique, 555
Ordinateurs Synthèse soustractive, 548
Apple Macintosh, 450 Patchbays, 312
Apple G4, 451 analogiques, 311
Quadra, 55 hybrides, 312
HAL, 521 MIDI, 315
IBM 704, 349 numériques, 312
PatchWork (application), 568
IBM 7094, 351
PCM (Modulation par impulsion), 6

Organe de Corti, 337
Peavey Electronics, 292, 317
Orgues Hammond (instruments), 113, 389 Perception
Oscillateur de la fréquence, 341
bouclés, 502 du bruit, 342
contrôlé par tension (VCO), 496, 549 du timbre, 343
interpolants, 356, 579 temporelle, 339
numérique, 352 Périphonie, 125
Perspecta, 141
Incrément, 352
Perte de génération, 56
Tronquation, 355 pfield, 361, 369
Oscillator Bank (instrument), 596 Phase
Oscilloscope, 205 dans la synthèse additive, 393
Otari Inc., 316 définition, 14
Phasing, 113
Phonogène (instrument), 374
R
Radiation sonore, 137
Phonogramme, 595
Rapport de compression, 71
application, 600 Rapport P/M, 490
Photona (instrument), 595 RCA Synthesizer (instrument), 76
Photophone (matériel audio), 318 Reconnaissance
Pictor Alpha (Curtis Roads), 239–241 d’élément dans l’analyse sonore, 264
PILE (langage), 585 de hauteur dans les systèmes MIDI, 172
Ping-pongs de pistes, 56 du rythme, 195
Pistage dans les systèmes MIDI, 172
de pic dans le vocodeur de phase pisteur, Estimation de la métrique et des
226 limites de mesure, 194
de tempo, 188 Récupération d’erreurs, 194
Pitch Variations (Newman Guttman), 351 Réduction de données
Pitch-shifting, 381 dans l’analyse/resynthèse additive, 402
Planète interdite (Louis et Bebe Barron), 518, dans les échantillonneurs, 382
556 Réduction du bruit, 71, 143
Poème électronique (Edgar Varèse), 122 Regroupements en éléments dans l’analyse de
Poly5 (Vincent Lesbros), 600 rythme, 193
Polytope de Cluny (Iannis Xenakis), 123 Rejet du mode commun, 309
Pondération de portion, 574 Remodeleurs d’enveloppes, 67
Postproduction audio/vidéo, 63 Remplissage par des zéros dans l'analyse
Potentiomètre d’espace, 142 spectrale, 223
Pourcentage de déviation du vibrato, 499 Repliement, 552
Problèmes de distorsion, 552
Poursuite adaptative, 236–237, 239–242
Répons (Pierre Boulez), 124
Prédiction linéaire faussée, 476
Réponse
Principes de sélection sériels et postsériels, 583
amplitude en fonction de la fréquence, 456
ProDigi (liaison audionumérique), 316
fréquentielle, 456
Programmes logiciels de synthèse, 360
impulsionnelle, 215
Project 1 (application), 583 avec vélocités des sources, 148
Project 2 (application), 583 d’une salle, 153
Prozession (Karlheinz Stockhausen), 484 Représentation du son
Psychophysique, 334 Domaine fréquentiel, 11
Publison (matériel audio), 117 Domaine temporel, 11
PulsarGenerator (application), 438, 451 Réseau, 331
étendu (WAN), 326
Q local (LAN), 326

Norme Fiber Distributed Data Interface
Q (coefficient de qualité d’un filtre), 463 (FDDI), 328
Quadriphonie, 125, 143 Protocole anneau à jeton (token ring), 328
Défauts, 143 Protocole CSMA/CD, 328
Quanta dans l’analyse spectrale, 206 Résonance
Quantification, 26, 45 dans la synthèse, 521, 530, 568
linéaire, 530 Serge Modular (instrument), 497

Resynthèse Serial Copy Management System (SCMS), 318
par banque d’oscillateurs, 213 Seuil de perception différentielle, 335
par superposition-addition, 212 Sgt. Pepper’s Lonely Hearts Club Band (Beatles),
Retard recirculant à bascules (RRB), 159 54
Réverbération, 122, 167 Shrutis (intervalles), 169
Approche par modèles physiques, 161 Signal
Convolution, 162 bipolaire, 480
granulaire, 163 résiduel, 470
Modèles géométriques, 162 unipolaire, 480
Multiflux, 167 Simulation
par guides d’onde, 165 d’instruments à cordes, 502
Retard recirculant à bascules (RRB), 159 de clarinette, 530, 534
Réverbérateur spatial, 166 de cuivres, 531
Réverbérateurs élémentaires, 156 de cymbale, 602
Temps de réverbération (RT60), 153 de la voix humaine, 521
Roland Corporation, 271 de sons de piano, 501
Roland JP-8000 (instrument), 551 de timbres de tambour, 541
Roland JP-8080 (instrument), 551 de trompette, 499
Roland Juno (instrument), 550 de voyelles, 499
Roue phonique, 170 Sinfonie (spatialisateur), 124
RS-232-C (norme), 312 Singer (application), 539
RS-422 (norme), 312 Singing Keyboard (instrument), 374
RS-423 (norme), 312 Six Fantasies on a Poem by Thomas Campion
(Paul Lansky), 474
SMDI (liaison audionumérique), 292, 317
S SMPTE (Society of Motion Picture and
S/PDIF (liaison audionumérique), 316 Television Engineers), 304
Sacre du printemps, Le (Igor Stravinsky), 212 Code temporel SMPTE, 63, 321
SAWDUST (application), 577, 583 Solid State Logic 01 (matériel audio), 55
Saxophone en tant qu’excitation/résonance Solid State Logic 4072G (matériel audio), 51
couplée, 522 Solovox (instrument), 76
Scalagramme, 250 Son

Scheme (langage), 528 3D, 135
SCSI Musical Data Interchange, 292 différentiel, 344
SDDS, 143 sur son, 56
SDIF-2 (liaison audionumérique), 316 surround, 149
Sections de second ordre, 563 Enregistrement, 144
Séparation de bandes, 73 Formats, 144
Sequence Symbols (James Dashow), 483 Mixage, 144
Séquenceurs, 363 Sonagramme, 200, 203, 222
analogiques, 548 Paramètres, 220
Limites, 550 Taille de saut, 220
Sequential Circuits Inc., 271 Sonagraphe Kay, 220
Sequential Prophet-5 (instrument), 550 Sonothèque (instrument), 596
Serge, 557 Sons Shepard, 345
Sony Corp., 316 Partiels, 394

Sony PCM-1, F1, 1600, 1610 et 1630 (matériel analogique, 546
audio), 6 analogique virtuelle, 557
Soundstream (matériel audio), 9 Philosophie, 551
Spatialisation du son, 149 concaténative, 587
Synthèse par champ d’onde, 149 croisée, 95, 475
Special Purpose Tape Recorder (instrument), différée, 362
374 Distorsion non linéaire, 517
Spectre dynamique stochastique, 607
de magnitude, 209 Empilement d’ondes, 412
de phase, 209 Émulation analogique, 545
discret, 198 Fonction
Speech Songs (Charles Dodge), 474 à deux variables, 415
Springer Tempophon (matériel audio), 115 d’onde formantique (FOF), 561, 569
SSP (application), 577, 583 Paramètres, 566
SSSP (instrument), 124, 572 de fenêtrage, 561, 575
Stations de travail audio, 8 Fonctions de Walsh, 259, 406, 581
Stéréo fondu enchaîné de tables d’onde, 409
Défauts, 142 formantique, 438, 575
Invention, 139 Forme d’onde fixe, 352
STFT, 401 granulaire, 435, 438, 561, 602
Stria (John Chowning), 398 asynchrone, 163, 429
Studer AG, 54 Granulation temporelle de sons
Studer Dyaxis II (matériel audio), 55 échantillonnés, 117, 431
Studio de Musique Concrète, 373 quasi synchrone, 427
Studio GRAME, 124 synchrone aux hauteurs, 426
Sud (Jean-Claude Risset), 121 graphique, 600
Sumitomo Corporation, 265 avec le MIDI, 599
Super Panavision 70, 141 Interpolation, 581
SuperCollider 1 (application), 450 spectrale, 404
SuperCollider 2 (application), 450 Lecture de table, 352
Superpiano (instrument), 595 logicielle, 360
SuperScope, 141 matérielle, 360
Suréchantillonnage, 26, 35 Modèles spectraux, 405
Surface de contrôle Modulation
modale, 554 d’amplitude (MA), 447, 488, 549, 555
non modale, 554 de fréquence (MF), 509, 549, 555, 561
Symbole de Kronecker, 79 de largeur d’impulsion, 441, 555
Symphony Hall, Boston, 152 en anneau, 439, 484, 555
Synchronisation non standard, 583
audio/vidéo, 63 numérique, 545
de plusieurs machines, 62 par instruction, 577, 584
Synthèse sonore par modèles physiques, 543
additive, 398, 537, 561 Analyse de source et de paramètres,
Effet de la phase, 393 537
Méthodes d’analyse, 401 Effets d’impédance, 522
Efficacité, 520 Clavia Nord Lead III, 555

Excitation/Résonance, 522 Clavioline, 76
Guides d’onde, 521, 536 Coded Music Apparatus, 596
Karplus-Strong, 520, 543, 575 Composer-Tron, 596
McIntyre, Schumacher et Woodhouse, E-mu Emulator, 376
520, 531 Fairlight Computer Music Instrument
Méthodes classiques, 522 (CMI), 376
Modèles analogiques, 521 Free Music Machine, 596
Paradigme masse-ressort, 523 GROOVE, 270
Propagation d’onde, 524 Hammond B3, 137, 391
Simulation de la voix humaine, 521 Hammond Novachord, 76
Synthèse modale, 526 Hohner Elektronium, 437
par modèles spectraux (SMS), 229 HYBRID, 270
Pulsar, 105, 453, 546 HYBRID IV, 124
avancée, 449 Hybrides, 270, 272, 550
Convolution de sons échantillonnés, Ircam 4X, 76, 124
449 Licht-Ton Orgel, 374
Cycle de travail, 438 Mellotron, 375
Enveloppe pulsarette, 438 Mixtur-Trautonium, 76
Facteur anguleux, 442 Modulaires contrôlés par tension, 548
Générateurs multiples, 445 Moog Memorymoog, 550
Graphique pulsar, 442 Oberheim Four Voice, 550
Implémentations, 450 Ondes Martenot, 548
Masquage, 445 Ondioline, 76, 437, 548
Modulation de largeur de pulsarette, Oramics, 596
441 Orgues Hammond, 113, 389
superposée, 442 Oscillator Bank, 596
Période pulsar, 438 Phonogène, 374
Pulsarette, 442 Photona, 595
Rapport RCA Synthesizer, 76
d’explosion, 445 Roland JP-8000, 551
de travail, 438 Roland JP-8080, 551
Spectre, 444 Roland Juno, 550

Train pulsar, 438 Sequential Prophet-5, 550
Segments de forme d’onde, 585 Serge Modular, 497
soustractive, 466, 561, 563 Singing Keyboard, 374
stochastique de forme d’onde, 607 Solovox, 76
Tables d’ondes multiples, 409 Sonothèque, 596
Terrain d’ondes, 415 Special Purpose Tape Recorder, 374
VOSIM, 561, 572 SSSP, 124, 572
Synthétiseurs et instruments Superpiano, 595
Arp Omni, 550 Syntronic Organ, 595
Arturia Moog V, 547 Systems Concepts Digital Synthesizer, 76
Banque d’oscillateurs VOSIM, 572 SYTER, 465
Cellulophone, 595 Theremin, 548
Chamberlin, 375 UPIC, 599
Warbo Formant Organ, 76 Limiteurs, 71

Welte Organ, 595 Réduction du bruit, 71
Yamaha DX7, 283, 489 Traitement numérique du signal (DSP), 360
Yamaha GS1, 489 Transcription du rythme, 191
Yamaha VL1, 521 Transformée
Yamaha VP1, 521 à Q borné, 245
Synth-O-Matic (application), 450 auditive, 245
Syntronic Organ (instrument), 595 de Fourier
Système auditif périphérique, 337 à court terme (STFT), 219, 401, 425
Systèmes comprenant le signal, 265 Casiers dans l’analyse, 212
Systems Concepts Digital Synthesizer Compromis, 215
(instrument), 76 discrète (DFT), 100, 209
SYTER (instrument), 465 discrète inverse (IDFT), 211
Fenêtrage, 209
Fréquences d’analyse, 214
T Histoire, 204
Table d’onde, 352 Images, 209
à recirculation, 539 Principe d’incertitude, 214
Taille de saut dans la STFT, 220 rapide (FFT), 100, 205, 209, 569
Tascam, 317 Spectre
Taux d’échantillonnage, 318 de magnitude, 209
Conversion, 381 de phase, 209
TBone (application), 534 de Walsh-Hadamard, 406
TDIF (liaison audionumérique), 317 en ondelettes, 253, 426
Technirama, 141 en peigne, 253
Telefunken T9 (matériel audio), 54, 122 z, 75
Telegraphone (matériel audio), 5 Transposition de hauteur, 114, 381, 422
Telemusik (Karlheinz Stockhausen), 484 Tronquation dans un oscillateur numérique,
Tempo Reale Studio, 124 355
Temps réel (définition), 362 Tsukuba World Expo, 265
Tenth vortex (Curtis Roads), 452
Théorème
de l’échantillonnage, 6, 24 U
de Nyquist, 6 UHD (Vidéo à ultra haute définition), 144
Théorie de l’approximation, 233–234 Ultra Panavision, 141
Théorie de l’information, 6, 37 Université
Theory of Sound (The) (Lord J. W. S. Rayleigh), de Berkeley, 451
520 de Californie, 451
Theremin (instrument), 548 de Harvard, 521
Todd-AO, 141 de l’Illinois, 116, 206, 270, 521, 582
Tonomètre, 169 de l’Utah, 521
Traitement de la gamme dynamique, 73 de Marseille, 248
Compresseurs, 71 de Naples, 253
Compresseurs-extenseurs, 71 de Princeton, 362
Dangers, 73 de San Diego, 270, 422
Extenseurs, 71 de Stanford, 265, 385, 488
de Toronto, 572
W
de Waseda, 265 WABOT-2 (robot musical), 265
UPIC (instrument), 599 Warbo Formant Organ (instrument), 76
Upsampling, 380 Welte Organ (instrument), 595
Westdeutschen Rundfunks (WDR), 54, 76, 122,
139
V William’s Mix (John Cage), 593
Wivigramme, 237, 239–241
VCA, 50, 549
VCF, 549
VCO, 496, 549
Y
Yamaha Corporation, 317, 330, 489, 502, 531
VistaVision, 141 Yamaha Digital Cascade (liaison
Vocodeur, 466 audionumérique), 317
Vocodeur de phase, 117, 208, 231, 265, 401 Yamaha DX7 (instrument), 283, 489
Yamaha GS1 (instrument), 489
Remplissage par des zéros, 223
Yamaha VL1 (instrument), 521
Vocodeur de phase pisteur, 118, 226 Yamaha VP1 (instrument), 521
Efficacité, 228
Enveloppes d’analyse, 227
Pistage de pic, 226
Précision, 228
Synthèse croisée, 228
Voilements (Jean-Claude Risset), 465
Von Hann (fenêtre), 444
Vox-5 (Trevor Wishart), 398
Index des noms
A Chrétien, Henri, 141

Coltrane, John, 385, 557
Adrien, Jean-Marie, 527
Colyer, Cornelia, 55
Allouis, Jean-François, 465
Cook, Perry, 539
Crawford, Frank, 526
B
Barron, Bebe, 556
Barron, Louis, 556
D
Bayle, François, 123 Dashow, James, 483, 496
Beatles, 54 De Forest, Lee, 170
Beauchamp, James, 521 Di Giugno, Giuseppe, 76
Beekman, Isaac, 421 Disney, Walt, 140
Berg, Paul, 583, 585 Dodge, Charles, 120, 397, 474
Berliner, Émile, 5, 170 Douglas, Alan, 553
Berlioz, Hector, 122 Dukas, Paul, 140
Bernoulli, Joseph, 523
Black, Harold, 488
Bode, Harald, 484 E
Bristow, David, 509 Edison, Thomas, 5, 170
Brün, Herbert, 582 Eimert, Herbert, 115
Buxton, William, 270 Eloy, Jean-Claude, 76
Eremeef, Ivan, 595
C
Cage, John, 351, 601 F
Campo, Alberto (de), 450 Fellgett, Peter, 147
Carlos, Wendy, 400 Ferreti, Ercolino, 521
Cauchy, Augustin Louis, 6 Flanagan, James, 208
Chong, Xin, 516 Fletcher, Harvey, 139, 399
Chowning, John, 398, 488 Fourier, Joseph, 204
INDEX DES NOMS 673
G Le Caine, Hugh, 374, 596

Les Paul, 54, 111
Gabor, Dennis, 115, 205, 215, 236, 239, 421,
Lissajous, Jules, 170
422, 438
Lochbaum, Carol, 521
Gabrieli, Andrea, 122
Luminet, Jean-Pierre, 437
Galilée, 169
Gassendi, Pierre, 169
Gerzon, Michael, 147
Gold, Rich, 415
M
Maillard, Benedict, 465
Golden, Roger, 208 Malher, Gustav, 122
Gordon, Bernard, 350 Marage, René (Dr), 561
Grainger, Percy, 595 Marple, Lawrence S., 225
Guttman, Newman, 351 Martin, George, 54
Mathews, Max, 6, 206, 349, 502, 521
H Matignon, Denis, 539
McCartney, James, 450
Hanert, John, 113 McLaren, Norman, 595
Harvey, Jonathan, 400 Mersenne, Marin, 169
Hawkins, Coleman, 557 Meyer-Eppler, Werner, 602
Heisenberg, Werner, 214 Milhaud, Darius, 373
Helmholtz, Hermann (von), 205 Miller, Dayton C., 197
Henry, Pierre, 373 Miller, Hugh, 371
Herschel, John, 163 Miller, Joan, 351
Hertz, Heinrich, 11 Moles, Abraham, 422
Hiller, Lejaren, 521 Moore, Franklin Richard, 502
Hindeminth, Paul, 373 Morrison, Joseph, 527
Holman, Tomlinson, 144 Mozart, Wolfgang Amadeus, 122
Hutchins, Bernie, 521 Muha, Ralph, 297
Huygens, Christian, 111 Murail, Tristan, 400
J-K N
Jenny, Georges, 548 Newton, Isaac, 204

Kaegi, Werner, 570 Nyquist, Harold, 6, 24
Keller, Arthur C., 139
Kelly, John, 521
Kenny G, 557 O
Kobrin, Edward, 270 Ohm, Georg, 205
Koenig, Gottfried Michael, 76, 584 Oppenheim, David, 290
Koenig, Rudolf, 169 Oram, Daphne, 596
Kubrick, Stanley, 521
P
L Parker, Charlie, 557
Lansky, Paul, 120, 474 Pierce, George W., 170
Layzer, Arthur, 502 Pierce, John, 351
Pope, Stephen T., 450 Smith, David, 271

Poullin, Jacques, 142 Stille, Kurt, 170
Poulsen, Valdemar, 5, 170 Stockhausen, Karlheinz, 54, 76, 484, 548, 577
Prony, Gaspard (de), 260 Stokowski, Leopold, 139, 595
Strawn, John, 385
R
Randall, J. K., 362 T
Rayleigh, John W.S. (Lord), 170, 520 Tempelaars, Stan, 570
Reeves, Alec, 6 Toch, Ernst, 373
Reeves, Hazard, 140 Truax, Barry, 422, 496
Risset, Jean-Claude, 200, 206, 398, 465, 502, Tyndall, John, 170, 205
509
Ruiz, Pierre, 521
Russolo, Luigi, 605 W
Wayne, W. C. Jr, 113
Welte, Edwin, 374
S Wiener, Norbert, 205, 422
Sabine, Wallace, 152 Willaert, Adrian, 122
Sammis, Frederick, 375 Wishart, Trevor, 398
Sauveur, Joseph, 169
Savart, Félix, 169
Schaeffer, Pierre, 142, 373 X
Scheiber, Peter, 143 Xenakis, Iannis, 351, 422, 596, 605
Scherchen, Hermann, 351
Scherpenisse, Jo, 572
Schroeder, Manfred, 154 Z
Shore, John, 169 Zinovieff, Peter, 207

L'Audionumérique - Musique Et Informatique Curtis Roads 3eme Edition Dunod 2006

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

L'Audionumérique - Musique Et Informatique Curtis Roads 3eme Edition Dunod 2006

Transféré par

Droits d'auteur :

Formats disponibles

Curtis Roads

Traduction et adaptation française : Jean de Reydellet

Copyright 1ère édition © 1996 Massachusetts Institute of Technology

© Dunod, 2016 pour la 3e édition française

Traduction et adaptation française : Jean de Reydellet

Photo de couverture : B&W Loudspeakers LTD, England

© Dunod, 1998, 2007, 2016 pour la traduction française

AVANT-PROPOS DU TRADUCTEUR XIII

PARTIE A – ENVIRONNEMENT ET OUTILS

CHAPITRE 1 – CONCEPTS AUDIONUMÉRIQUES 3

1.1 Origines : histoire de l’enregistrement audionumérique 3

1.9 Synthèse et traitement du signal 39

2.1 Mixage et gamme dynamique 45

CHAPITRE 3 – TRANSFORMATION DE LA GAMME DYNAMIQUE 67

3.1 Remodeleurs d’enveloppes 67

CHAPITRE 4 – LES FILTRES NUMÉRIQUES 75

4.1 Présentation de la théorie des filtres aux musiciens 75

5.1 L’opération de convolution 95

CHAPITRE 6 – LES EFFETS DE RETARD 107

6.1 Les effets de retard temporel fixe 107

CHAPITRE 7 – LA SPATIALISATION 121

7.1 Spatialisation du son 121

CHAPITRE 8 – LA RÉVERBÉRATION 151

8.1 Réverbération 151

CHAPITRE 9 – RECONNAISSANCE DE LA HAUTEUR 169

9.1 Analyse de hauteur, de rythme et de forme d’onde : origines 169

CHAPITRE 10 – RECONNAISSANCE DU RYTHME 187

10.1 Applications de reconnaissance du rythme 188

CHAPITRE 11 – ANALYSE SPECTRALE : MÉTHODES DE FOURIER 197

11.1 Applications de l’analyse spectrale 198

11.5 Analyse spectrale : origines 204

CHAPITRE 12 – ANALYSE SPECTRALE : 233

12.1 Fondamentaux 233

CHAPITRE 13 – ANALYSE SPECTRALE : AUTRES MÉTHODES 243

13.1 Analyse du son sans la méthode de Fourier 243

CHAPITRE 14 – MIDI 269

14.1 Comparaison des données de contrôle MIDI et du son 270

CHAPITRE 15 – INTERCONNEXIONS DE SYSTÈME 307

15.1 Alimentations en courant alternatif 307

CHAPITRE 16 – LA PSYCHOACOUSTIQUE ET LA SYNTHÈSE 333

16.1 Perception de l’intensité 334

PARTIE B – SYNTHÈSE SONORE

CHAPITRE 17 – INTRODUCTION À LA SYNTHÈSE 349

17.1 Origines : histoire de la synthèse numérique du son 349

CHAPITRE 18 – L’ÉCHANTILLONNAGE 373

18.1 Musique Concrète et échantillonnage : origines 373

18.4 Conversion du taux d’échantillonnage sans transposition de hauteur 381

CHAPITRE 19 – LA SYNTHÈSE ADDITIVE 389

19.1 Synthèse additive 389

CHAPITRE 20 – LA SYNTHÈSE PAR TABLES D’ONDES MULTIPLES 409

20.1 Fondu enchaîné de tables d’ondes 409

CHAPITRE 21 – LA SYNTHÈSE PAR TERRAINS D’ONDES 415

21.1 Terrains et orbites 415

CHAPITRE 22 – LA SYNTHÈSE GRANULAIRE 421

22.1 Synthèse granulaire : historique 421

CHAPITRE 23 – LA SYNTHÈSE PULSAR 437

23.1 Synthèse pulsar de base 438

CHAPITRE 24 – LA SYNTHÈSE SOUSTRACTIVE 455

24.1 Synthèse soustractive 455

CHAPITRE 25 – LA SYNTHÈSE PAR MODULATION 479

25.1 Signaux bipolaires et unipolaires 480

25.10 Modulations générales 517

CHAPITRE 26 – LA SYNTHÈSE PAR MODÈLES PHYSIQUES 519