Académique Documents
Professionnel Documents
Culture Documents
L'Audionumérique - Musique Et Informatique Curtis Roads 3eme Edition Dunod 2006
L'Audionumérique - Musique Et Informatique Curtis Roads 3eme Edition Dunod 2006
L’audionumérique
Musique et informatique
3 e édition
AVANT-PROPOS DE L’AUTEUR XI
CHAPITRE 2 – MIXAGE 43
CHAPITRE 5 – LA CONVOLUTION 95
BIBLIOGRAPHIE 611
Après des décennies de recherche musicale, les conditions d’un âge d’or de création dans la musi-
que électronique et informatique ont émergé. Un certain nombre de facteurs cruciaux, à la fois
techniques et esthétiques, se mettent en place pour favoriser cette tendance.
La musique informatique est le sujet d’un nombre de publications plus élevé qu’à aucun autre
moment dans le passé. La recherche est florissante, et des douzaines de festivals servent de terrain
d’expérimentation pour la musique électronique. Une industrie variée est apparue autour de la
création de nouveaux synthétiseurs, logiciels et composants audio. La mentalité purement
commerciale est contrebalancée par un vigoureux marché alternatif d’instruments exotiques et de
logiciels gratuits. Les outils d’organisation du son — les appareils d’édition et de mixage — ont
atteint un degré d’efficacité indéniable, tandis que leur prix a chuté. Le coût d’un studio à base
d’informatique — inimaginable pour un musicien individuel il y a encore vingt ans — est souvent
inférieur au prix d’un instrument traditionnel.
Les avancées dans les domaines de la recherche et de la technologie ne relatent cependant qu’une
partie de l’histoire. Nous possédons maintenant une meilleure compréhension des implications
© Dunod. Toute reproduction non autorisée est un délit.
esthétiques de cette approche de la musique. Nous voyons qu’elle se déploie sur de multiples échel-
les temporelles, et nos méthodes de synthèse, d’analyse et de transformation du son reflètent cela.
La perspective des échelles multiples a commencé avec l’exploration du microson et de ses effets,
depuis les procédés granulaires jusqu’aux masses sonores en mutations continues. Couplée à cet
aperçu, la spatialisation du son a évolué pour devenir un élément à part entière de la composition.
Ces perspectives ont eu un impact profond sur notre conception de la forme musicale.
Les nouveaux outils et matériaux sonores conduisent inévitablement à de nouvelles stratégies
d’organisation. Parmi celles-ci se trouvent des processus basés sur les mutations sonores, le
contrepoint timbral et spatial, le contrôle détaillé de masses sonores complexes, les juxtapositions
de paysages sonores virtuels et réels, la coalescence et la désintégration sonore, le contrepoint
microtonal, et l’interaction entre l’échelle microtemporelle et les autres échelles de temps qui ne
peut être réalisée par des instruments acoustiques.
C’est pour moi un grand plaisir que de pouvoir présenter cette troisième édition française de
L’audionumérique. J’ai la chance d’avoir comme collaborateur Jean de Reydellet, qui aura été la
XII L’AUDIONUMÉRIQUE
force motrice de cette publication. J’ai également la chance d’avoir trouvé en Dunod un éditeur
visionnaire, qui aura su prévoir le besoin d’une édition révisée et actualisée de ce livre. Je suis
heureux d’annoncer qu’avec cette nouvelle édition, le lecteur francophone possède la version la
plus récente et la plus à jour de toutes celles qui existent, y compris en langue anglaise.
Curtis Roads
Santa Barbara, novembre 2015
L’audionumérique, version française de l’ouvrage The Computer Music Tutorial de Curtis Roads,
voit aujourd’hui le jour dans sa troisième édition. Dix-sept années se sont écoulées depuis la sortie
de la première édition, qui constituait déjà une somme de connaissances remarquable dans les
domaines de l’informatique musicale et de la synthèse du son. La seconde édition, conçue dès
l’origine pour augmenter le nombre des informations fournies au lecteur, et divisée en deux par-
ties, avait permis l’ajout de nombreux chapitres ou parties : MIDI, interconnexion de systèmes,
supports audionumériques, compression des données audio, formats de son surround, protocoles
réseau, synthèse pulsar et synthèse par émulation analogique.
Cette troisième édition intègre quant à elle deux nouveaux chapitres. Les méthodes par décompo-
sition atomique permettent l’émergence de techniques à fort potentiel pour des applications de
traitement avancé de l’audio : débruitage, désaturation, correction de corruptions dans les
signaux, ou encore séparation de sources ou détection de notes dans des environnements comple-
xes. La synthèse concaténative quant à elle, constitue la méthode la plus aboutie de synthèse texte-
parole actuellement existante. Elle est également utilisée dans les domaines de la synthèse vocale
© Dunod. Toute reproduction non autorisée est un délit.
et de la synthèse d’instruments en intégrant des données de haut niveau telles que phrasés, transi-
tions entre les notes ou nuances de jeu. Le livre a enfin fait l’objet d’une relecture qui a permis la
correction d’un certain nombre d’erreurs et la suppression de quelques rares parties devenues
obsolètes.
Je tiens tout d’abord à remercier Curtis Roads d’être parvenu au cours des années à réunir cet
ensemble de connaissances et d’informations sur de nombreux sujets liés au travail sur le son, et
d’avoir su les exprimer dans un style concis et clair. Il m’a fait l’honneur de m’accorder sa confiance
lors de la réalisation de cette version en langue française, et parce qu’il est un homme épris de
savoir, de recherche et de vérité, je ne peux éprouver à son égard qu’un sentiment de profond res-
pect. J’exprime également ma gratitude à Horacio Vaggione, pour avoir assuré des cours passion-
nants, et pour sa capacité à placer constamment des concepts liés à la composition musicale au
sein d’un ensemble plus grand d’idées esthétiques et philosophiques. À lui, ainsi qu’à Gérard Pape,
ancien directeur du CCMIX (Centre de Composition Musicale Iannis Xenakis), j’adresse de chaleu-
reux remerciements pour avoir permis à Curtis Roads d’assurer des cours sur le sol français dans
XIV L’AUDIONUMÉRIQUE
le cadre de l’université Paris 8 et du CCMIX, symbole de leur ardente passion à rendre accessibles
nombre de sujets abordés dans ce livre sur un plan pratique, par l’utilisation du studio et de la
composition musicale.
J’adresse ma reconnaissance à Jean-Baptiste Gugès et Cécile Rastier des Éditions Dunod. Leur pro-
fessionnalisme, leur sensibilité, leur gentillesse et leur intelligence auront permis d’éditer un
ouvrage d’un haut niveau de qualité, tant sur le fond que sur la forme. J’espère que chaque lecteur
passionné par le son et la musique trouvera parmi ces pages matière à alimenter ses réflexions et
son inspiration.
Jean de Reydellet
Novembre 2015
Partie A
Environnement
et outils
Chapitre 1
Concepts audionumériques
Curtis Roads et John Strawn
L’histoire de l’enregistrement sonore est riche et commence avec les expérimentations de Thomas
Edison et d’Émile Berliner dans les années 1870, puis fut marquée par le Telegraphone de Valdemar
Poulsen, un enregistreur magnétique à fil métallique datant de 1898 (Read et Welch, 1976). L’enre-
gistrement sonore des débuts était mécanique (figure 1.1).
Bien que l’invention de la lampe à triode en 1906 lançât l’ère de l’électronique, les enregistrements
produits électroniquement ne furent pas mis en application avant 1924 (Keller, 1981). La figure 1.2
montre un haut-parleur à pavillon typique des années 1920.
© Dunod. Toute reproduction non autorisée est un délit.
L’enregistrement optique sur film fut présenté pour la première fois en 1922 (Ristow, 1993). L’enre-
gistrement sur bande recouverte de matériau magnétique pulvérisé fut développé en Allemagne
dans les années 1930 (figure 1.3), mais ne s’étendit au reste du monde qu’après la Seconde Guerre
mondiale. Les enregistreurs allemands Magnetophon étaient largement en avance sur les enregis-
treurs à fil métallique ou à ruban d’acier, qui nécessitaient une soudure pour faire un raccord. Les
Magnetophon et leurs descendants étaient des enregistreurs analogiques. Le terme « analogique »
fait référence à la forme d’onde codée sur la bande : une proche analogie de la forme d’onde sonore
captée par le microphone. L’enregistrement analogique continue d’être amélioré, mais doit faire face
6 ENVIRONNEMENT ET OUTILS
à des limites physiques fondamentales. Ces limites sont plus apparentes lors de copies d’un support
analogique à un autre : un bruit additionnel est inévitable.
Pour plus d’informations sur l’enregistrement analogique, en particulier sur les machines multi-
pistes, voir le chapitre 2.
Figure 1.4 – Enregistreur audionumérique construit en 1973 par Nippon Columbia (Denon)
et basé sur un enregistreur à bande vidéo 1 pouce (sur la droite).
L’Audio Engineering Society établit deux normes de fréquences d’échantillonnage en 1985 : 44,1 et
48 kHz. Ils révisèrent leurs spécifications en 1992 (Audio Engineering Society, 1992a, 1992b). Il
existe également une fréquence d’échantillonnage de 32 kHz pour la radiodiffusion. Entre-temps,
quelques compagnies développèrent des enregistreurs numériques de plus haute résolution capable
de coder plus de seize bits à des taux d’échantillonnage plus élevés. Par exemple, une version de l’enre-
gistreur numérique à bande X-86 de Mitsubishi codait en 20 bits à une fréquence d’échantillonnage
de 96 kHz (Mitsubishi, 1986). Un certain nombre d’enregistreurs à haute résolution sont maintenant
© Dunod. Toute reproduction non autorisée est un délit.
sur le marché.
1.1.2 Son numérique pour le public
Le son numérique atteignit tout d’abord le grand public en 1982 grâce au format disque compact
(CD), un disque optique de 12 cm lu par un laser (figure 1.5). Le format CD fut développé conjoin-
tement par les sociétés Philips et Sony après des années de recherche. Ce fut un succès commercial
énorme, car plus de 1,35 million de lecteurs et des dizaines de millions de disques furent vendus
en moins de deux ans (Pohlman, 1989). Depuis lors, une variété de produits a été dérivée de la tech-
nologie du CD, dont le CD-Rom (Read Only Memory — Mémoire à lecture seule), le CD-I (Interactif),
et d’autres formats mélangeant les données audio, les textes et les images.
Au début des années 1990, les constructeurs se recentrèrent sur un besoin de support numérique
enregistrable. Différents supports apparurent, dont la DAT (Digital Audio Tape — Bande audionu-
mérique), la DCC (Digital Compact Cassette — Cassette compacte numérique), le MD (Mini-Disc),
et le CD-R (CD enregistrable). Voir plus bas la partie sur les supports audionumériques.
8 ENVIRONNEMENT ET OUTILS
de la musique sur un disque dur connecté à l’ordinateur. Cette musique pouvait être éditée préci-
sément sur l’écran de l’ordinateur, avec relecture à partir du disque dur.
Au milieu des années 1980, 3M et Soundstream s’étaient retirés du marché des enregistreurs numé-
riques multipistes, dominé alors par les conglomérats Sony et Mitsubishi, plus tard rejoints par la
compagnie Studer. Depuis un certain nombre d’années, l’enregistrement numérique multipiste
était une activité très onéreuse (figure 1.7). La situation entra dans une nouvelle phase au début
des années 1990, avec la présentation d’enregistreurs multipistes à bande peu onéreux, par les
10 ENVIRONNEMENT ET OUTILS
compagnies Alesis et Tascam, et d’enregistreurs multipistes sur disque dur par diverses compa-
gnies. Le chapitre 2 raconte l’histoire de l’enregistrement multipiste analogique.
de modèle discernable, on parle de bruit. Entre ces deux extrêmes se trouve le vaste domaine des
sons quasi périodiques et quasi bruiteux.
La répétition d’une forme d’onde périodique est appelée un cycle, et la fréquence fondamentale de
la forme d’onde est le nombre de cycles qui se produit par seconde. Lorsque la longueur du cycle
appelée longueur d’onde ou période augmente, la fréquence en cycles par seconde diminue, et vice
versa. Dans le reste de ce livre, nous substituons Hz pour « cycles par seconde » en conformité avec
la terminologie standard de l’acoustique (Hz est une abréviation de Hertz, d’après le nom de
l’acousticien allemand Heinrich Hertz).
✦ Représentation dans le domaine temporel
+1
Amp. 0 Pression
de l’air
-1
Temps
Une méthode simple pour décrire les formes d’ondes sonores est de les dessiner sous forme de gra-
phiques de pression d’air par rapport au temps (figure 1.8). Ceci est appelé représentation dans le
domaine temporel. Lorsque la courbe est proche du bas du graphique, la pression est faible, et lors-
que la courbe est proche du haut, la pression d’air a augmenté. L’amplitude de la forme d’onde est la
quantité de changement de pression d’air ; nous pouvons mesurer l’amplitude comme la distance
verticale entre le point de pression zéro et le point le plus haut (ou le plus bas) d’un segment de forme
d’onde donné.
Un instrument acoustique crée du son en émettant des vibrations qui changent la pression de l’air
autour de l’instrument. Un haut-parleur crée du son en se déplaçant d’avant en arrière selon les
© Dunod. Toute reproduction non autorisée est un délit.
changements de tension dans un signal électronique. Lorsque le haut-parleur « entre » par rapport
à sa position de repos, la pression d’air diminue. Lorsque le haut-parleur « sort », la pression d’air
près du haut-parleur augmente. Pour créer un son audible, ces différentes vibrations doivent sub-
venir à une fréquence comprise entre 20 et 20 000 Hz.
✦ Représentation dans le domaine fréquentiel
Mise à part la fréquence fondamentale, il peut y avoir de nombreuses fréquences présentes dans
une forme d’onde. Une représentation dans le domaine fréquentiel ou représentation du spectre
montre le contenu fréquentiel d’un son. Les composants fréquentiels individuels du spectre sont
appelés harmoniques ou partiels. Les fréquences harmoniques sont des multiples entiers de la fré-
quence fondamentale. Si l’on considère une fondamentale ou premier harmonique de 440 Hz, son
second harmonique sera 880 Hz, son troisième 1 320 Hz, et ainsi de suite. De façon plus générale,
n’importe quel composant harmonique peut être appelé partiel, qu’il soit ou non multiple entier de
la fondamentale. En fait, de nombreux sons n’ont pas de fréquence fondamentale particulière.
12 ENVIRONNEMENT ET OUTILS
(a) 100%
Amp.
-100%
0° 360°
Phase
(b) 100%
Amp.
0%
1 10 20 30 40 50 60
Harmoniques
(c) 100%
Amp.
-100%
0° 360°
Phase
(d)
Amp.
1 10 20 30 40 50 60
Harmoniques
Figure 1.9 – Représentations dans les domaines temporels et fréquentiels de quatre signaux.
(a) Vue dans le domaine temporel d’un cycle de sinusoïde. (b) Spectre du composant unique de
fréquence d’une sinusoïde. (c) Vue dans le domaine temporel d’une forme d’onde en dent-de-scie.
(d) Spectre montrant le contenu fréquentiel d’une dent-de-scie décroissant de façon exponentielle.
CHAPITRE 1 – CONCEPTS AUDIONUMÉRIQUES 13
© Dunod. Toute reproduction non autorisée est un délit.
Le contenu fréquentiel d’une forme d’onde peut être représenté de nombreuses façons. Une repré-
sentation standard consiste à relever les partiels sous forme de lignes sur un axe x. La hauteur de
chaque ligne indique la force (ou amplitude) de chaque composant fréquentiel. Le signal le plus
pur est une forme d’onde dite sinusoïde, car elle peut être calculée grâce à la formule trigonométrique
du sinus d’un angle. Une onde sinusoïdale pure représente juste un composant fréquentiel ou une
ligne dans le spectre. La figure 1.9 montre les représentations dans le domaine temporel et dans le
domaine fréquentiel de quelques formes d’ondes. Remarquez que les relevés spectraux sont nommés
« Harmoniques » sur leur axe horizontal, puisque l’algorithme d’analyse suppose que l’entrée est
exactement une période de la fondamentale d’une forme d’onde périodique. Dans le cas du bruit à
la figure 1.9g, cette supposition n’est pas valide, donc nous renommons les partiels « Composants
fréquentiels ».
1.2.2 Phase
Le point de départ d’une forme d’onde périodique sur l’axe d’amplitude ou axe des y est sa phase
initiale. Par exemple, une sinusoïde typique commence à l’amplitude 0 et achève son cycle à 0.
Si l’on déplace le point de départ de 2¼ sur l’axe horizontal (ou 90 degrés), la sinusoïde commence
et s’achève à 1 sur l’axe d’amplitude. Par convention, on nomme cette forme d’onde cosinus. En effet,
un cosinus est l’équivalent d’un sinus déphasé de 90 degrés (figure 1.10).
Cosinus
Sinus
Amp.
-1
Temps
Figure 1.10 – Une sinusoïde est équivalente à une forme d’onde cosinus
retardée ou légèrement déphasée.
Lorsque deux signaux commencent au même point, on dit qu’ils sont en phase ou en alignement de
phase. Au contraire, lorsqu’un signal est légèrement retardé par rapport à un autre, on dit qu’ils
sont déphasés. Lorsqu’un signal A est exactement l’opposé d’un autre signal B (c’est-à-dire déphasé
de 180 degrés, pour qu’à chaque valeur positive de A, il existe une valeur correspondante négative
pour le signal B), nous disons que B est en polarité inversée par rapport à A. Nous pourrions égale-
ment dire que B est une copie en inversion de phase de A. La figure 1.11 montre l’effet de l’addition de
deux signaux en inversion de phase.
✦ Importance de la phase
On dit souvent que la phase est insignifiante à l’oreille humaine, parce que deux signaux totalement
identiques à l’exception de leur phase sont difficiles à distinguer. En fait, les recherches montrent
que des différences de 180 degrés en phase ou polarité absolue peuvent être distinguées par certaines
personnes en condition de laboratoire (Greiner et Melton, 1991). Mais même en dehors de ce cas
CHAPITRE 1 – CONCEPTS AUDIONUMÉRIQUES 15
(a)
+
(b)
⇓
(c)
particulier, la phase est un concept important pour diverses raisons. Tous les filtres utilisent le
déphasage pour altérer les signaux. Un filtre déphase un signal (en retardant son entrée d’un temps
très court) puis combine la version déphasée avec le signal originel pour créer des effets d’annulation
de phase en fonction de la fréquence qui altèrent le spectre de l’original. Par « en fonction de la
fréquence », nous voulons dire que tous les composants fréquentiels ne sont pas affectés de façon
égale. Lorsque le déphasage change dans le temps, les bandes fréquentielles affectées changent
© Dunod. Toute reproduction non autorisée est un délit.
également, créant des effets sonores de balayage appelés phasing ou flanger (voir le chapitre 6).
La phase est également importante dans les systèmes qui resynthétisent le son en se basant sur
l’analyse d’un son existant. En particulier, ces systèmes ont besoin de connaître la phase initiale de
chaque composant fréquentiel afin de replacer les différents composants dans le bon ordre (voir le
chapitre 11). Les données de phase sont particulièrement critiques lors de restitution de sons tran-
sitoires courts et changeants rapidement, tels que l’attaque de sons instrumentaux.
Finalement, une grande attention a été portée depuis quelques années sur les composants audio
qui déphasent leur signal d’entrée au minimum, car les déphasages dépendant de la fréquence dis-
tordent les signaux musicaux audibles et interfèrent avec l’image des haut-parleurs. L’image est la
capacité d’un ensemble de haut-parleurs à créer une « image audio » stable, où chaque source est bien
localisée à une place précise. Un déphasage involontaire est appelé distorsion de phase. Pour prendre
une analogie avec l’image, un signal en distorsion de phase est « flou ».
Maintenant que nous avons présenté les propriétés de base des signaux audio, nous allons comparer
leurs deux représentations : analogique et numérique.
16 ENVIRONNEMENT ET OUTILS
Platine
tourne-disque Sillons microscopiques
d’un enregistrement
phonographique
Temps
Signal électronique
faible
Préamplificateur
Signal légèrement
amplifié
Amplificateur
0
Haut-parleur
Figure 1.12 – La chaîne audioanalogique, commençant avec une forme d’onde analogique
transformée à partir des sillons d’un disque en tension, qui est ensuite envoyée dans un préampli-
ficateur, un amplificateur, un haut-parleur, puis projetée dans l’air.
CHAPITRE 1 – CONCEPTS AUDIONUMÉRIQUES 17
déplace latéralement de long en large. Ce mouvement latéral est ensuite transformé en tension, qui
est amplifiée et atteint finalement les haut-parleurs.
La reproduction analogique du son a atteint un très haut niveau ces dernières années, mais il existe
malgré tout des limites fondamentales associées à l’enregistrement analogique. Lorsque vous copiez
un enregistrement d’un enregistreur analogique à un autre, la copie n’est jamais aussi bonne que
l’original. Ceci en raison du fait que le procédé d’enregistrement analogique ajoute toujours du
bruit. Pour un enregistrement de première génération ou enregistrement original, ce bruit peut être
admissible. Mais si l’on continue avec trois ou quatre générations, une part de plus en plus impor-
tante de l’enregistrement originel est transformée en bruit. Au contraire, la technologie numérique
peut créer n’importe quel nombre de générations de clones parfaits (sans bruit) de l’enregistrement
originel, comme nous le montrerons plus tard.
Par définition, la génération ou la reproduction d’un son numérique implique la conversion d’une
chaîne de nombres en l’un des changements variant dans le temps dont nous venons de parler. Si ces
nombres peuvent être transformés en tension, alors les tensions peuvent être amplifiées et conduites
à un haut-parleur pour reproduire le son.
0 0 11 3 10000 16
1 1 100 4 100000 32
Variations
de pression d’air
Microphone
Tension
Préamplificateur
Tension
Filtre
antirepliement
passe-bas
Horloge
d’échantillonnage
Tension
φ
CAN
Nombres
Enregistrement binaires
Stockage Mémoire
Nombres
binaires
Lecture
φ CNA
Tension
Horloge
d’échantillonnage
Filtre
de lissage
passe-bas
Tension
Amplificateur
Tension
Haut-parleur
Variations
de pression d’air
Dans de nombreux ordinateurs, le bit le plus à gauche est interprété comme indicateur de signe, le
1 indiquant un nombre positif et le 0 un nombre négatif. Les nombres réels ou nombres à virgule
flottante peuvent être représentés en binaire.
La façon dont un bit est codé sur un support d’enregistrement dépend des propriétés de ce support.
Sur un magnétophone numérique par exemple, 1 peut être représenté par une charge magnétique
CHAPITRE 1 – CONCEPTS AUDIONUMÉRIQUES 19
positive, tandis que 0 sera indiqué par une absence de charge. Ceci est différent d’un enregistrement
analogique, dans lequel le signal est représenté par une charge variant constamment. Sur un support
optique, les données binaires peuvent être codées sous forme de variations de la réflectivité d’un
endroit particulier.
1.4.3 Conversion numérique-analogique
La figure 1.14 montre le résultat de la conversion d’un signal audio (a) en signal numérique (b).
Lorsque l’auditeur veut réécouter le son, les nombres sont lus les uns après les autres dans la mémoire
(a)
Un cycle
(b)
(c)
© Dunod. Toute reproduction non autorisée est un délit.
Temps
1.4.5 Échantillonnage
Le signal numérique montré à la figure 1.14b est de façon significative différent du signal analogique
montré à la figure 1.14a. Tout d’abord, le signal numérique n’est défini qu’à certains points dans le
temps. Ceci en raison du fait que le signal a été échantillonné à ces moments. Chaque barre verticale
de la figure 1.14b représente un échantillon du signal originel. Les échantillons sont stockés sous
forme de nombres binaires, et la barre de la figure 1.14b correspond à la grandeur du nombre.
Le nombre de bits utilisé pour représenter chaque échantillon détermine à la fois le niveau de bruit
et la gamme dynamique qui peuvent être traités par le système. Un disque compact utilise un nombre
de 16 bits pour représenter un échantillon, mais l’on peut également utiliser plus ou moins de bits.
Nous reviendrons sur ce point dans la partie sur la « quantification ».
Le taux auquel les échantillons sont pris — la fréquence d’échantillonnage — est exprimé en
échantillons par seconde. C’est une spécification importante des systèmes audionumériques. Elle
est souvent appelée taux d’échantillonnage et est exprimée en Hertz. Mille Hertz est abrégé en kHz,
et nous disons donc : « Le taux d’échantillonnage d’un disque compact est de 44,1 kHz », où « k »
est tiré du système métrique dans lequel « kilo » signifie mille.
✦ Reconstruction du signal analogique
Les fréquences d’échantillonnage autour de 50 kHz sont fréquentes dans les systèmes audionumé-
riques, bien que l’on puisse également trouver des fréquences plus basses ou plus élevées. De toute
façon, 50 000 nombres par seconde sont un débit rapide de nombres ; cela signifie qu’il existe plus
de 6 000 000 échantillons pour une minute de son en stéréophonie.
Le signal numérique de la figure 1.13b ne montre pas les valeurs entre les barres. La durée d’une
barre est extrêmement courte, pouvant durer seulement 0,00002 seconde (un deux cent millième
de seconde). Ceci signifie que si le signal originel change « entre » les barres, ce changement n’est
pas reflété dans la hauteur de la barre, tout au moins jusqu’à l’échantillon suivant. En termes tech-
niques, nous disons que le signal de la figure 1.13b est défini à des temps discrets, chacun de ces
temps étant représenté par un échantillon (par une barre verticale).
Une partie de la magie des sons numérisés vient du fait que si le signal est limité en fréquences,
le CNA et le matériel associé peuvent exactement reconstruire le signal originel à partir de ces
échantillons ! Ceci signifie que, sous certaines conditions, la partie manquante du signal « entre les
échantillons » peut être restaurée. Ceci arrive lorsque les nombres sont passés par le CNA et par un
filtre de lissage. Le filtre de lissage « connecte les points » entre les échantillons discrets (voir la
© Dunod. Toute reproduction non autorisée est un délit.
ligne de points à la figure 1.13c). Ainsi, un signal envoyé au haut-parleur a l’apparence et sonne
comme le signal originel.
1.4.6 Repliement
Le procédé d’échantillonnage n’est pas aussi simple qu’il peut en avoir l’air. Tout comme un ampli-
ficateur ou un haut-parleur peuvent introduire de la distorsion, l’échantillonnage peut jouer des tours
au son. La figure 1.15 en donne un exemple. En utilisant la forme d’onde montrée à la figure 1.15a,
supposez qu’un échantillon est pris à chaque point temporel montré par les barres verticales de la
figure 1.15b (chaque barre verticale crée un échantillon). Comme avant, les échantillons résultants
de la figure 1.15c sont stockés sous forme de nombres dans une mémoire numérique. Mais lorsque
l’on essaie de reconstituer la forme d’onde originelle, comme dans la figure 1.15d, le résultat est
complètement différent.
Afin de mieux comprendre les problèmes qui peuvent subvenir avec l’échantillonnage, nous allons
examiner ce qui arrive lorsque nous changeons la longueur d’onde (la longueur d’un cycle) du signal
22 ENVIRONNEMENT ET OUTILS
(a)
(b)
(c)
(d)
Temps
originel sans changer l’espace de temps entre les échantillons. La figure 1.16a montre un signal avec
un cycle de huit échantillons de longueur, la figure 1.16d avec un cycle de deux échantillons de lon-
gueur, et la figure 1.16 g une forme d’onde avec onze cycles pour dix échantillons.
De nouveau, lorsque l’ensemble des échantillons est repassé par le CNA et par le matériel associé,
le signal est reconstruit (figure 1.16c, f et i) et envoyé aux haut-parleurs. Le signal montré par la
ligne pointillée à la figure 1.16c est relativement bien reconstruit. Les résultats de l’échantillonnage
à la figure 1.16f sont potentiellement moins satisfaisants ; une reconstruction possible est montrée
ici. Mais à la figure 1.16i, la forme d’onde resynthétisée est complètement différente de l’original,
ou très exactement la longueur d’onde (longueur du cycle) est différente. Physiquement, ceci signifie
que le signal reconstitué sonne à une hauteur différente de l’original. Ce genre de distorsion est appelé
repliement.
Les fréquences auxquelles surviennent ces repliements peuvent être prédites. Imaginons, pour
utiliser des nombres simples, que nous prenions 1 000 échantillons par seconde. Le signal à la
figure 1.16a a une fréquence de 125 cycles par seconde (puisqu’il y a huit échantillons par cycle et que
1 000/8 = 125). À la figure 1.16d, le signal a une fréquence de 500 cycles par seconde (1 000/2 = 500).
La fréquence du signal d’entrée à la figure 1.16g est de 1 100 cycles par seconde. Mais la fréquence
du signal de sortie est différente. À la figure 1.16i, vous pouvez compter dix échantillons par cycle
de forme d’onde de sortie. En fait, celle-ci apparaît à une fréquence de 1 000/10 = 100 cycles par
seconde. Ainsi, la fréquence du signal originel de la figure 1.16g a été modifiée par un procédé de
conversion du taux d’échantillonnage. Ceci représente un changement inacceptable du signal
musical, et doit être évité le plus possible.
CHAPITRE 1 – CONCEPTS AUDIONUMÉRIQUES 23
(a)
(b)
(c)
(d)
(e)
(f)
Un cycle d'entrée
(g)
(h)
© Dunod. Toute reproduction non autorisée est un délit.
Un cycle de sortie
(i)
La question de savoir quelle fréquence d’échantillonnage est idéale pour l’enregistrement et la repro-
duction musicale de haute qualité est un débat encore en cours. L’une des raisons est que la théorie
mathématique et la pratique des ingénieurs rentrent souvent en conflit : les horloges des convertis-
seurs ne sont pas stables, leurs tensions ne sont pas linéaires, les filtres introduisent de la distorsion
de phase, et ainsi de suite. Voir les parties sur la correction de phase et le suréchantillonnage.
CHAPITRE 1 – CONCEPTS AUDIONUMÉRIQUES 25
Une autre des raisons est que beaucoup de personnes entendent des informations (on emploie alors
le terme « ambiance ») dans la région située autour de la « limite » humaine d’écoute de 20 kHz
(Neve, 1992). En fait, Rudolph Koenig, dont les mesures précises ont établi les normes internationales
d’acoustique, a observé qu’à l’âge de 41 ans sa propre audition s’étendait jusqu’à 23 kHz (Koenig,
1899). Il peut sembler étrange qu’un nouveau disque compact numérique ait moins de largeur de
bande qu’un disque fabriqué dans les années 1960, ou bien qu’un nouvel enregistreur audio-
numérique ait moins de largeur de bande qu’un enregistreur analogique à bandes vieux de vingt ans.
De nombreux systèmes analogiques peuvent reproduire des fréquences situées au-delà de 25 kHz.
Des expériences scientifiques confirment les effets du son au-dessus de 22 kHz, d’un point de vue
physiologique aussi bien que subjectif (Oohashi et coll., 1991 ; Oohashi et coll. ,1993).
Dans les applications de synthèse sonore, le manque de « hauteur libre » fréquentielle dans les taux
d’échantillonnage standards de 44,1 et de 48 kHz cause de sérieux problèmes. Cela oblige les algo-
rithmes de synthèse à ne générer que des sinusoïdes au-dessus de 11,025 kHz (pour un taux de
44,1 kHz) ou 12 kHz (pour un taux de 48 kHz), ou bien il se produit un repliement. Ceci en raison
du fait que tout composant de haute fréquence ayant des partiels au-delà de la fondamentale possède
une fréquence dépassant le taux de Nyquist. Le troisième harmonique d’un son de 12,5 kHz est par
exemple égal à 37,5 kHz, et, dans un système fonctionnant à un taux d’échantillonnage de 44,1 kHz,
il se repliera en un signal audible de 6 600 Hz. Dans les applications d’échantillonnage et de dépla-
cement des hauteurs, le manque de hauteur libre nécessite un filtrage passe-bas des échantillons
avant que ceux-ci ne soient déplacés vers le haut. Le problème que ces limites imposent est gênant.
Il est clair que des enregistrements à un taux d’échantillonnage élevé sont préférables d’un point
de vue artistique, bien qu’ils posent des problèmes pratiques de stockage et la nécessité d’avoir des
systèmes de reproduction de haute qualité afin que cet effort en vaille la peine.
ligne pointée de la figure 1.14c en reliant les points noirs de cette figure.
(a)
(b)
raide se « répand » dans le domaine audio. Pour des enregistrements sur disques compacts à un taux
d’échantillonnage de 44,1 kHz, la fréquence de Nyquist est de 22,05 kHz, et un filtre antirepliement
raide peut introduire de la distorsion de phase qui s’étend bien en dessous de 10 kHz (Meyer, 1984).
Ce type de distorsion de phase donne aux hautes fréquences un son dur et peu naturel.
Il existe différentes façons de s’attaquer à ce problème. La plus simple est de réduire la propriété
d’antirepliement du filtre pour obtenir une distorsion de phase plus faible. Un filtre antirepliement
moins raide (de 40 à 60 dB/octave, par exemple) introduit moins de distorsion de phase, mais avec
un risque de repliement des sons de très hautes fréquences. Une autre solution est d’appliquer un fil-
tre de correction temporelle avant le CAN pour fausser les relations de phase du signal d’entrée afin
de préserver les relations de phase d’origine dans l’enregistrement (Blesser, 1984 ; Greenspun, 1984 ;
Meyer, 1984). Aujourd’hui, quoi qu’il en soit, les solutions de haute technologie utilisées pour obtenir
une conversion de phase de qualité acceptable sont les techniques de suréchantillonnage, aussi bien
en entrée qu’en sortie du système. Nous parlerons plus tard du suréchantillonnage.
1.4.10 Quantification
L’échantillonnage à intervalles de temps discrets, dont nous avons parlé dans les parties précédentes,
constitue l’une des différences majeures entre les signaux analogiques et les signaux numériques.
Une autre différence est la quantification, ou résolution d’amplitude discrète. Les valeurs du signal
échantillonné ne peuvent pas prendre n’importe quelle valeur. Ceci est dû au fait que les nombres
numériques ne peuvent être représentés qu’à l’intérieur d’un certain domaine, et avec une certaine
exactitude, qui varie selon le matériel utilisé. Les implications de ceci sont un facteur important de
la qualité audionumérique.
CHAPITRE 1 – CONCEPTS AUDIONUMÉRIQUES 27
✦ Bruit de quantification
Les échantillons sont en général représentés sous forme de nombres entiers. Si le signal d’entrée
a une tension correspondant à une valeur entre 53 et 54, par exemple, alors le convertisseur doit
l’arrondir et lui assigner une valeur de 53. En général, à chaque échantillon donné, la valeur de
l’échantillon diffère légèrement de la valeur du signal d’origine. Ce problème des signaux numériques
est connu sous le terme d’erreur de quantification ou bruit de quantification (Blesser, 1978 ; Maher,
1992 ; Lipshitz et coll., 1992 ; Pohlmann, 1989a).
La figure 1.18 montre les genres d’erreurs de quantification qui peuvent survenir. Quand le signal
d’entrée est quelque chose de compliqué comme une symphonie, et lorsque nous n’écoutons que les
erreurs, montrées en bas de la figure, cela sonne comme du bruit. Si les erreurs sont grandes, alors
on peut remarquer quelque chose de similaire au sifflement d’une bande analogique à la sortie du
système.
(a)
Forme d’onde
originelle
(b)
Valeurs
échantillonnées
© Dunod. Toute reproduction non autorisée est un délit.
(c)
Erreurs
qui continue même sur les périodes de silence de la bande. Mais dans un système numérique, il ne
peut y avoir de bruit de quantification lorsque rien (ou le silence) n’est enregistré. En d’autres termes,
si le signal d’entrée est le silence, alors le signal est représenté par une série d’échantillons dont cha-
cun a une valeur égale à zéro. Les petites différences montrées à la figure 1.18c disparaissent pour
un tel signal, ce qui signifie que le bruit de quantification disparaît. Si, d’un autre côté, le signal
d’entrée est une sinusoïde pure, alors l’erreur de quantification n’est pas une fonction aléatoire, mais
un effet de troncature déterministe (Maher, 1992). Ce son grinçant, appelé bruit de granulation,
peut être entendu lorsque des sinusoïdes à très faible niveau se transforment progressivement en
silence. Lorsque le signal d’entrée est compliqué, la granulation devient aléatoirement du bruit blanc.
Le second facteur dans le bruit de quantification est l’exactitude de la représentation numérique.
Dans un système PCM qui représente chaque valeur d’échantillon par un nombre entier (un système
PCM linéaire), le bruit de quantification est directement lié au nombre de bits qui sont utilisés pour
représenter un échantillon. Cette spécification est la largeur d’échantillon ou niveau de quantification
(a) 1
Points d’échantillonnage
(b) 15
Points d’échantillonnage
(a)
Amp.
Temps
(b)
Amp.
Temps
d’un système. La figure 1.19 montre les effets de différents niveaux de quantification, en comparant
la résolution d’une quantification en 1 bit et en 4 bits. Dans un système PCM linéaire, généralement,
plus il y a de bits utilisés pour représenter un échantillon, moins il y a de bruit de quantification.
La figure 1.20 montre l’amélioration spectaculaire de l’exactitude d’une onde sinusoïdale atteinte
en accroissant le nombre de bits de résolution.
© Dunod. Toute reproduction non autorisée est un délit.
La mesure de quantification est rendue confuse par les systèmes de suréchantillonnage, qui utilisent
un convertisseur très rapide à « 1 bit ». La quantification d’un système utilisant un convertisseur
« 1 bit » est en fait bien plus grande que 1 bit. Voir la partie sur le suréchantillonnage plus loin.
Bien qu’un système numérique ne reproduise pas de bruit lorsqu’il n’y a pas de signal d’entrée, aux
niveaux très faibles (mais non nuls) du signal, le bruit de quantification prend une forme pernicieuse.
Un signal de très faible niveau ne provoque des variations que sur le bit le plus bas. Ces variations de
1 bit ont l’apparence d’une onde carrée, riche en composants harmoniques impairs. Si l’on consi-
dère la chute d’une note de piano qui s’atténue doucement, avec les partiels élevés s’estompant pro-
gressivement, au moment exact du niveau le plus bas, cette note change distinctement et devient une
onde carrée sonnant durement. Les harmoniques de l’onde carrée peuvent même s’étendre au-delà
de la fréquence de Nyquist, causant des repliements et introduisant de nouveaux composants fré-
quentiels qui n’étaient pas présents dans le signal d’origine. Ces artefacts peuvent être ignorés si le
30 ENVIRONNEMENT ET OUTILS
signal est gardé à un faible niveau d’écoute, mais si celui-ci est augmenté, ou si on le remélange numé-
riquement à un niveau plus élevé, il devient évident. Dès lors, il est important que le signal soit
quantifié aussi exactement que possible en entrée.
Pour combattre les problèmes de quantification à faible niveau, certains systèmes d’enregistrement
numériques agissent d’une façon qui peut à première vue sembler étrange. Ils introduisent une
faible quantité de bruit analogique dans le signal, appelé dither, avant la conversion analogique-
numérique (Vanderkooy et Lipshitz, 1984 ; Lipshitz et coll., 1992). Ceci oblige le CAN à faire des
variations aléatoires autour du signal de faible niveau, ce qui atténue les effets pernicieux des har-
moniques d’onde carrée (figure 1.21). Avec le dither, l’erreur de quantification, qui est généralement
dépendante du signal, est transformée en un bruit de large bande qui n’est plus en corrélation avec
le signal. Pour des decrescendos comme la note de piano mentionnée plus haut, l’effet est celui d’un
« atterrissage en douceur », lorsque le son s’évanouit lentement dans un lit de bruit aléatoire de faible
niveau. La quantité de bruit ajoutée est d’habitude de l’ordre de 3 dB, mais l’oreille peut reconstruire
des notes de musique dont les amplitudes descendent en dessous de celle du signal dither. Voir
Blesser (1978, 1983), Rabiner et Gold (1975), Pohlmann (1989a), et Maher (1992) pour plus de
détails sur le bruit de quantification et sur les méthodes pour le minimiser. Lipshitz, Wannamaker,
et Vanderkooy (1992) présentent une analyse mathématique de la quantification et du dither. Voir
Hauser (1991) pour un exposé sur le dither dans les convertisseurs suréchantillonneurs.
Le dither peut ne pas être nécessaire avec un convertisseur 20 bits précis, puisque le bit faible repré-
sente un signal extrêmement doux, à plus de 108 dB en dessous du signal le plus fort. Mais lorsque
-10
-20
dB -30
-10
-20
-30
1 kHz 10 kHz
Fréquences
par exemple on convertit des signaux d’un format 20 bits à un format 16 bits, le dither est nécessaire
pour préserver la fidélité du signal.
✦ Linéarité du convertisseur
Les convertisseurs peuvent provoquer un certain nombre de distorsions (Blesser, 1978 ; Mc Gill, 1985 ;
Talambiras, 1985). L’une d’elles vient du fait qu’un convertisseur n bits n’est pas nécessairement
exact vis-à-vis du domaine dynamique entier impliqué par ses entrées et sorties à n bit. Tandis que
la résolution d’un convertisseur n bits est une partie de 2n, la linéarité du convertisseur est le degré
auquel les signaux analogiques et numériques d’entrée et de sortie s’épousent en terme de magni-
tude. C’est-à-dire que certains convertisseurs utilisent 2n valeurs, mais ces valeurs ne sont pas
linéaires, ce qui cause de la distorsion. Dès lors, il est possible de voir par exemple un « convertisseur
18 bits », qui est en fait « 16 bits linéaire ». Un tel convertisseur peut être meilleur qu’un simple
convertisseur 16 bits non linéaire. Voir Pohlmann (1989a) pour un exposé de ces problèmes.
1.5.1 Décibels
Le décibel est l’unité de mesure des relations entre les niveaux de tension, l’intensité, ou la puis-
sance, particulièrement dans les systèmes audio. Dans les mesures acoustiques, l’échelle des décibels
indique le rapport d’un niveau par comparaison à un niveau de référence, selon la relation :
nombres de décibels = 10 × log 10 ( niveau ⁄ niveau de référence )
où le niveau de référence est en général le seuil de l’audition (10–12 watts par mètre carré). La base
logarithmique des décibels signifie que si deux notes sonnent ensemble, et que chaque note a une
puissance de 60 dB, l’augmentation de niveau n’est que de 3 dB. Si l’on accroît l’intensité un million
de fois, le résultat est une augmentation de 60 dB. Voir le chapitre 16, Backus (1977) ou Pohlmann
© Dunod. Toute reproduction non autorisée est un délit.
150
Avion à hélices
110
Piano (pics momentanés)
100
Automobile sur une autoroute
80
60
50
40
Murmure
30
10
0 Seuil de l’audition
à 60 dB, jusqu’à une section tutti de l’orchestre dépassant les 110 dB. La gamme dynamique des
enregistreurs analogiques est limitée par la physique des procédés d’enregistrement analogique.
Elle se situe aux alentours de 80 dB pour un son de 1 kHz lors de l’utilisation d’enregistreurs à bandes
professionnels, sans ajout de réduction de bruit. La réduction de bruit peut accroître l’étendue au
prix de certaines distorsions. Voir le chapitre 3 pour plus d’informations sur la réduction de bruit.
Lorsqu’un enregistrement est produit pour la distribution sur un support qui ne possède pas une
grande gamme dynamique (une cassette analogique produite en grand nombre, par exemple), les
passages doux sont un peu remontés par l’ingénieur, et les passages forts sont légèrement atténués.
Si cela n’était pas fait, les passages les plus forts créeraient de la distorsion, et les passages les plus
doux seraient masqués par du sifflement et par d’autres bruits.
images et données audio (CD-Rom, CD-I, etc.), il peut être nécessaire de faire un compromis avec
la gamme dynamique en stockant moins de bits, afin de faire rentrer toutes les informations sur le
disque. Une autre façon de sauvegarder de l’espace est, bien entendu, de réduire le taux d’échantil-
lonnage.
1.6 Suréchantillonnage
Jusqu’ici, nous avons principalement parlé des convertisseurs PCM linéaires. Un CNA PCM linéaire
transforme un échantillon en tension analogique en une seule étape. Contrairement aux convertis-
seurs PCM linéaires, les convertisseurs suréchantillonneurs utilisent plus d’échantillons lors de
l’étape de conversion que ceux qui sont effectivement stockés sur le support d’enregistrement. La
théorie du suréchantillonnage est un sujet complexe, quoi qu’il en soit, et pour nos besoins ici même,
il est suffisant de n’en présenter que les idées de base, en laissant de nombreuses références pour
ceux qui souhaiteraient approfondir le sujet.
34 ENVIRONNEMENT ET OUTILS
Le suréchantillonnage n’est pas une technique, mais une famille de méthodes destinées à accroître
l’exactitude des convertisseurs. Il existe deux types différents de suréchantillonnages :
1. Les CNA suréchantillonneurs multibits développés pour les lecteurs de disques compacts au
début des années 1980 par les ingénieurs de la compagnie Philips (van de Plassche, 1983 ;
van de Plassche et Dijkmans, 1984).
2. Le suréchantillonnage 1 bit avec modulation delta-sigma ou une méthode proche utilisée
dans les CAN et les CNA plus récents (Adams, 1990 ; Hauser, 1991).
La première méthode convertit un nombre de bits (par exemple 16) à chaque battement de l’horloge
d’échantillonnage, tandis que la seconde convertit un bit à la fois, mais à une très haute fréquence
d’échantillonnage. La distinction entre les systèmes multibits et les systèmes à 1 bit n’est pas toujours
claire, car certains convertisseurs utilisent une combinaison de ces deux approches. C’est-à-dire
qu’ils effectuent tout d’abord un suréchantillonnage multibits, puis le transforment en un flux à 1 bit
qui est de nouveau suréchantillonné.
ou MASH, selon le fabricant. Ils ont pour point commun d’échantillonner un bit à la fois, mais à de
très hautes fréquences. Plutôt que d’essayer de représenter la forme d’onde entière sur un seul échan-
tillon, ces convertisseurs mesurent les différences entre échantillons successifs.
Les convertisseurs 1 bit tirent parti d’une loi fondamentale de la théorie de l’information (Shannon et
Weaver, 1949), qui dit que l’on peut échanger la largeur d’échantillonnage et le taux d’échantillonnage,
et convertir pourtant à la même résolution. C’est-à-dire qu’un convertisseur 1 bit qui « suréchantil-
lonne » à 16 fois le taux d’échantillonnage stocké est l’équivalent d’un convertisseur 16 bits sans
suréchantillonnage. Ils traitent tous les deux le même nombre de bits. Les bénéfices du suréchantil-
lonnage s’accroissent lorsque le nombre de bits traités est supérieur au nombre de bits d’entrée.
Le taux de suréchantillonnage d’un convertisseur 1 bit peut prêter à confusion, puisqu’il n’indique
pas combien de bits sont traités ou stockés. L’une des façons de déchiffrer les spécifications du
suréchantillonnage est de déterminer le nombre total de bits traités, selon la relation :
facteur de suréchantillonnage ∞ largeur du convertisseur
Par exemple, un système avec convertisseur 1 bit « suréchantillonnant 128 fois » traite 128 ∞ 1 bit
à chaque période d’échantillonnage. Ceci doit être comparé à un convertisseur linéaire 16 bits qui
traite 1 × 16 bits, soit huit fois moins de données. En théorie, les convertisseurs 1 bit devraient sonner
de façon beaucoup plus propre. En pratique, quoi qu’il en soit, ce genre de pronostics est parfois
réduit à néant par des convertisseurs qui utilisent plusieurs étapes de suréchantillonnage et des
largeurs de bit interne variables.
Quoi qu’il en soit, tous les bénéfices du suréchantillonnage reviennent aux convertisseurs 1 bit,
y compris une résolution améliorée et une linéarité de phase, compte tenu du filtrage numérique.
Des taux d’échantillonnage élevés qui sont difficiles à mettre au point avec la technologie des conver-
tisseurs multibits sont beaucoup plus faciles à implémenter avec des convertisseurs 1 bit. Les taux
de suréchantillonnage dans le domaine des MHz permettent des quantifications de 20 bits par
échantillon.
Une autre technique utilisée dans les convertisseurs suréchantillonneurs 1 bit est le noise-shaping,
qui peut prendre de nombreuses formes (Hauser, 1991). L’idée de base est que l’erreur de « requan-
tification » qui survient lors du procédé de suréchantillonnage est déplacée dans le domaine des
hautes fréquences — en dehors de la largeur de bande audio — par un filtre passe-haut bouclé en
rétroaction avec le signal d’entrée. La boucle de noise-shaping n’envoie que l’erreur de requantifi-
cation à travers le filtre passe-haut, pas le signal audio.
© Dunod. Toute reproduction non autorisée est un délit.
L’étape finale de n’importe quel convertisseur suréchantillonneur est un filtre diviseur qui réduit le
taux d’échantillonnage du signal à celui convenant au stockage (pour un CAN) ou à la lecture (pour
un CNA), et filtre également le signal en passe-bas. Dans le convertisseur noise-shaping ce filtre
diviseur retire aussi le bruit de requantification, ce qui a pour effet de grandement améliorer le
rapport signal/bruit. Avec le noise-shaping de second ordre (appelé ainsi en raison des filtres passe-
haut de second ordre utilisés dans la boucle en rétroaction), le niveau de signal/bruit maximum d’un
convertisseur 1 bit est approximativement équivalent à 15 dB (2,5 bits) par octave de suréchantil-
lonnage, moins une pénalité fixée de 12,9 dB (Hauser, 1991). Ainsi, un facteur de suréchantil-
lonnage de 29 augmente le rapport signal/bruit d’un convertisseur 16 bits de l’équivalent de 10 bits,
soit 60 dB.
Pour plus de détails sur les convertisseurs suréchantillonneurs noise-shaping, voir Adams (1986,
1990), Adams et coll. (1991), et Fourré, Schwarzenbach et Powers (1990). Hauser (1991) a rédigé
un article qui explique l’histoire, la théorie, et la pratique des techniques de suréchantillonnage sous
forme pédagogique, et contenant également de nombreuses références supplémentaires.
36 ENVIRONNEMENT ET OUTILS
Accès série
Support Notes
ou aléatoire
Bande vidéo à tête rotative Série Formats professionnels et grand public ; cassettes grand
(bande magnétique) public peu chères ; plusieurs formats de bande (U-matic,
Beta, VHS, 8 mm, etc.) et trois formats internationaux de
codage incompatibles (NTSC, PAL, SECAM).
Bande audio à tête rotative Série Format professionnel Nagra-D pour enregistrement quatre
(bande magnétique) pistes.
Cassettes numériques Série Format numérique compatible avec les enregistreurs ana-
compactes (DCC) logiques traditionnels. Compression des données. Qualité
(bande magnétique) sonore inférieure au format CD.
Disquettes (magnétiques) Aléatoire Petites, bon marché et pratiques, mais lentes et ne pouvant
stocker que de petits fichiers son. Peu sûres pour l’archi-
vage.
Mini Disc Sony (MD) Aléatoire Format de disquette pour le son avec compression de
(magnétique) données. Qualité sonore inférieure au format CD.
Disque compact (CD) Aléatoire Disque petit et fin stockant jusqu’à 782 Mo ; les disques
(optique) d’archivage durent des décennies ; peut lire des images et
du son. Différentes qualités, du CD-ROM au format
20 bits. Format lent comparé à d’autres supports à accès
aléatoire (Pohlmann, 1989b, d).
Super Audio CD Aléatoire Stockage jusqu’à 8,5 Go avec encodage DSD (suréchan-
tillonnage 1 bit à une fréquence de 2,8224 MHz). Contient
en général une version multicanal et une version stéréo en
DSD, et une version CD audio standard, optionnelle.
Les échantillons audio peuvent être stockés sur n’importe quel support numérique : bande, disque,
ou circuit intégré, utilisant n’importe quelle technologie d’enregistrement audionumérique, par
exemple, magnétique, magnéto-optique ou optique. Sur le même support, les données peuvent être
écrites dans un grand nombre de formats. Un format est un genre de structure de données. Par exemple,
des fabricants de stations de travail audionumériques implémentent, pour le stockage des échantillons
sur le disque dur, un format qui leur est propre. Pour des raisons aussi bien de technologie que de
marketing, de nouveaux supports et de nouveaux formats apparaissent régulièrement. Le tableau 1.2
liste certains supports et ce qui les distingue.
Certains supports sont capables de gérer plus de bits par seconde et ont ainsi un potentiel d’enre-
gistrement de plus haute qualité. Par exemple, certains enregistreurs numériques à bandes peuvent
coder 20 bits par échantillon avec les convertisseurs appropriés (Angus et Faulkner, 1990). Un disque
dur peut gérer des échantillons 20 bits à des taux dépassant 10 kHz (avec un certain nombre de pistes
simultanées), tandis que pour les supports à semi-conducteurs (barrettes mémoires) la largeur et
le taux d’échantillonnage potentiels sont encore plus grands.
Une autre caractéristique des supports est la durée de vie. Des disques optiques destinés à l’archi-
vage, fabriqués en verre trempé, gravés puis recouverts d’or peuvent durer des décennies et être
joués plusieurs milliers de fois (Digipress, 1991). Les supports magnétiques comme les DAT et les
disquettes sont bon marché et de petite taille, mais beaucoup moins robustes.
Un des avantages remarquables des supports de stockage numériques est que l’on peut transférer
les bits d’un support à l’autre sans aucune perte — ceci dans le cas bien entendu d’une compatibilité
entre les machines et d’une absence de circuits de protection de copie. On peut cloner un enregis-
trement autant de fois qu’on le souhaite, à partir de l’original ou à partir de n’importe laquelle des
copies. Cela signifie également que l’on peut transférer un enregistrement d’un support série peu
coûteux (tel qu’une DAT) vers un support à accès aléatoire (tel qu’un disque) qui est mieux approprié
à l’édition et au traitement. Après avoir terminé l’édition, on peut retransférer les échantillons sur
la DAT. Ces transferts sont effectués à travers des connecteurs numériques entrée/sortie (des prises
sur les systèmes de lecture et d’enregistrement) et des formats standards de transmission audio-
numérique (protocoles logiciels pour envoyer les données audio entre les machines).
est devenue omniprésente dans le monde d’aujourd’hui. Non seulement elle est utilisée dans toutes
les formes de transmission téléphoniques, mais elle a également investi le domaine de la consom-
mation culturelle, des médias et de l’Internet.
Il existe deux grandes familles de compression des données audio : la compression sans perte, dans
laquelle le signal peut être récupéré à l’identique, car il est simplement stocké de façon plus efficace,
et la compression avec perte, dans laquelle une partie des données est irrémédiablement perdue,
car éliminée du signal. Noux examinons tout d’abord ces deux types de traitement des données, en
expliquant brièvement les techniques qu’elles utilisent, puis fournissons ensuite une liste des for-
mats les plus couramment utilisés.
inutiles (les répétitions consécutives d’un même événement au sein d’une série) et le nombre total
d’éléments. Dans la forme la plus simple d’encodage (appelé codage des répétitions), éliminer la
redondance consiste simplement à décrire l’événement et le nombre d’occurrences, plutôt que la
suite entière des événements identiques.
Des formes plus évoluées intègrent le concept d’entropie de Shannon. Celui-ci tente de mesurer le
caractère d’incertitude d’une série d’événements. Si tous les événements sont identiques, ils sont
prévisibles, et l’entropie est donc égale à zéro. Si les événements sont parfaitement aléatoires,
l’entropie est élevée. Dans le domaine de la transmission de données, le taux d’entropie est le nombre
moyen de bits par symbole nécessaire pour encoder celui-ci, et l’entropie définit la plus courte taille de
message en bits capable de décrire la source d’information (Shannon, 1948). Par exemple, des évé-
nements apparaissant fréquemment se verront attribuer un code plus court que celui d’événements
plus rares.
L’une des applications les plus courantes de ce type de traitement des données est le codage de
Huffman. Celui-ci commence par une étude des éléments à encoder et attribue à chacun un poids
égal à son occurrence. Un arbre logique est ensuite construit selon le principe suivant : les deux élé-
ments de plus faible poids sont associés, leurs poids sont additionnés et constituent leur emplace-
ment au niveau supérieur de l’arbre. Lorsque celui-ci est achevé, la branche la plus faible se voit attri-
buer un code égal à 0, et la plus forte un code égal à 1. De nombreuses autres techniques d’encodage
existent (Huffman adaptative, arithmétique, Golomb, etc.), avec des degrés divers de réussite dans
l’approche de la valeur optimale définie par Shannon, au-delà de laquelle aucune compression n’est
possible sans une certaine perte. Voir Dumas et coll. (2007) pour des descriptions détaillées des
techniques utilisées en théorie de l’information et en compression de données. Dans le cas de l’audio
en particulier, les algorithmes de compression généraux ne sont pas très efficaces, et les implémenta-
tions utilisent des astuces telles que du codage de répétitions et du codage prédictif linéaire pour
optimiser le signal avant encodage.
à une FFT ou à une banque de filtres, puis les sous-bandes sont comparées au signal d’origine afin de
déterminer les masques présents. Chaque sous-bande est ensuite quantifiée et encodée afin de con-
server le bruit de quantification en dessous du seuil de masque. Les échantillons quantifiés sont fina-
lement réunis sous forme d’images qui peuvent être lues par le décodeur. Ce type d’encodage est
celui utilisé dans les différents formats MPEG.
Le codage hiérarchique, quant à lui, tente de déterminer l’importance des divers éléments présents
dans un signal, afin d’appliquer une compression plus forte sur ceux qui participent le moins à
l’intelligibilité. Il est particulièrement bien adapté à la transmission sur des réseaux, où les risques
de pertes et d’erreurs sont élevés, et permet la transmission avec une largeur de bande relativement
faible, en filtrant les éléments jugés les moins nécessaires.
Citons enfin une technique appelée compression par ondelettes, qui fonctionne bien sur des signaux
contenant des transitoires, mais est moins performante sur des signaux lisses et périodiques. Une
transformée en ondelettes est tout d’abord effectuée, suivie d’une compression et d’une quantifica-
tion des coefficients résultants. Les valeurs obtenues sont alors encodées grâce une technique basée
sur l’entropie ou sur l’encodage de répétitions. Voir le chapitre 13 pour une explication de la théorie
des ondelettes.
Le tableau 1.3 présente les formats (codecs) de compression audio les plus courants. Les codecs
utilisés uniquement en téléphonie (G.711, G.721, etc.) et le format RealAudio, qui utilise des codecs
de compression provenant d’autres sociétés, ne sont pas évoqués. Ce domaine de recherche connaît
des modifications constantes. Voir Salomon (1998) et Sayood (2000) pour des présentations complètes
de la compression de données appliquées à différents domaines, dont l’audio.
Compression
Nom du codec Notes
avec ou sans perte
AAC Avec perte Divise le signal en 1 024 sous-bandes. Permet de stocker des
métadonnées et des schémas de protection anticopie. Utilisé
dans un grand nombre d’applications.
Apple Lossless Sans perte Format propriétaire d’Apple Inc., uniquement utilisé à travers
iTunes et QuickTime.
ATRAC Avec ou sans perte Utilisé sur le MiniDisc, au cinéma (système SDDS), sur des
baladeurs et des consoles de jeu. La dernière mise à jour com-
presse sans perte.
Direct Stream Sans perte Utilisé uniquement comme codec de compression audio pour les
Transfer flux DSD (Direct Stream Digital) utilisés sur le Super Audio CD.
Dolby Digital Avec perte Utilisé principalement pour les films et la vidéo, sur support
(AC-3) DVD, HD-DVD et Blu-ray.
Dolby TrueHD Sans perte Basé sur le format MLP et utilisé sur les supports optiques à
haute densité (obligatoire sur HD-DVD, optionnel sur Blu-ray).
DTS Coherent Avec ou sans perte Utilisé pour les films et la vidéo, sur support CD, DVD, HD-DVD
Acoustics et Blu-ray. La version DTS-HD Audio compresse sans perte.
FLAC Sans perte Open Source et multi plate-forme, il est utilisé dans un grand
(Free Lossless nombre d’applications : écoute sur baladeurs ou ordinateurs,
Audio Codec) jeux vidéo, etc.
MLP Sans perte Utilisé sur les supports optiques à haute densité (obligatoire
(Meridian Lossless sur HD-DVD et DVD-Audio, optionnel sur Blu-ray). Licencié à
Packing) Dolby pour leur format TrueHD.
MPEG-1 Layer II Avec perte Divise le signal en 32 sous-bandes. Utilisé dans les formats
(MP2) Video CD et Super Video CD.
MPEG-1 Layer III Avec perte Divise le signal en 576 sous-bandes. Permet de stocker des
(MP3) métadonnées. Utilisé dans un grand nombre d’applications.
Musepack (MPC) Avec perte Utilisé principalement dans les assistants personnels (PDA).
Vorbis Avec perte Utilisé dans les jeux vidéo, et pour l’écoute sur baladeur et
sur ordinateur. Permet de stocker des métadonnées.
WavPack Sans perte Permet un mode hybride dans lequel deux fichiers sont créés :
un fichier compressé avec perte et un fichier de correction.
Leur association permet une compression sans perte. Utilisé
pour l’écoute sur ordinateur et sur certains baladeurs.
Windows Media Avec ou sans perte Utilisé dans un grand nombre d’applications. De nombreuses
Audio (WMA) versions existent, dont des versions multicanaux et sans perte.
CHAPITRE 1 – CONCEPTS AUDIONUMÉRIQUES 41
Bien qu’il soit un champ relativement nouveau, le traitement numérique du signal (DSP pour Digital
Signal Processing) s’est épanoui en une vaste science théorique et en un art appliqué. La deuxième
partie de ce livre explique des concepts essentiels du DSP, pertinents d’un point de vue musical.
1.10 Conclusion
Ce chapitre a présenté les concepts fondamentaux de l’enregistrement et de la reproduction numé-
riques. Cette technologie continue d’évoluer. Dans les domaines de la conversion AN et NA, du trai-
tement du signal, et de la technologie de stockage — il y a toujours de la place pour l’amélioration
— nous pouvons espérer de nouveaux développements pendant encore de nombreuses années.
Tandis que la technologie de l’enregistrement continue sa marche, l’esthétique de l’enregistrement
pousse cette technologie dans deux directions opposées. La première est l’école d’enregistrement
« naturaliste » ou « puriste », qui tente de recréer l’expérience idéale de concert, avec aussi peu
d’artifices que possible. À l’écoute de ces enregistrements, c’est comme si l’on était suspendu dans les
airs (où sont les microphones), dans la position idéale d’écoute, écoutant aux portes une interpré-
tation virtuose. L’approche opposée, non moins valide, est souvent utilisée dans les musiques de
variété, électroniques, ou informatiques : la création d’une scène sonore artificielle dans laquelle les
sources peuvent se déplacer. Nous sommes en contact avec des illusions telles que des sons émanant
de plusieurs espaces simultanément. Ces illusions sont créées par les opérations de traitement du
signal décrites dans la deuxième partie.
© Dunod. Toute reproduction non autorisée est un délit.
Chapitre 2
Mixage
La nature mixe acoustiquement les sons dans l’air — par exemple dans la sonorité orchestrale
« fusionnée » d’un concert symphonique, ou la cacophonie urbaine d’un coin de rue. Les circuits
électroniques analogiques mixent également des signaux sonores, où chaque signal est représenté
par une tension variant dans le temps. Un circuit additionne de nombreux signaux pour former un
signal composite.
Dans le domaine numérique, les signaux audio sont mixés selon les règles de simple addition. Pour
aider à visualiser ce processus, les figures 2.1, 2.2 et 2.3 montrent un mixage sur trois échelles tem-
t1 t2
+32767
(a) +10000
© Dunod. Toute reproduction non autorisée est un délit.
+10000
(b)
-32767
+20000
(c)
0
Figure 2.1 – Les signaux (a) et (b), constitués de deux échantillons aux temps t1 et t2,
sont mixés, et donnent comme résultat le signal (c).
44 ENVIRONNEMENT ET OUTILS
(a)
(b)
(c)
(a)
(b)
(c)
Temps
porelles différentes. Dans la figure 2.1, un échantillon de la source (a) au temps t1 avec une valeur
de 32 767 est ajouté à un autre échantillon de la source (b) au temps t1 avec une valeur de –32 767,
et la valeur d’échantillon additionnée a pour résultat 0 (c). Lorsque deux signaux positifs de 10 000
chacun sont additionnés au temps t2, le résultat est 20 000.
La figure 2.2 montre un mixage au niveau de l’addition de forme d’onde, combinant une onde de
basse fréquence et une onde de haute fréquence.
Enfin, la figure 2.3 montre le résultat du mixage de deux fichiers son différents, chacun durant
environ 2,5 secondes.
sentation de nombres très grands et très petits — ce qui augmente la gamme dynamique. Ainsi, une
représentation par virgule flottante est l’une des façons grâce auxquelles les concepteurs de systèmes
peuvent éviter les problèmes de gamme dynamique dans les systèmes numériques.
Une table de mixage audio est souvent plus qu’un simple additionneur de signaux audio. Elle est éga-
lement le principal « tableau de bord » d’un studio ou d’un concert. Elle intègre ainsi des contrôles
spécialisés et des éléments de coordination. Les éléments spécifiques disponibles dépendent du cons-
tructeur de la table de mixage et des options choisies par l’acheteur. Comme ce chapitre traite de
principes généraux, nous n’essaierons pas de décrire toutes les options de contrôle que comportent
certaines tables.
Bandeau de Vumètres
1 2 3 4 5 6 7 8 S1 S2 S3 S4 G D
Départs
Bus
AUX 4 bus de de sortie
8 canaux d’entrée Retours sortie G/D
AUX
Section SM
contrôle d’écoute
CM
Figure 2.4 – Flux du signal dans une table de mixage 8/4/2 simple,
montrant également les différentes parties de celle-ci. Les carrés représentent les boutons de
commutation, tandis que les cercles représentent les potentiomètres rotatifs. Les bus de sortie
sont indiqués de 01 à 04, ainsi que par G et D (gauche et droite). Les indicateurs CM et SM de la
section de contrôle d’écoute font référence aux niveaux d’écoute de la cabine de contrôle et du
studio.
48 ENVIRONNEMENT ET OUTILS
Sélecteur d’entrée,
alimentation fantôme,
L/M POW PH
inverseur de phase
GAIN
Atténuateur d’entrée
Egaliseur
paramétrique
EQ ON/OFF Marche/Arrêt EQ
Envoi AUX
Pre/Post
G D Potentiomètre
de panoramique
0 Fader de canal
Figure 2.5 – Parties d’un simple module d’entrée d’une table de mixage.
Le tableau 2.1 explique chacune d’entre elles.
Atténuateur d’entrée Atténue le niveau du signal d’entrée pour que le canal ne soit pas saturé par
des signaux trop forts. Pour des signaux en niveau de ligne, l’atténuateur
d’entrée permet que la table soit alignée sur le niveau de la machine d’entrée
externe (par exemple magnétophone ou instrument).
Envois auxiliaires Envoie le son à une unité d’effets (par exemple une unité de retard ou un
réverbérateur) ou à une sortie d’insertion. Celle-ci est en général envoyée aux
casques que portent les interprètes dans un studio d’enregistrement, ou à
des haut-parleurs sur scène. Ainsi, la sortie d’insertion constitue un sous-
mixage de la musique qui peut être équilibré afin que chaque musicien
entende son propre instrument au-dessus des autres. Le potentiomètre
d’envoi contrôle le niveau du son envoyé à l’unité d’effets ou à l’insertion. Le
potentiomètre de retour contrôle le niveau du son revenant de l’unité
d’effets (voir la section d’effets/retours auxiliaires). Lorsque le son est dirigé
vers l’envoi d’effet après le fader d’entrée (postfader), si le fader est coupé,
le son l’est aussi. Sinon (préfader), le son d’entrée est toujours envoyé au
bus d’envoi d’effet.
Mute, Solo et PFL Le bouton Mute coupe le canal. Le bouton Solo permet d’écouter un seul
canal. Dans ce cas, tous les autres canaux passent en position Mute. PFL
(pre-fader listen — écoute préfader) est utilisé lorsqu’un canal d’entrée doit
être vérifié sans ouvrir un fader. Par exemple, les ingénieurs radio appuient
sur le bouton PFL pour écouter le début d’un enregistrement avec le casque,
© Dunod. Toute reproduction non autorisée est un délit.
mais comme le fader est descendu, le public ne pourra pas l’entendre. Le PFL
est un moyen de réglage des niveaux et d’égalisation à un moment où une
vérification normale du son serait impossible.
Assignation de canal La section d’assignation de canal est en général un ensemble de boutons, avec
(non montré) un bouton par bus de sortie. Le signal passant à travers le canal d’entrée
est envoyé à tous les canaux de sortie sélectionnés.
Fader de canal Curseur linéaire ou potentiomètre rotatif qui contrôle l’amplitude (ou gain)
(ou potentiomètre) du son.
D’un point de vue technique, la section d’envoi d’ordres est constituée d’un microphone, d’un
contrôle de niveau, et de plusieurs commutateurs pour déterminer où la voix de l’ingénieur sera
envoyée.
Figure 2.6 – Une grande table de mixage hybride (construite par Solid State Logic)
avec un traitement du signal analogique contrôlé par un ordinateur de table intégré. L’automatisa-
tion est nécessaire lorsque l’on travaille sur une table d’une telle taille (avec l’aimable autorisation
du Capri Digital Studio, Capri).
Ch1 Ch2 Ch n
VCA VCA VCA
Rappel
de la mémoire CNA CNA ... CNA
vers la console
Stockage
© Dunod. Toute reproduction non autorisée est un délit.
Écriture
(sauvegarde)
de la console
CAN CAN ... CAN
vers la mémoire
Ch1 Ch2 Ch n
position position position
de fadeur de fadeur de fadeur
Comme les VCA ne peuvent atteindre la qualité audio des circuits non VCA, certains construc-
teurs implémentent une automatisation pilotée par robotique. C’est-à-dire que les CNA contrô-
lent des moteurs déplaçant physiquement les faders (et donc modifient le niveau du canal) en
suivant les mouvements enregistrés auparavant par l’ingénieur. Les faders motorisés peuvent
être construits selon des standards élevés, effectuant des mouvements entre le niveau le plus
élevé et le niveau le plus faible en moins de 100 ms, couvrant une échelle de niveaux de plus de
4 096 valeurs différentes par incrément de 0,1 dB. Il n’y a dans ce cas aucun VCA impliqué dans
le traitement du son. Un autre avantage des faders motorisés est que l’ingénieur peut visualiser
les changements de niveaux de mixage enregistrés au cours du temps en regardant les mouve-
ments des faders. Pour modifier un mixage enregistré, l’ingénieur peut appuyer sur le fader en
mouvement, outrepasser le contrôle de l’ordinateur et permettre au fader d’être ajusté manuel-
lement.
Section d’assignation
des bus de sortie
ms dB X:Y ms
dB dB dB
.1 -- .2
Extension
Q Q Q Limitation Compression Extension
avec seuil
A A A A A A A A
Faders de canaux
Figure 2.8 – Dans une table assignable, chaque canal d’entrée possède un fader,
mais la table ne possède qu’un seul élément de contrôle pour l’égalisation, la dynamique, l’assigna-
tion de bus de sortie, etc. L’accès à un contrôle sur un canal se fait en appuyant un bouton d’assi-
gnation (marqué A) au-dessus du fader désiré. Ceci commute le contrôle sur ce canal. Dans cette
figure, le canal 2 a accès à deux unités d’égalisation paramétrique et à un extenseur de gamme
dynamique, et dirige sa sortie vers plusieurs bus. Des potentiomètres rotatifs sans fin sont des
contrôles d’assignation idéaux.
54 ENVIRONNEMENT ET OUTILS
(a)
© Dunod. Toute reproduction non autorisée est un délit.
(b)
séparée. Au lieu de tenter d’équilibrer tous les canaux lorsque le son est enregistré, ils peuvent
remettre l’équilibrage des niveaux à l’étape de remixage.
Pour la musique synthétisée, l’approche multipiste de l’enregistrement et la possibilité de superposer
des pistes sont très attrayantes. L’enregistrement numérique permet la possibilité de « ping-pongs
de pistes » (mixage de plusieurs pistes sur une seule, sur une même machine et en même temps) et
l’enregistrement avec lecture synchrone sans perte de génération (c’est-à-dire le bruit ajouté à
chaque copie — une contrainte sérieuse du support analogique).
Certains systèmes offrent des possibilités numériques son sur son. Dans un enregistrement son sur
son, un nouveau signal sonore (par exemple un signal à deux canaux) est simplement ajouté à un
signal existant pour créer un nouveau signal à deux canaux. En ajustant avec précision l’équilibre
entre l’ancien et le nouveau signal, des textures complexes peuvent être construites, ou un filigrane
compliqué des filaments sonores peut être créé étape par étape.
2.6.1 Casque
Pour l’enregistrement sur site (en dehors du studio), où il n’existe pas de pièce séparée pour l’écoute,
le casque est la seule option. Mais l’usage du casque ne se limite pas à l’enregistrement sur site. L’écoute
avec un bon casque revient à voir le son à travers des lunettes grossissantes. Le casque est la meilleure
façon de vérifier un enregistrement pour trouver des défauts subtils tels que points de coupure,
clics, bruits, distorsion et problèmes de phase, qui ne seraient sans doute pas aussi nets avec une
écoute par haut-parleurs à niveau moyen.
2.6.2 Écoute par haut-parleurs
Les haut-parleurs et les salles travaillent ensemble. Dans cette partie, nous examinerons trois types
d’environnements d’écoute par haut-parleurs : l’écoute de proximité, l’écoute de cabine de contrôle et
l’écoute de salle. En faisant la distinction entre ces trois environnements, nous ne voulons pas dire
qu’ils sont les seuls — il existe de nombreuses variations. En général, les sentiments sur les environ-
nements d’écoute évoluent avec les modes audio du moment.
(a)
(b)
"Cône de vigilance"
x
© Dunod. Toute reproduction non autorisée est un délit.
(c)
x x
✦ Écoute de proximité
Dans les petits studios ou les appartements, les écoutes de proximité sont répandues (figure 2.10a).
Les écoutes de proximité sont également utilisées dans les grands studios où l’ingénieur du son
souhaite écouter comment la musique sonnera sur des haut-parleurs similaires à ceux qui existent
dans les systèmes d’écoute des particuliers. Placées au-dessus ou à proximité de la table de mixage
au niveau de l’oreille, ces petits haut-parleurs dynamiques devraient être à une distance inférieure
à deux mètres de l’ingénieur du son. Dans cette configuration, le son direct des haut-parleurs est
prédominant par rapport aux sons indirects reflétés par la pièce. La petite taille des écoutes de proxi-
mité est importante, car l’auditeur est si près de l’unité que l’écoute doit projeter une image spatiale
« fusionnée » ; cet effet ne peut être accompli à proximité d’un grand haut-parleur ayant plusieurs
voies, où le tweeter (voie des fréquences aiguës) peut être situé à plus d’un mètre du boomer (voie des
fréquences graves).
Un des problèmes sérieux avec les écoutes de proximité est leur manque de réponse en fréquences
graves en raison de leurs petites tailles. Deux ou trois octaves de son peuvent manquer ou être forte-
ment atténuées dans la reproduction par des écoutes de proximité.
✦ Écoute en salle
L’approche par salle place les haut-parleurs d’écoute sur le sol, ou juste au-dessus, dans un environ-
nement plus familier, comme cela est en général le cas dans les salles de séjour (figure 2.10c). La
pièce peut être traitée acoustiquement, mais jamais aussi radicalement que dans les cabines d’écoute
des studios de variété. Les haut-parleurs sont des modèles de grande taille ayant une courbe de
réponse plate et une image spatiale précise. Des haut-parleurs dynamiques à trois voies (tweeter,
médium et boomer) ou électrostatiques très fins projettent le son. L’approche de la salle de séjour
est préférée par de nombreux ingénieurs du son et producteurs classiques pour l’écoute à des niveaux
moyens. La figure 2.11 montre une variation de cette approche dans un studio de mastering de
disques compacts. Le rectangle au centre du mur est un panneau de diffusion qui disperse les ondes
sonores de façon irrégulière. Ceci aide à casser les résonances de la pièce.
pièces pour instruments et sons générés par ordinateur. Voir le chapitre 7 pour davantage de détails
sur la projection du son dans l’espace.
Remixer un enregistrement multipiste peut être compliqué, dépassant très rapidement les capacités
physiques d’un seul être humain. Jusqu’au développement de l’automatisation du mixage, un mixage
multipiste compliqué (comme une bande-son de film) pouvait impliquer jusqu’à quatre personnes
travaillant sur une seule table. Le bénéfice de l’automatisation du mixage est qu’un seul ingénieur
peut effectuer un mixage compliqué en un certain nombre d’étapes simples. Par exemple, l’ingénieur
peut commencer en mixant deux programmes stéréophoniques, sur les pistes 1-2 et 3-4. Le système
d’automatisation construit à l’intérieur de la table de mixage enregistre l’information de contrôle
nécessaire à la restitution de ce mixage en temps réel. Lorsque la première étape est effectuée, un
autre programme stéréophonique (5-6) peut être ajouté au mixage. À chaque étape du mixage, les
données de mixage entrées précédemment sont restituées afin que le mixage soit construit par
incréments. Le mixage audio en entier n’est enregistré que lors de l’étape finale.
L’étendue de l’automatisation varie selon les tables de mixage. « Automatisation » peut faire réfé-
rence à des éléments aussi divers que la reconfiguration de la table par enfoncement d’un bouton,
l’automatisation des faders (restituant le mouvement des faders de canaux dans le temps), ou la
60 ENVIRONNEMENT ET OUTILS
mémorisation de toutes les fonctions et de toutes les configurations entrées dans une grande table
de mixage pour une séance entière.
Les systèmes d’automatisation à fonctions complètes lisent toutes les configurations de la table de
nombreuses fois par seconde. Lors de cette lecture, la position courante d’un fader ou d’un bouton
est comparée à la représentation stockée de la lecture précédente. Si la position a changé, un flot de
données est envoyé, identifiant le contrôle et la nouvelle position. Lors de la lecture, l’ordinateur de
la table met à jour les contrôles de la table à partir de la mémoire au même taux. L’ingénieur peut,
à n’importe quel moment, outrepasser les configurations stockées en ajustant manuellement la
molette de contrôle désirée.
Audio analogique
(en général
d’un magnétophone) Logiciel
de séquence
Données
MIDI
MCAs Ordinateur
personnel
Sortie
analogique
Figure 2.12 – Réglage pour une séance de remixage avec un système d’atténuateur
contrôlé par MIDI (MCA) pour une table analogique 6/2. Les niveaux de la table analogique restent
inchangés, tandis que l’ingénieur du son manipule les niveaux sur la table MCA. Alors même que le
mixage de chaque piste est retravaillé, les données de contrôle sont enregistrées sur une piste dans
le séquenceur MIDI, ce qui permet à un mixage complexe d’être construit étape par étape.
valeur de la molette. Sept bits signifient que 128 valeurs de fader peuvent être représentées, ce qui
peut donner des effets d’enchaînement « échelonnés » en raison de la faible résolution du fader.
La troisième approche de l’automatisation de table MIDI implique l’envoi de messages clés par le
code temporel MIDI (voir la partie sur ce code plus loin dans le chapitre). Les messages clés sont
envoyés à l’avance du temps d’action. Ils peuvent par exemple dire à la table de commencer un
enchaînement à un certain taux à un point particulier du code temporel.
sur des canaux séparés) avec une production vidéo montée. La machine audio doit suivre la lecture
vidéo pour que l’on puisse voir et écouter de façon synchronisée l’image et le son.
Plus loin, dans la partie sur le code temporel MIDI, nous présentons plusieurs autres applications
de la synchronisation, telles que le contrôle de séquenceurs, d’effets et de lecture de fichiers son par
MIDI. Cette partie ne présente pas un autre type de synchronisation, que l’on appelle synchronisation
par horloge d’échantillonnage pour l’audionumérique.
Synchroniseur
Esclave Maître
Contrôle du code du code
du transport temporel temporel
Magnétophone Magnétoscope
multipistes professionnel
Console de mélange
les 80 bits, il reste de la place pour coder d’autres informations, comme le temps écoulé, les nombres
d’index ou les étiquettes. Lorsqu’un événement est marqué avec un code temporel SMPTE, celui-ci
devient une adresse permanente pour cet événement. Pour plus de détails sur le code temporel
SMPTE, voir Hickman (1984).
Comme nous l’avons précédemment expliqué, dans une configuration standard, chaque machine
à synchroniser écrit une forme de code temporel SMPTE sur une piste. De nombreux enregistreurs
possèdent une piste spéciale dédiée spécifiquement à l’enregistrement du code temporel SMPTE.
Les machines esclaves suivent le code temporel lu à partir de la machine maître.
1. Un clavier MIDI peut contrôler plusieurs synthétiseurs et échantillonneurs pour que le son
de plusieurs synthétiseurs liés par MIDI puisse être mélangé lorsque le musicien utilise le
clavier de contrôle.
2. Un séquenceur MIDI peut stocker une série de notes dont la lecture est déclenchée à un certain
point du mixage.
3. Un séquenceur peut également stocker une série précédemment codée de changements de
programme pour une unité d’effets contrôlable par MIDI. De cette façon, des séquences d’effets
complexes peuvent être appliquées automatiquement aux sons qui sont mixés. Une autre
variation consiste à contrôler les coupures de canaux par MIDI.
4. Certains systèmes utilisant des fichiers son stockés sur ordinateur peuvent lire une série de
fichiers son en réponse à un message de déclenchement envoyé par MIDI.
La principale question technique des applications (2), (3) et (4) est la suivante : comment déclenche-
t-on le départ des séquences MIDI pour obtenir une lecture quasi synchrone de la séquence avec le
reste des signaux audio ? Une méthode directe est d’appuyer manuellement sur une touche du clavier
de l’ordinateur pour initialiser la séquence. Une méthode plus homogène est effectuée grâce à une
connexion entre code temporel SMPTE et code temporel MIDI (MTC).
Dans ce dernier schéma, une piste de code temporel SMPTE est inscrite sur un enregistreur multi-
piste audio, par exemple, et relue avec les données audio des autres pistes. La piste de code temporel
SMPTE est envoyée dans un convertisseur SMPTE-MIDI. Celui-ci convertit le tempo SMPTE en
temps MTC, ce qui permet de déclencher le départ d’une séquence MIDI ou la lecture d’un fichier
son (figure 2.14). Les points de déclenchement sont appelés des commandes dans le jargon de la
synchronisation. Plusieurs programmes de séquence peuvent utiliser ce schéma.
Convertisseur SMPTE-MIDI
Séquenceur
Ordinateur ou lecteur
de fichier son
Messages MIDI
Figure 2.14 – Flux logique de données dans une conversion de code temporel SMPTE-MIDI.
Une source de code temporel SMPTE, par exemple la lecture d’une vidéo, envoie un code temporel au
convertisseur. Le code temporel MIDI est interprété par un séquenceur MIDI ou par un programme
de lecture de fichiers sons, qui contrôle à son tour d’autres matériels MIDI.
Des schémas de synchronisation de musique plus étranges peuvent être développés grâce aux
logiciels d’interprétation MIDI interactifs.
CHAPITRE 2 – MIXAGE 65
2.9 Conclusion
Le mixage du son n’est qu’une étape dans le processus de production qui commence avec l’enregis-
trement, l’édition et le traitement du signal. Mais le mixage est plus qu’un métier technique ;
il demande de l’intuition et du jugement musical. Dans le studio ou sur scène, l’ingénieur joue un rôle
analogue à celui du chef d’orchestre dans une salle de concert, car il est responsable de l’équilibre
global des voix à l’intérieur d’une composition.
Le choix critique de l’environnement d’écoute se fait en grande partie en fonction du goût et des
conventions, tandis que dans l’automatisation de table ou dans la synchronisation, il existe une
relation plus linéaire entre prix, qualité et éléments. Cependant, la technologie du mixage continue
d’évoluer. Ceci est démontré par le grand nombre d’approches qui caractérisent ce milieu : tables
analogiques ou hybrides, systèmes logiciels, tables numériques autonomes, stations de travail audio.
Nous avons souhaité montrer qu’aucune de ces approches n’était idéale pour toutes les situations
de travail.
Les capacités de stockage croissantes du support numérique lui permettent de stocker des milliers
de fichiers son dans un seul système. Plusieurs centaines de fichiers peuvent être inclus dans un
seul mixage. Reste la question de savoir comment organiser et accéder à de si nombreux fichiers de
façon efficace, ce qui risque également de poser un problème aux systèmes de gestion des bases de
données audio du futur.
© Dunod. Toute reproduction non autorisée est un délit.
Chapitre 3
Transformation
de la gamme dynamique
Les techniques de la gamme dynamique transforment l’amplitude des signaux. Elles servent de
fondation à des outils tels que les modeleurs d’enveloppe, les noise gates, les compresseurs, les limi-
teurs, les extenseurs, les unités de réduction du bruit, et les compresseurs-extenseurs (McNally, 1984).
Les applications de la transformation de la gamme dynamique s’étendent de tâches très pratiques
comme le nettoyage de signaux bruiteux jusqu’à des tâches plus créatives comme le remodelage de
l’enveloppe d’un instrument ou d’une voix.
gement de gain (c’est-à-dire des valeurs de dB plus élevées ou plus faibles en amplitude), ou une
reconstruction de l’enveloppe globale du son. Le remodelage peut être appliqué à un objet sonore
individuel ou à une partie entière de musique.
La figure 3.1 montre comment l’attaque raide d’un son de clavecin a été arrondie par l’enveloppe
de la figure 3.1b. La partie médiane du son devient une sorte de son entretenu avant de disparaître.
(a)
Amp.
Original
Temps
(b)
Amp.
Temps
(c)
Amp.
Temps
l’extenseur atténue au maximum le signal d’entrée (il le coupe). La figure 3.2 montre ce processus.
Dans la partie 3.2a, un signal bruiteux disparaît jusqu’à ce que le bruit soit le seul élément restant
audible. Dans la partie 3.2b, dès que le signal descend en dessous du seuil, l’extenseur avec seuil
élimine à la fois le signal et le bruit.
Il semble évident qu’un simple extenseur avec seuil ne peut éliminer du bruit lorsque le signal
musical est encore joué, et cet outil ne fonctionne donc correctement que lorsque la musique mas-
que le signal bruiteux.
CHAPITRE 3 – TRANSFORMATION DE LA GAMME DYNAMIQUE 69
(a)
Temps
(b)
Amplitude pic Le signal
du signal musical
L‘extenseur
se fond
avec seuil
dans le silence
se déclenche
Seuil
de l’extenseur
Bruit dans le signal Plancher de bruit
Temps
3.3 Compresseurs
Un compresseur est un amplificateur dont le gain (c’est-à-dire la quantité d’amplification) est con-
trôlé par le signal d’entrée. L’une des utilisations du compresseur est de conserver un signal de sor-
© Dunod. Toute reproduction non autorisée est un délit.
tie relativement constant. Lorsque le signal d’entrée s’élève au-dessus d’une limite supérieure spé-
cifiée, le compresseur atténue celui-ci.
Une bonne façon de caractériser un compresseur est d’utiliser sa fonction de transfert, qui montre
comment une valeur d’amplitude donnée envoyée dans la machine est reliée à une valeur d’ampli-
tude de sortie donnée. Cette représentation de la fonction de transfert est exactement la même que
celle utilisée pour expliquer la synthèse par distorsion non linéaire dans le chapitre 9.
La figure 3.3 montre les fonctions de transfert de plusieurs systèmes de traitement de la gamme
dynamique. Nous pouvons imaginer que le signal entre dans la boîte par le bas et en ressort par la
droite. La figure 3.3a montre une fonction de transfert parfaitement linéaire. Une valeur de –1 en bas
est liée à une valeur de –1 sur la droite ; une valeur de +1 en bas est liée à une de +1 sur la droite,
et ainsi de suite.
La figure 3.3b montre une fonction de transfert et la forme d’onde traitée avec un effet de compres-
sion relativement « doux ». Remarquez comme les pics de l’entrée sont liés à des valeurs inférieures
à la sortie de la fonction de transfert.
70 ENVIRONNEMENT ET OUTILS
0 Sortie
Original
-1
-1 Entrée +1 Temps
(b)
Compression
(c)
S
S Limitation
(d)
Extension
3.4 Extenseurs
Un extenseur est l’inverse d’un compresseur. Il transforme les petits changements du signal d’entrée
en changements plus larges dans le signal de sortie. Le rapport d’extension détermine le degré
d’extension. Par exemple, un rapport d’extension de 1:5 signifie qu’un changement de 1 dB dans le
signal d’entrée est converti en un changement de 5 dB dans le signal de sortie. L’une des principales
applications des extenseurs est la restauration de vieux enregistrements. Les systèmes de réduc-
tion du bruit contiennent souvent une paire de compresseurs-extenseurs, comme nous l’explique-
rons dans un moment. La figure 3.3d montre un effet d’extension de pics appliqué au signal
d’entrée de la figure 3.3a.
3.5 Limiteurs
La limitation est une compression extrême — où les rapports de compression sont bien supérieurs
à 10:1. Comme le montre la figure 3.3c, la relation entre l’entrée et la sortie est linéaire au-delà d’un
certain niveau. Ce niveau est indiqué par les limites de seuil positif et négatif S. En pratique, on ne
© Dunod. Toute reproduction non autorisée est un délit.
spécifie qu’une valeur absolue pour le seuil, plutôt que des limites supérieures et inférieures sépa-
rées. Au-delà de ce seuil, la sortie reste constante quel que soit le niveau d’entrée.
Les limiteurs sont utilisés dans les enregistrements de concert où il est impératif de ne pas dépasser
la gamme dynamique absolue de quelque composant que ce soit dans la chaîne d’enregistrement.
Par exemple, les enregistreurs numériques ont un seuil de niveau d’entrée absolu au-delà duquel
se produit une distorsion de coupure numérique stridente. Un ingénieur du son peut insérer un
limiteur avant l’enregistreur pour s’assurer que le seuil de celui-ci ne sera jamais dépassé.
Signal d’entrée
Enregistrement Compresseur
Enregistreur
Lecture
Extenseur
Signal de sortie
la gamme dynamique du signal originel. Comme l’enregistrement compressé contient peu de bruit
(il est enregistré à un niveau modérément élevé au-dessus du seuil de bruit de l’enregistreur),
le résultat est un enregistrement faiblement bruiteux ayant une large gamme dynamique.
La figure 3.5 montre le processus de compression-extension. La gamme dynamique de l’enregis-
trement se resserre à l’intérieur du canal bruiteux, comme dans le cas d’un enregistreur à cassette
analogique ou d’un enregistreur numérique ayant peu de bits. Le signal enregistré reste à un niveau
suffisamment élevé pour éviter le bruit du canal bruiteux, mais suffisamment bas pour éviter des
coupures et de la distorsion de débordement.
Entrée Sortie
Coupure
Bruit
Certains schémas de réduction du bruit, comme ceux développés par Dolby Laboratories, effectuent
une compression et une extension selon la fréquence. C’est-à-dire que le signal d’entrée est filtré
CHAPITRE 3 – TRANSFORMATION DE LA GAMME DYNAMIQUE 73
chent. Finalement, la compression, comme n’importe quel effet, est facilement utilisée avec abus.
Chapitre 4
des retards d’échantillons sur une image bidimensionnelle du domaine fréquentiel appelé le plan
complexe z. Les pôles au dessus de ce plan représentent les pics de résonance, tandis que les zéros
représentent les points d’amplitude nulle. Un filtre bipôle, par exemple, possède deux pics de réso-
nance. La transformée z est un concept essentiel pour les concepteurs professionnels de filtres,
car elle fournit un lien mathématique entre les caractéristiques désirées du filtre et ses paramètres
d’implémentation. Mais le processus de raisonnement nécessaire pour expliquer la transformée z
et ses applications est long et abstrait, et n’est lié qu’indirectement aux paramètres ayant une signi-
fication physique.
Notre présentation de la théorie des filtres adoptera donc une approche plus simple et plus musi-
cale. Nous caractérisons les composants internes des filtres en termes de retards et d’opérations
arithmétiques simples sur les échantillons, ce qui correspond à la façon dont un filtre est repré-
senté dans un logiciel. Nous présentons des images du flux du signal, de la réponse impulsionnelle
et de la réponse fréquentielle pour apporter un complément aux explications. Lorsque l’on y ajoute
l’explication des concepts de base des filtres du chapitre 24, cette présentation couvre toute la connais-
sance essentielle nécessaire aux musiciens utilisant les filtres dans la composition ou en concert.
Les lecteurs souhaitant faire un trajet dans la forêt de la théorie des filtres pourront trouver des
centaines d’articles où s’aventurer. Les articles les plus orientés vers un aspect musical de la ques-
tion sont Moore (1978b, 1990), Cann (1979-1980), Smith (1985a, b) et Moorer (1981b, 1983a).
Voir également les guides sur la conception des filtres par Hutchins (1982-1988), très complets et
comportant des listes de codes. Des douzaines de livres d’ingénierie traitent des filtres, soit en totalité,
soit en partie.
Après une brève note historique, le reste de ce chapitre présente la notion fondamentale de réponse
impulsionnelle d’un filtre, et explique l’implémentation de filtres passe-bas et passe-haut simples.
Il met en contraste les deux structures de base des filtres, aborde la conception des filtres, et présente
les sections des filtres, les filtres en peigne et les filtres passe-tout.
années 1980 que la rapidité du matériel permit l’implémentation de filtres numériques en temps
réel sur des synthétiseurs bon marché, sur des cartes de traitement du signal, sur des unités
d’effets, et sur des consoles de mélange numériques.
(a)
Amp.
Temps
7500 Hz
Amp.
Fréquence
(b)
0
Amp.
Temps
4600 Hz
Amp.
Fréquence
filtre, nous avons besoin d’un signal contenant toutes les fréquences. Le bruit blanc, qui contient
toutes les fréquences, nous dira comment le filtre répond dans le domaine fréquentiel. Mais une
mesure d’égale importance d’un filtre est de savoir comment celui-ci répond aux transitoires. Pour
cela, nous avons besoin d’une mesure de sa réponse dans le domaine temporel.
Comme Fourier l’a montré au dix-neuvième siècle, une relation inverse existe entre la durée d’un
signal et son contenu fréquentiel. Une sinusoïde de durée infinie est l’expression d’une seule fré-
quence. Si l’on raccourcit la durée de la sinusoïde, son spectre de Fourier devient de plus en plus
compliqué. C’est-à-dire qu’il nous faut ajouter toujours plus de sinusoïdes, qui finalement s’annu-
lent les unes les autres, pour créer un signal de courte durée. Ainsi, plus le signal est court, plus le
spectre est large.
Dans un système numérique, le signal le plus bref possible ne dure qu’un seul échantillon. Ce
signal contient de l’énergie à toutes les fréquences qui peuvent être représentées à une fréquence
d’échantillonnage donnée. Ainsi, une façon générale de caractériser un filtre est de voir sa réponse
pour une impulsion d’un échantillon, ce qui est une approximation de l’impulsion élémentaire ou
symbole de Kronecker abstrait et infiniment bref. Le signal de sortie généré par un filtre dans lequel
on envoie une impulsion élémentaire est appelé la réponse impulsionnelle (IR) de ce filtre. L’IR cor-
respond exactement à la réponse amplitude-fréquence du système. Le chapitre 24 explique ce
terme, appelé couramment « réponse fréquentielle ». L’IR et la réponse fréquentielle contiennent
la même information — la réponse du filtre à l’impulsion élémentaire —, mais sont tracées dans
des domaines différents. C’est-à-dire que l’IR est une représentation dans le domaine temporel et
la réponse fréquentielle est une représentation dans le domaine fréquentiel. Le lien entre ces deux
domaines est la convolution, expliquée au chapitre suivant.
La figure 4.3a montre comment un filtre amplificateur étroit élargit l’énergie d’une impulsion. En
général, une longue IR correspond à une réponse fréquentielle étroite, puisqu’un filtre étroit crée
un effet sur une période de temps significative après l’impulsion originelle. Comme nous le voyons
au chapitre 11, le « temps de retard » long des filtres étroits devient problématique dans l’analyse
spectrale. D’un autre côté, une IR courte correspond à une réponse fréquentielle large. La figure 4.3b
montre l’effet d’un filtre passe-bas de lissage.
Une autre caractéristique des filtres est leur effet sur la phase des sinusoïdes qui passent à travers
eux. La réponse de phase d’un filtre trace le déphasage (en radians) appliqué à chaque composant
sinusoïdal du signal d’entrée (Smith, 1985a). Une mesure peut-être plus intuitive est le retard de
phase, qui trace le déphasage sous forme de retard temporel (en secondes) appliqué à chaque com-
© Dunod. Toute reproduction non autorisée est un délit.
76 ms
Amp. Amp.
Temps Temps
Impulsion
Impulsion filtrée
en passe-bas
Amp. Amp.
Temps Temps
l’échantillon au temps n, l’échantillon suivant au temps n + 1, etc.), et l’index d’échantillon est sou-
vent mis entre crochets. Ainsi x[0] est le « zéroième » échantillon de l’entrée, x [1] est l’échantillon
d’entrée suivant, et ainsi de suite.
0.5
Δ ×
Entrée × + Sortie
0.5
Remarquez que dans cette figure et celles qui la suivent, la notation suivante est appliquée : les flèches
indiquent le flux du signal, les lignes sans flèches indiquent des entrées de coefficients (pour les mul-
tiplicateurs ou les additionneurs), le point noir indique un embranchement où le signal est envoyé
dans deux directions différentes, le signe × indique une multiplication, le signe + une addition, et le
signe Δ indique un retard d’une période d’échantillonnage.
La figure 4.5 montre la réponse fréquentielle de ce filtre, qui ressemble au premier quadrant d’une
onde cosinus. Faire la moyenne non plus sur deux échantillons, mais sur trois, quatre ou plus aug-
mente l’effet d’atténuation des hautes fréquences du filtre. Cette moyenne sur plusieurs échantillons
revient à connecter plus de deux filtres similaires en série.
1.0
© Dunod. Toute reproduction non autorisée est un délit.
Amp.
0
0 Fréquence FE/2
0.5
Δ ×
Entrée × − Sortie
0.5
1.0
Amp.
0
0 Fréquence FE/2
Pour rendre ce filtre (ou le précédent) plus flexible, nous pouvons transformer les coefficients
constants de valeur 0,5 en variables a0 et a1 comme dans cette équation :
y [ n ] = ( a0 × x [ n ] ) + ( a1 × x [ n – 1 ] )
Le coefficient d’indice 0 indique un signal non retardé, tandis que l’indice 1 indique un retard d’un
échantillon. En changeant la valeur des coefficients, on modifie la réponse de fréquence du filtre.
x[n]
Δ ... Δ
a0 a1 ai
× × ... ×
© Dunod. Toute reproduction non autorisée est un délit.
y[n]
Figure 4.8 – Structure d’un filtre FIR général, constitué d’une série de retards
d’un échantillon, pour que dans la dernière unité de retard, le signal d’entrée soit retardé de i échan-
tillons. Chacun de ces signaux retardés est échelonné par un coefficient correspondant a. La sortie
est la somme de tous ces échantillons retardés et échelonnés.
84 ENVIRONNEMENT ET OUTILS
l’entrée et toutes ses versions retardées par des coefficients fractionnaires, puis les additionne pour
obtenir la sortie. En ajustant les coefficients, la réponse du filtre peut être contrôlée vers une fré-
quence limite inférieure équivalente à environ le taux d’échantillonnage divisé par le nombre d’étapes
de retard. Par exemple, pour une fréquence d’échantillonnage de 44,1 kHz, un filtre passe-bas FIR
à dix étapes expulse les fréquences situées à peu près au-dessus de 4 400 Hz.
+10
0
-30
Amp. en dB
-60
-90
0 .10 .20 .30 .40 .50
Fréquence en unités arbitraires
+10
0
-30
Amp. en dB
-60
-90
0 .10 .20 .30 .40 .50
Fréquence en unités arbitraires
Figure 4.9 – Tracé de la réponse fréquentielle comparant les lobes de coupure du filtrage
pour des filtres FIR de différentes longueurs. L’axe des fréquences est mesuré en unités arbitrai-
res. (a) Filtre à 15 étapes. (b) Filtre à 31 étapes. La ligne verticale indique la fréquence de coupure
(0,125). Ajouter davantage d’étapes de retards à un filtre a pour effet de resserrer son lobe de
CHAPITRE 4 – LES FILTRES NUMÉRIQUES 85
Plus la longueur du filtre est grande, plus sa bande transitoire est étroite, et plus la coupure est raide.
Il n’est donc pas surprenant qu’un filtre plus long nécessite plus de calculs. Dans la pratique, il existe
une longueur au-dessus de laquelle on atteint une petite raideur perceptible, bien que les pics sur
les côtés du lobe principal du filtre (c’est-à-dire les pics d’ondulation) deviennent plus nombreux
et se resserrent (figure 4.9).
0.5
× Δ
© Dunod. Toute reproduction non autorisée est un délit.
0.5
x[n] × + y[n]
Ici, nous utilisons la convention de notation qui veut que les coefficients b modifient le trajet de
réinsertion. Lorsque b augmente, la fréquence de coupure du filtre s’abaisse. Le terme fréquence
de coupure est expliqué au chapitre 24. La valeur absolue du coefficient b doit rester inférieure à 1,
ou bien le filtre devient instable. Dans un filtre instable, les valeurs de sortie y[n] deviennent de plus
en plus grandes, ce qui résulte en un débordement numérique (nombres supérieurs aux capacités
des convertisseurs audio) et en un son distordu.
86 ENVIRONNEMENT ET OUTILS
1.0
Amp.
0
0 Fréquence FE/2
Un filtre récursif passe-haut simple soustrait l’échantillon d’entrée courant de l’échantillon de sortie
précédent, puis divise par deux. La figure 4.12 trace sa réponse de fréquence. L’équation du filtre
est la suivante :
y[n] = (a × x[n]) – (b × y[n – 1])
où a = b = 0,5. Dans ce cas, augmenter b revient à remonter la fréquence de coupure passe-haut,
ce qui atténue de plus en plus les fréquences graves.
1.0
Amp.
0
0 Fréquence FE/2
IIR estompent les transitoires dans le temps, en rendant moins discernables les fréquences élevées
et en donnant au son un aspect dur. De plus, en raison de la nature récursive du calcul, les filtres IIR
sont plus sensibles à l’accumulation des erreurs d’approximation de l’arithmétique du filtre que les
filtres FIR correspondants.
et la compatibilité avec les logiciels et les matériels existants, sans même évoquer les contraintes
économiques.
En général, la réalisation d’un filtre à partir d’un ensemble arbitraire de spécifications est une
tâche peu banale. Même lorsque les spécifications ne sont pas en conflit, une dérivation algébrique
et numérique plus ou moins complexe doit être effectuée. Le résultat est souvent une approximation
de la spécification désirée, ce qui oblige à faire des choix qui équilibrent les caractéristiques entre
elles.
Comme nous l’avons dit plus tôt, la théorie de la conception des filtres est une vaste discipline en
elle-même, dont les stratégies sont variées et en concurrence. De nombreux textes d’ingénierie
traitent de la théorie de la conception des filtres de façon rigoureuse et détaillée, ce qui dépasse le
cadre d’un livre comme celui-ci ; ainsi, nous recommandons ces ouvrages aux lecteurs attirés par
la technique. Le texte de Rabiner et Gold (1975), que nous avons cité à de nombreuses reprises, est
un classique.
Heureusement, les détails contrariants de la conception de filtres ont été codés en systèmes de con-
ceptions de filtres automatiques (McClellan, Parks et Rabiner, 1973). Ils sont disponibles sous forme
de bibliothèques de codes (Smith, 1981) et sous forme de programmes interactifs tournants sur
des ordinateurs personnels (Hebel, 1987, 1989 ; Zola Technologies, 1991 ; Hyperception, 1992). Les
programmes interactifs permettent à l’utilisateur de spécifier la stratégie de conception et les carac-
téristiques d’un filtre tout en cachant la plupart des manipulations algébriques et numériques
nécessaires à l’implémentation. Beaucoup de ces systèmes permettent à l’utilisateur de tester le filtre
simulé sur des signaux audio.
y[n-2] y[n-1]
Δ Δ
b2
× ×
a0 b1
x[n] × + y[n]
a1 a2
× ×
Δ x[n-1]
Δ x[n-2]
gramme du circuit correspondant à l’équation présentée ci-dessus. Une telle conception est si com-
mune que la puissance de traitement du signal d’un système est souvent présentée grâce au nombre
de sections de second ordre que celui-ci peut réaliser en temps réel (Moorer, 1983b).
Entrée + Sortie
retard dépasse 0,1 ms que le filtre commence à créer de multiples points nuls (points d’amplitude zéro)
dans le spectre, en raison des effets d’annulation de phase, ce qui donne un effet de filtrage en peigne.
L’effet de peigne provient de l’annulation et du renforcement de phase entre les signaux retardés et
non retardés. Si le signal originel et le signal retardé s’ajoutent — comme dans le filtre en peigne
à somme positive — le filtre résultant possède un premier pic à la fréquence ƒ = 1/D × ƒs, où D est le
retard en échantillons et fs est la fréquence d’échantillonnage. Les pics successifs apparaissent à 2f, 3f,
4f, etc. Ainsi, ce filtre peut être utilisé pour renforcer une fondamentale f et tous ses harmoniques.
Par exemple, si le taux d’échantillonnage est de 48 kHz, le retard est de 12 échantillons (0,25 ms), et si
le signal originel et le signal retardé sont additionnés positivement, le premier pic audible apparaît à
1/12 × 48 000 = 4 kHz, avec des pics consécutifs à 8 kHz, 12 kHz, et ainsi de suite, jusqu’à la fré-
quence de Nyquist (24 kHz). Ce même filtre en peigne possède des creux à 2 kHz, 6 kHz, et ainsi de
suite par intervalles de 4 kHz jusqu’à la fréquence de Nyquist (figure 4.15).
1.0
Amp.
0
0 Fréquence FE/2
L’effet d’annulation et de renforcement de phase peut être expliqué comme suit. Aux basses fré-
quences, le retard n’a virtuellement aucun effet sur la phase du signal, et les deux signaux (originel et
retardé) s’ajoutent, ce qui amplifie le signal de sortie. Lorsque les retards influent sur les fréquences
plus élevées, elles s’approchent de plus en plus d’un déphasage de 180 degrés. À 2 kHz, un retard
de 0,25 ms crée précisément un déphasage de 180 degrés. Lors de l’addition avec le signal originel, les
deux signaux s’annulent à cette fréquence (figure 4.16). Au-delà de 180 degrés, les signaux s’ajoutent
CHAPITRE 4 – LES FILTRES NUMÉRIQUES 91
(a) (b)
4 kHz 2 kHz
Somme Somme
de nouveau, jusqu’à ce que le retard de déphasage atteigne 0 ou 360 degrés, ce qui produit un pic de
© Dunod. Toute reproduction non autorisée est un délit.
renforcement à 4 kHz. À 6 kHz, les signaux sont de nouveau en déphasage de 180 degrés, produisant
un creux, et ainsi de suite.
Comme l’indique le tableau 4.1, les retards plus longs créent des dents plus proches dans le peigne.
Par exemple, lorsque le retard est de 50 ms, le premier creux apparaît à 10 Hz puis consécutivement à
30, 50, 70 Hz, et ainsi de suite. Les délais inférieurs à 5 ms produisent les effets de filtrage en peigne
les plus riches, car l’espacement entre les pics et les creux augmente, donc les dents du peigne
deviennent plus larges en fréquence et apparaissent de façon plus frappante à l’oreille.
Que se passe-t-il lorsque deux signaux (originel et retardé) sont soustraits plutôt qu’additionnés ?
Ceci est le cas d’addition négative, car cela revient à additionner deux signaux dont l’un est en dépha-
sage de 180 degrés. L’équation pour ce filtre en peigne FIR soustractif est la suivante :
y[n] = x[n] – x[n – D]
92 ENVIRONNEMENT ET OUTILS
où D est le retard en échantillons. Si les deux signaux sont soustraits plutôt qu’additionnés, le pre-
mier creux apparaît à 0 Hz, avec des creux successifs à f, 2f, 4f, et ainsi de suite. Dans ce cas, le filtre
en peigne élimine la fondamentale et ses harmoniques. Le signal est renforcé à f/2, 3f/2, 5f/2, et
ainsi de suite.
Tableau 4.1 – Pics des filtres en peigne FIR.
20 50 Hz
10 100 Hz
2 500 Hz
1 1 kHz
0,5 2 kHz
0,25 4 kHz
0,125 8 kHz
0,1 10 kHz
1.0
Amp.
0
0 Fréquence FE/2
un effet de « résonance » plus prononcé qu’un filtre FIR correspondant. En fait, si b est trop élevé, le
filtre effectue une réinsertion excessive, ce qui cause un débordement numérique et de la distorsion.
10
© Dunod. Toute reproduction non autorisée est un délit.
Retard
(ms)
0
0 1 kHz
Fréquence
Figure 4.18 – La réponse retard en fonction de la fréquence d’un filtre passe-tout dispersif
(d’après Chamberlin, 1983).
La prochaine équation décrit un filtre passe-tout simple ayant une réponse fréquentielle plate à
long terme (de zéro à la moitié de la fréquence d’échantillonnage) qui retarde diverses régions fré-
quentielles dans diverses proportions. Lorsque le retard en échantillons D est grand, le passe-tout
94 ENVIRONNEMENT ET OUTILS
génère une série d’échos amortis (d’amplitude décroissante), un effet utilisé dans les réverbérateurs
passe-tout (voir le chapitre 8).
y [ n ] = ( –g × x [ n ] ) + x [ n – D ] + ( g × y [ n – D ] )
La figure 4.19 montre la structure d’un tel filtre passe-tout, équivalent à celui présenté par Schroeder
(1961, 1962 ; voir également Moorer, 1977). Ce passe-tout est constitué d’un filtre en peigne IIR
avec une réinsertion (contrôlée par g), intercalé dans un circuit qui injecte également directement
une partie du signal d’entrée direct avec un gain de –g. Cette soustraction élimine les effets spectraux
du filtre en peigne, tout en préservant les caractéristiques d’écho et de retard.
x[n] + D + y[n]
×
-g
En général, le déphasage (en degrés) d’un filtre passe-tout est une fonction logarithmique du retard.
C’est-à-dire qu’un retard de 100 ms n’est qu’une petite fraction d’un cycle basse fréquence — seule-
ment quelques degrés de déphasage. Mais à 10 kHz, ce même retard de 100 ms constitue un dépha-
sage complet de 360 degrés en raison de la période de cette fréquence.
Deux propriétés caractérisent les filtres passe-tout. La fréquence de renversement est la fréquence
à laquelle le déphasage atteint 180 degrés. La largeur de transition d’un filtre passe-tout est la raideur
de la transition d’un déphasage de 0 à 360 degrés. La largeur de transition d’un filtre passe-tout est
analogue au Q (coefficient de qualité) d’un filtre passe-bande (voir le chapitre 24 pour une expli-
cation du coefficient Q).
Les applications musicales des filtres passe-tout sont de toutes sortes. Une utilisation immédiate
d’un filtre passe-tout est de l’employer pour compenser le déphasage introduit par un autre filtre
(Meyer, 1984). Par exemple, plusieurs fabricants ont fabriqué des filtres passe-tout comme rétro-
ajusteurs d’anciens enregistreurs audionumériques, pour compenser la distorsion de phase inhé-
rente dans les enregistreurs non modifiés. Une autre application est trouvée dans certains synthé-
tiseurs. Dans ce cas, le filtre passe-tout crée un déphasage en fonction de la fréquence et variant
dans le temps, qui peut apporter de la richesse à des sons qui seraient sans cela restés statiques. Cela
est un moyen utilisé pour créer une sorte d’effet chorus — une combinaison de retard et de déphasage.
L’application sans doute la plus importante des filtres passe-tout se trouve dans les réverbérateurs,
comme nous le verrons au chapitre 8.
Chapitre 5
La convolution
En dehors des effets de réverbération, l’IR de n’importe quel processeur audio (microphone, enceinte,
filtre, distorsion, effet, etc.) peut être convolvée avec un signal audio pour que celui-ci prenne les
caractéristiques du système.
Ceci conduit à une application musicale puissante de la convolution : la synthèse croisée par convo-
lution de deux sons arbitraires. La descendance de la synthèse croisée porte des caractéristiques
des sons parents, mais peut ne ressembler à aucun des deux. Si les sons d’entrée sont instrumen-
taux, le résultat peut sonner comme si un instrument « jouait » de l’autre (par exemple une série
de cloches jouant du gong). À la fin de ce chapitre, nous examinerons plus en détail l’intérêt musical
de la convolution, et nous donnerons des méthodes empiriques pour l’utiliser.
(a)
1
∗ ⇒
0 0 0
RI
(b)
0.5
∗ ⇒
0 0 0
RI
(c)
0.5
∗ ⇒
0 01 2 01 2
RI
plus haut comme une séquence numérique définie sur n points temporels. Au temps n = 0,
élém[n] = 1, mais pour toutes les autres valeurs de n, élém[n] = 0. La convolution de a[n] avec
élém[n] peut être exprimée comme suit :
sortie [ n ] = a [ n ] ∗ élém [ n ] = a [ n ]
Ici, « ∗ » signifie convolution. Ceci donne comme résultat un ensemble de valeurs pour la sortie qui
est identique au signal originel a[n] (figure 5.1a). Ainsi, la convolution avec une impulsion élé-
mentaire est appelée une opération d’identité par rapport à la convolution, car n’importe quelle
fonction convolvée avec élém[n] laisse cette fonction inchangée.
CHAPITRE 5 – LA CONVOLUTION 97
(a)
© Dunod. Toute reproduction non autorisée est un délit.
∗ ⇒
(b)
∗ ⇒
Ceci a pour résultat un effet de brouillage du temps. Lorsque le brouillage temporel est dense (cen-
taines d’impulsions par seconde) et distribué aléatoirement, il prend un caractère réverbérant.
Ainsi, convolver une séquence d’entrée a[n] avec une fonction arbitraire b[n], place une copie de
b[n] à chaque point de a[n], échelonnée par la valeur de a[n] à ce point. La convolution de a et b
est la somme de ces fonctions échelonnées et retardées (figure 5.3).
Réponse impulsionnelle a
0.5 0 1.0 0.5
Copies de b échelonnées
et retardées
Mise à b4 × 0.5 0.5 0.37 0.25 0.12
l’échelle
et retard b3 × 1.0 1.0 0.75 0.5 0.25
b2 × 0 0 0 0 0
Copies
0.5 0.37 1.25 1.37 0.87 0.5 0.12
de somme
Convolution a ∗ b
N–1
y [n] = ∑ h [m] × x [n – m]
m=0
où N est la longueur de la séquence h en échantillons et n parcourant la longueur entière de x.
Remarquez que le coefficient h joue le rôle de réponse impulsionnelle dans l’équation de convolu-
tion. Et en fait, la réponse impulsionnelle de tout filtre FIR peut être prise directement à partir de
la valeur de ses coefficients. Ainsi, tout filtre FIR peut être exprimé sous forme de convolution, et
vice-versa.
Comme un filtre FIR convolve également, il est raisonnable de se demander s’il existe une relation
directe entre ses coefficients et sa réponse impulsionnelle. En un mot, la réponse est non. Il existe
cependant des techniques mathématiques concevant un filtre FIR qui fait une approximation
d’une réponse impulsionnelle donnée. Voir Rabiner et Gold (1975, p. 265).
Source A Source B
Remplissage Remplissage
de zéro de zéro
FFT FFT
IFFT
Signal convolvé
A *B
Le filtrage est un bon exemple de multiplication des spectres, car l’on peut implémenter n’importe
quel filtre en convolvant un signal d’entrée avec la réponse impulsionnelle du filtre désiré. Mais la
convolution s’étend au-delà de ce qui sépare le filtrage simple de la synthèse croisée — le filtrage d’un
son par un autre. Appelons deux sources a et b et leurs spectres analysés correspondants spectre_a et
spectre_b. Si nous multiplions chaque point de spectre_a avec chaque point correspondant du
spectre_b, puis que nous resynthétisons le spectre résultant, nous obtenons une forme d’onde dans
le domaine temporel qui est la convolution de a avec b. Par exemple, la convolution de deux sons de
saxophone, chacun ayant une attaque douce, mélange leurs hauteurs, sonnant comme si les deux sons
avaient été joués simultanément. Contrairement au simple mélange, cependant, l’effet de filtrage
de la convolution accentue les résonances métalliques présentes dans les deux sons. Un autre effet,
subtil dans ce cas, mais pas dans d’autres, est le brouillage temporel, que nous présentons plus loin.
102 ENVIRONNEMENT ET OUTILS
(a)
Amp.
Temps
(b)
Amp.
Temps
logarithmique, cependant, le second son apparaîtra comme suspendu dans le temps jusqu’au début
de la chute.
5.8.3 La modulation comme convolution
Les modulations d’amplitude et en anneau (voir le chapitre 25) utilisent toutes deux la multiplication
de formes d’onde dans le domaine temporel. La loi de la convolution établit que la multiplication
de deux formes d’onde convolve leurs spectres. La convolution prend en compte les bandes latérales
qui résultent de ces multiplications. Considérez les exemples de la figure 5.2, et imaginez qu’au lieu
d’impulsions dans le domaine temporel, la convolution travaille sur des lignes dans le domaine fré-
quentiel. Les mêmes règles s’appliquent — avec la différence importante que l’arithmétique des
nombres complexes s’applique. La FFT, par exemple, génère un nombre complexe pour chaque com-
posant spectral. Le point principal ici est que cette représentation est symétrique autour de 0 Hz,
avec une réplique exacte de chaque composant spectral (d’amplitude divisée par deux) dans le
domaine fréquentiel négatif. Ce spectre négatif est rarement tracé, puisqu’il n’est significatif qu’à
l’intérieur de la FFT.
(a)
-100 100
Amp.
0
Fréquence
(b)
-1000 1000
Amp.
0
© Dunod. Toute reproduction non autorisée est un délit.
Fréquence
(c)
0
Fréquence
La figure 5.6 est une description graphique de la convolution du spectre qui apparaît lors de la
modulation en anneau (voir le chapitre 25). La figure 5.6a montre le spectre émis par une FFT pour
une seule sinusoïde à 100 Hz. La figure 5.6b montre une sinusoïde à 1 kHz. La figure 5.6c montre
leur convolution. Les deux impulsions à –100 et +100 sont retardées et échelonnées à la région
autour de 1 et –1 kHz. Les fréquences de 900 et 1 100 Hz représentent les fréquences de somme et
de différence des deux signaux d’entrée, ce qui est typique de la modulation en anneau.
(a)
(b)
(c)
Les résultats de la convolution avec des grains peuvent être très variables, selon les propriétés du
nuage granulaire et du signal d’entrée. Pour un signal d’entrée ayant une attaque raide, la convolution
avec un nuage épars contenant quelques douzaines de grains courts crée une distribution statistique
d’échos du signal d’entrée (figure 5.7). Plus le nuage est dense, plus les échos fusionnent en un effet
de réverbération irrégulier. Les grains plus longs accentuent le brouillage temporel et arrondissent
les attaques raides. Lorsque le signal d’entrée possède une attaque douce — comme un son legato
de saxophone —, le résultat est comme un effet de filtrage variant dans le temps sur le son, effet
qui dépend du spectre de la forme d’onde à l’intérieur des grains. Voir Roads (1993a) pour plus de
détails sur cette technique.
Une autre classe de sons synthétisés provient de la convolution de sons échantillonnés avec des
trains d’impulsions variables de formes d’onde appelées pulsars. Les trains pulsar se situent dans
le continuum entre les infrasons et les fréquences audio, ce qui permet à la fois des effets rythmiques
ou timbraux. Voir le chapitre 23 et Roads (1994) pour plus de détails sur cette technique.
1 024 points, comme s’il s’agissait d’une liste circulaire dont la fin était raccordée au début. Le résultat
de cela est que le début et la fin de la convolution contiennent des données invalides. Heureusement,
il est facile d’éviter la distorsion de la convolution circulaire en spécifiant des tailles de fenêtre de
FFT supérieures ou égales à la longueur de la séquence de sortie prévue. Voir le chapitre 11 pour
une présentation des tailles de fenêtre. Ceci peut être effectué en réglant la taille de la fenêtre FFT
sur la plus proche puissance de deux supérieure aux N échantillons de la plus longue séquence
d’entrée. Les points d’échantillonnage additionnels sont remplis de zéro.
5.11 Déconvolution
Malheureusement, dès que deux signaux sont convolvés, il n’existe pas de méthode connue pour les
séparer ou les déconvolver parfaitement. En supposant que l’on connaisse le spectre de l’un des
signaux, on peut filtrer le signal convolvé pour supprimer ce spectre, mais d’autres artefacts de la
convolution dus au barbouillage temporel (tels qu’échos et transformations d’enveloppes) resteront.
106 ENVIRONNEMENT ET OUTILS
En raison de la nature particulière des signaux de la parole, cependant, deux catégories de déconvo-
lution ont effectué une séparation approximative de l’excitation (impulsions glottales) et de la
résonance (formants du conduit vocal) des sons de la voix. Il s’agit de déconvolution autorégressive
ou homomorphique (Rabiner et Gold, 1975). Le chapitre 13 présente l’analyse autorégressive, qui
est liée de près au codage prédictif linéaire présenté au chapitre 24. Une méthode de déconvolution
homomorphique est la technique d’analyse cepstrale décrite au chapitre 9 (voir également Galas et
Rodet, 1990).
Chapitre 6
Amplitude
Temps retardée
© Dunod. Toute reproduction non autorisée est un délit.
de retard du signal
D ×
Entrée × + Sortie
Amplitude
originelle
du signal
La principale différence entre eux n’est pas la structure du circuit, mais le retard temporel mis en
jeu. Pour un filtre passe-bas, le retard est d’un échantillon, donc le circuit a comme effet de faire la
moyenne des échantillons successifs. Pour un filtre en peigne, les temps de retards effectifs se situent
entre 0,1 et 1 ms. Pour une LRN, les retards sont supérieurs à 1 ms.
8 1
7 2
N
A
6 3
5 4
8 1
7 2
N
6 3
A
5 4
Figure 6.2 – Opération d’une queue circulaire pour implémenter une ligne à retard.
N est l’échantillon le plus récent dans la queue, tandis qu’A est le plus ancien. (a) « Avant ». Pointeurs
dans la queue circulaire au temps t. (b) « Après ». Pointeurs dans la queue au temps t + 1, indiquant
que l’espace occupé par l’échantillon le plus ancien au temps t a été lu et remplacé par un nouvel
échantillon entrant.
CHAPITRE 6 – LES EFFETS DE RETARD 109
8 1
Bascule 1
7
Bascule 2
2
N
6
3
A
5 4
© Dunod. Toute reproduction non autorisée est un délit.
Figure 6.3 – Une ligne à retard à deux bascules implémentée dans une queue circulaire.
Les deux bascules de lecture, Bascule1 et Bascule2, circulent autour de la queue en compagnie des
pointeurs A (ancien) et N (nouveau). Les échantillons entrants sont écrits à la position occupée par
N à chaque période d’échantillonnage.
Réflexion
d’écho
Source Direct
Auditeur
sonore
Réflexion
d’écho
Figure 6.4 – Effet d’écho causé par le mélange de son direct et de son reflété.
CHAPITRE 6 – LES EFFETS DE RETARD 111
6.2.1 Le flanger
L’effet de flanger électronique provient d’un phénomène acoustique naturel qui apparaît lorsqu’un
bruit de large bande est entendu dans un mélange de son direct et de son retardé. Bilsen et Ritsma
(1969) donnent un historique de cet effet, en commençant avec sa découverte par Christian Huygens
en 1693. Le guitariste et pionnier de l’enregistrement Les Paul fut le premier à utiliser le flanger
comme effet sonore dans un studio d’enregistrement. Son système de flanger de 1945 utilisait deux
enregistreurs à disque, dont un était équipé d’un contrôle variable de la vitesse (Bode, 1984). Dans
les années 1960, le flanger était obtenu en studio grâce à deux enregistreurs à bande analogiques et
une console de mélange. Les enregistreurs à bande étaient alimentés avec le même signal. L’ingénieur
écoutait les sorties combinées, tout en pressant occasionnellement sur le rebord (flange) de l’une
des bobines pour la ralentir (figure 6.5). Deux enregistreurs étaient nécessaires afin de synchroni-
ser le retard global introduit par l’écoute à partir de la tête de lecture de l’enregistreur ralenti. À une
vitesse de bande de 38 cm/s, la distance entre les têtes de lecture et d’enregistrement d’un enregis-
treur à bande analogique typique introduit un retard fixe d’environ 35 ms. Le retard précis dépend
© Dunod. Toute reproduction non autorisée est un délit.
Signal audio
Enregistrement
Enregistrement
Lecture Lecture
avec retard variable
Mélangeur
Quantité Fréquence
de variation de variation
LFO
+
Variation
du temps
de retard
D
Trajet
de réintroduction
Entrée +
du retard
+ Sortie
La structure décrite jusqu’ici est équivalente à un filtre en peigne FIR ou en alimentation directe
ayant un retard variant dans le temps. En pratique, les implémentations les plus modernes du flan-
ger utilisent une structure en peigne IIR ou à réinsertion récursive ayant un retard variant dans le
temps, comme montré à la figure 6.6. On peut en général commuter entre une réinsertion positive
et une réinsertion négative, pour comparer laquelle est la plus efficace pour une application du flanger
sur un son particulier.
6.2.2 Le phasing
Le phasing a le même effet que le flanger, mais le son « brassé » produit par le filtre en peigne balayant
est en général moins prononcé. Dans le phasing, un signal spectralement riche est envoyé à travers
une série de filtres passe-tout (Hartman, 1978 ; Beigel, 1979 ; Smith, 1984). Les filtres passe-tout
possèdent une courbe de réponse plate (c’est-à-dire qu’ils n’atténuent aucune fréquence), mais
déphasent le signal originel. Un oscillateur basse fréquence peut être utilisé pour balayer la quantité
de déphasage introduite par chaque filtre passe-tout. Les sorties des filtres sont mélangées à gain égal
avec le signal originel. Comme dans le flanger, il en résulte une sorte d’effet de filtrage en peigne
balayant.
Quelle est la différence entre flanger et phasing ? Le flanger crée des pics et des creux complets dans
le spectre, et ceux-ci sont espacés à des intervalles uniformes en fréquence. Au contraire, le nombre
de pics et de creux dans la réponse du déphaseur correspond au nombre d’étapes de filtrage. L’espa-
cement, la profondeur et la largeur peuvent être modifiés.
Le phasing conduit à une grande variété d’effets sonores. Chamberlin (1985) donne un exemple de
quatre filtres passe-tout en série ayant la même fréquence de renversement et une largeur de tran-
sition large. Une sinusoïde de 1 kHz est envoyée dans ces filtres. Si la fréquence de renversement
est balayée de 10 à 100 Hz, le son subit un déphasage en accroissement constant. Ceci a pour effet
d’abaisser momentanément la fréquence de la sinusoïde. Si le balayage de renversement est inversé,
la sinusoïde s’élèvera momentanément en fréquence. Si la sinusoïde est remplacée par un signal
contenant de nombreux harmoniques, les déplacements temporaires de fréquence créent une
« ondulation » audible dans les harmoniques au moment où la fréquence de renversement change.
instrument ayant une voix (qui peut être un timbre électronique), existe-t-il une façon de traiter ce
signal pour qu’il devienne aussi plein qu’un chœur de voix semblables ? Un tel effet nécessite qu’il
y ait de petites différences entre les différentes voix de l’ensemble simulé, y compris de petits retards,
des altérations de la fréquence fondamentale (ce qui crée des effets de battement), et un vibrato
asynchrone. Il n’existe pas d’algorithme universel de l’effet chorus ; les différentes implémentations
utilisent diverses méthodes pour y arriver.
Les efforts pour construire des générateurs d’effets chorus remontent aux années 1940, lorsque John
Hanert construisit des lignes à retard électromécaniques pour la musique électronique (Hanert,
1944, 1945, 1946). Elles étaient construites dans les orgues Hammond pour obtenir un effet de son
choral (Bode, 1984). Dans les années 1950, W.C. Wayne, Jr. avait construit un modulateur de son
choral purement électronique pour l’orgue électrique Baldwin (Wayne, 1961).
Dans les systèmes numériques, un type d’effet chorus peut être réalisé en envoyant un son à travers
une ligne à retard multibascule, où les temps de retard varient constamment sur une grande échelle.
Cette variation introduit un faussage de hauteur et des effets de doublage variants dans le temps.
114 ENVIRONNEMENT ET OUTILS
Ceci revient à envoyer un signal dans une banque de flangers en parallèle, bien que les retards dans
le flanger soient en général plus courts que ceux utilisés pour l’effet chorus.
Ces types de techniques peuvent être enrichis en utilisant de la réinsertion négative (renvoyer une
version en inversion de phase du signal retardé), comme dans le flanger. Ceci signifie inverser en
phase le trajet de réinsertion du flanger de la figure 6.6. Une réinsertion négative, plutôt que positive,
minimise le risque de résonances et de dépassement du système.
Une autre technique d’effet chorus sépare le signal d’entrée en plusieurs bandes de largeurs d’une
octave et applique à chacune un déplacement de spectre ou de fréquence. Le déplaceur de fréquence
peut être conçu comme si l’on ajoutait une constante à la fréquence de chaque composant du spectre.
Avec un déplacement de fréquence de 10 Hz, 220 Hz deviennent 230, 440 Hz deviennent 450, 880 Hz
deviennent 890, et ainsi de suite. Il est clair que le déplaceur de fréquence détruit les relations har-
moniques entre les composants. Après le déplaceur de fréquence se trouve une ligne à retard variant
dans le temps. Selon Chamberlin (1985), ce type de conception est meilleur pour simuler les effets
de grands ensembles.
En utilisant plusieurs filtres passe-tout en parallèle, un type d’effet chorus peut être atteint en pilotant
les fréquences de renversement du filtre grâce à des signaux de basse fréquence quasi aléatoires
(Chamberlin, 1985).
Le physicien britannique Dennis Gabor (1946) construisit l’un des premiers changeurs temps/hauteur
électromécaniques. Une compagnie allemande, Springer, construisit un outil semblable basé sur
une bande magnétique, et utilisé dans les studios de musique électronique analogique (Springer,
1955 ; Morawaska-Büngler, 1988). Cet outil, appelé le Tempophon, traitait les sons parlés dans la
pièce de musique électronique de 1963 de Herbert Eimert Epitaph für Aikichi Kuboyama (disque
Wergo 60014). Voir également Fairbanks, Everitt et Jaeger (1954) pour une description d’un outil
similaire. Le principe de base de ces machines est la granulation temporelle de sons enregistrés.
Les méthodes numériques contemporaines peuvent être expliquées en faisant référence à l’opération
de ces outils précurseurs.
Dans un changeur temps/hauteur électromécanique, une tête rotative (tête d’échantillonnage)
tournoie le long d’un enregistrement (sur film ou sur bande) d’un son. La tête d’échantillonnage
tournoie dans la même direction que le déplacement de la bande. Comme la tête ne rentre en contact
avec la bande que pendant une courte période, l’effet est celui d’un « échantillonnage » du son sur
la bande à des intervalles réguliers. Chacun de ces segments échantillonnés est un grain de son.
Dans le système de Gabor, les grains étaient rassemblés en un flux continu sur un autre enregistreur.
Lorsque ce second enregistrement était relu, le résultat était un signal plus ou moins continu, mais
avec une base temporelle différente. Par exemple, la contraction du signal originelle était obtenue
en ralentissant la vitesse de rotation de la tête d’échantillonnage. Ceci signifiait que l’enregistrement
© Dunod. Toute reproduction non autorisée est un délit.
rééchantillonné contenait une séquence de grains qui avaient été formellement séparés (figure 6.7a).
Pour l’expansion temporelle, la tête rotative tournoyait rapidement, échantillonnant plusieurs copies
(clones) du signal originel. Lorsque ces échantillons étaient relus sous forme de signal continu, l’effet
des multiples copies était d’allonger la durée de la version rééchantillonnée (figure 6.7b). Le contenu
fréquentiel local du signal originel, et en particulier la hauteur, était préservé dans la version réé-
chantillonnée.
Pour effectuer un changement de hauteur sans influer sur la durée d’un son, il suffit de changer le
taux de lecture et d’utiliser la modification d’échelonnage temporel décrite ci-dessus pour ajuster
sa durée. Par exemple, pour déplacer d’une octave vers le haut, il faut lire le son originel à vitesse
double puis utiliser la granulation temporelle pour doubler la durée de la version rééchantillonnée.
Ceci restaure la durée à la longueur originelle.
Lee (1972) développa le système Lexicon Varispeech sous forme d’un compresseur/expanseur tem-
porel relié à un enregistreur à cassette analogique. L’appareil de Lee comprenait un circuit électro-
nique pour la vérification du niveau au point de coupure, pour réduire les clics du son. L’étude plus
récente de Jones et Parks (1988) a montré comment une reconstruction plus lisse du signal peut être
accomplie en utilisant des enveloppes de grain à pente douce qui se superposent légèrement, ce qui
crée des fondus enchaînés sans raccords apparents entre les grains.
Tout comme dans le changeur temps/hauteur électromécanique, doubler la durée d’un son signifie
que chaque grain est cloné. Pour diviser la durée par deux, un grain sur deux est effacé avant relec-
CHAPITRE 6 – LES EFFETS DE RETARD 117
ture. Le contenu fréquentiel local des grains est préservé, tandis que l’échelle temporelle est altérée
en clonant (pour allonger la durée) ou en effaçant (pour compresser la durée) des grains.
Pour déplacer la hauteur d’un signal échantillonné d’une octave vers le haut sans changer sa durée,
le taux d’échantillonnage de lecture est doublé, et chaque grain est cloné pour restaurer la durée du
signal originel. Pour déplacer la hauteur d’une octave vers le bas sans changer la durée, le taux
d’échantillonnage de lecture est divisé par deux et un grain sur deux est effacé pour restaurer la durée
du signal originel.
Pour l’instant, nous avons décrit des opérations qui doublent ou divisent par deux la hauteur ou le
temps, mais ces opérations ne sont pas limitées au facteur deux. Les échelles de fréquence et de
temps peuvent être altérées dans des rapports arbitraires en changeant le taux d’échantillonnage
avec le clonage ou l’effacement de grains dans les rapports correspondants.
On peut ajouter des raffinements à ce schéma de base pour améliorer son efficacité. L’un d’entre eux
consiste à connecter un noise-gate à l’entrée du système pour que le déplacement de hauteur ne
tente pas de déplacer le bruit ambiant associé au signal entrant.
La qualité sonore d’un simple harmoniseur est basé sur la nature du signal entrant et sur le rapport
de changement de hauteur qu’on lui demande d’effectuer. De petits changements de hauteur tendent
à générer des effets secondaires moins audibles. Certains appareils commerciaux produisent des
effets secondaires non désirés (tels qu’un bourdonnement à la fréquence de coupure) lorsqu’ils sont
utilisés sur un matériau critique, tel que les sons vocaux.
(a)
(b)
(c)
étendre la durée d’un son indépendamment l’un de l’autre (Portnoff, 1978 ; Holtzman, 1980 ; Gordon
et Strawn, 1985). Par exemple, pour allonger la durée, des points sont interpolés entre les points
existants dans les rangées d’amplitude et de fréquence. Pour rétrécir la durée d’un facteur de n,
seulement toutes les énièmes valeurs sont utilisées en lecture dans les rangées d’amplitude et de
fréquence. En fait, ceci modifie le taux d’échantillonnage (figure 6.9). Maher (1990) présente certaines
distorsions que ces interpolations simples peuvent entraîner, et fournit des remèdes pour de meil-
leures « déformations d’enveloppe ».
Pour déplacer la hauteur d’un son sans changer sa durée, on multiplie les valeurs fréquentielles
assignées à chaque fonction fréquentielle par un facteur désiré. Par exemple, pour déplacer un son
vers le haut d’un intervalle d’une seconde majeure, chaque composant fréquentiel est multiplié par
11,892 pour cent ; une sinusoïde de 1 kHz aura comme fréquence 1 118,92 Hz. On peut également
déplacer la hauteur de façon sélective, en altérant seulement la fréquence fondamentale, et en laissant
identiques les autres partiels.
Le CPL code les résultats d’analyse sous forme d’une séquence de trames de courte durée, où cha-
que trame capture les coefficients de filtrage, la hauteur, et les données voisées/dévoisées pour une
tranche temporelle donnée de son. Voir le chapitre 24 pour une explication des données de trame.
Pour des besoins musicaux, les compositeurs éditent les trames, et transforment le son originel. La
figure 24.18 du chapitre 24 montre une séquence de données dans les trames CPL.
Pour réaliser un changement temps/hauteur, on édite les trames, puis on utilise les trames éditées
pour piloter la resynthèse. Les trames d’analyse CPL sont en général calculées à des intervalles
réguliers, entre 50 et 120 par seconde. En lançant une commande d’édition, la durée des trames peut
par exemple être changée, pour allonger une seule trame de 10 à 100 ms. La colonne de hauteur
peut être éditée séparément pour ne changer que la hauteur de la version resynthétisée. Ainsi, la
durée et la hauteur peuvent être transformées indépendamment l’une de l’autre. En dehors du
changement temps/hauteur, les données CPL peuvent être éditées d’autres façons pour créer des
variations radicales du son analysé originel. Voir Cann (1979-1980) et Dodge (1985) pour trouver des
exemples d’édition de données CPL. Les applications musicales du changement temps/hauteur par
CPL peuvent être trouvées par exemple dans les compositions de Paul Lansky et de Charles Dodge.
Chapitre 7
La spatialisation
Curtis Roads et Jean de Reydellet
L’art de la spatialisation du son occupe aujourd’hui une position similaire à celle que l’art de l’orches-
tration occupait au dix-neuvième siècle. Déployer l’espace revient à chorégraphier le son : posi-
tionner les sources sonores et animer le mouvement. En immergeant le son dans la réverbération,
on baigne l’auditeur dans son atmosphère luxuriante.
La spatialisation du son possède deux aspects : le virtuel et le physique. Dans la réalité virtuelle du
studio, les compositeurs spatialisent les sons en imposant des retards, des filtres, des panoramisa-
tions et de la réverbération — ce qui conduit à l’illusion de sons émergeant d’environnements
imaginaires. Parfois, ces espaces virtuels prennent des caractéristiques qui seraient impossibles à
réaliser architecturalement, telles qu’un modèle d’écho changeant de façon continue. Dans le monde
physique des salles de concert, les sons peuvent être projetés par un système sonore multicanal à
partir de plusieurs positions : autour, au-dessus, en dessous, ou à l’intérieur du public.
L’architecture sonore ou spatialisation est devenue peu à peu un aspect important de la composition.
Une tendance vers l’utilisation « cinématique » de l’espace se voit dans des compositions qui con-
© Dunod. Toute reproduction non autorisée est un délit.
tiennent des appositions spectaculaires entre les sons proches et les sons réverbérés distants. Certains
compositeurs utilisent des techniques de microphone et du traitement de spatialisation d’une
façon similaire à l’utilisation cinématique de l’angle de la caméra, de la perspective (largeur), et de
la profondeur de champ. L’œuvre Sud de Jean-Claude Risset (1985, Wergo, 2013-50) vient tout de
suite à l’esprit.
Les simulations numériques des sources sonores en mouvements posent des problèmes spéciaux.
Dans de nombreux concerts, le public est entouré par un certain nombre de haut-parleurs. Comment
crée-t-on l’illusion d’un son voyageant dans la salle, s’éloignant ou se rapprochant de l’auditeur au
fur et à mesure de son évolution ? Dans les situations d’écoute avec seulement deux haut-parleurs
ou avec un casque, l’illusion de sons se déplaçant librement dans l’espace est encore plus difficile.
Les illusions de spatialisation les plus populaires sont la panoramisation horizontale — déplacement
latéral d’un son d’un haut-parleur à l’autre — et la réverbération — ajout d’un modèle dense et diffus
d’échos à un son pour le situer dans un espace plus large. La panoramisation verticale (de haut en bas
et au-dessus de la tête) peut également créer des effets saisissants dans la musique électronique.
Voir Gerzon (1973) pour une présentation de l’enregistrement et de la lecture du « son avec hauteur ».
7.1.1 Spatialisation dans la musique : origines
Von welcher Seite, mit wievielen Lautspechern zugleich, ob mit Links - oder Rechtsdrehung, teilweise
beweglich die Klänge und Klanggruppen in den Raum gestrahlt werden : das alles ist für das Verständ-
nis dieses Werkes massgeblich. (De quel côté, avec combien de haut-parleurs, avec une rotation vers
la gauche ou vers la droite, avec du mouvement ou non, de quelle façon les sons et les groupes de sons
devraient être projetés dans l’espace : toutes ces données sont décisives pour la compréhension de
l’œuvre.) (Karlheinz Stockhausen 1958, décrivant sa composition Gesang der Jünglinge [Le chant
des adolescents dans la fournaise])
Les techniques spatiales dans la musique ne sont pas nouvelles. Au seizième siècle, les composi-
teurs associés à la Basilique Saint-Marc de Venise (notamment Adrian Willaert et son élève Andrea
Gabrieli) ont employé l’antiphonaire spatial dans leurs compositions pour deux ou trois chœurs.
Dans ces œuvres, un vers initial était entendu d’un côté de la salle, et un vers de réponse provenait
de l’autre côté. Cet arrangement était facilité par deux orgues se faisant face dans la basilique.
Wolfgang Amadeus Mozart a écrit des compositions pour deux orchestres séparés spatialement
(K. 239 et K. 286), et Hector Berlioz et Gustav Malher ont écrit des compositions pour de multiples
orchestres et chœurs, certains d’entre eux n’étant pas sur scène. Après ces expériences, cependant,
il existe peu de documents concernant les techniques spatiales en composition jusqu’à l’arrivée de
l’électronique.
L’invention du haut-parleur peut être comparée à l’invention de l’ampoule électrique. Soudainement,
il était possible de projeter l’énergie sonore dans de petits et grands espaces, sous n’importe quel
angle, avec n’importe quelle intensité. Mais l’utilisation des haut-parleurs — dans les salles de
cinéma, les stades, les gares, ou dans les radios personnelles — est restée en grande majorité plate
et fonctionnelle. C’est seulement après la Deuxième Guerre mondiale que les possibilités esthétiques
de la projection du son par des haut-parleurs furent exploitées dans la musique électronique.
7.1.2 Exemples de traitement de spatialisation en musique électronique
Un certain nombre d’exemples célèbres de projection spatiale en musique électronique ou infor-
matique doit être mentionné ici :
• Gesang der Jünglinge de Karlheinz Stockhausen fut projeté en 1956 par cinq groupes de haut-
parleurs dans l’auditorium de la Westdeutschen Rundfunks (WDR) (Stockhausen, 1961). Son
œuvre Kontakte, réalisée en 1960, fut la première composition de musique électronique
interprétée par une bande quatre pistes, en utilisant l’enregistreur à bande Telefunken T9
(Stockhausen, 1968).
• En 1958, la composition classique de musique pour bande Poème électronique d’Edgar Varèse
et Concret PH d’Iannis Xenakis furent projetés à travers un système sonore onze canaux par
CHAPITRE 7 – LA SPATIALISATION 123
425 haut-parleurs installés sur les parois courbes du Pavillon Philips, conçu par Xenakis et
Le Corbusier pour l’Exposition universelle de Bruxelles.
• Stockhausen joua sa musique électronique sur des haut-parleurs distribués sur la surface
interne du dôme géodésique du Pavillon allemand à l’Expo 70 à Osaka (Stockhausen, 1971a).
• Lors de la même exposition, Iannis Xenakis interpréta sa composition électroacoustique douze
canaux Hibiki Hana Ma au Pavillon d’acier japonais sur un système de 800 haut-parleurs
distribués autour du public, au-dessus de leurs têtes, et sous leurs sièges (Matossian, 1986).
Un système de projection sonore douze canaux animait son spectacle son et lumière le Polytope
de Cluny projeté à l’intérieur de l’ancien Musée de Cluny à Paris (Xenakis, 1992).
• Le compositeur Salvatore Martirano construisit un appareil numérique complexe appelé la
Construction Sal-Mar pour contrôler un synthétiseur analogique « fait maison » et pour dis-
tribuer le son parmi 250 haut-parleurs minces suspendus à différentes hauteurs depuis les
plafonds des salles de concert (Martirano, 1971).
• L’idée de projection du son par un orchestre de douzaines de haut-parleurs sur scène fut
réalisée dans le Gmebaphone, conçu par le Groupe de Musique Expérimentale de Bourges,
et fut pour la première fois entendue en concert en 1973 (Clozier, 1973).
• Le premier concert de l’Acousmonium — un assemblage de douzaines de « projecteurs
sonores » conçu par le Groupe de Recherches Musicales (figure 7.1) — eut lieu à l’Espace
Cardin à Paris, en 1974 (Bayle, 1989, 1993).
© Dunod. Toute reproduction non autorisée est un délit.
• La construction en acier utilisée au milieu des années 1980 lors des interprétations de
Répons de Pierre Boulez tenait des haut-parleurs suspendus au-dessus des têtes du public. Le
contrôle spatial fut implémenté en utilisant le synthétiseur 4X de Di Giugno (Asta et coll.,
1980 ; Boulez et Gerzso, 1988).
• En 1987, les chercheurs du Tempo Reale Studio de Luciano Berio à Florence développèrent
un système de distribution du son appelé Trails et basé sur un ordinateur, qui pouvait distribuer
le son jusqu’à 32 canaux audio, en combinant des modèles préprogrammés et des modèles
en temps réel de spatialisation (Bernardini et Otto, 1989).
De nombreux autres systèmes de spatialisation du son ont été développés, y compris le système
HYBRID IV seize canaux d’Edward Kobrin (Kobrin, 1977) (figure 7.2), le système de distribution
sonore SSSP (Federkow, Buwton et Smith, 1978), l’installation AUDIUM (Loy, 1985b), le Halaphon
de Hans Peter Haller utilisé par P. Boulez et L. Nono (Haller, 1980), le système Sinfonie contrôlé par
ordinateur développé au studio GRAME de Lyon, et le spatialisateur entièrement numérique implé-
menté par Marina Bosi (1990) à l’université de Stanford.
LF RF LF RF
LR RR
(a) (b)
O
RF
LF LR LF RF
RR LR RR
(c) (d)
• Lorsque les enregistrements deux pistes sont joués sur un système quadriphonique, envoyez
deux canaux vers l’avant et deux canaux vers l’arrière avec la configuration gauche-droite des
canaux arrière inversée. De cette façon, lorsqu’un son se déplace de gauche à droite à l’avant,
il se déplace également de droite à gauche à l’arrière, ce qui accroît la sensation d’animation
spatiale.
• Pour ajouter davantage d’articulation spatiale, placez les haut-parleurs aux coins opposés dans
une position surélevée. Ceci est appelé périphonie ou lecture du « son avec hauteur » (Gerzon,
1973). Dans ce schéma, lorsqu’un son se déplace de gauche à droite, il se déplace également
verticalement (figure 7.3c).
• Lorsque des instruments ou des chanteurs amplifiés sont utilisés, donnez à chacun un ampli-
ficateur et un haut-parleur individuels, accompagnés d’effets (tels que de l’égalisation) pour
articuler cet instrument en particulier. Pour enraciner chaque instrument sur la scène sonore
et atténuer le syndrome de « l’interprète désincarné », le haut-parleur devrait être placé près
de l’interprète (Morril 1981b). Dans le syndrome de l’interprète désincarné, le son d’un ins-
126 ENVIRONNEMENT ET OUTILS
trument est envoyé dans un système de renforcement du son global qui est éloigné de l’inter-
prète. Comme l’image de la source d’un son, du point de vue des auditeurs, est dominée par
le premier son qui atteint leurs oreilles (ceci est appelé l’effet de précédence ; Durlach et Col-
burn, 1978), toute amplification globale d’un interprète jouant d’un instrument acoustique
devrait être retardé de 5 à 40 ms pour permettre à l’amplificateur local de faire la première
impression en tant que source (Vidolin, 1993). Parfois, bien sûr, le compositeur souhaite projeter
le son d’un instrument autour d’une salle, ou la mélanger avec une source préenregistrée ;
ceci est un autre cas.
• Une approche différente consiste à assembler un « orchestre » de plusieurs haut-parleurs sur
scène (l’approche Gmebaphone/Acousmonium). Ceci crée une multiplicité et une diversité
sonore de la source spatiale généralement associée à un orchestre d’instruments acoustiques.
Le contrôle précis des illusions spatiales nécessite la connaissance de la théorie de localisation
— c’est-à-dire comment les êtres humains perçoivent la direction du son, ce qui constitue le sujet
de la prochaine partie.
Hauteur (zénith)
Distance
H H
Angle (azimut)
Figure 7.4 – L’auditeur attentif peut localiser une source à partir de son angle horizontal,
de sa hauteur et de sa distance. H = haut-parleur.
CHAPITRE 7 – LA SPATIALISATION 127
Pour déterminer l’azimut d’un son, les auditeurs disposent de trois indications :
• les temps différents d’arrivée d’un son aux deux oreilles lorsque celui-ci vient d’un côté ;
• la différence d’amplitude des sons de hautes fréquences entendus par les deux oreilles,
ce qui produit « l’effet d’ombre » de la tête ;
• les indications spectrales fournies par les réflexions asymétriques du son sur les oreilles
externes (pavillons), les épaules et le torse supérieur.
Les indications de distance sont de trois sortes :
• le rapport entre signal direct et signal réverbéré, lorsque le signal décroît en intensité selon
le carré de la distance ;
• la perte des composants de haute fréquence lorsque la distance augmente ;
• la perte des détails (absence de sons plus doux) lorsque la distance augmente.
Lorsque la distance entre le son et l’auditeur change, l’indication de la vélocité du son est un chan-
gement de hauteur appelé effet Doppler (expliqué plus loin).
La principale indication pour l’azimut est un changement dans le spectre causé par des réflexions
du son sur les pavillons et les épaules
7.2.1 Simulation de l’indication d’azimut
Les auditeurs peuvent localiser un son haute fréquence intense provenant d’une direction particulière
au niveau de l’oreille. De façon logique, si une source sonore est positionnée directement à la position
d’un haut-parleur, le signal en entier devrait provenir de ce haut-parleur. Lorsque la source se déplace
d’un haut-parleur à l’autre, l’amplitude en direction du haut-parleur cible augmente, et l’amplitude
en direction du haut-parleur originel diminue.
Dans les interprétations où un certain nombre de haut-parleurs sont placés à équidistance dans un
cercle autour du public, un algorithme pour la position spatiale n’a besoin que de calculer les
amplitudes de deux haut-parleurs adjacents, sans tenir compte du nombre total de haut-parleurs.
Pour positionner une source sonore à un point P précis entre deux haut-parleurs A et B, on doit tout
d’abord déterminer l’angle (θ) de la source mesuré à partir du point médian entre A et B (figure 7.5).
De nombreuses courbes de panoramisation différentes sont possibles, chacune rendant une impres-
sion spatiale légèrement différente du mouvement sonore. Nous présenterons deux courbes de pano-
ramisation : linéaire et à puissance constante. Pour une panoramisation symétrique, ces courbes
supposent qu’un auditeur est assis exactement au centre entre les deux haut-parleurs. Lorsque
© Dunod. Toute reproduction non autorisée est un délit.
l’auditeur n’est plus assis au centre, il y a un décalage d’azimut dans l’image sonore. Pour des besoins
d’efficacité, les courbes peuvent être calculées à l’avance, ne demandant plus qu’une opération de
lecture de table en utilisant l’index θ.
✦ Panoramisation linéaire
La formule la plus simple pour le positionnement est une relation linéaire simple :
A amp = θ ⁄ θ max
B amp = 1 – ( θ – θ max )
Le problème avec ce type de panoramisation est qu’il crée un effet de « trou au milieu », car les
oreilles ont tendance à considérer que le signal est plus fort aux points limites (aux haut-parleurs)
qu’au milieu (figure 7.6). Ceci en raison de la loi d’intensité sonore, qui établit que la sonie perçue
d’un son est proportionnelle à son intensité. L’intensité d’un son peut être donnée comme suit :
128 ENVIRONNEMENT ET OUTILS
0˚
P
A B
θ
θmax
Auditeur
2 2
I = A amp + B amp
Au milieu de la panoramisation (c’est-à-dire là où θ = 0), Aamp = Bamp = 0,5, d’où :
Une panoramisation à puissance constante utilise des courbes sinusoïdales pour contrôler l’ampli-
tude émise par les deux haut-parleurs (Reveillon 1984). Ceci crée l’impression d’une panoramisation
ayant une sonie plus stable :
2
A amp = ------ × [ cos ( θ ) + sin ( θ ) ]
2
2
B amp = ------ × [ cos ( θ ) – sin ( θ ) ]
2
Au milieu de la panoramisation, Aamp = Bamp = 0,707, d’où :
1.0 Réel
0.5 0.5
Amp.
0
+45 0 -45 +45 0 -45
θ θ
Canal gauche Canal droite
Perçu
A B
Auditeur
Figure 7.6 – Une courbe de panoramisation linéaire est entendue avec un éloignement
dans le milieu en raison d’une diminution d’intensité. Les courbes d’amplitude de chaque canal
sont montrées en haut ; la trajectoire perçue est montrée en dessous.
La figure 7.7 montre la panoramisation d’intensité constante. La panoramisation est perçue comme
© Dunod. Toute reproduction non autorisée est un délit.
étant en rotation entre les deux haut-parleurs à une distance constante de l’auditeur.
✦ Réflexions
Lorsque le son se déplace d’un haut-parleur à l’autre dans une salle de concert, les réflexions de la
salle fournissent d’autres indications pour la localisation du son. À certaines positions dans certaines
salles, elles peuvent rendre confuse la sensation de direction, mais ceci est un cas spécial. Ainsi,
pour améliorer l’effet de localisation, le compositeur peut ajouter de petits retards au signal prove-
nant des canaux « indirects » (c’est-à-dire les canaux à partir desquels la source principale n’est
pas projetée). Ces retards simulent les réflexions de la salle ; ils disent à l’oreille que la direction de
la source est ailleurs. Dans l’idéal, le modèle de réflexion doit changer lorsque le son se déplace.
Note : la longueur d’onde correspondante est également montrée. Pour calculer le temps de retard
d’une réflexion, utiliser la distance totale de la source à la surface réfléchissante puis à l’auditeur.
La vitesse du son est fixée à 340 m/s.
130 ENVIRONNEMENT ET OUTILS
Réel
1.0
0.707 0.707
0
+45 0 -45 +45 0 -45
θ θ
Canal gauche Canal droite
Perçu
A B
Auditeur
Tableau 7.1 – Distance parcourue par les ondes sonores par unité de temps.
3,4 1 340
6,8 2 168
34 10 34
68 20 16,8
100 34 10
1000 340 1
CHAPITRE 7 – LA SPATIALISATION 131
Pour avoir une idée de la relation existante entre le temps de retard et la distance perçue d’un son,
examinez le tableau 7.1. Il montre la distance qu’un son traverse pendant certaines quantités de
temps. La troisième colonne du tableau 7.1 a été ajoutée pour satisfaire l’appétit du lecteur curieux,
montrant la longueur d’onde correspondante à une distance donnée. Comme le montre par exemple
la troisième ligne, un son acoustique de 168 Hz (approximativement un Mi) prend forme dans
deux mètres d’air.
D R D R
-10
-30 -30
Amp. -35
en dB
(a) (b)
que le son réverbéré. (b) Son distant. L’amplitude globale est plus faible, et le rapport entre son direct
et son réverbéré est plus petit.
(a) Source
mouvante
P 0˚ N
Distance
variable
Auditeur
(b) Source
mouvante
Distance
constante
Auditeur
Figure 7.9 – (a) Un son s’approchant de l’auditeur possède une vélocité radiale positive (P).
Le son s’éloignant possède une vélocité radiale négative (N). (b) Un son se déplaçant sur un cercle
est toujours à la même distance de l’auditeur et possède donc une vélocité radiale égale à zéro.
CHAPITRE 7 – LA SPATIALISATION 133
La vélocité radiale est différente de la vélocité angulaire. Pour qu’un son ait une vélocité angulaire,
il doit se déplacer dans un cercle autour de l’auditeur (figure 7.9b). Dans ce cas, la distance entre la
source et l’auditeur est constante (c’est-à-dire que la vélocité radiale est nulle), et il n’y a donc pas
d’effet Doppler. Si la position de l’auditeur reste fixe, l’effet Doppler peut être exprimé de la façon
suivante :
nouvelle_hauteur = hauteur_originelle × [ v son ⁄ ( v son – v source ) ]
où hauteur_originelle est la hauteur originelle de la source sonore, vson est la vélocité du son
(≈ 344 m/s), et vsource est la vélocité de la source par rapport à l’auditeur. Si vsource est positive, le son
s’approche de l’auditeur, et la hauteur s’élève. Si elle est négative, la hauteur descend.
Le changement de hauteur qui apparaît dans l’effet Doppler peut être expliqué par la compression
de l’intervalle entre les fronts d’onde lorsque la source s’approche de l’auditeur. La figure 7.10a
montre un son statique émettant des fronts d’onde à un taux ou hauteur constants. La figure 7.10b
montre une source sonore se déplaçant vers l’auditeur. Les points S1, S2 et S3 représentent les posi-
(a)
Source
Auditeur
(b)
© Dunod. Toute reproduction non autorisée est un délit.
Auditeur
S1 S2 S3
tions successives d’une source sonore en mouvement. Lorsque le son s’approche, les fronts d’onde
se resserrent, ce qui produit un déplacement vers le haut de la hauteur.
À un instant donné, l’effet Doppler déplace toutes les fréquences du même intervalle logarithmique.
Par exemple, un son approchant se déplaçant à 20 m/s s’élève d’environ une seconde mineure
(3,15 pour cent). Un déplacement de 6,15 pour cent pour un composant à 10 kHz est 615 Hz, tandis
que pour un composant à 100 Hz ce ne sera que 6,15 Hz. Ainsi, l’effet Doppler préserve les relations
interharmoniques échelonnées logarithmiquement dans un son. Ceci est différent d’un déplacement
linéaire de fréquences apparaissant dans la modulation. Un exemple de déplacement linéaire de
fréquences est l’addition de 50 Hz à tous les composants. Déplacer une hauteur de 100 à 150 Hz
constitue un intervalle de quinte juste, tandis qu’à 10 kHz, un déplacement de 50 Hz est tout juste
perceptible. Le déplacement linéaire de fréquences détruit les relations interharmoniques existantes
dans un son (voir le chapitre 9).
dans un environnement ayant à la fois des haut-parleurs à l’avant et l’arrière. En déplaçant le son
d’avant en arrière ou inversement et en appliquant l’effet HRTF, le son semble passer au-dessus de
la tête lors de la panoramisation. Comme tous les effets de spatialisation, la panoramisation verticale
est plus efficace sur des sons impulsifs de large bande plutôt que sur des sons de basse fréquence
ayant des enveloppes douces.
Comme le montre la figure 7.12, un problème de la projection sonore dans un plan vertical simulé
est la variation des HRTF pour chaque personne (Begault, 1991 ; Kendall, Martens et Decker, 1989).
Lorsqu’une fausse HRTF est utilisée pour une personne particulière, l’effet de panoramisation ver-
ticale est affaibli. Dans une situation d’écoute privée, lorsque le filtrage est effectué en temps réel
lors de la lecture, une solution à ce problème est de fournir plusieurs HRTF et de tester les signaux
pour que chaque personne puisse régler son système afin d’épouser la réponse de ses oreilles avant
l’écoute.
136 ENVIRONNEMENT ET OUTILS
La robustesse des illusions verticales dépend de la qualité des haut-parleurs utilisés et de la proxi-
mité de l’auditeur par rapport aux haut-parleurs. Pour écouter avec de petits haut-parleurs de proxi-
mité, par exemple, on doit se tenir dans le trajet du son direct, ou l’illusion verticale s’écroule. Ainsi,
dans une situation de concert, il est plus pratique de suspendre les haut-parleurs au-dessus des
têtes du public (voir la figure 7.3d) que de s’appuyer sur l’illusion plus fragile des sources virtuelles.
7.2.5 Son binaural
Dans la recherche psychoacoustique, binaural faisait à l’origine référence à une situation d’écoute
unique, dans laquelle les sujets sont placés dans une chambre anéchoïque avec leurs têtes mainte-
nues mécaniquement et des sondes insérées dans leurs canaux auditifs. Ces conditions sont conçues
pour analyser une variété de mécanismes de l’audition dans un environnement contrôlé (Durlach
et Colburn, 1978 ; Colburn et Durlach, 1978 ; Buser et Imbert, 1992). En raison de la difficulté de
telles expériences, de nombreuses investigations utilisent simplement le casque d’écoute. Dans
d’autres expériences, une tête factice ayant des microphones insérés dans ses oreilles se substitue
au sujet humain.
Un résultat de cette recherche est les enregistrements binauraux, effectués grâce à deux microphones
placés dans la tête factice, ou dans une construction similaire, et censés être écoutés avec un casque.
Ce genre a été particulièrement populaire dans les productions radio et a conduit à la disponibilité de
systèmes d’enregistrement binaural, comprenant des consoles de mélange basées sur un ordinateur
ayant des contrôles de panoramisations horizontales et verticales.
L’un des résultats de la recherche binaurale a été la prise de conscience qu’il est possible de créer
une illusion d’une source sonore à une position spécifique dans un espace binaural par simple
filtrage. Par « espace binaural » nous faisons référence à l’espace perçu à travers le casque, y compris
au-dessus et derrière la tête. Ces techniques emploient les HRTF présentées plus haut. Voir Blauert
(1983), Durlach et Colburn (1978) et Begault (1991) pour plus de détails.
CHAPITRE 7 – LA SPATIALISATION 137
La Cabine Leslie fut conçue pour enrichir le son statique émis par les orgues électriques tels que le
fameux Hammond B3, avec lequel elle était souvent couplée. Mais les musiciens et les ingénieurs
du son découvrirent que n’importe quel son pouvait être enrichi de cette façon, y compris la voix
et la guitare électrique.
Dans les années 1950, des ingénieurs travaillant au Studio expérimental Gravesano de Hermann
Scherchen en Suisse développèrent un haut-parleur sphérique (figure 7.13) qui effectuait des rota-
tions horizontales et verticales (Loescher, 1959, 1960). Leur but était de réduire les caractéristiques
de « faisceau sonore directionnel » des haut-parleurs normaux. Voici ce qu’en dit l’un d’entre eux :
Une rotation double dans le plan horizontal et vertical résulte en des plans rotationnels inclinés des
haut-parleurs seuls et donne de meilleurs résultats. Le champ sonore devient pratiquement homogène,
la reproduction prend un caractère étonnant de plénitude et de douceur, et la dureté de la reproduction
normale a complètement disparu. (Loescher, 1959)
K. Stockhausen faisait manuellement tourner un haut-parleur fixé sur une plaque tournante pour
créer les sons rotatifs de ses compositions Kontakte (1960) et Hymnen (1967) (figure 7.14). Plus tard,
138 ENVIRONNEMENT ET OUTILS
l’idée d’inventer un système binaural, car il lui semblait que lors de la projection d’un film, il était
préférable par souci de réalisme que le son « suive » l’image, et qu’un acteur situé d’un côté de l’écran
soit entendu sur le même côté.
La même année, le chef d’orchestre Leopold Stokowski, à la tête du Philadelphia Symphony
Orchestra, s’associa avec Harvey Fletcher et Arthur C. Keller des Bell Telephone Laboratories afin de
déterminer jusqu’à quel point il était possible de s’approcher d’une reproduction fidèle de l’orchestre
au moyen d’une diffusion à travers un équipement électrique, qu’il s’agisse de haut-parleurs ou de
casques d’écoute binaurale (McGinn, 1983). Le premier disque stéréo fut enregistré par cette équipe
en 1932, et une transmission eut lieu l’année suivante par le biais de lignes téléphoniques entre
l’orchestre situé à Philadelphie et le Constitution Hall de Washington, où des invités avaient été placés
en face de trois groupes de haut-parleurs situés sur la gauche, le centre et la droite. Les recherches
continuèrent activement durant les années 1930 pour tenter d’améliorer la qualité d’enregistrement
et de transmission, particulièrement en ce qui concernait la gamme dynamique (étendue entre les
sons les plus doux et les sons les plus forts) et la gamme de fréquences (étendue entre les sons les
140 ENVIRONNEMENT ET OUTILS
plus graves et les sons les plus aigus). La diffusion radiophonique et les enregistrements stéréo ne
se développèrent cependant pas avant le milieu des années 1950, et ce format ne connut une utili-
sation commerciale généralisée qu’à partir de la décennie suivante.
C’est d’abord dans le domaine du cinéma que les recherches en matière de diffusion multicanal du
son eurent lieu. Les améliorations apportées par Fletcher permettaient, outre une manipulation en
temps réel du son dans les domaines dynamiques et fréquentiels grâce à des amplificateurs et des
filtres, l’enregistrement d’un signal stéréo sur quatre pistes optiques d’un film, offrant dès lors la
possibilité de reproduire la musique à n’importe quel moment (Fletcher, 1940b). De son côté, Sto-
kowski, dans un souci constant d’explorer les nouvelles possibilités offertes par les innovations
technologiques, participa au célèbre film Fantasia de Walt Disney. Pour cette occasion, un format
de diffusion sonore fut inventé et baptisé Fantasound. L’enregistrement de la musique avait com-
mencé dès 1938 avec L’apprenti sorcier de Paul Dukas. L’orchestre, sur proposition de Stokowski,
était divisé en cinq parties, et capté sur trois pistes : une pour la gauche de l’orchestre, une pour la
droite, et la dernière pour une prise d’ensemble. En raison du coût engendré par ces innovations
techniques et par les différentes mises au point nécessaires, il fut décidé qu’un simple court métrage
ne permettrait pas un retour sur investissements suffisant, et le projet fut donc modifié afin de
réaliser un long métrage, seul capable de susciter un intérêt suffisamment important. La méthode
d’enregistrement fut portée à huit pistes (violons/altos, violoncelles, contrebasses, bois, cuivres et
percussions, plus un mélange des six pistes de parties et une prise à distance de l’orchestre entier).
Le tout était ensuite mixé sur support optique (film cinéma) en quatre pistes : trois pistes de son et
une piste de contrôle. Cette dernière était utilisée pour aider l’opérateur lors des réglages de volume
entre les différentes pistes, un problème crucial de la diffusion sonore par de multiples haut-parleurs
(selon les salles, le système permettait la diffusion de la bande-son sur un nombre de haut-parleurs
situé entre trente et quatre-vingts !). Voir Garity et Hawkins (1941) pour plus de détails sur les spé-
cifications techniques du système et Plumb (1942) pour une proposition d’améliorations techniques
par rapport au format originel. Bien que les avancées technologiques aient été remarquables, le
système rencontra certains problèmes qui stoppèrent sa généralisation : nouveauté du matériel et
coût de l’installation et de l’utilisation, arrivée de la Seconde Guerre mondiale et taille imposante
des différentes machines, qui dépassait largement celle nécessaire à l’époque pour la diffusion mono.
Par exemple, le système Mark VIII, utilisé au Broadway Theater de New York pour la première mon-
diale le 13 novembre 1940 faisait près de dix mètres de long et contenait plus de quatre cents lampes.
Voir Garity et Jones (1942) pour un résumé des avantages et des inconvénients liés au format
Fantasound.
Les années 1950 virent l’apparition de multiples nouveaux formats de film cinéma, en grande par-
tie en raison de la concurrence engendrée par la popularité croissante de la télévision. Pour lutter con-
tre celle-ci, et continuer à attirer les foules dans les salles, les studios décidèrent de produire des
films ambitieux et coûteux, qui, outre des sujets « spectaculaires » (péplums, films historiques ou
de guerre, etc.) et l’utilisation systématique de la couleur, proposaient une image élargie par rapport
au format standard 1,33:1 et une diffusion de la bande-son sur plusieurs haut-parleurs. Le premier
des nouveaux formats à apparaître fut en 1952 le Cinerama, qui utilisait trois films projetés l’un à
côté de l’autre sur un écran incurvé et un quatrième film contenant les sept pistes magnétiques de
son stéréo. Il est à noter que l’enregistrement s’effectuait grâce un ensemble de cinq microphones
directement sur le lieu de tournage. L’ingénieur du son Hazard Reeves avait conçu ce système afin
que la position du son (dialogues, effets, etc.) corresponde avec l’image. Pour augmenter l’impression
de submersion, il développa un système de diffusion comprenant sept groupes de haut-parleurs :
CHAPITRE 7 – LA SPATIALISATION 141
cinq derrière l’écran, deux à gauche et à droite, et un à l’arrière de la salle. Très peu de salles étaient
compatibles et seule une petite dizaine de films furent réalisés dans ce format, qui disparut au début
des années 1960. Le format CinemaScope, lancé en 1953, connut un plus grand succès. Il utilisait un
procédé d’anamorphose optique basé à l’origine sur une lentille mise au point par l’astronome et
inventeur Henri Chrétien. Ce procédé permettait de fixer sur la pellicule une image deux fois plus
large que la normale en la « compressant » dans sa largeur lors du tournage, puis en l’étirant pour
lui redonner un aspect normal lors de la projection. Voir American Cinematographer (1953) pour
plus de détails sur le principe de ce procédé. Même s’il fut prévu à l’origine de placer les pistes sons
sur un film magnétique séparé, les quatre pistes furent finalement intégrées sur le film principal,
après réduction de la taille de l’image, ce qui évitait aux exploitants de devoir s’équiper d’une machine
supplémentaire. Le format était stéréo, avec trois pistes pour des groupes de haut-parleurs situés
au centre, à gauche et à droite derrière l’écran, à la moitié et à un tiers de la largeur totale de celui-ci.
Un quatrième groupe de haut-parleurs, alimenté par une piste magnétique de dimensions réduites,
était placé dans la salle, pour les effets « surround ». Cette piste contenait, au moment où des effets
devaient être diffusés, une fréquence de 12 kHz, qui servait de contrôle et indiquait aux amplifica-
teurs d’appliquer du gain lorsque la tension d’entrée dépassait 0,025 V. Bien entendu, ce signal de
contrôle était retiré du signal envoyé vers les haut-parleurs d’effets grâce à un système de filtrage
passe-bas. Certaines installations fonctionnaient selon un principe inverse (la présence de la fré-
quence de contrôle indiquant de couper le gain des amplificateurs), mais le principe restait le même :
il s’agissait d’un interrupteur automatique qui permettait de se débarrasser de la quantité de souffle
produite par la bande magnétique de petite taille et jugée inacceptable (Sponable et coll., 1953).
En plus du Cinerama et du CinemaScope, les studios de productions ou des inventeurs indépen-
dants conçurent de nombreux autres formats pour tenter de les concurrencer : VistaVision,
SuperScope, Todd-AO, Dimension 150, Technirama, Ultra Panavision, Super Panavision 70, etc.
Leur étude détaillée dépasse le cadre de ce livre. Dans certains cas, pour limiter le coût et permettre
aux exploitants de salles de ne pas avoir à trop investir, les films étaient distribués accompagnés de
la technique traditionnelle utilisée pour la bande-son (enregistrement mono directement sur le
film optique), et dans d’autres cas avec un format de pseudo stéréo appelé Perspecta. N’utilisant
qu’une seule piste sur support optique, cette technique contenait — en plus de la bande-son normale
— trois sons de contrôle basses fréquences à 30, 35 et 40 Hz. Ceux-ci permettaient de déclencher
des effets envoyés vers trois groupes de haut-parleurs placés derrière l’écran (Fine, 1954). Il ne
s’agissait bien sûr pas de stéréo, mais d’une sorte d’automatisation de la diffusion sonore entre les
voies. Une telle technique ne fonctionnait correctement qu’aux moments où les effets sonores étaient
© Dunod. Toute reproduction non autorisée est un délit.
seuls sur la bande-son. Avec de la musique ou des dialogues, les résultats n’étaient pas satisfaisants,
car les sons étaient tous envoyés en même temps dans le même groupe de haut-parleurs, ce qui
n’est pas perçu comme étant naturel. Quoi qu’il en soit, les développements du cinéma permirent
d’habituer une grande partie du public au son stéréo et surround : un domaine de recherche qui ne
cessera de provoquer des améliorations et qui, en plus de constituer une partie importante de l’équi-
pement des salles de cinéma et des particuliers, permit de développer un intérêt pour la spatialisa-
tion dans le domaine de la musique à proprement parler.
✦ Quadriphonie
Les ondes sonores reflétées qui surviennent lors de l’enregistrement seront reproduites avec une sensation
de direction et sonneront de façon plus naturelle qu’avec un système de reproduction non directionnel.
Si des difficultés surviennent dans la reproduction, celles-ci peuvent être surmontées en employant une
seconde paire de haut-parleurs espacés différemment et possédant un réseau de modification différent
de celui de la première paire. (Blumlein, 1931)
142 ENVIRONNEMENT ET OUTILS
Les systèmes quadriphoniques ou Quad, lancés au début des années 1970, ont constitué l’une des
premières tentatives de commercialisation d’un équipement destiné aux particuliers et permettant
la reproduction du son à travers de multiples haut-parleurs. Pourquoi y a-t-il eu à cette époque un
intérêt pour aller au-delà de la stéréo, au moment où celle-ci commençait à peine à se répandre ?
Si les experts s’accordaient pour considérer que la stéréo ne constituait pas un système de diffusion
sonore parfait, quels étaient précisément les griefs retenus contre elle ? Pour comprendre cela, expli-
quons rapidement comment fonctionne le principe de localisation de l’azimut, et les raisons pour
lesquelles la stéréo ne permet pas de recréer une illusion spatiale idéale.
La localisation d’azimut est complexe, mais fonctionne principalement grâce à deux mécanismes
auditifs permettant au cerveau de reconstituer un espace sonore horizontal : les différences de phase
survenant aux fréquences basses, et les différences d’intensité survenant aux fréquences aiguës, avec
une bande de transition située généralement aux alentours de 1 500 Hz (Rayleigh, 1907). Cependant,
lors d’une reproduction d’enregistrement par des haut-parleurs, il s’avère qu’utiliser uniquement
des différences de phase sur les fréquences basses pour fournir des informations d’azimut n’est
pas suffisant, et des différences d’intensité doivent donc être utilisées entre les deux canaux. Mal-
heureusement, une telle solution brouille à son tour la précision de localisation, car les différences
d’intensités appliquées sur les fréquences aiguës ne correspondent plus à leur état naturel. La stéréo
doit donc adopter un compromis afin de minimiser cette décorrélation entre l’image spatiale créée
par les fréquences basses et celle créée par les fréquences aiguës. Un autre problème majeur ren-
contré avec la stéréo est son incapacité à reproduire une image spatiale au-delà des haut-parleurs.
Bien qu’il soit possible de déphaser un des canaux pendant un court moment afin de créer l’illusion
que la source provient effectivement d’un angle supérieur à celui des haut-parleurs, cette technique
ne peut pas être appliquée de façon très pratique pour une application courante.
La diffusion de musique par quatre haut-parleurs discrets fut imaginée dès le début des
années 1950 aux studios de la RTF. Pierre Schaeffer, assisté de Jacques Poullin, y conçut un système
de contrôle de la diffusion du son pour quatre haut-parleurs disposés en forme de tétraèdre, baptisé
Potentiomètre d’espace et constitué de quatre grands cerceaux entourant l’interprète qui utilisaient
des bobines à induction et réagissaient aux gestes. La transition vers une utilisation grand public
de la diffusion sonore par quatre canaux discrets ne fut cependant rendue possible qu’au début des
années 1970. La quasi-totalité des supports de l’époque étant au maximum stéréo, un matriçage des
données était obligatoire, car il fallait parvenir à stocker quatre canaux sur des supports conçus à
l’origine pour deux. La technique la plus couramment utilisée était connue sous le nom de
« 4:2:4 », ce qui signifie que quatre canaux sont encodés en deux canaux sur le support, puis déco-
dés en quatre canaux au moment de la lecture. Bien entendu, un tel processus de matriçage, bre-
veté dès la fin des années 1960 (Scheiber, 1969) et réutilisé par la suite dans de nombreux systèmes,
entraînait une perte de qualité inévitable par rapport aux quatre canaux d’origine. Plusieurs socié-
tés s’intéressèrent à ce procédé et développèrent chacune des formats propriétaires. Ces derniers
n’étaient malheureusement pas compatibles et souffraient d’une offre trop diversifiée (les enregis-
trements étaient vendus sous la forme de disques vinyles, de cartouches huit pistes, de bandes
magnétiques, etc.) et de défauts qui ne furent résolus qu’après que le grand public eut fini par se
désintéresser de ce format. De plus, la technologie Quad, utilisant le même principe que la stéréo,
à savoir les différences d’intensité, en possédait également les faiblesses. Il est bien connu que si
deux haut-parleurs sont éloignés d’un angle supérieur à 60 degrés, l’auditeur entend un « trou »
dans le milieu, et l’image située entre eux devient presque inexistante. Comme dans un système Quad
les haut-parleurs étaient placés autour de l’auditeur à des angles égaux de 90 degrés chacun, l’image
était extrêmement difficile à obtenir, à moins d’être placé dans un « cône de vigilance » très étroit
CHAPITRE 7 – LA SPATIALISATION 143
situé au centre exact du cercle imaginaire délimité par les quatre haut-parleurs. Pour toutes ces
raisons, le format Quad disparut rapidement au milieu des années 1970.
Canal Canal
gauche gauche
Signaux identiques
Canal Canal Canal
central gauche
Déphasage 90° central
-3dB total
© Dunod. Toute reproduction non autorisée est un délit.
Canal Canal
droite droite
disparu, et qui enregistrait sans perte les différences entre échantillons successifs au lieu d’enre-
gistrer les valeurs de chacun d’entre eux. Voir le chapitre 1 pour une présentation de la compression
des données audio et des formats les plus courants.
Le tableau 7.2 montre les formats surround les plus courants, en particulier ceux développés pour
la diffusion sonore en salles de cinéma ou pour l’utilisation chez des particuliers. Voir Hull (1999)
pour un historique du développement des technologies au sein de la société Dolby. Ces formats de
diffusion n’étant pas directement liés à la musique, les expliquer en détail dépasserait le cadre de
ce livre. Il existe quand même, en raison de l’existence de ces formats, des applications plus spécifi-
quement musicales, en particulier dans les domaines de l’enregistrement, du mixage et de l’écoute.
Bien entendu, l’une des clés pour obtenir un signal multicanal de haute qualité est d’être capable
d’effectuer un enregistrement exploitant réellement ce format, et différant donc d’un enregistrement
stéréo traditionnel par couple. En effet, il importe de tenir compte de la captation du canal central,
qui ne saurait être uniquement un mélange des canaux gauche et droite avant, mais également de
l’ambiance de la salle pour les canaux surround. Si les pistes ne sont pas suffisamment différentes,
l’avantage de posséder un format multicanal sera en quelque sorte perdu. En plus de la prise de son
avec plusieurs microphones (en général 6 micros répartis entre l’avant et l’arrière de la salle), il
existe maintenant des microphones contenant plusieurs capsules et accompagnés d’un processeur
d’effets qui permettent à eux seuls de reproduire l’ambiance d’une salle. Lors de l’étape de mixage,
de nombreux choix artistiques doivent être pris en ce qui concerne le placement des voix et des ins-
truments dans tel ou tel canal, l’équilibre à respecter entre eux et les effets à appliquer. Certains ingé-
nieurs du son apprécient de pouvoir jouer avec de la réverbération pour modifier l’espace sonore,
tandis que d’autre préfèrent ne pas trop modifier le mixage, en considérant que le format surround
est en lui-même suffisamment spectaculaire pour qu’il ne faille pas trop alourdir la musique par
un excès d’effets. Voir Holman (1997, 2000), Haidant (2001, 2002), Gandolfi (2002) et Dolby (2005)
pour plus de renseignements sur l’enregistrement, le mixage et le traitement du son dans les formats
surround.
En ce qui concerne l’écoute de musique, il existe de plus en plus d’enregistrements disponibles en
format « surround » (généralement sur support Super Audio CD ou DVD-Audio). Si certains ont réel-
lement été enregistrés dans ce format lors d’un concert (musique classique ou jazz, par exemple),
la plus grande partie résulte d’un travail de remasterisation effectuée en studio grâce à des machines
dédiées, à partir d’une musique mono ou stéréo. Il existe également sur le marché des récepteurs
équipés de fonctions DSP du type Dolby Pro Logic II ou DTS Neo : 6 qui effectuent des calculs pour
« exploser » un signal stéréo en format 5.1, afin de permettre l’écoute d’un support analogique ou
numérique deux canaux en situation de diffusion par plusieurs haut-parleurs. Il est probable que
des modifications seront apportées dans les années qui viennent aux formats de diffusion multicanal
adressés au grand public. Certains ont proposé d’augmenter encore le nombre de haut-parleurs
par souci de réalisme : système 10.2 de Tomlinson Holman ou système 22.2 pour la vidéo et la télé-
vision à ultra haute définition (UHD) de la NHK (Japan Broadcasting Corporation), mais ces pro-
positions restent pour l’instant à l’état de prototype et il est difficile de savoir si les audiophiles et
les amateurs de cinéma seront prêts à investir de nouveau dans des équipements coûteux.
7.4.3 Ambisonie et synthèse par champ d’onde
Au-delà de la diffusion par haut-parleurs traditionnelle, jouant sur l’intensité et éventuellement sur
des effets de filtrage et de réverbération, comme cela est le cas pour la stéréo ou les systèmes sur-
round, il convient de signaler un ensemble de techniques basées sur un même postulat : le principe
de Huygens. Appliqué à l’origine à l’optique et permettant entre autres d’expliquer la diffraction,
celui-ci propose une analyse de la propagation d’onde qui est la suivante : chaque point d’une onde
© Dunod. Toute reproduction non autorisée est un délit.
Fantasound Analogique (film optique) 1940 3/5.0 (LF, CF ; RF, LS, RS) Applications : cinéma. Système discret
CHAPITRE 7 – LA
Cinerama Analogique (film magnétique) 1952 7/7.0 (LF, MLF, CF, MRF, RF, LS, RS) Applications : cinéma. Système discret.
CinemaScope Analogique (film magnétique) 1953 4/4.0 (LF, CF, RF, MS) Applications : cinéma. Système discret.
SPATIALISATION
Todd-AO Analogique (film magnétique) 1955 6/6.0 (LF, MLF, CF, MRF, RF, MS) Applications : cinéma. Système discret.
Quadriphonie Analogique (bande magnétique 1970 2/4.0 (LF, RF, LS, RS) Applications : particuliers. Système matricé.
et disque vinyle)
Dolby Stereo Analogique (film optique) 1976 2/4.0 (LF, CF, RF, MS) Applications : cinéma. Système matricé.
Dolby « Baby Boom » Analogique (film magnétique) 1977 6/4.2 (LF, CF, RF, MS, 2 LFE) Applications : cinéma. Système discret.
Dolby « Split Surround » Analogique (film magnétique) 1979 6/5.1 (LF, CF, RF, LS, RS, LFE) Applications : cinéma. Système discret.
Dolby Surround Analogique (cassette audio, VHS) 1982 2/3.0 (LF, RF, MS) Applications : particuliers. Système matricé.
Dolby Surround Pro Logic Analogique (cassette audio, VHS) 1987 2/4.0 (LF, CF, RF, MS) Applications : particuliers. Système matricé.
LC Concept Numérique (disque magnéto-optique 1990 6/5.1 (LF, CF, RF, LS, RS, LFE) Applications : cinéma. Système discret.
puis CD-Rom)
Kodak CDS Numérique (film optique) 1990 6/5.1 (LF, CF, RF, LS, RS, LFE) Applications : cinéma. Système discret.
Dolby Digital Numérique (film optique pour le cinéma 1992 6/5.1 (LF, CF, RF, LS, RS, LFE) Applications : cinéma et particuliers.
ou DVD pour les particuliers) Système discret.
DTS Numérique (CD-Rom pour le cinéma 1993 6/5.1 (LF, CF, RF, LS, RS, LFE). Applications : cinéma et particuliers.
ou DVD pour les particuliers) Certaines variantes permettent Système discret. Certaines variantes
du 6.1 ou 7.1 sont matricées.
SDDS Numérique (film optique) 1993 8/7.1 (LF, MLF, CF, MRF, RF, LS, RS, LFE). Applications : cinéma. Système discret.
Peut également lire en 5.1 ou en 4.0
145
146
Dolby Digital Surround EX Numérique (film optique pour le cinéma 1999 6/6.1 (LF, CF, RF, LS, CS, RS, LFE) Applications : cinéma et particuliers.
ou DVD pour les particuliers) Système matricé.
Dolby Surround Pro Logic II Analogique (cassette audio, VHS) 2000 2/5.1 (LF, CF, RF, LS, RS, LFE) Applications : particuliers. Système matricé.
et numérique (CD, DVD)
Dolby Surround Pro Logic IIx Analogique (cassette audio, VHS) 2003 2 ou 5.1/7.1 (LF, CF, RF, LS, RS, LB, RB, Applications : particuliers. Système matricé.
et numérique (CD, DVD) LFE)
Note : les canaux correspondent aux abréviations suivantes : LF (avant gauche), MLF (avant gauche médian), CF (avant central), MRF (avant droite médian), RF (avant droite), MS
(surrond mono), LS (surround gauche), CS (surround central), RS (surround droite), LB (arrière gauche), RB (arrière droite), LFE (effets basses fréquences). Un système discret
possède autant de pistes que nécessaire à la diffusion du son, tandis qu’un système matricé comprend une étape d’encodage (afin de réduire le nombre de pistes sur le support)
et de décodage (pour reconstituer le nombre de pistes originel).
ENVIRONNEMENT
ET OUTILS
CHAPITRE 7 – LA SPATIALISATION 147
en progression est la source fictive d’un nouveau train d’ondes et l’onde en progression peut en fait
être conçue comme la somme de toutes les ondes provenant des points déjà traversés.
Le système Ambisonics fut formalisé par Michael Gerzon et Peter Fellgett au milieu des
années 1970, en s’appuyant sur le postulat qu’un système de diffusion utilisant l’intensité du son pour
définir un champ sonore (comme la stéréo, la quadriphonie, et même les systèmes 5.1 d’aujourd’hui)
n’est pas capable de recréer une image fantôme correctement et ne peut donc fonctionner qu’à une
seule position appelée « cône de vigilance ». Une image fantôme est le son apparaissant au milieu
de deux haut-parleurs lorsqu’il est diffusé par ceux-ci avec une intensité égale. Le cône de vigilance
est le point où le système de diffusion est calibré de façon optimale et permet donc la meilleure
reconstitution de l’espace sonore (le sommet bien connu du triangle dans le cas de la stéréo). Au
contraire, l’ambisonie permet d’encoder et de décoder n’importe quel type de son avec certaines
caractéristiques :
• Son surround total, y compris avec la hauteur (périphonie) sur quatre canaux.
• Absence de cône de vigilance (l’auditeur peut se déplacer sans que son écoute soit trop dis-
tordue).
• Les images peuvent apparaître à d’autres endroits que les haut-parleurs.
• Absence de disposition spécifique pour les haut-parleurs (ceux-ci peuvent être déplacés sans
modifier la qualité de diffusion et chacun d’entre eux est utilisé pour créer le champ acous-
tique).
Voir Gerzon (1975) et Fellgett (1975) pour une présentation du format Ambisonics d’origine.
Celui-ci, appelé Ambisonics de premier ordre ou B-format, définit l’information sonore grâce à quatre
canaux : la coordonnée d’amplitude instantanée W, et les trois coordonnées spatiales X, Y et Z.
Les équations qui définissent ces canaux — simulant une captation d’espace acoustique grâce à
trois microphones bidirectionnels et à un microphone omnidirectionnel — sont les suivantes :
X = cos ( A ) × cos ( B ) ( avant – arrière )
Y = sin ( A ) × sin ( B ) ( gauche – droite )
Z = sin ( B ) ( haut – bas )
W = 0,707 ( avant + arrière + gauche + droite + haut + bas )
© Dunod. Toute reproduction non autorisée est un délit.
où A est l’angle dans le sens contraire des aiguilles d’une montre depuis la position avant centrale
et B est l’élévation.
Ainsi, tout son peut être placé à l’intérieur d’une sphère imaginaire, simplement en multipliant son
signal par les coordonnées fournies ci-dessus. Lorsqu’il s’agit de définir une source en mouvement,
d’autres équations fournissent les coefficients d’échelonnage nécessaires (Malham, 1998).
Afin de rendre cette description compatible avec les supports stéréo, un format fut créé, appelé UHJ.
Celui-ci matrice les canaux X, Y et W au sein de deux canaux, grâce à des coefficients et à du
déphasage obtenu au moyen de filtres passe-tout sur toute la largeur de bande audio. On obtient alors
une description d’un champ acoustique horizontal qui peut être enregistré sur disque, bande
magnétique, CD ou bien transmis par voie radiophonique. Il est également possible d’ajouter un
troisième canal favorisant la précision de la reproduction horizontale, ainsi qu’un quatrième permet-
tant d’intégrer les informations de hauteur du plan Z. La plupart des enregistrements Ambisonics
disponibles dans le commerce sont bien évidemment encodés au format UHJ. Voir Gerzon (1985)
pour une description détaillée de ce format, ainsi que pour des explications sur sa mise en œuvre.
148 ENVIRONNEMENT ET OUTILS
En plus de la captation directe par un microphone spécialisé ou par un jeu de microphones tradi-
tionnels, il est également possible d’utiliser une source multipiste afin de lui appliquer un mixage
ambisonique. Dans la plupart des cas, le résultat était historiquement encodé en UHJ afin d’assurer à
la musique une possible exploitation commerciale, mais certaines productions furent encodées en
B-format complet, c’est-à-dire comprenant les informations de hauteur. Si du matériel analogique
de mixage au format Ambisonics a existé dès la fin des années 1970, il semble maintenant que le sup-
port privilégié pour les outils d’encodage prenne la forme de modules d’extension dédiés, accessi-
bles depuis un programme d’édition logiciel multipiste. L’avantage de cette solution est que la sta-
tion de travail peut également inclure des décodeurs afin de permettre une écoute de contrôle
instantanée.
En raison de la faible distribution des décodeurs sur le marché et avec l’avènement des nouveaux
supports autorisant le stockage de plusieurs pistes, une réflexion s’engagea pour trouver un moyen
de transmettre un enregistrement Ambisonics par le biais d’un système 5.1, et le G-format fut créé
(Gerzon et Barton, 1992). Pour sa mise en œuvre, un nouveau type de décodeur est utilisé en stu-
dio qui encode le signal sur tout support compatible 5.1 (DVD-Video avec AC-3, film cinéma, CD
multicanal avec encodage DTS ou MLP, DVD-Audio ou SACD), ce qui élimine totalement la nécessité
de posséder un décodeur sur le lieu d’écoute. De plus, il peut être envisagé d’utiliser des canaux
d’un système 5.1 (effets basses fréquences et/ou central avant) afin de diffuser un champ acoustique
avec informations de hauteur dans un environnement ou les haut-parleurs correspondants auraient
préalablement été surélevés. Signalons qu’il est tout à fait possible d’ajouter une version UHJ en plus
de la version G-format, et de reconstituer (en retirant le filtrage effectué par le décodeur et en modi-
fiant légèrement le contenu des canaux) un mixage B-format à partir d’un mixage G-format (Elen,
1998).
Si la théorie et la pratique liées à l’ambisonie jusqu’à récemment se limitaient à des calculs de pre-
mier ordre, une partie de la recherche actuelle en matière de diffusion sonore ambisonique porte
sur le développement et l’utilisation de calculs d’ordre plus élevés, comportant davantage de canaux.
En effet, la précision de la reconstruction d’un espace acoustique augmente considérablement avec
ce type de calculs, et permettrait d’améliorer sensiblement la qualité de la diffusion ambisonique,
en particulier dans des espaces de grande taille. Voir Bamford (1995) et Daniel (2000) pour des
explications sur la théorie et les possibilités de ces techniques.
Signalons enfin une technique basée elle aussi sur le principe de propagation de front d’onde de
Huygens et qui utilise comme solutions la fonction de Green : la synthèse par champ d’onde. Elle
repose sur deux postulats de base. Tout d’abord, un nombre infini de haut-parleurs (une « ligne »
acoustique linéaire) peut recréer un front d’onde acoustique en pondérant et en retardant les signaux
qu’ils émettent de façon appropriée. Ensuite, un champ de pression acoustique émis par une source à
l’extérieur d’un volume peut être reconstitué à l’intérieur de celui-ci si la pression et le gradient de
direction du champ de pression à sa surface sont connus. Pour des applications pratiques, le volume
est simplifié en une forme circulaire, et la ligne acoustique est remplacée par un grand nombre de
haut-parleurs placés les uns à côté des autres sur un plan horizontal, en général à une distance de
10 à 20 cm chacun. Les haut-parleurs pondérés et retardés peuvent effectuer deux types de rendus
acoustiques : rendu de modèle par calculs de dérivées à partir de sources ponctuelles ou d’ondes
planes, et rendu de données par l’utilisation de réponses impulsionnelles contenant les vélocités des
sources en plus des valeurs de pression sonore. Voir Rabenstein et Spors (2005) pour une explication
de cette technique. Les implémentations existantes connaissent cependant quelques défauts : aucun
haut-parleur ne peut être considéré comme une source monopole parfaite, et l’acoustique propre au
lieu d’écoute comporte nécessairement ses propres réactions acoustiques. Ces deux facteurs entraî-
CHAPITRE 7 – LA SPATIALISATION 149
nent des distorsions lors de la reproduction par rapport au modèle théorique. Petrausch, Spors et
Rabenstein (2005) proposent des solutions pour tenter de remédier à ces défauts.
Cette technique a fait l’objet de recherches menées par un consortium européen formé par des
entreprises, des instituts de recherche et des universités, en vue d’applications dans le domaine du
multimédia. En associant la synthèse par champ d’onde au format MPEG-4, le but souhaité est de
pouvoir « transporter » un espace virtuel ou réel en un autre lieu, en l’accompagnant de données
visuelles. Voir Carrouso (2001) pour une présentation de ce système.
© Dunod. Toute reproduction non autorisée est un délit.
Chapitre 8
La réverbération
8.1 Réverbération
La réverbération est effet acoustique apparaissant naturellement. Nous l’entendons dans les grandes
églises, les salles de concert, et dans d’autres espaces ayant des plafonds élevés et des surfaces
réfléchissantes. Les sons émis dans ces espaces sont renforcés par des milliers d’échos très proches
se réfléchissant sur le plafond, les murs et le sol. La plupart de ces échos arrivent jusqu’à nos oreilles
après s’être reflétés sur plusieurs surfaces, et nous les entendons donc après que le signal originel
a atteint nos oreilles. L’oreille fait la distinction entre son direct (originel) et son reflété, car celui-ci est
en général plus faible en amplitude, légèrement retardé, et filtré en passe-bas en raison de l’absorp-
tion des hautes fréquences par l’air et par les surfaces réfléchissantes (figure 8.1). La myriade
d’échos fusionne dans notre oreille en un « halo » acoustique prolongé qui suit le son originel.
Un enregistrement par microphone d’un instrument dans une salle de concert est entouré par une
enveloppe de réverbération de la salle. Ceci est en particulier le cas lorsque le microphone est
© Dunod. Toute reproduction non autorisée est un délit.
omnidirectionnel. Pour les enregistrements effectués dans de petits espaces de studio, on peut
désirer ajouter de la réverbération, car sans elle une voix ou un ensemble sonnent de façon « sèche »,
et manquent « d’espace » ou de « profondeur ».
Certains sons synthétisés ont peu ou presque pas d’espace intrinsèque. Ces signaux « morts »
acoustiquement peuvent être améliorés par la panoramisation spatiale, de l’écho et de la réverbé-
ration.
Mais l’espace n’est pas seulement un truc de cosmétique pour les sons. La profondeur spatiale peut
être utilisée pour isoler des éléments de premier plan et d’arrière-plan dans une architecture com-
positionnelle. Plus encore, la réverbération n’est pas un effet monolithique ; il existe de nombreuses
couleurs et qualités de réverbération — autant en fait qu’il existe d’espaces naturels et de réverbéra-
teurs synthétiques. Aucun type de réverbération (naturel ou synthétique) n’est idéal en musique.
La plupart des unités de réverbération électronique simulent plusieurs types de réverbération.
152 ENVIRONNEMENT ET OUTILS
Source sonore
Son direct
Sons
Auditeur réfléchis
Certaines tentent (souvent grossièrement) de simuler des salles de concert connues, tandis que
d’autres créent des images spatiales bizarres qui seraient impossibles à dupliquer dans une vraie
salle.
8.1.1 Propriétés de la réverbération
Des salons et des salles de concert sonnant de façon resplendissante ont été construits depuis l’Anti-
quité, mais leurs propriétés acoustiques de base n’ont pas été comprises d’un point de vue scienti-
fique avant le dix-neuvième siècle. Les travaux pionniers sur l’analyse des espaces réverbérants furent
effectués par Wallace Sabine (1868-1919), qui donna des conseils pour la construction (sur une
structure préexistante) du Symphony Hall de Boston en 1900. Celui-ci était le premier espace d’inter-
prétation conçu selon des principes acoustiques rigoureux et scientifiques. Sabine observa que la
réverbération d’une salle dépend de son volume, de sa géométrie, et de la réflectivité de ses surfaces
(Sabine, 1922). Il n’est pas surprenant que les grandes salles ayant des surfaces réfléchissantes aient
des temps de réverbération longs, et que les petites salles ayant des surfaces absorbantes aient des
temps de réverbération courts. Les surfaces lisses et dures comme le verre, le chrome et le marbre
tendent à réfléchir toutes les fréquences de façon uniforme, tandis que les surfaces absorbantes
comme les rideaux épais, la mousse et les tapis épais tendent à absorber les hautes fréquences.
CHAPITRE 8 – LA RÉVERBÉRATION 153
La géométrie des surfaces de la salle détermine l’angle des réflexions sonores. Les murs non paral-
lèles dispersent les fronts d’onde suivant des modèles complexes de dispersion, et les petites irré-
gularités telles que les garnissages plastiques, les échancrures, les colonnes et les statues tendent à
diffuser les réflexions, créant un effet de réverbération plus riche et plus dense.
Sabine a également observé que l’humidité influe sur le temps de réverbération dans les grandes
salles, l’air humide tendant à absorber les hautes fréquences.
✦ Réponse impulsionnelle d’une salle
L’une des façons de mesurer la réverbération d’une salle est de déclencher une explosion très courte
(une impulsion) et de tracer la réponse de la salle dans le temps. Ce tracé, lorsqu’il est corrigé pour
le spectre de l’explosion, montre la réponse impulsionnelle de la salle. Comme nous l’avions men-
tionné au chapitre 4, les circuits ont également une réponse impulsionnelle, ce qui fait de la mesure
de la réponse impulsionnelle un outil très fréquemment utilisé, à la fois dans la conception d’un
circuit et d’une salle de concert. La réverbération naturelle possède en général une enveloppe de
réponse impulsionnelle similaire à celle montrée à la figure 8.2. La construction de la réverbération
suit une courbe quasi exponentielle qui atteint un pic en moins d’une demi-seconde et chute plus
ou moins lentement.
2.
Le son direct
1. atteint l'auditeur
Impulsion
originelle 4.
3. Réverbération
Premières fusionnée
réflexions
Amp.
0 25 50 - 100 1600
Temps en millisecondes
© Dunod. Toute reproduction non autorisée est un délit.
En général, un intervalle de temps irrégulier entre les pics est souhaitable dans une salle de concert.
Des pics espacés régulièrement indiquent du « tintement » — fréquences résonantes dans la salle
— qui peut être dérangeant.
✦ Temps de réverbération
Une autre mesure importante de la réverbération est le temps de réverbération ou RT60. Le terme
RT60 fait référence au temps nécessaire à la réverbération pour chuter de 60 dB par rapport à son
amplitude pic (1/1 000 de son énergie pic). Les durées typiques de RT60 pour les salles de concert
s’étendent de 1,5 à 3 s. Le point RT60 du tracé de la figure 8.3 est à 2,5 s.
154 ENVIRONNEMENT ET OUTILS
0
-10
Point
-20
RT60
-30
-40
-50
Amp.
-60
0 0.5 1.0 1.5 2.0 2.5
Fréquence
Haut-parleur Microphone
Source
sonore
Bus Bus de
d'envois retours
d'effets d'effets
Mélangeur
Figure 8.4 – Pour créer un effet d’ambiance acoustique, le son peut être envoyé
dans une chambre d’écho par un haut-parleur. Le son reflété indirect est capté par un microphone
à l’autre bout de la chambre. Dans l’idéal, la chambre est de forme irrégulière. Pour augmenter et
rendre aléatoires les réflexions, la chambre doit être équipée de panneaux de diffusion sonore.
Ceux-ci contiennent de nombreuses anfractuosités disposées à intervalles inégaux. Lorsque les ondes
sonores les atteignent, elles sont reflétées à différents temps de retard, selon l’anfractuosité qu’elles
frappent. L’effet de diffusion tend à éliminer les ondes stationnaires (fréquences résonantes dans
la salle) qui apparaissent avec des murs parallèles.
✦ Parties de la réverbération
L’effet de réverbération peut être divisé en trois parties, montrées plus haut dans la figure 8.2 :
• Le son direct (non réfléchi) voyage en ligne droite et arrive en premier aux oreilles de l’audi-
© Dunod. Toute reproduction non autorisée est un délit.
teur.
• Les premières réflexions discrètes frappent l’auditeur juste après le son direct.
• Les réverbérations fusionnées contiennent des milliers d’échos proches, mais demandent du
temps pour se construire puis pour disparaître.
Les unités de réverbération du commerce fournissent en général des contrôles qui permettent de
manipuler ces différentes parties de façon plus ou moins indépendante. Sur ces unités, l’équilibre
entre son réverbéré et son direct est parfois appelé le rapport humide/sec — le son réverbéré est
appelé « humide » — et le retard juste avant les premières réflexions est appelé le préretard.
Une simulation efficace de la réverbération naturelle nécessite une haute densité d’échos. Certains
des premiers réverbérateurs numériques ne produisaient pas plus de 30 échos par seconde, tandis
que dans les vraies salles de concert, une densité de plus de 1 000 échos par seconde n’est pas rare.
De nombreux réverbérateurs actuels offrent un contrôle permettant aux utilisateurs d’ajuster la
densité d’échos pour atteindre l’effet désiré, depuis des échos discrets jusqu’à un modèle de réverbé-
ration dense et fusionnée.
156 ENVIRONNEMENT ET OUTILS
Les premières réflexions discrètes d’une salle de concert peuvent être simulées grâce à une ligne
à retard à bascules. Il s’agit simplement d’une unité de retard qui peut être « basculée » en plusieurs
points pour sortir plusieurs versions du signal d’entrée, chacune ayant des retards différents. Voir
le chapitre 6 pour une explication des lignes à retard à bascules.
Le son luxuriant de la réverbération fusionnée nécessite une densité d’échos supérieure à ce qu’une
ligne à retard à bascules est capable de fournir efficacement. De nombreux algorithmes différents
pour la réverbération fusionnée existent, mais ils mettent en général tous en jeu une variation des
algorithmes originels de Schroeder, présentés maintenant.
8.1.4 Réverbérateurs élémentaires
Schroeder appelait les blocs de construction des réverbérateurs élémentaires, dont il existe deux
formes : les filtres en peigne récursifs et les filtres passe-tout, qui ont été présentés tous les deux au
chapitre 4.
✦ Filtres en peigne récursifs
Comme cela est expliqué au chapitre 4, un filtre en peigne récursif ou à réponse impulsionnelle infinie
(IIR) contient une boucle de réinsertion dans laquelle un signal d’entrée est retardé de R échan-
tillons et multiplié par une amplitude ou un facteur de gain g, puis renvoyé pour être ajouté au dernier
signal d’entrée (figure 8.5a).
Lorsque le retard R est petit (moins de 10 ms environ), l’effet du filtrage en peigne est avant tout
spectral. C’est-à-dire qu’il crée des pics et des creux dans la réponse fréquentielle du signal d’entrée.
Lorsque R est supérieur à 10 ms, il crée une série d’échos retardés, comme montré à la figure 8.5b.
(a) g
× D
Signal
d'entrée + Signal
de sortie
(b)
Amp.
D 3D 5D . . .
Temps
Les échos chutent exponentiellement, et donc pour un nombre maximal d’échos (temps de chute
le plus long), g est presque réglé sur 1. Le temps nécessaire pour que la sortie du filtre en peigne
chute de 60 dB est spécifié par la formule suivante (Moore, 1990) :
temps_de_chute = ( 60 ⁄ – Gainboucle ) × Retardboucle
où Gainboucle est le gain g exprimé en décibels = 20 × log10 (g), et Retardboucle est le retard R exprimé
en secondes = R/T, où T est le taux d’échantillonnage. Ainsi, si g = 0,7, Gainboucle = –3 dB.
✦ Filtres passe-tout
Les filtres passe-tout transmettent toutes les fréquences des signaux stables de façon égale (voir le
chapitre 4). Mais ils « colorent » les signaux transitoires raides en introduisant des retards dépen-
dants de la fréquence. Lorsque le temps de retard est suffisamment long (entre 5 et 100 ms), le filtre
passe-tout montré à la figure 8.6a possède une réponse impulsionnelle comme celle montrée à la
figure 8.6b : une série d’impulsions d’écho en chute exponentielle, comme un filtre en peigne ayant
(a) g
× 1-g
2
x[n] + D × + y[n]
×
-g
(b) g
2
g
© Dunod. Toute reproduction non autorisée est un délit.
3
g
4
g
g5
g6 g 7
Amp.
D 2D 3D . . .
Temps
un long retard. L’espacement uniforme entre les impulsions suggère que lorsqu’un son transitoire
court est appliqué, le filtre résonne avec une période égale au temps de retard du filtre. Ceci explique
pourquoi les filtres passe-tout ne sont pas « incolores » lorsqu’ils traitent des sons ayant des attaques
raides et des transitoires en chute.
✦ Patchs de réverbération
Nous avons établi que les filtres en peigne récursifs et les filtres passe-tout peuvent générer une série
d’échos en chute. Pour une réverbération luxuriante, il est nécessaire d’interconnecter un certain
nombre de réverbérateurs élémentaires pour créer une densité d’écho suffisante pour que les échos
fusionnent. Lorsque les réverbérateurs élémentaires sont connectés en parallèle, leurs échos s’ajou-
tent. Lorsqu’ils sont connectés en série, chaque écho généré par une unité déclenche une série
d’échos dans l’unité suivante, ce qui crée une densité d’échos bien plus grande. Le nombre d’échos
en série est le produit du nombre d’échos de chaque unité.
Dans les conceptions de Schroeder, les filtres en peigne sont interconnectés en parallèle pour mini-
miser les anomalies spectrales. Par exemple, une fréquence qui passe à travers un filtre en peigne
peut être atténuée par un autre. Les filtres passe-tout sont généralement connectés en série. En raison
de la distorsion de phase qu’ils introduisent, connecter les filtres passe-tout en parallèle peut aboutir
à une réponse d’amplitude non uniforme en raison des effets d’annulations de phases.
La figure 8.7 montre deux réverbérateurs proposés par Schroeder. Dans la figure 8.7a, les filtres en
peigne en parallèle initient un train d’échos qui sont additionnés et envoyés dans deux filtres passe-
tout en série. Dans la figure 8.7b, cinq filtres passe-tout font que la densité d’échos est multipliée
par chaque unité. Si chaque passe-tout ne génère que quatre échos audibles, le résultat final sera de
1 024 échos à la sortie du passe-tout numéro 5.
Le son caractéristique d’un système de réverbération numérique de ce type dépend du choix des
temps de retard R (ceux-ci déterminent l’espacement des échos) et des facteurs d’amplitude g
(ceux-ci déterminent la chute ou le temps de réverbération) pour chacun des réverbérateurs élémen-
taires que ce système comprend. Le temps de retard est également appelé temps de bouclage.
Pour les réverbérations sonnant naturellement, il est important de choisir des temps de retard qui
soient relativement premiers entre eux (c’est-à-dire n’ayant pas de diviseur commun) (Moorer,
1977, 1979c). Pourquoi cela ? Considérez deux filtres en peigne, où le temps de retard du premier
est de 10 ms et celui du second est de 12,5 ms. La longueur de leurs lignes à retard est respectivement
de 800 et de 1 000 échantillons, à un taux d’échantillonnage de 40 kHz. Comme les longueurs de
ces lignes à retard sont divisibles toutes les deux par 200, un réverbérateur construit à partir de ces
deux unités n’aura pas de chute douce. Aux multiples de 200 ms, les échos coïncident pour aug-
menter l’amplitude à ce point, causant une sensation d’échos discrets ou de « secousses » régulières
dans la chute. Lorsque les temps de retard sont ajustés à 10,025 et 24,925 ms, la longueur de leurs
lignes à retard est respectivement de 799 et 997. Maintenant, la première coïncidence d’échos n’appa-
raît pas avant (799 × 997)/40 000 kHz = 19,91 s. Voir Moorer (1979c) pour une présentation montrant
comment régler ces paramètres.
Comme on peut le supposer, des temps de retard plus courts sont en corrélation avec le son d’espaces
plus petits. Pour une grande salle de concert, le réverbérateur de la figure 8.7a utilise des temps de
retard du filtre en peigne de l’ordre de 50 ms avec un rapport de retard « le plus long : le plus court »
de 1,7:1. Pour un effet de petite pièce carrelée, les temps de retard du filtre en peigne peuvent être
établis aux environs de 10 ms. Les filtres passe-tout ont des temps de bouclage relativement courts
de 5 ms ou moins. Le temps de réverbération des filtres passe-tout doit être court (moins de 100 ms),
car leur fonction est d’augmenter la densité de la réverbération globale, et non pas sa durée.
CHAPITRE 8 – LA RÉVERBÉRATION 159
(a) (b)
Signal
d'entrée Signal d'entrée
Passe-tout
1
Passe-tout
+
3
Passe-tout
Passe-tout 4
1
Passe-tout Signal
de sortie
2 réverbéré
Signal de sortie
réverbéré
Les algorithmes de réverbération de Schroeder peuvent être caractérisés comme des modèles de
retard recirculant à bascules (RRB). Comme nous l’avons expliqué plus haut, le réverbérateur est en
général divisé en plusieurs parties de filtres en peigne et passe-tout, qui génèrent des densités
d’échos suffisantes pour créer une simulation raisonnable de réverbération globale. Le modèle RRB
est efficace, mais il ne simule que des réverbérations globales génériques, et non pas les propriétés
acoustiques spécifiques d’un espace de concert réel.
En 1970, Schroeder étendit ses algorithmes de réverbérateur originels pour incorporer une ligne à
retard multibascules pour simuler les premières réflexions qui sont entendues dans une salle avant
le départ du son réverbérant fusionné. Voir le chapitre 6 pour plus de détails sur les lignes à retards
multibascules. Cette conception, qui a été adoptée dans la plupart des réverbérateurs du com-
merce, est montrée à la figure 8.8. Ainsi, pour simuler une salle de concert particulière, une façon
160 ENVIRONNEMENT ET OUTILS
Signal d'entrée
a1
a2
× Réverbérateur
global
Ligne à retard
multibascules ×
an
+
Signal de sortie
réverbéré
directe d’améliorer le modèle RRB de base est de greffer la réponse mesurée des premières réflexions
de la salle sur le réverbérateur global générique (Moorer, 1979c). Une extension supplémentaire
consiste à filtrer en passe-bas la réverbération globale selon les caractéristiques mesurées d’absorp-
tion sonore de la salle.
Une autre considération importante dans la conception de réverbération est que le son se présentant
à chaque oreille peut être mutuellement incohérent. C’est-à-dire que l’algorithme de réverbération
devrait être légèrement différent (sans corrélation) pour chaque canal de traitement.
8.1.5 Effets de réverbération fictive
Les buts du compositeur de musique électronique s’étendent bien au-delà de la simulation d’espaces
réverbérants naturels. Un réverbérateur peut évoquer de nombreux effets spatiaux « fictifs » inha-
bituels qui ne sont pas censés être réalistes. Un exemple bien connu est la réverbération « à seuil »
qui explose rapidement du point de vue de la densité d’échos, puis se coupe de façon soudaine. La
réverbération à seuil était utilisée sur les caisses claires dans les années 1980 et devint rapidement
un cliché de la musique de variété. D’autres effets incluent une réverbération « grésillante » obtenue
en appliquant un filtre passe-haut au son réverbéré, et son opposé, une réverbération assourdie, obte-
nue en appliquant un filtre passe-bas raide. En manipulant les paramètres d’un réverbérateur, on peut
créer des combinaisons étranges telles que des salles minuscules ayant des temps de réverbération
longs. Le tableau 8.1 fait la liste des paramètres disponibles sur de nombreux réverbérateurs du
commerce.
CHAPITRE 8 – LA RÉVERBÉRATION 161
Paramètre Description
Retard d’entrée Fait que l’effet précède la cause (le son humide précède le son sec)
Filtre passe-haut Ne réverbère que les octaves supérieures du son, créant un effet de réverbéra-
tion « grésillante »
Filtre passe-bas Ne réverbère que les octaves inférieures du son, créant un effet de réverbération
« assourdie »
La partie sur la réverbération avec la convolution, expliquée plus loin dans ce chapitre, présente un
autre type de réverbération non réaliste utilisant la technique de synthèse granulaire asynchrone
présentée au chapitre 22.
Voir le chapitre 26 pour une introduction à la théorie des modèles physiques dans le contexte de la
synthèse du son. Ces méthodes très gourmandes en calculs modèlent la diffusion des ondes acous-
tiques dans des espaces réels. En dehors de la création de modèles plus réalistes, ils offrent la pos-
sibilité de simuler des espaces imaginaires. Dans cette catégorie, nous incluons des salles dont les
caractéristiques et la géométrie changent dans le temps — telles qu’une salle de concert élastique
qui « s’étire » et « se rétrécit » au cours d’une phrase — ou des espaces impossibles tels qu’un cabinet
avec un temps de réverbération long. Ainsi, le but de ces techniques n’est pas toujours une réver-
bération réaliste, mais plutôt une transformation spatiale spectaculaire.
forme de sinusoïde amortie (figure 8.9). Ceci modèle le cas d’une salle « sonnant bien » ayant un
modèle de réverbération légèrement ondulant (Chowning et coll., 1974 ; Moorer, 1979c).
✦ Réverbération granulaire
Le roulement du tonnerre a été attribué aux échos parmi les nuages ; et si l’on considère qu’un nuage
est une collection de particules d’eau… et que chacune est capable de refléter le son, il n’existe pas
de raison pour laquelle les sons très [forts] ne devraient pas être réverbérés… à partir d’un nuage.
(Sir John Herschel, cité dans Tyndall, 1875)
Cette partie décrit un effet de réverbération qui peut être accompli en convolvant un son d’entrée
arbitraire avec un nuage de grains sonores.
Il est bien connu que les nuages dans l’atmosphère effectuent un effet de réverbération. Les scien-
tifiques acoustiques français du dix-neuvième siècle Arago, Mathieu et Prony, dans leurs expériences
sur la vélocité du son, ont observé que dans un ciel parfaitement clair les explosions de canons étaient
toujours uniques et courtes. Au contraire, lorsque le ciel était couvert ou lorsqu’un grand nuage
occupait une partie du ciel, les coups de canon étaient fréquemment accompagnés de « roulements »
© Dunod. Toute reproduction non autorisée est un délit.
longs et continus similaires au tonnerre (Tyndall, 1875). Voir Uman (1984) pour une analyse de
l’acoustique du tonnerre.
En supposant que le processus de fonctionnement de la convolution est compris, il n’est pas surpre-
nant d’apprendre que la convolution d’un son avec un nuage de particules sonores crée un effet de
coup dispersé, « éclaboussé dans le temps », similaire à la réverbération atmosphérique. L’éclabous-
sure temporelle commence avec un nuage de grains sonores plus ou moins dense généré par la
technique de synthèse granulaire asynchrone (AGS), décrite au chapitre 22. L’AGS disperse les grains
statistiquement à l’intérieur d’une région définie dans le plan temps/fréquence. Dans la convolution,
cette masse de grains peut être imaginée comme étant la réponse impulsionnelle d’une zone définis-
sant un nuage cumulus. La « réflexion » virtuelle effectuée par chaque grain disperse le son d’entrée
dans le temps ; c’est-à-dire qu’il ajoute des retards multiples espacés irrégulièrement. Si chaque
grain était une impulsion d’un seul échantillon, les échos seraient des copies conformes de l’entrée
originelle. Comme chaque grain peut contenir des centaines d’échantillons, cependant, chaque
écho est localement éclaboussé temporellement.
164 ENVIRONNEMENT ET OUTILS
(a)
5.4
(b)
2.09
(c)
7.4
(d)
Temps 7.4
Les effets d’éclaboussure temporelle peuvent être divisés en deux catégories de base, qui dépendent
principalement de l’attaque du son d’entrée. Si l’entrée commence par une attaque raide, chaque
grain génère un écho de cette attaque. Si le nuage de grains n’est pas continu, ces échos sont irré-
gulièrement espacés dans le temps. Si l’entrée possède une attaque douce, cependant, l’éclabous-
sure temporelle elle-même est adoucie en une sorte de réverbération colorée étrange (figure 8.10).
La « couleur » de la réverbération et des échos est déterminée par le spectre des grains, qui est un
facteur de durée, d’enveloppe, et de forme d’onde de chaque grain. Voir le chapitre 22 pour plus de
détails sur les paramètres des grains.
CHAPITRE 8 – LA RÉVERBÉRATION 165
= Jonction
Sortie1
Signal
d'entrée
Sortie2
Figure 8.11 – Un réseau par guides d’onde avec trois ports et six nœuds.
Ce guide d’onde propage l’énergie vers ses sorties, ce qui signifie qu’il est un réseau ouvert finissant
par perdre son énergie, comme cela est le cas dans une salle de concert réverbérante.
Dans la réverbération par guides d’onde, les longueurs des lignes à retard individuelles des guides
d’onde sont différentes les unes des autres pour simuler les différents temps d’écho à l’intérieur d’une
salle. À la jonction des guides d’onde multiples, l’énergie est dispersée entre elles, causant un effet
de diffusion typique des sons réverbérants fusionnés (figure 8.11). Dans un réseau fermé, une fois
que le signal est introduit, il recircule librement dans tout le réseau sans perte d’énergie. Pour obtenir
un effet de réverbération, on doit introduire de petites pertes d’énergie d’amplitude à l’intérieur du
réseau pour obtenir le temps de réverbération désiré. Les entrées et les sorties du signal peuvent
être placées n’importe où dans le réseau.
© Dunod. Toute reproduction non autorisée est un délit.
Les réseaux par guides d’onde sont des modèles de réverbération efficaces. Un réseau à N jonctions
nécessite N multiplications et 2N–1 additions pour générer un échantillon de sortie. Le nombre de
jonctions N dépend du système à modeler. Un modèle de boîte résonante peut nécessiter huit inter-
sections, tandis qu’un modèle d’une réponse de réverbération d’une salle complexe peut nécessiter
des centaines de jonctions, puisque tout endroit où le signal peut se disperser nécessite une jonction.
La structure d’un réseau en guides d’onde permet d’être sûr qu’il n’y aura aucun débordement
numérique ou aucune oscillation à l’intérieur du réseau. De plus, la propriété importante de dis-
persion diffuse des rayons sonores (Moorer, 1979), qui n’est presque pas prise en compte par un
modèle géométrique simple, est bien simulée par un réseau par guides d’onde. Un effet de « murs
en mouvement » peut être obtenu en variant doucement les longueurs des lignes à retard.
166 ENVIRONNEMENT ET OUTILS
Signal
d'entrée
Traitement
F des réflexions
M
flux
réverbérants
R R R
D D D D
+ +
N
canaux
de sortie
des réflexions de la pièce et (2) les indications de position causées par les réflexions du son sur les
pavillons, les épaules et le torse supérieur (Kendall et Martens, 1984 ; Kendall et coll., 1986 ; Kendall,
Martens et Decker, 1989). Les réflexions de premier et de second ordre déterminent les temps de
retard de chaque flux de réverbération indépendant. Ensuite, après avoir réverbéré chaque flux
séparément, un « dirigeur » filtre chaque flux pour imposer des indications supplémentaires comme
sa position dans un espace virtuel tridimensionnel (figure 8.12).
L’utilisateur du système peut spécifier les caractéristiques d’un espace virtuel en termes acoustiques
comme les dimensions de la salle, la position du son, la position de l’auditeur, l’absorption sonore
des murs, et ainsi de suite. Pour simuler un modèle de réverbération d’une salle, chacune des direc-
tions principales de la réverbération est traitée sous forme d’un flux séparé, avec jusqu’à dix-huit
flux dans une implémentation (Kendall, Martens et Decker, 1989). Comme le montre la figure 8.12,
le nombre des flux de réverbération est indépendant du nombre de canaux de sortie utilisés fina-
lement pour projeter le son.
Le concept des flux de réverbération séparés était également présent dans la recherche de réverbéra-
tion quadriphonique effectuée par le MIT au début des années 1980 (Stautner et Puckette, 1982).
Dans ce travail, les sorties de l’enceinte répondaient spatialement au canal d’entrée de la source.
Par exemple, un son direct émanant de l’enceinte avant gauche était entendu comme se réverbé-
rant dans deux enceintes adjacentes puis finalement dans l’enceinte arrière droite opposée.
© Dunod. Toute reproduction non autorisée est un délit.
Chapitre 9
Reconnaissance de la hauteur
Avant l’invention des outils électroniques tels que les amplificateurs audio, les oscillateurs et les
oscilloscopes, les mesures acoustiques étaient limitées aux propriétés les plus basiques du son. En
1636, Galilée (1564-1642) et Marin Mersenne (1588-1648) attribuèrent expérimentalement la
hauteur à la fréquence d’une forme d’onde. Mersenne et Pierre Gassendi (1592-1655) effectuèrent
la première tentative visant à déterminer la vitesse à laquelle les ondes sonores se déplacent. Aux
alentours de 1700, Joseph Sauveur (1653-1716) inventa une méthode pour compter les vibrations
acoustiques. Il fabriqua le terme les harmoniques pour décrire les sons plus élevés qui accompagnent
un son fondamental.
Le diapason, qui vibre à une hauteur constante, fut inventé en 1711 par l’Anglais John Shore, un
trompettiste et luthiste. En 1830, Félix Savart développa une technique de mesure de la hauteur qui
utilisait des roues dentelées rotatives. Savart appuyait une anche contre différentes roues pour déter-
miner les fréquences précises des sons en se basant sur le nombre de dents et la vitesse de rotation
(Beranek, 1949). Travaillant dans un laboratoire calme de l’île Saint-Louis à Paris, l’acousticien
d’origine allemande Rudolf Koenig (1832-1901) construisit un tonomètre de précision, couvrant
170 ENVIRONNEMENT ET OUTILS
tout le domaine de l’audition, pour mesurer la hauteur des sons grâce au battement résonant de
154 diapasons (Miller, 1916 ; Wood, 1940).
Les premiers instruments de précision pour mesurer l’intensité des ondes sonores étaient la roue
phonique de La Cour (1878) et le disque Raleigh (1882), appelé ainsi par référence au grand acous-
ticien britannique lord J. W. S. Rayleigh (1842-1919). Le premier appareil de mesure électronique
du niveau sonore n’apparut que lorsque George W. Pierce en construisit un en 1908, deux ans après
l’invention de la lampe à triode par Lee De Forest (1873-1961).
(a)
(b)
© Dunod. Toute reproduction non autorisée est un délit.
(a)
(b)
capacité à stocker les données acoustiques — même momentanément en mémoire vive — qui a
conduit au véritable progrès de l’analyse du son.
câble MIDI du contrôleur vers les programmes d’analyse fonctionnant sur un ordinateur. Ces pro-
grammes n’ont qu’à analyser les messages MIDI pour obtenir l’information de hauteur et de minu-
tage. À partir de là, ils peuvent procéder directement aux formes supérieures d’analyse.
Cela dit, il reste des contrôleurs pour lesquels le problème de la détection de hauteur reste important.
Les instruments à cordes posent de sérieux problèmes aux détecteurs de hauteur, nécessitants un
schéma combinant plusieurs stratégies à la fois (une combinaison de capteurs acoustiques et électro-
mécaniques). Et comment déduit-on la « hauteur » de signaux émis par un transducteur cérébral ?
Seul un schéma plutôt indirect semble possible.
L’analyse commençant par des formes d’onde est le noyau central de ce chapitre sur la reconnais-
sance de la hauteur. Les systèmes MIDI ne font face à ce problème que lorsque le flux de données
provient d’un convertisseur hauteur-MIDI (PMC). Un PMC tente d’émettre des valeurs de hauteur
MIDI qui correspondent à la hauteur des sons qui y entrent (Fry, 1992). Le chapitre sur la reconnais-
sance du rythme commence aussi avec l’analyse de formes d’onde sonores, mais aborde ensuite
des problèmes tels que le suivi du tempo et la transcription de partition qui peuvent également être
appliqués aux systèmes MIDI.
localiser la fréquence centrale. Ainsi, ce que l’on demande à un DH comporte une difficulté inhé-
rente. Il doit être précis, mais pas trop, tout comme l’auditeur humain.
Au-delà de la détection de hauteur se tient le vaste univers de l’interprétation de hauteur dans un
contexte musical, ou analyse compositionnelle. Ce niveau d’analyse sort du cadre de ce chapitre, mais
nous discuterons de quelques problèmes dans la partie sur l’analyse du contexte musical.
(a)
(b)
Temps
(vibrato, mélisme, intervalles microtonaux). Il est même possible de faire entendre des hauteurs
qui ne sont pas là (c’est-à-dire des fréquences fondamentales rendues implicites par la présence de
leur série harmonique — un effet entendu avec n’importe quel petit haut-parleur), et des trajectoires
de hauteur illusoires (par exemple les sons Shepard — des sons qui semblent monter et descendre
de façon continue). De nombreux sons ne fournissent pas de sensation particulière de hauteur. Les
mécanismes grâce auxquels nous détectons la hauteur ne sont pas complètement compris, car ils
impliquent du traitement cognitif et des facteurs subjectifs tels qu’entraînement et familiarité, ainsi
que des mécanismes de l’oreille interne.
Certains DH tentent d’émuler un modèle théorique des mécanismes humains de détection de hau-
teur, mais la majorité des appareils mettent en jeu des techniques plus simples choisies principa-
lement pour leur efficacité de calcul. L’efficacité est particulièrement importante dans les DH, car
ils doivent travailler en temps réel pour identifier la hauteur jouée. De toute façon, aucun détecteur
de hauteur n’est précis à 100 pour cent, bien que certaines méthodes très gourmandes en calculs
(souvent en temps différé) soient dignes de confiance lorsque le signal d’entrée est contraint de
diverses manières.
✦ Transitoires d’attaque
Le premier problème auquel les DH doivent faire face est de trier les transitoires d’attaque d’un son.
L’analyse détaillée de l’attaque de nombreux instruments révèle des formes d’onde chaotiques et
instables. Si une fréquence fondamentale est présente dans l’attaque, elle est probablement obscurcie
par du bruit et des partiels inharmoniques. Certains instruments peuvent avoir besoin de 100 ms ou
plus pour s’établir sur une hauteur stable ; cette période d’instabilité embrouille les DH (Fry, 1992).
✦ Fréquences basses
Les détecteurs de hauteur commençant par une analyse spectrale ont en général des difficultés
avec les sons graves, nécessitant l’utilisation de DH dans le domaine temporel (Lyon et Dyer, 1986).
N’importe quel DH a des problèmes à identifier les hauteurs basses en temps réel. Afin de déter-
miner la période de la hauteur fondamentale, au moins trois cycles de la forme d’onde fixe doivent
être échantillonnés avant que l’analyse puisse commencer. Pour une hauteur basse fréquence, par
exemple un La à 55 Hz, trois cycles nécessitent 54 ms pour être échantillonnés. Si l’on ajoute à cela
la durée du transitoire d’attaque et de l’algorithme de détection de hauteur lui-même, un retard
perceptible est alors inévitable.
✦
© Dunod. Toute reproduction non autorisée est un délit.
Fréquences hautes
Les hautes fréquences peuvent également poser des problèmes à certains DH en temps réel. Lorsque
la fréquence s’élève, une période de hauteur est représentée par moins d’échantillons. La résolution
avec laquelle la hauteur peut être déterminée dans le domaine temporel est directement influencée
par la longueur de la période de hauteur ou le nombre d’échantillons de retard utilisés pour la com-
paraison d’un signal avec le précédent (Amuedo, 1984).
✦ Pistage myope de hauteur
Tous les DH commencent avec une analyse d’un grain temporel durant entre 20 et 50 ms ; ainsi, leur
analyse est basée sur un segment temporel étroit. Au contraire, la perception humaine de hauteur
n’est pas localisée dans le temps. Les prévisions modèlent la perception de hauteur ; c’est-à-dire que
nous estimons la hauteur en nous basant sur le contexte musical. Comme les DH ne se basent que sur
des détails locaux, ils peuvent suivre avec myopie des détails non pertinents produits non intention-
nellement, tels que l’instabilité au commencement d’une note ou d’un vibrato excessif.
176 ENVIRONNEMENT ET OUTILS
✦ Ambiance acoustique
L’ambiance acoustique dans laquelle un instrument ou une voix sont entendus influe sur la précision
de la détection de hauteur. Un enregistrement de studio effectué près du microphone et compressé
peut exagérer les incidents de jeu ou les bruits du chant, tels que les grattements de l’archet, les clics
de clés, ou les sons soufflés, qui encombrent le signal entendu par le DH. Au contraire, les sons baignés
dans la réverbération et dans l’écho brouillent les premières notes sur le commencement des notes
suivantes. Si l’analyse est effectuée en temps différé, toute tentative pour supprimer de l’ambiance
peut aider le DH. Voir Beauchamp, Maher et Brown (1993) et la description dans la partie sur la
détection de hauteur dans le domaine fréquentiel.
(a)
× × × × × × ×
Temps
(b)
× × × × × × ×
ou laryngographe a été utilisé avec succès. Ces méthodes obligent un chanteur à porter un tour du
cou sensible aux impulsions émises par les cordes vocales. Cette méthode n’est cependant pas sen-
sible à la parole dévoisée (murmurée) et peut générer des erreurs avec certaines voyelles nasales
(Hermes, 1992). Elle a également les mêmes problèmes que n’importe quel DH en temps réel pour
traiter les attaques de note (Fry, 1992).
Retard de
m échantillons y[n-m]
Différents algorithmes par autocorrélation existent (Moorer, 1975). Pour un retard donné ou temps
de décalage, une fonction typique par autocorrélation est la suivante :
N
autocorrélation [ décalage ] = ∑ signal [ n ] × signal [ n + décalage ]
n=0
où n est l’index d’échantillon d’entrée, et 0 < décalage = N. Le degré auquel les valeurs de signal aux
différents temps n sont identiques aux valeurs du même signal retardé par échantillons de décalage
détermine la magnitude d’autocorrélation [décalage]. La sortie d’une autocorrélation montre la
magnitude pour différents temps de décalage.
L’autocorrélation d’une sinusoïde illustre ce principe. Dans la figure 9.6, cas (a), le décalage = 0, et
les deux fonctions sont identiques. Ainsi, la fonction d’autocorrélation normalisée par la puissance
de la sinusoïde est 1. La fonction d’autocorrélation est tracée au bas de la figure 9.6. Supposons
maintenant que la sinusoïde est retardée d’un quart de période. Comme le montre le cas (b),
la somme des produits de signal [n] et signal [n + décalage] sur une période est 0. Dans le cas (c),
le retard est d’une demi-période, et la corrélation est –1. Dans le cas (d), le retard est de trois quarts
de période, et la corrélation est 0. Finalement, dans le cas (e) le retard est une période complète, et
la corrélation est donc de 1. Nous voyons ainsi que l’autocorrélation d’une sinusoïde est elle-même
une sinusoïde avec des maxima aux multiples entiers de la période de la sinusoïde d’entrée.
Pour des signaux plus complexes, les routines de DH cherchent les pics récurrents dans l’autocor-
rélation, indiquant des périodicités (pouvant être cachées) dans la forme d’onde d’entrée (figure 9.7).
CHAPITRE 9 – RECONNAISSANCE DE LA HAUTEUR 179
(a) (e)
(b) (d)
(c)
Fonction
d'autocorrélation
La détection de hauteur par autocorrélation est plus efficace entre les moyennes fréquences et les
basses fréquences. Elle a donc été très utilisée dans les applications de reconnaissance de la parole
où l’étendue de hauteur est limitée. Dans les applications musicales, où l’étendue de hauteur est plus
large, le calcul direct de l’autocorrélation nécessite plusieurs millions d’opérations de multiplica-
tions/additions par seconde de son en entrée. Une façon de calculer l’autocorrélation d’un signal
est de le segmenter d’une façon particulière et d’appliquer une transformée de Fourier rapide à chaque
segment ; ceci permet une accélération significative du calcul direct. Voir par exemple Rabiner et
Gold (1975) pour des détails sur cet algorithme.
tre passe-bande étroit. Le signal non filtré et le signal filtré sont ensuite envoyés dans un circuit de
détecteur de différence. La sortie du circuit de détecteur de différence est réinjectée pour contrôler
la fréquence centrale du filtre passe-bande (figure 9.8). Ce contrôle force le filtre passe-bande à
converger vers la fréquence du signal d’entrée. Le test de convergence mesure la différence entre la
sortie du filtre y(n) et l’entrée du filtre x(n). Lorsque la différence est proche de zéro, le système
prend une décision de hauteur.
Une autre technique à filtre adaptatif est la méthode en peigne optimum (Moorer, 1973). Cette
méthode cherche à déterminer un filtre en peigne qui minimise son signal d’entrée. Le chapitre 4
présente les filtres en peigne. Afin de minimiser le signal d’entrée, les creux du filtre en peigne doivent
être accordés sur la fréquence dominante de l’entrée. Ainsi, on a trouvé la hauteur dominante en
cherchant le filtre en peigne optimum. Cette méthode est principalement applicable aux sons ayant
une forte fondamentale et des harmoniques espacés régulièrement.
Voir Lane (1990), Hush et coll. (1986) et Hutchins (1982-1988) pour plus de détails sur les détecteurs
de hauteur à filtre adaptatif.
180 ENVIRONNEMENT ET OUTILS
(a)
(b)
dans le temps, par interpolation entre les bandes d’analyse fixes. Une réduction de données est impli-
cite dans le processus de pistage ; comme seuls les partiels proéminents sont pistés, le VPP génère
une version « assainie » de l’entrée qui atténue les bruits étrangers et l’ambiance.
Maher (1990) et Beauchamp, Maher et Brown (1993) ont développé un détecteur de hauteur DF qui
commence par la sortie d’un VPP. Leur système lit les fréquences pistées et les compare de plusieurs
manières aux fréquences harmoniques d’une fondamentale hypothétique. L’hypothèse ayant la plus
petite différence globale devient la hauteur fondamentale estimée.
La figure 9.9 montre trois tracés générés par ce système. Dans la figure 9.9a, le système piste de façon
précise une version synthétisée par ordinateur de la Partita III de J. S. Bach. La figure 9.9b montre
comment l’interprétation se dégrade lorsqu’elle est effectuée sur un enregistrement du violon en
studio. Les pics entre les notes indiquent des points où le système est embrouillé par les bruits de
l’archet. La figure 9.9c montre une dégradation supplémentaire causée par « l’effet d’accord » (dans
lequel les notes précédentes continuent de sonner en présence des nouvelles notes) lors de l’analyse
de l’enregistrement de violon dans un espace réverbérant.
182 ENVIRONNEMENT ET OUTILS
(a)
(b)
(c)
Figure 9.9 – Tracés générés par pistage de la hauteur dans le domaine fréquentiel
des hauteurs estimées des huit premières mesures de la Partita III de J.-S. Bach. L’axe vertical est
divisé en demi-tons de l’échelle tempérée, de Do 4 à Do 7. L’axe horizontal est le temps. (a) Hauteurs
synthétisées par ordinateur. (b) Enregistrement de studio. (c) Enregistrement réverbérant
(d’après Beauchamp, Maher et Brown, 1993).
Lors d’une étape supplémentaire pour améliorer l’efficacité d’un tel système, les auteurs appliquèrent
le même algorithme à une version des enregistrements de violon qui avaient été assainis par le VPP.
Au cours de sa réduction de données, le VPP élimine certains bruits et crépitements, dont le bruit
de grattement de l’archet et de la réverbération. Lorsque le DH est utilisé sur des versions resynthé-
tisées, son efficacité devient plus précise.
CHAPITRE 9 – RECONNAISSANCE DE LA HAUTEUR 183
✦ Analyse cepstrale
Une méthode de détection de hauteur dans le domaine fréquentiel couramment utilisé dans la
recherche sur la parole est la technique cepstrale, qui a d’abord été utilisée dans l’analyse de la parole
(Noll, 1967 ; Schafer et Rabiner, 1970). L’analyse cepstrale a souvent été appliquée en conjonction
avec la technique de codage prédictif linéaire (CPL), décrite au chapitre 24. Le terme « cepstre » a
été formé en inversant les quatre premières lettres de « spectre ». Une façon simple de décrire le
cepstre est de dire qu’il tend à séparer un composant harmonique fort du reste du spectre. C’est un
modèle raisonnable de nombreux sons vocaux et instrumentaux dont les spectres peuvent être
considérés comme la somme d’une excitation (les impulsions vibratoires originelles, en général à
la hauteur du son) et de résonances (la partie filtrée d’un son créé par le corps d’un instrument ou
par le conduit vocal). Le chapitre 26 sur la synthèse par modèles physiques explique le concept
d’excitation/résonance.
Techniquement, le cepstre est la transformée de Fourier inverse du spectre de Fourier de magnitude
logarithmique (figure 9.10). Il s’agit de la valeur absolue du logarithme (décimal) de la sortie de la
transformée de Fourier discrète.
Signal d'entrée
Échantillons
FFT
Spectre
abs()
Spectre de magnitude
log()
Spectre de magnitude
logarithmique
IFT
Échantillons
© Dunod. Toute reproduction non autorisée est un délit.
Cepstre
Le résultat du calcul cepstral est une séquence temporelle, comme le signal d’entrée lui-même. Si
le signal d’entrée possède une période de hauteur fondamentale forte, elle apparaît dans le cepstre
sous forme de pic. En mesurant la distance temporelle entre le temps 0 et le temps du pic, on trouve
la période fondamentale de cette hauteur (figure 9.11).
Comment fonctionne l’analyse cepstrale pour la parole ? Le cepstre sert à séparer deux spectres
superposés : l’excitation d’impulsion glottale (cordes vocales) et la résonance du conduit vocal.
L’excitation peut être conçue comme une séquence d’impulsions quasi périodiques. La transformée
de Fourier de ces impulsions est un spectre en lignes où les lignes sont espacées aux harmoniques
de la fréquence originelle (voir les lignes étroites entortillées de la figure 9.12). Le fait de prendre
la magnitude logarithmique n’influe pas sur la forme générale de ce spectre. La transformée de
184 ENVIRONNEMENT ET OUTILS
Magnitude
logarithmique
2 kHz 3 kHz
Fréquence
Fourier inverse produit une autre forme d’onde quasi périodique d’impulsions. Au contraire, le
spectre de la réponse du conduit vocal (agissant comme un filtre) est une fonction de fréquence
variant lentement, représentée par la ligne grasse ondulante de la figure 9.12. Le fait d’appliquer la
magnitude logarithmique et la transformée de Fourier inverse produit une forme d’onde ayant une
amplitude significative pendant seulement quelques échantillons, en général moins que la période
de la hauteur fondamentale. On peut voir que la réponse impulsionnelle chute en fonction de 1/n,
puis que son cepstre chute en fonction de 1/n2. Ainsi, le cepstre agglomère la réponse impulsionnelle
en une explosion courte au commencement de l’onde cepstrale, et il agglomère la hauteur en une
série de pics à la période de la fréquence fondamentale (voir la figure 9.11).
Le calcul cepstral possède de nombreuses applications, car il tend à éliminer la réponse impulsion-
nelle de l’excitation. En d’autres termes, le cepstre tend à déconvolver les deux spectres convolvés
(Smith, 1981). Voir le chapitre 5 pour une explication de la convolution. Nous disons bien « tend à »,
car pour des signaux musicaux, la déconvolution est rarement parfaite. Les opérations de magni-
tude logarithmique dans le processus cepstral tendent à agglomérer ces deux composants presque
séparés du spectre. Grâce à des opérations élaborées que nous n’aborderons pas ici, chacun de ces
éléments peut être filtré afin que le cepstre contienne une information spectrale associée soit au
CHAPITRE 9 – RECONNAISSANCE DE LA HAUTEUR 185
timbre, soit à la hauteur. Pour plus de détails, voir Noll (1967) ; Schafer et Rabiner (1970) ; Rabiner
et Gold (1975) ; Rabiner et coll. (1976).
Une autre application du cepstre se trouve dans l’analyse/resynthèse de la parole. L’absence de pic
dans le cepstre indique que le son analysé est dévoisé — c’est-à-dire que c’est une consonne avec
du souffle sans hauteur, comme « f » ou « s », contrairement à une voyelle voisée comme « a ».
Signal d'entrée
Décomposition en bande
de fréquences
© Dunod. Toute reproduction non autorisée est un délit.
Génération de pointes
Modèle du système
Détection d'intervalles
nerveux central
Estimation de hauteur
pointes dans le domaine temporel (Meddis, Hewitt et Schackleton, 1990). Jusqu’à ce moment, le
processus est basé sur des données scientifiques bien connues. L’étape suivante est la partie la plus
spéculative : elle modèle le traitement des pointes entrantes par le système nerveux central. Le but
est de mesurer la période entre les pointes et d’estimer leur intervalle de fréquence maximum ou
hauteur. Ces étapes finales sont une sorte de DH à autocorrélation ou de DH dans le domaine tem-
porel. L’avantage de combiner les méthodes DF et DT de cette façon est que la « contamination »
inharmonique est éliminée lorsque les canaux du domaine fréquentiel sont convertis en pointes
dans le domaine temporel.
9.4.6 Détection de hauteur polyphonique
Toutes les difficultés de la détection de hauteur sont encore augmentées avec un son harmonique
en présence de bruit ou de plusieurs autres sons harmoniques. Voilà la tâche difficile rencontrée
dans la transcription polyphonique, c’est-à-dire la génération d’une partition écrite à partir d’un
signal acoustique. La plupart des théories sur la perception humaine de la hauteur ne s’attachent
qu’à l’écoute d’une seule hauteur. On en sait beaucoup moins sur les mécanismes permettant aux
gens d’entendre en polyphonie.
Les tentatives pour la détection de hauteur polyphonique s’appliquent en général aux techniques
d’analyse dans le domaine fréquentiel à l’intérieur d’un mécanisme de recherche et de décision. La
tâche principale est de séparer les lignes mélodiques individuelles d’un spectre contenant de nom-
breux pics d’amplitude, où ceux-ci peuvent être soit des hauteurs fondamentales, soit des harmo-
niques forts. Afin de déterminer quels pics sont probablement des hauteurs fondamentales, l’analyse
doit examiner les données à partir de différentes perspectives et pondérer les différents facteurs en
estimant les résultats (Moorer, 1975 ; Maher, 1990). Les techniques dérivées de la recherche sur
l’intelligence artificielle sont fréquemment employées, telles que la recherche pilotée par prévision
à travers des listes de fréquences proéminentes. On dit des systèmes qu’ils sont pilotés par prévision
lorsqu’ils utilisent de la connaissance sur le domaine analysé pour piloter la stratégie de recherche
(Moorer, 1975 ; Terhardt, 1982 ; Chafe et coll., 1982, 1985 ; Foster et coll., 1982 ; Strawn, 1980,
1985a, b ; Maher, 1990). Voir la partie sur les systèmes comprenant le signal au chapitre 13. En raison
des algorithmes supplémentaires pour le regroupement de données, pour la recherche, et pour la
prise de décision, le temps de calcul de la détection de hauteur polyphonique est bien supérieur à
celui nécessaire dans le cas de la détection monophonique.
9.4.7 Analyse du contexte musical
Dans de nombreuses situations d’interprétation, il est nécessaire d’aller au-delà de la détection
moyenne de hauteur vers l’analyse de hauteur — l’examen de la mélodie et de l’harmonie dans le
sens le plus large du terme. C’est-à-dire qu’après avoir isolé les hauteurs apparues, que peut-on
dire sur leur signification musicale, qu’implique celle-ci ? Un autre nom de cette tâche est l’analyse
du contexte musical. Un exemple d’analyse du contexte musical est l’identification de la tonalité et
de la clef d’une pièce de musique tonale (Chafe et coll., 1982 ; Holtzman, 1977). À partir de cette ana-
lyse, le but suivant pourrait être d’assigner les noms de notes corrects (Fa dièse ou Sol bémol, par
exemple) pour des besoins de transcription de partition.
Dans les systèmes d’interprétation interactifs, l’ordinateur est censé répondre de façon appropriée
à l’interprète humain. Il doit donc discerner très rapidement le contexte musical. Différents algo-
rithmes pour l’analyse rapide des accords et de la mélodie ont été développés. Ils sont en général
adaptés aux besoins stylistiques des compositeurs qui utilisent le système (Chabot, Dannenberg et
Bloch, 1986 ; Roads, 1985b ; Rowe, 1992a, b). Au-delà de ces algorithmes rapides se tient le vaste
domaine de l’analyse du style musical assistée par ordinateur, un sujet qui dépasse le cadre de ce livre.
Chapitre 10
Reconnaissance du rythme
L’une des pratiques de base acquises dans les conservatoires de musique est de pouvoir jouer des
rythmes écrits en notation musicale traditionnelle. Une pratique apparentée consiste à reconnaître
des rythmes joués, et de les transcrire en notation. Il existe une longue période de pratique entre un
débutant et une personne maîtrisant parfaitement ces pratiques. Transcrire des rythmes de musique
semble être une tâche mécanique de comptage, quelque chose qui serait facile à apprendre à une
machine. Lorsque l’on s’y attache, le problème est beaucoup plus difficile qu’il ne pourrait en avoir
l’air à première vue. De plus, la pratique des dictées rythmiques est en elle-même simplifiée, car
celles-ci sont basées sur la reconnaissance de rythmes liés métriquement. De nombreux rythmes
existent sans une métrique régulière, et n’importe quel type de groupement rythmique (y compris
ceux n’ayant pas de relation métrique simple) peut apparaître à l’intérieur d’une structure métrique.
Le problème global de la reconnaissance du rythme reste donc ouvert. Une bonne introduction à
la théorie du rythme musical se trouve dans Yeston (1976), qui cite des théories plus anciennes, en
commençant par l’Antiquité.
© Dunod. Toute reproduction non autorisée est un délit.
La reconnaissance du rythme d’un signal acoustique par une machine transforme des échantillons
d’entrée en une liste d’événements sonores individuels. Elle assigne à ces événements des valeurs
de durée de note (blanche, noire, etc.), puis groupent les notes en unités musicales plus larges :
groupements de notes, triolets, mesures, et peut-être phrases, tout en déterminant également la
métrique. Ces tâches sont de façon inhérente problématiques, en partie parce que l’interprétation
humaine de partitions musicales n’est jamais parfaitement précise, et également parce que la nota-
tion musicale est ambiguë. C’est-à-dire que des rythmes identiques ou presque similaires peuvent
être écrits de façons différentes. Comme dans la détection de hauteur, un reconnaisseur de rythme
doit ignorer les variations « insignifiantes » afin d’extraire le rythme « essentiel ». Par exemple, il doit
réaliser qu’un léger staccato sur une ronde n’est pas une liaison de blanche-noire-croche-double-
triple-quadruple. Ceci est lié au problème de la quantification dans les séquenceurs, mais ce pro-
blème est bien plus aigu lorsque l’on commence par un signal acoustique, car dans ce cas, le système
doit trouver la liste de notes, alors même que le tempo n’est pas au départ connu.
188 ENVIRONNEMENT ET OUTILS
Les systèmes essayant de segmenter la musique en phrases rythmiques sont embarrassés au départ
par le fait que le concept de « phrase » dépend du contexte et du style. De plus, les musicologues
experts ne sont pas toujours d’accord sur la structure de phrase d’une pièce de musique donnée.
La diversité des méthodes pour la reconnaissance du rythme fait penser à la situation de la détection
de hauteur, avec cependant une différence importante. La recherche en détection de hauteur bénéficie
d’années de mise au point dans le domaine plus large de la parole et du traitement du signal, tandis
que la recherche en reconnaissance de rythme est propre à la communauté musicale. Une exception
est la recherche effectuée par Selfridge et Neisser (1960) pour analyser le code Morse par ordinateur.
Il y a donc eu dans ce domaine moins de recherches et de standardisations. Pour résumer, différentes
tâches et styles de musique nécessitent différentes approches ; et il n’y a donc pas un problème de
la reconnaissance du rythme, mais plusieurs.
Dans le cas du niveau inférieur, l’entrée est un signal acoustique brut qui doit être converti sous forme
numérique puis segmenté en une liste de départs et de fins pour des événements musicaux discrets.
Dans le cas du niveau médian, le flux d’entrée est déjà segmenté et codé, comme dans le cas des
données MIDI provenant d’un clavier. La tâche ici est de convertir la liste de notes en une partition
musicale à partir des données segmentées. L’assignation de notes et le groupement de notes sont
les principales sous-tâches de ce niveau. L’analyse du rythme au niveau supérieur tombe dans le
domaine de la théorie compositionnelle ou de l’analyse de style, selon l’application. Comme la
musique peut être analysée en structures de niveau supérieur de façons innombrables (Roads,
1985d, e), nous ne présenterons ici que les deux premiers niveaux.
(a)
(b)
par les différentes méthodes et pour décider d’une réponse spécifique. Pour plus de détails sur ce
sujet, voir la partie sur les systèmes de compréhension du signal au chapitre 13.
10.4 Transcription
Toute séquence donnée de valeurs de note est par principe infiniment ambiguë, mais cette ambiguïté
est rarement apparente pour l’auditeur. (H.C. Longuet-Higgins, 1976)
La transcription — le niveau médian de la reconnaissance du rythme — débute à partir du moment
où une liste d’événements discrets est assemblée. Les reconnaisseurs de rythme basés sur le MIDI
commencent de ce point. La transcription comprend des sous-tâches de pistage du tempo, d’assi-
gnation de valeur de rythme, de regroupement de note, de détermination de la métrique, d’établis-
sement des limites de mesure, et probablement de tri de la structure de phrase de base. Nous traitons
chacune de ces sous-tâches séparément, mais en pratique elles peuvent très bien interagir.
Le but ultime de la transcription n’est pas nécessairement la préparation d’une partition en vue d’une
impression. Elle peut être effectuée pour analyser des données pour alimenter un programme de
composition interactif, un système d’accompagnement, un programme d’analyse musicologique,
ou un modèle d’écoute musicale. Comme ces buts diffèrent, les méthodes d’analyse de la partition
peuvent être différentes dans chaque cas.
réduire la complexité de cette tâche est de lire une fenêtre de durée finie, par exemple cinq secondes
(Miller, Scarborough et Jones, 1992). Un mécanisme historique ayant une mémoire de forme décli-
nante des pulsations passées suit la même idée (Dannenberg et Mont-Reynaud, 1987 ; Allen et
Dannenberg, 1990). Une mémoire courte ignore les événements passés, permettant des fluctuations
rapides de tempo, mais tend à être instable. Une mémoire longue fixe le tempo, mais ignore les
changements rapides de tempo.
La figure 10.2 montre un pisteur de tempo poursuivant deux stratégies en parallèle. La partie supé-
rieure gauche de la figure 10.2 montre les procédures qui extraient les « événements importants ».
Ceux-ci servent d’ancrages structurels dans la musique. L’heuristique appliquée ici est que les
rythmes ou les accents mélodiques reconnus facilement surviennent normalement à des points
structurellement importants, tels que sur des pulsations fortes. La durée d’un ancrage à l’autre est
donc souvent une relation simple. Comme cela n’est pas toujours vrai, la partie supérieure droite de
la figure 10.2 montre les procédures utilisant une méthode indépendante de pistage des fluctuations
de tempo. Ces modèles recherchent des éléments répétitifs dans les durées successives et effectuent
192 ENVIRONNEMENT ET OUTILS
Recherche
des « événements importants » Recherche de périodicités
Liste Liste
des événements des durées
importants importantes
Unité
de référence
d'estimation
Ancrages Durées
structurels structurelles
d'estimation d'estimation
Pistage
du tempo
Valeurs
de notes
hypothétiques
des statistiques sur les durées les plus fréquentes. Les durées les plus significatives sont en général
en relation simple les unes par rapport aux autres et dans les durées d’ancrage à ancrage. En combi-
nant ces deux approches, les décisions de pistage du tempo sélectionnent une hypothèse raison-
nable au sujet du tempo en cours. La flexibilité de l’approche est montrée en présence des syncopes
— les ancrages se font à contretemps, mais les durées significatives pistent toujours le tempo.
Réciproquement, lorsque les ancrages donnent des indications fortes, des ajustements importants
de tempo sont effectués.
Une autre famille d’approches du pistage du tempo est basée sur les stratégies connectionnistes
(D’Autilia et Guerra, 1991 ; Rowe, 1992a, b). Dans ces systèmes, un réseau de nœuds, représentant
l’étendue temporelle entre deux événements, interagissent les uns les autres. Ils altèrent leurs valeurs
pour devenir des multiples rationnels plus simples les uns par rapport aux autres. Dans l’idéal, ces
valeurs définissent une grille métrique.
CHAPITRE 10 – RECONNAISSANCE DU RYTHME 193
(a)
(b)
une hiérarchie de phrases. Le regroupement des notes par mesures nécessite certaines hypothèses
au sujet de la métrique, et nous aborderons donc ce sujet dans la prochaine partie.
La reconnaissance d’éléments rythmiques est dominée par les techniques de recherche et compa-
raison (Rowe, 1975 ; Mont-Reynaud, 1985b ; Mont-Reynaud, et Goldstein, 1985). Les théories quasi
grammaticales de l’analyse du rythme, telles que celles que l’on trouve dans Lerdahl et Jackendoff
(1983), Longuet-Higgins (1976, 1987), et Longuet-Higgins et Lee (1983) ont servi de guide aux algo-
rithmes d’analyse. Par exemple, Rosenthal (1988) cite cinq règles tirées de Lerdahl et Jackendorff
et présente une traversée étape par étape de ces règles appliquées à des rythmes musicaux simples.
Nous en faisons ici la liste pour donner un exemple de règles de regroupement typiques.
1. Les groupes commencent sur les notes accentuées.
2. Ne pas former de groupes d’un seul événement.
3. Les événements de courte durée tendent à être regroupés avec les événements suivants de
durée longue.
4. Une limite de groupement sépare les événements de durée longue des événements de durée
courte suivants.
5. Les groupes situés au même niveau hiérarchique devraient être aussi égaux que possible en
durée.
Ces théories, doit-on souligner, proviennent de musique écrite, et non nécessairement jouée. Ainsi,
en pratique, de tels algorithmes sont en général embellis par des règles empiriques tirées de l’expé-
rience. Des règles plus compliquées, par exemple, prennent en compte les éléments de hauteur et
d’amplitude afin de résoudre deux hypothèses rythmiques compétitives (Katayose et Inokuchi,
1989 ; Katayose et coll., 1989).
Les méthodes connectionnistes ont été utilisées comme solution de remplacement aux classificateurs
d’éléments basés sur des règles (Desain et Honing, 1989, 1992b, 1992c ; Linster, 1992).
est d’estimer la signature temporelle exacte de la pièce (par exemple, 2/4 et non pas 4/4), ce qui est
le problème rencontré lors de la transcription en partition imprimée.
En raison des ambiguïtés des relations rythmiques, l’estimation de la métrique perçue et la subdi-
vision de la musique en mesures ne sont pas évidentes (Rosenthal 1992). La stratégie de Rosenthal
fut de déployer des agents spécialisés multiples, chacun rassemblant des statistiques sur le placement
et les durées des notes, sur les accents et les éléments caractéristiques de hauteurs et de rythmes.
Chaque agent proposait une hypothèse, et un programme de gestion choisissait parmi les multiples
hypothèses proposées. Il faisait cela en notant que certains agents étaient plus dignes de confiance
que d’autres (et donc, possédaient plus de poids) et que lorsque plusieurs agents étaient d’accord sur
une hypothèse, il y avait des chances pour qu’elle soit correcte. Miller, Scarborough et Jones (1992)
comparent la stratégie basée sur des règles et la stratégie connectionniste dans l’estimation de la
métrique. La première est quelque peu rigide, et ses forces et ses faiblesses sont prévisibles. La stra-
tégie connectionniste, étant plus flexible, peuvent prendre en main des situations qui font échouer
les méthodes basées sur des règles, telles que des estimations en présence de variations de tempo.
Mais parfois l’approche connectionniste fait une estimation vague, ce qui montre la difficulté géné-
rale de la prédiction et de l’interprétation de la sortie des analyseurs connectionnistes.
L’estimation de la signature temporelle exacte est assez difficile, en partie parce que de nombreuses
signatures temporelles peuvent sonner à l’identique. Par exemple, une mélodie donnée peut être
jouée en 1/2, 2/2, 2/4, 4/4, 4/8, 8/8, etc., et sonner de façon identique, à la condition que le tempo
soit ajusté en conséquence. Assigner une signature temporelle propre à un rythme nécessite la con-
naissance du style dans lequel la pièce a été composée. Par exemple, une pièce composée au dix-hui-
tième siècle à Vienne aura beaucoup de chance d’être limitée pour le choix de la signature tempo-
relle. Globalement, le mieux que peuvent faire les programmes actuels est de faire une estimation
culturelle, basée sur le style de la musique. Pour les compositions de musique contemporaine avec
des changements fréquents de signature temporelle, le problème est bien évidemment plus difficile.
Encore une fois, dans les programmes de notation du commerce, la signature temporelle peut être
spécifiée par le musicien, pour que le programme n’ait pas à faire face à ce problème.
10.5 Récupération
De nombreux facteurs peuvent embrouiller un reconnaisseur de rythme : une interprétation irré-
gulière, une ambiguïté rythmique, un passage de faible amplitude où les départs de notes ne sont
pas clairs, ou simplement un trou dans la capacité du reconnaisseur à analyser un type particulier
© Dunod. Toute reproduction non autorisée est un délit.
de passage. Ainsi, un reconnaisseur de rythme pratique doit essayer de récupérer doucement après
un point de confusion, de se rattraper comme le ferait un musicien humain. Ce sujet est complexe,
et les stratégies de récupération dépendent de la tâche effectuée. Comme le soulignent Allen et
Dannenberg (1990), si le système maintient des hypothèses multiples de l’interprétation, il aura en
premier lieu moins tendance à se trouver complètement confus.
Chapitre 11
Analyse spectrale :
méthodes de Fourier
Le musicien créatif ne sera-t-il pas un maître plus puissant s’il est également informé de la science pure
des méthodes et des matériaux de son art ? Ne sera-t-il pas capable de mélanger les couleurs sonores
avec une plus grande habileté s’il comprend la nature des ingrédients et des effets qu’ils produisent ?
(Dayton C. Miller, 1916)
Tout comme une image peut être décrite comme un mélange de couleurs (fréquences dans la partie
visible du spectre électromagnétique), un objet sonore peut être décrit comme un mélange de vibra-
tions acoustiques élémentaires. L’une des façons de disséquer le son est de considérer la contribution
des différents composants, chacun correspondant à un certain taux de variation dans la pression
d’air. Jauger l’équilibre existant entre ces composants s’appelle l’analyse spectrale.
Une définition correcte du spectre est la suivante : « une mesure de la distribution de l’énergie du
signal en fonction de la fréquence ». Une telle définition peut sembler directe, mais il n’existe pas
© Dunod. Toute reproduction non autorisée est un délit.
de définition plus générale et plus précise du spectre. Ceci parce que différentes techniques d’analyse
mesurent des propriétés qu’elles appellent toutes « spectre » avec des résultats plus ou moins diver-
gents. Sauf pour des cas isolés de test, la pratique de l’analyse spectrale n’est pas une science exacte
(voir Marple, 1987, pour une présentation plus approfondie). Les résultats sont typiquement une
approximation du spectre réel, et l’analyse spectrale peut donc plus précisément être appelée esti-
mation spectrale.
L’analyse spectrale évolue rapidement. L’étendue de ce chapitre, bien qu’étant large, ne peut tenir
compte de toutes les approches possibles. Après avoir montré la nature technique de ce sujet, notre
but principal dans ce chapitre sera de faire ressortir le côté musical d’un concept parfois obscur.
198 ENVIRONNEMENT ET OUTILS
(a)
(b)
(c)
© Dunod. Toute reproduction non autorisée est un délit.
La figure 11.1c montre le spectre d’un son vocal « a » sous forme continue, où les points discrets
mesurés par l’analyseur ont été remplis par interpolation graphique. Les composants sinusoïdaux
individuels sont cachés, mais la forme globale du spectre est claire.
Chaque type de tracé spectral statique possède ses propres avantages, selon le signal étant analysé
et le but de l’analyse.
(a) Amplitude
200 ms
Temps
0
0 5 kHz
Fréquence
(b)
Amplitude
200 ms
Temps
0
0 5 kHz
Fréquence
(c)
Amplitude
200 ms
Temps
0
© Dunod. Toute reproduction non autorisée est un délit.
0 5 kHz 16 kHz
Fréquence
Figure 11.2 – Spectres variants dans le temps tracés sur une échelle d’amplitude linéaire.
Le temps se déplace de l’avant vers l’arrière. (a) Sinusoïde à 1 kHz.
(b) Flûte jouant Flatterzunge à une hauteur de Mi 4. (c) Triangle, frappé une fois.
Toute technique d’analyse du son devrait être vue comme l’ajustement des données d’entrée dans
un modèle hypothétique. Les méthodes basées sur l’analyse de Fourier modèlent les sons d’entrée
sous forme d’une somme de sinusoïdes liées harmoniquement — ce qu’elles peuvent être ou non.
D’autres techniques modèlent le signal d’entrée sous forme d’un signal excitateur filtré par des réso-
nances, sous forme d’une somme de sinusoïdes amorties exponentiellement ou d’ondes carrées,
sous forme d’une combinaison de sinusoïdes liées inharmoniquement, sous forme d’un ensemble
de pics formantiques avec ajout de bruit, ou sous forme d’un ensemble d’équations représentant un
202 ENVIRONNEMENT ET OUTILS
(a)
(b)
Figure 11.3 – Images fixes d’affichage en temps réel en « chute d’eau » (waterfall).
(a) Son de trompette synthétique. Le temps se déplace de l’arrière vers l’avant, avec l’instant le
plus récent au premier plan. L’échelle fréquentielle est logarithmique, et placée de gauche à droite.
La fréquence fondamentale est approximativement de 1 kHz. L’amplitude est tracée verticalement sur
une échelle logarithmique en dB. (b) Mélodie vocale. Le temps vient vers le spectateur, avec l’instant
le plus récent au premier plan. Les fréquences graves sont sur la gauche (avec l’aimable autorisation
de A. Peevers, Center for New Music and Arts Technologies, université de Californie, Berkeley).
CHAPITRE 11 – ANALYSE SPECTRALE : MÉTHODES DE FOURIER 203
certain comportement d’un instrument traditionnel. D’innombrables autres modèles sont conce-
vables. Comme nous le verrons plus loin en détail, les variations d’efficacité parmi les différentes
méthodes peuvent souvent être attribuées au niveau de concordance entre le modèle présumé et le
© Dunod. Toute reproduction non autorisée est un délit.
processus analysé. Il est ainsi important de choisir la méthode d’analyse appropriée pour une appli-
cation musicale particulière.
Le spectre et le timbre sont des concepts liés, mais ils ne sont pas équivalents. Le spectre est une
propriété physique qui peut être caractérisée comme une distribution d’énergie en fonction de la
fréquence. Comment mesurer cette énergie précisément est une autre question ! La psychoacous-
tique utilise le terme « timbre » pour désigner les mécanismes perceptuels classifiant le son en
familles. Par cette définition, le timbre a aussi peu à voir avec la perception qu’avec les signaux
sonores. Il est certainement plus facile de parler du timbre dans le royaume des sons vocaux et ins-
trumentaux traditionnels, là où la majeure partie de la recherche du passé s’est étendue. Seules
quelques tentatives ont été faites pour classifier l’univers du son en dehors de cette catégorie, la plus
héroïque d’entre elles étant les études de Pierre Schaeffer (1977). Voir également Schaeffer, Reibel
et Ferreyra (1967).
Un timbre commun groupe les sons joués par un instrument à différentes hauteurs, intensités et
durées. Peu importe les notes que l’instrument joue, car par exemple nous pourrons toujours dire
que c’est un piano. La perception humaine sépare chacun des sons d’un instrument des sons d’un
autre instrument joué à la même hauteur, intensité et durée. Personne n’a beaucoup de problèmes
à séparer un son de marimba d’un son de violon joué à la même hauteur, intensité et durée. Bien sûr,
un seul instrument peut également émettre de nombreux timbres, par exemple le grand nombre
de sonorités obtenues avec des saxophones joués à différentes intensités.
De nombreux facteurs informent sur la perception de timbre. Ceci inclut l’enveloppe d’amplitude
(en particulier la forme d’attaque), les ondulations dues au vibrato et au trémolo, les structures
formantiques, la sonie perçue, la durée, et l’enveloppe spectrale variant dans le temps (contenu fré-
quentiel dans le temps) (Schaeffer, 1977 ; Risset, 1991 ; McAdams et Bregman, 1979 ; McAdams,
1987 ; Gordon et Grey, 1977 ; Grey, 1975, 1978 ; Barrière, 1991).
Lors de l’identification du timbre d’une source instrumentale, la partie d’attaque d’un son est plus
importante perceptuellement que la partie d’état fixe (entretenue) (Luce, 1963 ; Grey, 1975). Les
familles d’instruments traditionnels tels que les anches, les cuivres, les cordes et les percussions
ont chacune des « signatures » d’attaque caractéristiques extrêmement importantes lors de la
reconnaissance des sons qu’ils fabriquent.
L’amplitude et la durée ont une influence sur la perception du timbre. Par exemple, les proportions
de fréquences dans le spectre d’un son de flûte à 60 dB peuvent être équivalentes à celles d’un son
amplifié à 120 dB, mais nous n’entendrons ce dernier que comme une explosion forte. De façon
similaire, une explosion sonore durant 30 ms peut avoir la même forme d’onde périodique qu’un
son durant 30 secondes, mais les auditeurs trouveront difficile de dire si elles représentent la même
source.
La clé est que le spectre n’est pas la seule indication du timbre perçu. En examinant attentivement
la forme d’onde dans le domaine temporel, on peut glaner beaucoup d’informations sur le timbre
d’un son, sans avoir à le soumettre à une analyse spectrale détaillée.
être analysées comme une somme de nombreux signaux simples simultanés. En particulier, Fourier
prouva que toute fonction périodique peut être représentée sous forme d’une addition infinie de
termes sinus et cosinus. En raison de la relation par rapport entier entre les fréquences sinusoïdales
de l’analyse de Fourier, elle devint connue sous le nom d’analyse harmonique. En 1843, Georg Ohm
(1789-1854) de l’Institut Polytechnique de Nuremberg fut le premier à appliquer la théorie de Fourier
aux signaux acoustiques (Miller 1935). Plus tard, le scientifique allemand Hermann von Helmholtz
(1821-1894) devina que le timbre instrumental est largement déterminé par la série harmonique
de Fourier de la partie statique des sons instrumentaux (Helmholtz, 1863). Helmholtz développa
une méthode d’analyse harmonique basée sur des résonateurs mécanico acoustiques.
En traduisant le terme de Helmholtz Klangfarbe (« couleur sonore »), le physicien britannique John
Tyndall inventa le terme Clang-tint pour décrire le timbre comme un « mélange de deux ou plusieurs
sons » et effectua des expériences afin de visualiser les signaux sonores, telles que les « flammes
chantantes » et les « jets d’eau chantants » (Tyndall, 1875).
peut être analysé simultanément dans le domaine temporel et fréquentiel en unités appelées des
quanta — appelés maintenant des grains, ou ondelettes, ou fenêtres, selon le système d’analyse uti-
lisé. Voir le chapitre 22 pour plus de détails sur les grains. Les fenêtres sont présentées plus loin dans
ce chapitre et l’analyse par ondelettes au chapitre 13.
Plusieurs années après, Peter Zinovieff et ses collègues du EMS, à Londres, développèrent un ana-
lyseur/resynthétiseur de Fourier en temps réel hybride (analogique-numérique) pour les sons
musicaux (Grogorno, 1984).
✦ Analyse par filtre hétérodyne
L’étape suivante dans l’analyse informatique des sons musicaux mit en jeu les filtres hétérodynes
(Freedman, 1965, 1967 ; Beauchamp, 1969, 1975 ; Moorer, 1973, 1975). L’approche par filtre hétéro-
dyne est efficace pour résoudre les harmoniques (ou quasi harmoniques) d’une fréquence fonda-
mentale donnée. Ceci implique que la fréquence fondamentale est estimée lors d’une étape précé-
dente d’analyse. Le filtre hétérodyne multiplie une forme d’onde entrante par une sinusoïde ou une
onde cosinus aux fréquences harmoniques puis additionne les résultats sur une courte période
temporelle pour obtenir des données d’amplitude et de phase.
La figure 11.6a montre l’opération de la méthode hétérodyne. Le signal d’entrée est multiplié par
une sinusoïde d’analyse. Dans la figure 11.6a, la fréquence des deux signaux concorde exactement,
et l’énergie est ainsi complètement positive, indiquant une forte énergie à la fréquence d’analyse.
À la figure 11.6b, les deux fréquences ne sont plus identiques, et nous obtenons donc une forme
d’onde qui est fondamentalement symétrique autour de l’axe d’amplitude. Lorsque le filtre hétéro-
dyne additionne cette forme d’onde sur une courte période temporelle, elle s’annule au fond elle-
même.
Après une période d’expérimentation dans les années 1970, les limites de la méthode hétérodyne
devinrent bien connues. Moorer montra que l’approche par filtre hétérodyne est embrouillée par
(a) 1.0
-1.0
Temps
© Dunod. Toute reproduction non autorisée est un délit.
(b) 1.0
-1.0
Temps
les temps rapides d’attaque (moins de 50 ms) et les changements de hauteur (par exemple le glis-
sando, le portamento et le vibrato) supérieurs à deux pour cent (environ un quart de ton). Bien que
Beauchamp (1981) ait implémenté une version pisteuse d’un filtre hétérodyne qui pouvait suivre les
trajectoires de fréquence (similaire dans l’esprit au vocodeur de phase pisteur présenté plus loin),
l’approche hétérodyne a été supplantée par d’autres méthodes.
✦ La saga du vocodeur de phase
L’une des techniques les plus populaires pour l’analyse/resynthèse des spectres est le vocodeur de
phase (VP). James Flanagan et Roger Golden aux Bell Telephone Laboratories développèrent le pre-
mier programme VP en 1966. Il était à l’origine conçu comme une méthode de codage pour
réduire la largeur de bande des signaux parlés. Bien loin de compresser les données audio, le VP cause
une explosion de données ! C’est-à-dire que la quantité de données d’analyse brutes est bien supé-
rieure à la quantité de données du signal d’origine.
Le VP est gourmand en calcul. Les premières implémentations nécessitaient tellement de temps de
calcul que le VP ne fut utilisé dans aucune application pratique pendant des années. Travaillant au
Massachusetts Institute of Technology, Portnoff (1976, 1978) développa un VP relativement efficace,
prouvant qu’il pouvait être implémenté en utilisant la FFT. Il expérimenta des transformations
sonores de la parole telles que la compression et l’expansion temporelle. Ceci conduit à l’article
célèbre de Moorer sur l’application du VP dans la musique informatique (Moorer 1978).
Au cours des années 1970 et 1980, l’analyse spectrale effectuée par un ordinateur produisit des
aperçus significatifs dans la microstructure des sons instrumentaux et vocaux (Moorer, Grey et Snell,
1977 ; Moorer, Grey et Strawn, 1978 ; Piszczalski, 1979a, b ; Dolson, 1983 ; Stautner, 1983 ; Strawn,
1985b). Dans les années 1990, l’analyse spectrale a évolué, passant d’une spécialité technique ésoté-
rique à un outil familier dans le studio du musicien — pour l’analyse, la transcription, et la transfor-
mation du son. Les prochaines parties présentent les différentes formes de l’analyse spectrale,
dont la transformée de Fourier à court terme et le vocodeur de phase. Bien que les méthodes de
Fourier prédominent dans l’analyse spectrale, d’autres méthodes ont gagné du terrain ces derniè-
res années. Nous survolerons donc également ces techniques « sans la méthode de Fourier » au
chapitre 13. Pour un survol technique de l’analyse spectrale écrit dans un style anecdotique, voir
Robinson (1982).
Signal d'entrée
×
Multiplication
par fonction
de fenêtrage
Fonction
de fenêtrage
Segment fenêtré
chaque segment fenêtré, on obtient une séquence de mesures qui constitue un spectre variant dans le
temps.
Le processus de fenêtrage est la source de l’adjectif « à court terme » dans « transformée de Fourier
à court terme ». Malheureusement, le fenêtrage a un effet secondaire de distorsion de la mesure
spectrale. Ceci en raison du fait que l’analyseur spectral ne mesure pas purement le signal d’entrée,
mais plutôt le produit du signal d’entrée et de la fenêtre. Le spectre résultant est la convolution des
spectres des signaux d’entrée et de fenêtre. Nous verrons plus loin les implications de cela. Le chapitre 5
explique la convolution.
Après le fenêtrage, la STFT applique la transformée de Fourier discrète (DFT) sur chaque segment
fenêtré. Nous nous contenterons de dire ici que la DFT est un type d’algorithme de transformée de
Fourier qui peut manipuler des signaux échantillonnés ou discrets dans le temps. Sa sortie est un
spectre discret en fréquence, c’est-à-dire une mesure de l’énergie d’un ensemble de fréquences
spécifiques espacées de façon égale.
La transformée de Fourier rapide ou FFT, mentionnée plus haut dans la partie historique, est sim-
plement une implémentation efficace de la DFT. Ainsi, la plupart des applications pratiques de la STFT
appliquent l’algorithme FFT sur chaque segment fenêtré. La figure 11.8 montre un diagramme de
la STFT.
Chaque bloc de données généré par la FFT est appelé une image, en analogie avec les images suc-
cessives d’un film. Chaque image contient deux choses : (1) un spectre de magnitude qui décrit
l’amplitude de chaque composant fréquentiel analysé, et (2) un spectre de phase qui montre la
valeur de phase initiale pour chaque composant fréquentiel. Tous les tracés des figures 11.1 à 11.4
sont des tracés de spectres de magnitude.
210 ENVIRONNEMENT ET OUTILS
Signal d'entrée
échantillonné
... ...
Fenêtrage
Segment
fenêtré
FFT
Spectre de Spectre
magnitude de phase
Figure 11.8 – Vue globale d’une transformée de Fourier à court terme (STFT).
(a)
(b)
(c)
(d)
Nous pourrions visualiser chacun de ces deux spectres comme des histogrammes où chaque ligne
verticale représenterait chaque composant fréquentiel le long de l’abscisse. La ligne verticale
représente l’amplitude dans le cas d’un spectre de magnitude, et la phase de départ (entre –π et π)
dans le cas d’un spectre de phase (figure 11.9). Le spectre de magnitude est relativement facile à
lire. Lorsque le spectre de phase est « normalisé » à l’intérieur du domaine compris entre –π et π,
il est appelé la représentation de phase enroulée. Pour de nombreux signaux, il apparaît à l’œil sous
forme d’une fonction aléatoire. Une projection de phase non enroulée peut être visuellement plus
compréhensible.
Pour résumer, l’application de la STFT sur un flux d’échantillons d’entrée aboutit à une série d’images
construisant un spectre variant dans le temps.
11.6.3 Resynthèse par superposition-addition des données d’analyse
Pour resynthétiser le signal originel dans le domaine temporel, la STFT peut reconstruire chaque
segment de forme d’onde fenêtré à partir de ses composants spectraux en appliquant la transformée
de Fourier discrète inverse (IDFT) sur chaque image. L’IDFT prend chaque composant de magni-
tude et de phase et génère un signal temporel correspondant ayant la même enveloppe que la fenêtre
d’analyse.
Puis, en superposant et en additionnant ces fenêtres resynthétisées, en général à leurs points –3 dB
(voir le chapitre 24 pour une explication de ce terme), on obtient un signal qui est une approxima-
tion proche du signal originel. La figure 11.10 montre le processus de superposition-addition sous
une forme schématique.
Signal resynthétisé
La resynthèse avec la méthode complète de superposition-addition (OA pour Overlap-Add) est d’une
utilité limitée du point de vue de la transformation musicale. Ceci en raison du fait que le processus
OA est conçu pour le cas où les fenêtres s’additionnent parfaitement d’une constante. Comme l’ont
montré Allen et Rabiner (1977), toute transformation additive ou multiplicative gênant le critère
d’addition parfaite lors de l’étape finale de l’OA provoque des effets secondaires qui seront proba-
blement audibles. L’expansion temporelle, par exemple, en étirant la distance entre les fenêtres,
peut introduire du filtrage en peigne ou des effets de réverbération, selon le nombre de canaux fré-
quentiels ou casiers utilisés lors de l’analyse. En utilisant de la parole ou du chant comme source,
de nombreuses transformations ont pour résultats des voix robotiques ou résonantes, d’utilisation
limitée.
L’une des façons de diminuer ces artefacts non désirés est de stipuler un grand nombre de super-
positions parmi les fenêtres successives lors de l’étape d’analyse, comme cela est expliqué dans la
prochaine partie. La méthode de resynthèse par « superposition-addition améliorée » est une
autre stratégie pour venir à bout de ces problèmes (George et Smith, 1992 ; voir également la des-
cription plus loin dans ce chapitre).
Ces trois raisons expliquent la segmentation, mais pourquoi superposer les fenêtres ? Comme
nous l’avons expliqué plus tôt, les fenêtres lisses en forme de cloche minimisent la distorsion appa-
raissant lors du fenêtrage. Et bien sûr, les fenêtres en forme de cloche doivent se superposer de
quelque façon que ce soit afin de capturer le signal sans coupures. Mais une superposition supé-
rieure à celle dictée par le critère d’addition parfaite est souvent désirable. Comment cela se fait-il ?
Augmenter le facteur de superposition revient à suréchantillonner le spectre, et protège des artefacts
de retournement pouvant survenir dans des transformations telles que l’étirement temporel et la
synthèse croisée. Un facteur de superposition de huit ou plus est recommandé lorsque le but est de
transformer le signal d’entrée.
Nous parlerons plus loin des critères de base pour le choix d’une fenêtre et le réglage de sa longueur.
Enveloppes
de fréquence ...
Enveloppes
d'amplitude ...
Oscillateurs
sinusoïdaux
1 2 3 ... N
© Dunod. Toute reproduction non autorisée est un délit.
...
Unité
de sommation +
Signal de sortie
le critère d’addition parfaite du modèle OA peut être ignoré. Un désavantage de la SAR est qu’elle
n’est pas aussi efficace que les méthodes OA du point de vue du calcul.
Un vocodeur de phase pisteur peut être considéré comme une méthode SAR, car il construit éga-
lement des enveloppes fréquentielles pour la synthèse additive sinusoïdale. Nous parlerons plus en
détail de cette approche dans la partie sur le vocodeur de phase.
à une sinusoïde de durée limitée ! Bien que cette caractéristique de la fréquence simplifie les
mathématiques, elle ne s’accorde pas avec nos expériences les plus basiques du son. Comme Gabor
(1946) l’a montré, si le concept de fréquence n’est utilisé que pour se référer à des signaux infini-
ment longs, alors le concept de changement de fréquence est impossible !
Pourtant, nous comprenons l’un des aspects de la représentation abstraite de Fourier grâce à une
expérience imaginée. En utilisant un éditeur de son, imaginez que nous nous approchions de la limite
du domaine temporel d’un système numérique. Dans le plus court « instant » temporel, nous voyons
un point d’échantillonnage individuel (le rectangle ombragé marqué O dans la figure 11.12a).
Nous savons exactement à quel moment cet échantillon apparaît, et nous avons donc une résolution
temporelle élevée. Mais nous ne voyons pas de quelle forme d’onde il pourrait faire partie ; il pourrait
faire partie d’une onde à n’importe quelle fréquence à l’intérieur du domaine de Nyquist du système.
Lorsque nous nous éloignons (figure 11.12b), nous avons davantage d’échantillons à analyser, et
nous savons donc mieux quelles fréquences ils peuvent représenter. Mais comme l’analyse de Fourier
calcule le spectre d’un segment entier à la fois, les affichages de spectre de longs segments laissent
une incertitude quant à savoir à quel moment une fréquence particulière est apparue. Encore une
fois, la précision fréquentielle n’est possible qu’au prix d’une imprécision temporelle.
La conception de filtre offre davantage d’indications. Souvenez-vous, d’après le chapitre 4, que le
nombre d’étapes de retard influence la pente du filtre. Afin d’isoler une bande très étroite, telle qu’un
seul composant fréquentiel, nous avons besoin de bords extrêmement raides dans la réponse du
filtre. Ceci nécessite de regarder dans le passé lointain du signal afin d’extraire une fréquence pure.
Une autre façon de dire cela est qu’un tel filtre possède une longue réponse impulsionnelle. Voir le
chapitre 4 pour une explication de la réponse impulsionnelle.
✦ Compromis temps/fréquence
La FFT divise l’espace fréquentiel audible en N/2 casiers fréquentiels, où N est la longueur en échan-
tillons de la fenêtre d’analyse. Il existe donc un compromis entre le nombre de casiers fréquentiels
et la longueur de la fenêtre d’analyse (figure 11.13). Par exemple, si N est de 512 échantillons, alors
le nombre de fréquences pouvant être analysées est limité à 256. Si l’on suppose un taux d’échan-
tillonnage de 44,1 kHz, nous obtenons 256 casiers espacés uniformément sur la largeur de bande
entre 0 Hz et la fréquence de Nyquist 22,05 kHz. Augmenter le taux d’échantillonnage ne fait
qu’élargir la largeur de bande mesurable. Cela n’augmente pas la résolution fréquentielle de l’analyse.
© Dunod. Toute reproduction non autorisée est un délit.
Le tableau 11.1 montre l’équilibre en résolution temporelle et résolution fréquentielle. Si nous sou-
haitons une précision temporelle élevée (disons 1 ms ou environ 44 échantillons à un taux d’échan-
tillonnage de 44,1 kHz), nous devons nous satisfaire de 44/2 ou 22 casiers fréquentiels. En divisant
la largeur de bande audio de 0 à 22,05 kHz en 22 casiers fréquentiels, nous obtenons 22,05/22 ou
environ 1 000 Hz de résolution fréquentielle. C’est-à-dire que si nous souhaitons savoir exactement à
quel moment un événement apparaît sur une échelle de 1 ms, alors notre résolution fréquentielle
est limitée à l’échelle grossière de bandes fréquentielles de 1 000 Hz de large. En sacrifiant davantage
de résolution temporelle, et en élargissant l’intervalle d’analyse à 30 ms, on peut apercevoir des fré-
quences à l’intérieur d’une largeur de bande de 33 Hz. Pour une haute résolution en fréquence (1 Hz),
on doit étirer l’intervalle temporel jusqu’à 1 seconde (44 100 échantillons) !
En raison de cette limite dans la STFT fenêtrée, les chercheurs examinent des hybrides d’analyse dans
le domaine temporel et dans le domaine fréquentiel, l’analyse multirésolution, ou des méthodes
autres que celles de Fourier, afin de tenter de résoudre les deux dimensions à de hautes résolutions.
Les prochaines parties présentent ces approches.
216 ENVIRONNEMENT ET OUTILS
(a) 1.0
10 µsec
0.5
o
Amp. 0
-0.5
-1.0
Temps
0.5
Amp. 0
-0.5
-1.0
Temps
1 2
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Échantillons d'entrée
1 2 3 4 5 6 7 8
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Échantillons d'entrée
1 1 000
2 500
3 330
10 100
20 50
30 33
100 10
200 5
300 3
1 000 (1 s) 1
2 000 0,5
3 000 0,3
218 ENVIRONNEMENT ET OUTILS
(a)
f = 2 Hz
1 2 3 4 5 6 7 8 9
(b)
f = 2.5 Hz
(c)
f = 3 Hz
Mag.
Fréquence
La fuite des composants situés entre les casiers dans tous les casiers d’analyse est une source connue
de manque de fiabilité des estimations spectrales produites par la STFT. Lorsque plus d’un compo-
sant est situé entre les casiers, des effets de battement (annulation et renforcement périodiques)
peuvent apparaître dans les tracés de fréquence et d’amplitude. Le résultat est que l’analyse montre
CHAPITRE 11 – ANALYSE SPECTRALE : MÉTHODES DE FOURIER 219
une énergie fluctuante dans des composants fréquentiels qui ne sont pas physiquement présents
dans le signal d’entrée.
✦ Signification des échos parasites
Si le signal est resynthétisé directement à partir des données d’analyse, les composants fréquentiels
externes et les effets de battement ne posent aucun problème ; ils constituent des artefacts bénins
de l’analyse STFT qui sont résolus dans la resynthèse. Les effets de battement sont globalement la
façon dont la STFT représente un spectre variant dans le temps dans le domaine fréquentiel. Lors
de la resynthèse, certains composants s’ajoutent par construction et d’autres s’ajoutent par destruc-
tion (ils s’annulent les uns les autres), pour que le résultat resynthétisé soit une approximation pro-
che du signal originel. Encore une fois, il s’agit en théorie d’une identité, mais de petites erreurs se
glissent dans les applications pratiques.
Le battement et les autres anomalies sont inoffensifs lorsque le signal est directement resynthétisé,
mais ils gênent les tentatives d’inspections visuelles du spectre, ou ils le transforment. Pour cette
raison, les artefacts de l’analyse sont appelés échos parasites. Dolson (1983) et Strawn (1985a) testent
la signification des échos parasites dans l’analyse de sons d’instruments de musique. Gerzon (1991)
présente une théorie d’analyseurs spectraux à « superrésolution » qui permettent d’améliorer la
résolution temporelle et fréquentielle, au prix d’un nombre d’échos parasites plus élevé, qui selon
Gerzon, possèdent une certaine signification perceptuelle.
11.6.9 Techniques de resynthèse alternatives
Deux solutions de remplacement aux techniques standards de resynthèse méritent ici une brève
mention. La première est une méthode adaptative qui offre une résolution améliorée et des transfor-
mations plus robustes ; la seconde offre une vitesse de resynthèse beaucoup plus rapide.
L’analyse-par-synthèse/superposition-addition (ABS/OLA) raffine la STFT avec resynthèse par super-
position-addition en incorporant une procédure d’analyse d’erreur (George et Smith, 1992). Cette
procédure compare le signal originel avec le signal resynthétisé. Lorsque l’erreur dépasse un certain
seuil donné, la procédure ajuste les amplitudes, les fréquences et les phases dans l’image d’analyse
afin de se rapprocher du signal originel. Ce processus adaptatif peut apparaître de façon répétée
jusqu’à ce que le signal soit plus ou moins précisément reconstruit. La méthode ABS/OLA peut donc
ainsi gérer les transitoires d’attaque, les spectres inharmoniques, et des effets tels que le vibrato
avec une précision supérieure à la méthode par superposition-addition. Elle permet également des
transformations musicales plus robustes. Comme nous le verrons plus loin, une méthode appelée
© Dunod. Toute reproduction non autorisée est un délit.
(a)
(b)
© Dunod. Toute reproduction non autorisée est un délit.
(c)
3. Taille de FFT — nombre réel d’échantillons envoyés dans l’algorithme FFT ; en général, la plus
proche puissance de deux qui soit le double de la taille d’image, où l’unité de la taille de FFT
utilisée est le point, comme dans « FFT de 1 024 points » (équivalent de « FFT de 1 024 échan-
tillons »).
4. Taille de saut ou facteur de superposition — avance temporelle d’une image à l’autre.
Nous présentons maintenant chaque paramètre l’un après l’autre. Puis dans la partie suivante,
nous donnerons des règles empiriques pour le réglage de ces paramètres.
✦ Taille d’image
La taille d’image (en échantillons) est un facteur important pour deux raisons. La première est qu’elle
détermine un aspect du compromis dans la résolution temps/fréquence. Plus la taille d’image est
grande, plus le nombre de casiers fréquentiels est élevé, mais plus faible est la résolution temporelle,
et vice-versa. Si nous tentons d’analyser des sons dans les octaves les plus basses avec une grande
précision fréquentielle, de grandes tailles d’images sont inévitables. Comme la FFT calcule le contenu
spectral moyen à l’intérieur d’une image, le temps de départ de tous les changements spectraux à
l’intérieur d’une image est perdu lorsque le spectre est tracé ou transformé. Si le signal est simple-
ment resynthétisé, l’information temporelle est restaurée. Pour les sons de hautes fréquences, de
petites images suffisent, qui sont également plus précises en résolution temporelle.
La seconde raison pour laquelle la taille d’image est importante est que les grandes FFT sont plus
lentes à calculer que les petites FFT. Selon la règle empirique qui veut que le temps de calcul d’une
FFT est proportionnel à N × log2(N), où N est la longueur du signal d’entrée (Rabiner et Gold,
1975), il faut par exemple plus de mille fois plus de temps pour calculer une FFT de 32 768 points
qu’une FFT de 64 points. Le temps de latence d’une longue FFT peut être trop coûteux dans un sys-
tème en temps réel.
✦ Type de fenêtre
La plupart des VP permettent la possibilité d’utiliser l’un des types d’une famille de fenêtres stan-
dards, dont la Hamming, la Hanning (ou Hann ; voir Marple, 1987), la gaussienne tronquée, la
Blackman-Harris et la Kaiser (Harris, 1978 ; Nuttall, 1981). Toutes sont quasiment en forme de
cloche, et toutes fonctionnent relativement bien pour l’analyse/resynthèse musicale. Pour des
analyses où la précision est importante (par exemple pour cataloguer systématiquement des spectres
pour des sons instrumentaux), le choix de la fenêtre d’analyse peut être plus critique. Ceci parce que
© Dunod. Toute reproduction non autorisée est un délit.
le fenêtrage introduit de la distorsion, et que chaque type de fenêtre « courbe » les tracés d’analyse
de façon légèrement différente.
✦ Taille de FFT et remplissage par des zéros
Le choix de la taille de FFT dépend de la transformation que l’on prévoit d’appliquer au son d’entrée.
Un cas sûr pour la synthèse croisée est la plus proche puissance de deux du double de la taille
d’image. Par exemple, une taille d’image de 128 échantillons prescrirait une taille de FFT de 256. Les
autres 128 échantillons de la FFT sont mis à zéro — un processus appelé remplissage par des zéros.
✦ Taille de saut
La taille de saut est le nombre d’échantillons que l’analyseur saute, le long de la forme d’onde d’entrée,
à chaque fois qu’il effectue une nouvelle mesure spectrale (figure 11.16). Plus elle est courte, plus les
fenêtres successives se superposent. Ainsi, certains VP spécifient ce paramètre comme un facteur
de superposition qui décrit combien de fenêtres d’analyse se superposent. En dehors de la façon
224 ENVIRONNEMENT ET OUTILS
dont elle est spécifiée, la taille de saut est en général une fraction de la taille d’image. Une certaine
quantité de superposition (par exemple huit fois) est nécessaire pour s’assurer d’une resynthèse
précise. Davantage de superpositions peuvent améliorer la précision lorsque les données d’analyse
vont être transformées, mais le coût en calcul est proportionnellement plus grand.
4. Taille de saut — si les données d’analyse vont être distordues temporellement, la taille de saut
recommandée est le huitième de la taille d’image, en échantillons (par exemple, superposition
fois huit). En général, le critère technique minimum est que toutes les fenêtres s’ajoutent par
une constante, c’est-à-dire que toutes les données sont pondérées de façon égale. Ceci implique
typiquement une superposition au point –3 dB du type particulier de fenêtre choisie, à partir
de laquelle on peut trouver la taille de saut.
espacés de façon égale (l’implémentation traditionnelle de la STFT). L’autre bénéfice est que le pro-
cessus de pistage crée des enveloppes de fréquence et d’amplitude pour ces composants, ce qui les
rend plus robustes dans une transformation que les images superposées-additionnées. Un désavan-
tage est que la qualité d’analyse peut dépendre de façon plus prononcée des réglages de paramètres
appropriés que dans la STFT normale.
✦ Opération du VPP
5. Assigne chaque piste à une piste fréquentielle en concordant les pics de l’image précédente
avec ceux de l’image courante (voir la description du pistage de pic plus loin).
6. Applique n’importe quelle modification désirée aux paramètres d’analyse.
7. Si une resynthèse additive est demandée, il génère une sinusoïde pour chaque piste fréquen-
tielle et additionne tous les composants sinusoïdaux pour créer un signal de sortie ; l’ampli-
tude, la phase et la fréquence instantanées de chaque composant sinusoïdal sont calculées
en interpolant des valeurs d’une image à l’autre (ou en utilisant les méthodes de resynthèse
alternatives expliquées plus tôt).
✦ Pistage de pic
Le vocodeur de phase pisteur suit les trajectoires fréquentielles les plus proéminentes dans le spectre.
Comme d’autres aspects de l’analyse du son, la méthode précise de pistage de pic devrait dépendre
du son. L’algorithme de pistage travaille mieux lorsqu’il est accordé au type de son analysé
— parole, spectre harmonique, spectre inharmonique lisse, bruiteux ; etc. Cette partie explique
brièvement le pistage sous forme d’un guide pour le réglage des paramètres d’analyse.
La première étape dans le pistage de pic est l’identification de celui-ci. Un contrôle simple établissant
la hauteur de pic minimale concentre le processus d’identification sur les régions les plus significa-
tives du spectre (figure 11.17a). Le reste de l’algorithme tente d’appliquer un ensemble de guides
fréquentiels avançant dans le temps (figure 11.17b). Les guides ne sont que des hypothèses ; l’algo-
rithme décidera plus tard quels guides sont confirmés comme pistes fréquentielles. L’algorithme
continue les guides en trouvant le pic le plus proche en fréquence de sa valeur courante. Les alter-
natives sont les suivantes :
• S’il trouve une concordance, le guide continue.
• Si un guide ne peut être continué au cours d’une image, il est considéré comme « endormi ».
• Si le guide ne se réveille pas après un certain nombre d’images — qui peut être spécifié par
l’utilisateur —, il est effacé. Il est possible d’activer une hystérésis de guide qui continue à
pister un guide situé légèrement en dessous d’un domaine d’amplitude spécifié. L’hystérésis
adoucit le problème audible des guides « basculants » qui descendent légèrement en dessous
du seuil, sont coupés par le pisteur de pics, puis réapparaissent (Walker et Fitz, 1992). Avec
l’hystérésis, le guide est synthétisé à sa valeur réelle, qui peut être inférieure au domaine
d’amplitude, au lieu d’être synthétisé avec une valeur d’amplitude nulle.
• S’il existe un conflit entre des guides, le guide le plus proche gagne, et le « perdant » cherche
un autre pic à l’intérieur d’une déviation de pic maximale, une largeur de fréquence spécifiée
par l’utilisateur.
• Si certains pics ne sont pas pris en compte par les guides courants, un nouveau guide apparaît.
Le processus de fenêtrage peut compromettre la précision du pistage, particulièrement dans les
formes d’onde se déplaçant rapidement telles que les transitoires d’attaque. Traiter les sons ayant
une attaque raide avec un ordre temporel inversé aide l’algorithme de pistage (Serra, 1989). Ceci
donne une chance aux pisteurs de partiels de s’accrocher aux trajectoires fréquentielles stables avant
de rencontrer le chaos de l’attaque, ce qui aboutit à moins de distorsion. Les données peuvent être
de nouveau inversées en ordre normal avant resynthèse.
La prochaine partie explique l’étape 6, la modification des enveloppes d’analyse VPP.
CHAPITRE 11 – ANALYSE SPECTRALE : MÉTHODES DE FOURIER 227
(a)
• •
• • •
• • • • • • •
• •
• • •
Fréq. • •
• •
Temps
Trame
courante
(b)
1 • ×Effacé
2 • • • •
Endormi
3• • • • •Actif • •
5
•Nouveau
•
Fréq. • • •
• •Actif •
4 •
Trames
(a) Isolation d’un ensemble de pics spectraux. (b) Alignement des guides fréquentiels sur les pics.
Le Guide 1 du haut ne s’est pas réveillé après trois trames, et il est donc effacé. Le Guide 2 est
toujours endormi. Les Guides 3 et 4 sont actifs. Le Guide 5 commence à partir d’un nouveau pic.
Gordon et Strawn, 1985). Ce processus laborieux de transmutation est grandement aidé par des
procédures automatiques de réduction de données et des programmes d’édition graphiques.
Voir le chapitre 19 pour plus d’informations sur la réduction de données en synthèse additive.
Le tableau 19.1 du chapitre 19 fait une liste des effets musicaux rendus possibles en modifiant les
données spectrales VP.
(Strawn, 1987a ; Gish, 1978, 1992 ; Serra, 1989). On peut considérer ce résiduel ou cette différence
comme l’erreur d’analyse/resynthèse. Il est commun de se référer à la partie quasi harmonique
resynthétisée comme la partie « propre » du signal et à l’erreur ou au composant bruiteux comme
la partie « sale » du signal. Pour de nombreux sons (ceux ayant des transitoires rapides comme les
cymbales), les erreurs sont relativement audibles. C’est-à-dire que le signal « propre » sonne arti-
ficiellement « assaini » ou sinusoïdal, et que le signal « sale », lorsqu’il est entendu séparément,
contient les impuretés manquantes. Voir la partie sur l’analyse de sons inharmoniques et bruiteux
plus loin.
Par souci d’efficacité, certains VP possèdent une option d’écartement d’information de phase, ne
sauvegardant que les données d’amplitude et de fréquence. Ceci aboutit à une réduction de données
et à des économies correspondantes de temps de calcul, mais dégrade également la précision de la
resynthèse. En absence des données de phase appropriées, une forme d’onde resynthétisée ne res-
semble pas au signal originel, bien qu’il ait le même contenu fréquentiel de base (Serra, 1989). Dans
certains sons fixes, un réarrangement des phases peut ne pas être audible. Mais pour une repro-
duction haute qualité des sons transitoires et quasiment fixes, les données de phase aident à rassem-
bler les composants changeants et de courte durée dans l’ordre approprié, et sont donc importantes.
11.8.9 Sons problématiques
Le VP traite mieux les sons harmoniques, statiques ou changeants lentement. Des transformations
telles que la compression et l’expansion temporelle sur ces sons donnent des effets sonnants naturel-
lement. Certains sons, cependant, sont de façon inhérente difficiles à modifier avec les techniques
VP. Parmi ceux-ci, les sons bruiteux tels que les voix rauques ou comportant du souffle, les moteurs,
tout son changeant rapidement sur une échelle temporelle de quelques millisecondes, et les sons
contenant du bruit de salle. Les transformations sur ces types de sons peuvent donner des échos, des
battements, des résonances non souhaitées et des effets de réverbération colorés. Ils sont principale-
ment dus aux distorsions de phase apparaissant lorsque les données d’analyse sont transformées.
11.8.10 Analyse de sons inharmoniques et bruiteux
Des démonstrations prouvent que les vocodeurs de phase pisteurs peuvent analyser et resynthétiser
de nombreux sons inharmoniques, dont les chants d’oiseaux (Serra et Smith, 1990), et des sons de
percussion accordés (gongs, marimba, xylophone, etc.). Mais comme le VPP est basé sur l’analyse
de Fourier, il doit traduire les signaux inharmoniques et bruiteux en combinaisons de fonctions
sinusoïdales périodiques. Particulièrement pour les signaux bruiteux, ceci peut être un processus
© Dunod. Toute reproduction non autorisée est un délit.
coûteux en stockage et en temps de calcul. Synthétiser une simple bande bruiteuse, par exemple,
nécessite un amalgame changeant constamment de douzaines de sinusoïdes. Stocker les fonctions
de contrôle de ces sinusoïdes remplit une grande quantité d’espace. Dans certains VPP, cela peut
prendre jusqu’à dix fois le nombre d’octets des échantillons sonores originels. Resynthétiser les
sinusoïdes demande une quantité énorme de calcul. De plus, comme les transformations permises
par le VPP sont basées sur un modèle sinusoïdal, les opérations sur les sons bruiteux donnent souvent
des clusters de sinusoïdes qui ont perdu leur qualité bruiteuse.
✦ Techniques déterministes et stochastiques
Pour gérer de tels signaux, le VPP a été amélioré pour le rendre plus efficace dans les applications
musicales. Serra (1989) ajouta du bruit filtré au modèle sinusoïdal inharmonique dans la synthèse
par modèles spectraux (SMS). Voir également le chapitre 19 et Serra et Smith (1990). Comme le montre
la figure 11.18, la SMS réduit les données d’analyse en un composant déterministe (composants de
bande étroite proéminents du son originel) et un composant stochastique. Le composant détermi-
230 ENVIRONNEMENT ET OUTILS
STFT
Spectre de magnitude
Pistage de pics
Enveloppes de magnitude
et de fréquence
Synthèse additive
Signal resynthétisé
STFT
Spectre de magnitude
du signal resynthétisé
− Résidu
Estimation Générateur
d'enveloppe spectrale de bruit
pseudoaléatoire
Enveloppes Phase
spectrales aléatoire
Génération
de spectre complexe
Spectre complexe
ISTFT
Signal Signal
déterministe stochastique
niste piste les composants fréquentiels les plus proéminents dans le spectre. La SMS resynthétise
ces fréquences pistées avec des sinusoïdes. Le pistage ne suit que les composants fréquentiels les
plus proéminents, écartant le reste de l’énergie dans le signal. Ainsi, la SMS analyse également le
résidu (ou résiduel), qui est la différence entre le composant déterministe et le spectre originel. Ceci
est utilisé pour synthétiser le composant stochastique du signal. Le résiduel est analysé et approximé
par une collection d’enveloppes spectrales simplifiées. On peut concevoir la resynthèse comme le
passage de bruit blanc à travers des filtres contrôlés par ces enveloppes. Dans cette implémentation,
CHAPITRE 11 – ANALYSE SPECTRALE : MÉTHODES DE FOURIER 231
cependant, la SMS utilise des sinusoïdes ayant des valeurs de phase aléatoires, ce qui est équivalent
à l’interprétation du bruit filtré.
La représentation SMS, utilisant des enveloppes spectrales et des sinusoïdes, plutôt qu’une banque
de filtres, rend plus facile la modification de la partie stochastique afin de transformer le son. Les
opérations graphiques sur les enveloppes sont intuitives pour un musicien, tandis que les changements
de coefficients de filtrage conduisent à des complications techniques. Un problème avec la SMS est
que le lien perceptuel entre les parties déterministes et stochastiques est délicat ; éditer les deux
parties séparément peut conduire à une perte de fusion perçue entre eux.
© Dunod. Toute reproduction non autorisée est un délit.
Chapitre 12
12.1 Fondamentaux
12.1.1 Théorie de l’approximation
Les ordinateurs possèdent une mémoire limitée d’où une précision finie, et sont donc incapables
d’acquérir ou de reconstruire exactement des signaux ou des données du monde réel. Le succès
des ordinateurs dépend donc de façon cruciale de l’approximation. La théorie de l’approximation
(Hamming, 1987 ; Christensen et Christensen, 2004) fournit des méthodes et des garanties théo-
riques pour exprimer des signaux du monde réel à partir d’une précision finie. Approximer un
signal implique de le décomposer en un nombre fini de fonctions.
Par exemple, l’analyse de Fourier montre comment nous pouvons exprimer un signal y(t) — à la
condition qu’il satisfasse à des conditions particulières — en utilisant un nombre infini de
sinusoïdes :
234 ENVIRONNEMENT ET OUTILS
∞ ∞
∫
i2πft
y(t) = Y ( f )e df = ∫ Y ( f ) ( cos 2πft + i sin 2πft ) df
–∞ –∞
où Y(f) est l’amplitude complexe de la sinusoïde de fréquence f (en Hz). Comme nous ne pouvons
pas évaluer cette expression avec une mémoire finie, nous devons choisir quelles sinusoïdes
conserver parmi le nombre infini de sinusoïdes. L’expression exacte de y(t) ci-dessus devient donc
une approximation utilisant un nombre fini N de sinusoïdes :
N
y(t) ≈ ∑ an cos ( 2πfn t + ϕn )
n=1
où an est l’amplitude réelle de la sinusoïde ayant une fréquence de fn (en Hz), et une phase de ϕn
(en radians). La théorie de l’approximation nous indique quelles N sinusoïdes conserver pour
garantir que notre approximation de y(t) possède la précision désirée.
Il existe de nombreuses autres façons par lesquelles nous pouvons décomposer, et donc approxi-
mer notre signal y(t). Par exemple, la décomposition de Fourier ci-dessus utilise des sinusoïdes
qui existent pendant une durée infinie. L’analyse de Fourier à court terme par contre décompose
un signal sous forme d’une somme de sinusoïdes « localisées dans le temps », ou de sinusoïdes qui
existent pendant une durée finie à un moment spécifique. Dans un cas extrême, nous pouvons
réduire la durée d’une sinusoïde pour qu’elle devienne un seul dirac à un endroit donné du temps.
Lorsque nous décomposons un signal en utilisant une collection de diracs espacés de façon uni-
forme dans le temps, nous effectuons fondamentalement un échantillonnage uniforme dans le
domaine temporel. Le théorème de Nyquist est alors une conséquence de la théorie de l’approxima-
tion, qui nous guide lorsque nous espaçons ces diracs dans le temps afin que nous puissions
reconstruire le signal analogique à partir de sa décomposition « dirac ». L’analyse par ondelettes
fournit d’autres décompositions (Mallat, 2009).
n’importe quelle séquence de longueur N sous forme d’une somme unique dans la base sinusoïde
ou la base dirac.
Lorsque nous combinons des collections de fonctions, telles que la base sinusoïde avec la base
dirac, nous formons une collection plus grande nommée un dictionnaire (Mallat, 1993 ; Elad,
2010). Nous appelons chaque élément de la collection un atome. La décomposition d’un signal sur
un dictionnaire est nommée décomposition atomique (Chen et coll., 1998 ; Donoho et Huo, 2001).
Lorsqu’un dictionnaire contient plus d’atomes que nécessaire pour représenter n’importe quel
signal dans l’espace couvert par les atomes, nous nommons le dictionnaire surcomplet. Une base
est nommée complète. Fondamentalement, un dictionnaire surcomplet produit un nombre infini
de décompositions possibles d’un signal.
Une métaphore utile d’un dictionnaire et d’une décomposition atomique est la suivante (Mallat,
1993) : chaque atome d’un dictionnaire peut décrire une structure spécifique dans un signal. Cer-
tains atomes ont des significations similaires, et d’autres sont sans rapport. Lorsque nous aug-
mentons le nombre d’atomes dans un dictionnaire, nous enrichissons le vocabulaire avec lequel
nous pouvons décrire un signal de manière significative. La décomposition atomique d’un signal
sur un dictionnaire implique donc de trouver les atomes qui le décrivent ou l’expliquent « le
mieux » pour les buts que nous recherchons.
Pour rendre ces explications plus concrètes, considérons les bases sinusoïde et dirac ci-dessus.
Nous pouvons voir qu’elles fournissent des informations complètement différentes sur un signal.
Une séquence de longueur finie décomposée sur la base sinusoïde nous donne des indications à
propos de son contenu fréquentiel — quelles fréquences sont présentes ou absentes dans le
signal —, mais rien à propos de son contenu temporel — quels diracs sont présents ou absents
dans le signal. Au contraire, une séquence de longueur finie décomposée sur la base dirac fournit
des informations à propos de son contenu temporel, mais aucune information à propos de son
contenu fréquentiel. Du coup, lorsque nous souhaitons décomposer un signal sur une base, nous
devons décider quelles informations nous voulons, par exemple fréquence ou temps, puis choisir
la base appropriée. Cependant, que se passe-t-il si notre signal possède certaines structures de
type sinusoïdales et certaines structures de type dirac, comme nous le voyons en haut à gauche de
la figure 12.1 (voir plus loin) ? Exprimer ce signal dans une seule base peut limiter notre analyse ;
cependant, nous pouvons combiner les bases sinusoïde et dirac pour former un dictionnaire, puis
décomposer le signal sur cette collection de fonctions plus grande.
Lorsque nous combinons de nombreuses bases pour former un dictionnaire, nous augmentons la
© Dunod. Toute reproduction non autorisée est un délit.
richesse potentielle de nos décompositions, mais nous détruisons également l’unicité de la décom-
position. Avec une base, il existe une et une seule décomposition d’un signal. Si nous combinons
deux bases, nous avons alors un nombre infini de décompositions possibles. Ceci peut ajouter une
complexité considérable au processus de décomposition, car le problème devient de trouver la
« meilleure » décomposition parmi un nombre infini de possibilités. Nous devons donc définir ce
que nous voulons dire par « meilleure ».
(Lewicki, 2002 ; Smith et Lewicki, 2005). La deuxième qualité importante de « meilleure » est
l’erreur d’approximation, c’est-à-dire l’éloignement de notre approximation par rapport au signal
original. Nous souhaitons trouver une approximation qui est précise.
Du coup, la « meilleure » décomposition atomique est celle qui utilise le plus petit nombre d’ato-
mes, mais produit le moins d’erreurs. La parcimonie et l’erreur d’approximation, cependant, sont
en désaccord l’une avec l’autre. Afin de créer une approximation précise d’un signal, nous pouvons
avoir besoin d’utiliser un grand nombre d’atomes ; mais pour créer une décomposition très parci-
monieuse, nous pouvons avoir besoin d’accepter une grande quantité d’erreurs. Le nombre de
façons dont nous pouvons gérer ce compromis, et les complexités de calculs impliquées motivent
la création de nombreux algorithmes pour la décomposition atomique du signal. Dans la partie
suivante, nous présentons une vue globale des deux classes principales de méthodes.
12.2 Méthodes
Il existe deux classes principales de méthodes de décomposition parcimonieuse. Tout d’abord, la
décomposition gloutonne décompose de façon itérative un signal jusqu’à ce que certains critères
fixés à l’avance soient rencontrés. Ces méthodes requièrent des calculs simples, mais peuvent
échouer à produire des solutions « idéales ». La deuxième classe principale de méthodes, l’optimi-
sation, pose le problème de décomposition sous forme d’une minimisation de certaines fonctions
en fonction de contraintes données. Ces méthodes requièrent des calculs complexes, mais peuvent
produire des solutions qui sont plus parcimonieuses et précises que les méthodes gloutonnes.
Kereliuk et Depalle (2011) proposent un examen plus approfondi de ces méthodes pour le
domaine audio.
Certaines méthodes gloutonnes tentent de tirer avantage d’une connaissance antérieure du signal.
Par exemple, la poursuite adaptative harmonique (Gribonval et Bacry, 2003) utilise un diction-
naire d’atomes qui peut modéliser de façon efficace un contenu harmonique. La poursuite adapta-
tive moléculaire (Daudet, 2006) modélise des structures tonales et transitoires en construisant des
« molécules » d’atomes pendant la décomposition. La poursuite adaptative stéréo (Gribonval,
2002) tire avantage de correspondances entre les canaux audio. Ces méthodes permettent de cons-
© Dunod. Toute reproduction non autorisée est un délit.
truire des représentations riches de sens et des moyens pour accéder à leur contenu (voir section
12.3 « Applications »).
Un gros avantage des méthodes de décomposition gloutonne est qu’elles ne requièrent que des cal-
culs simples. Les dictionnaires peuvent avoir des milliards d’atomes, et peuvent même être virtuel-
lement illimités (Goodwin, 1997 ; Goodwin et Vetterli, 1999 ; Gribonval, 1999, 2001). Le Matching
Pursuit Toolkit (Krstulovic et Gribonval, 2006) fournit une bibliothèque logicielle gratuite pour la
décomposition de signaux audio enregistrés sur des dictionnaires définis par l’utilisateur.
Un désavantage des méthodes gloutonnes est qu’elles ne considèrent pas la solution globale. Un
algorithme glouton sélectionne chaque atome sur la base de sa similarité au résidu, quel que soit
ce qui a été sélectionné auparavant et ce qui sera sélectionné par la suite. S’il sélectionne mal un
atome, il peut alors sélectionner de nombreux autres atomes pour corriger la faute, ceux-ci ne ser-
vant plus à modéliser quoi que ce soit dans le signal (Sturm et coll., 2008 ; Sturm, 2009 ; Sturm et
Shynk, 2010). Les méthodes gloutonnes peuvent donc échouer à produire le « meilleur » modèle
en ce qui concerne la parcimonie et l’erreur d’approximation désirée.
238 ENVIRONNEMENT ET OUTILS
12.2.2 Optimisation
Les méthodes d’optimisation sont extrêmement importantes dans divers domaines (Boyd et
Vandenberghe, 2004). Par exemple, une société peut souhaiter trouver une façon de maximiser
son profit en fonction d’une quantité finie de ressources. Ou un service de livraison peut souhaiter
minimiser les coûts en carburant tout en maximisant le nombre de livraisons effectuées. Pour la
décomposition parcimonieuse, nous pouvons appliquer des méthodes d’optimisation pour pro-
duire des solutions en équilibrant simultanément les besoins pour la parcimonie et l’erreur
d’approximation. Nous pouvons définir le problème comme étant de trouver une approximation
d’un signal en utilisant pas plus d’un certain nombre d’atomes, tout en produisant la plus petite
erreur d’approximation possible. Ou d’une autre façon, nous pouvons définir le problème comme
étant de tenter de trouver l’approximation d’un signal qui est située à l’intérieur d’une certaine
erreur d’approximation, en utilisant le plus petit nombre d’atomes. Résoudre ces problèmes
requiert en fait des calculs qui ne sont pas réalisables (Davis et coll., 1997), mais tout devient beau-
coup plus facile si nous assouplissons la contrainte de parcimonie en la remplaçant par une fonc-
tion qui favorise la parcimonie, mais aide aux calculs, par exemple la somme des magnitudes de
tous les atomes sélectionnés dans un dictionnaire plutôt que le compte des atomes sélectionnés
(Chen et coll., 1998).
Le principe de débruitage de poursuite de base (Chen et coll., 1998) pose le problème de l’optimi-
sation comme le fait de minimiser l’erreur au carré en fonction d’une contrainte sur la somme des
magnitudes des atomes sélectionnés. Ceci peut être résolu par des méthodes d’optimisation
convexes (Tibshirani, 1996 ; Chen et al., 1998 ; Boyd et Vandenberghe, 2004 ; Figueiredo et coll.,
2007 ; Elad, 2010). Se démarquant des méthodes gloutonnes, les méthodes d’optimisation conve-
xes, sur le fond, « réduisent » ou raffinent une solution plutôt qu’elles ne la construisent (Chen et
coll., 1998). La complexité nécessaire pour résoudre les problèmes d’optimisation augmente avec
la taille du dictionnaire cependant, et il est donc rare de voir de telles méthodes appliquées en uti-
lisant des dictionnaires constitués de milliards d’atomes.
12.3 Applications
Nous présentons maintenant certaines applications de la décomposition atomique dans les domai-
nes de l’analyse, de la modélisation, de la visualisation, et de la synthèse du son et de la musique.
Des vues globales plus générales sont présentées dans Plumbley et coll. (2009) et Sturm et coll.
(2009).
fiques à un instrument (Leveau et coll., 2008), ou des hauteurs multiples (Adalbjörnsson, 2014).
La poursuite adaptative moléculaire de Daudet (2006) décompose un signal audio musical en
structures transitoires et en structures tonales. Cette séparation permet du traitement de niveau
supérieur sans interférence entre les deux, par exemple visualisation et synthèse. La recherche de
Leveau et coll. (2008) assemble des dictionnaires d’atomes harmoniques (Gribonval et Bacry,
2003) spécifiques à des instruments de musique en particulier. La décomposition atomique d’un
enregistrement de musique avec ces dictionnaires résulte donc en une représentation de niveau
intermédiaire qui peut alors être utilisée pour identifier et retranscrire les instruments joués. La
décomposition atomique peut également être considérée comme un extracteur de caractéristi-
ques, et être utilisée sous la forme d’une étape pour décrire le contenu d’un enregistrement musi-
cal au sein d’applications d’indexation et de récupération (Lyon et coll., 2010 ; Ravelli et coll.,
2010).
Motivés par les célèbres travaux de Lewicki (2002) et de Smith et Lewicki (2005a, 2005b), Blumensath
et Davies (2006), et Abdallah et Plumbley (2006) appliquent de l’approximation parcimonieuse
pour l’apprentissage de dictionnaires à partir de signaux musicaux. Les atomes résultants sont liés
au contenu musical note par note, qui peut être spécifique à des instruments, par exemple piano,
guitare et voix. Ces résultats sont tout à fait remarquables, car ils apparaissent indépendamment
de toute information musicologique. En d’autres termes, cette procédure trouve de façon indépen-
dante une manière concise de décrire des enregistrements musicaux (enregistrements monopho-
niques de nombreuses voix), et parvient à un résultat ayant une signification musicale (notes,
tempi et dynamiques). De telles méthodes peuvent être utilisées pour aider à séparer des sources
dans un enregistrement, et pour retranscrire des enregistrements musicaux.
12.3.2 Visualisation du son
En plus de l’analyse et de la modélisation, la décomposition atomique d’un son fournit des moyens
pour le visualiser. Puisqu’une décomposition atomique est une somme d’atomes, nous pouvons
visualiser un son en additionnant des visualisations des atomes individuels. Par exemple, si cha-
que atome dans un dictionnaire a une énergie centrée à un endroit dans le temps et dans les fré-
quences, nous pouvons créer un diracgramme d’un son en plaçant un point dans le domaine
temps-fréquence pour chaque atome de sa décomposition (Smith et Lewicki, 2005b ; Manzagol et
al., 2008). Le haut de la figure 12.2 montre une représentation en diracgramme de la composition
musicale Pictor Alpha de Curtis Roads (2004), que nous décomposons avec le Matching Pursuit
Toolkit (Krstulovic et Gribonval, 2006) en utilisant un dictionnaire de 5 535 059 atomes de Gabor.
© Dunod. Toute reproduction non autorisée est un délit.
Ce dictionnaire contient des atomes de Gabor de longueur 4, 8, 16, 32, 64, 128, 256, 512 et 1 024
échantillons.
Un atome de Gabor est une sinusoïde localisée dans le temps, ou par équivalence, une fenêtre gaus-
sienne déplacée dans le temps et modulée. Le physicien et lauréat du prix Nobel Dennis Gabor fait
référence à un tel atome sous le nom de « quanta acoustique » (1947), car son énergie est concen-
trée au maximum en temps et en fréquence. En fait, la transformée de Fourier à court terme peut
être considérée comme les magnitudes de la projection d’un signal sur un dictionnaire d’atomes
de Gabor d’une seule durée.
Mallat et Zhang (1993) utilisent un dictionnaire d’atomes de Gabor dans leur décomposition d’un
signal de parole, puis visualisent la parole en additionnant les distributions de Wigner-Ville des
atomes individuels — une visualisation que nous nommons un wivigramme (Sturm et coll. 2009).
La distribution de Wigner-Ville possède une résolution temps-fréquence supérieure à celle fournie
par le spectrogramme (Cohen, 1989 ; Preis et Georgopoulos, 1999 ; Pielemeier et coll., 1996 ; Mallat,
2009). Le milieu de la figure 12.2 montre un wivigramme de la décomposition par poursuite
240 ENVIRONNEMENT ET OUTILS
adaptative des sept premières secondes de Pictor Alpha, en utilisant 5 000 atomes. En comparaison
avec la projection du même signal, mais sur un dictionnaire d’atomes de transformée de Fourier à
court terme, nous pouvons voir une plus grande clarté en temps et en fréquence. D’autres techni-
ques exploitant la parcimonie peuvent également améliorer la visualisation du son dans le plan
temps-fréquence (Gardner et Magnasco, 2006 ; Kereliuk et Depalle, 2013).
Un wivigramme peut également fournir une interface pour modifier une décomposition atomi-
que, comme montré à la figure 12.3. Avec un tel affichage, nous pouvons effectuer de nombreuses
opérations sur les atomes dans la décomposition, comme sélectionner, supprimer, modifier, etc.
Par exemple, si nous sélectionnons tous les atomes courts dans la décomposition d’un signal, nous
pouvons modifier son contenu transitoire ; et si nous sélectionnons les atomes longs, nous pou-
vons modifier son contenu tonal. Ceci constitue une des motivations pour la poursuite adaptative
moléculaire (Daudet, 2006).
gauche, nous pouvons sélectionner des atomes ou des régions d’atomes spécifiques à ajuster. Ici,
un groupe d’atomes a été sélectionné avec l’outil lasso et déplacé en temps et en fréquence. Le
panneau de droite montre une variété d’options pour la sélection, permettant par exemple de ne
sélectionner que les atomes de notre groupe ayant une durée ou une amplitude minimale.
Comme la décomposition atomique est une synthèse granulaire à l’envers, elle incite à de nom-
breuses possibilités uniques pour la synthèse et la modification du son (Sturm et coll., 2009 ; Kere-
liuk, 2012). Si nous pouvons décrire chaque atome grâce à des paramètres significatifs, comme
l’échelle, la fréquence et le déplacement temporel, nous pouvons sélectionner des composants très
spécifiques d’une décomposition atomique pour la resynthèse, comme dans la figure 12.3. Ne reti-
rer que les atomes courts dans une décomposition peut retirer tous les transitoires. Nous pouvons
donc concevoir ce processus sous la forme d’une sorte de filtrage atomique. Nous pouvons égale-
ment resynthétiser graduellement un son en augmentant la densité atomique (coalescence
sonore), ou faire évaporer un son en diminuant la densité (désintégration sonore).
La manipulation paramétrique implique de changer les paramètres des atomes utilisés dans une
décomposition atomique. Par exemple, nous pouvons déplacer en hauteur ou étirer dans le temps
un enregistrement sonore en ajustant les déplacements de fréquence et de temps des atomes de sa
décomposition (Sturm et coll., 2006). Si les atomes courts modèlent les transitoires dans un signal,
on peut préserver leur information en n’ajustant que les tailles des atomes plus longs. D’autres
effets uniques peuvent être obtenus, comme de changer aléatoirement les déplacements de temps
d’atomes (jitter), ou en augmentant les échelles d’atome (« saignement »). Nous pouvons créer
d’autres effets originaux en substituant un dictionnaire à un autre, ou en effectuant un morphing
entre des décompositions (Collins et Sturm, 2011).
Bien qu’une décomposition atomique rende le son malléable au niveau atomique, des problèmes
peuvent survenir lorsqu’une « énergie sombre » (Sturm et coll., 2008) devient audible. Transfor-
mer les atomes d’une décomposition peut rompre des relations fragiles entre des atomes ajoutés
par une décomposition pour corriger ses « erreurs ». Ceci renforce le fait que la décomposition ato-
mique est une approximation, en désaccord avec des besoins pour une transformation du son de
« haute qualité ». Néanmoins, comme pour d’autres techniques de synthèse, la décomposition ato-
mique peut avoir des caractéristiques qui favorisent des types particuliers de qualités sonores, par
exemple le feu (Kersten et Purwins, 2012), l’eau ou d’autres textures.
Analyse spectrale :
autres méthodes
quentielle linéaire de l’analyse FFT. Le problème est abordé par des méthodes comme la transformée
à Q constant, dans laquelle la largeur de bande varie proportionnellement à la fréquence. C’est-à-dire
que les bandes d’analyse sont étroites pour les basses fréquences et larges pour les hautes fréquences
(figure 13.3). Ainsi, dans l’analyse à Q constant, la longueur de la fenêtre d’analyse varie selon la
fréquence analysée. Les longues fenêtres analysent les basses fréquences, et les fenêtres courtes
analysent les hautes fréquences.
Les banques de filtres à Q constant n’évitent pas la relation incertaine entre temps et fréquence,
évoquée au chapitre 11, mais l’incertitude temporelle est concentrée sur les octaves inférieures, où
les bandes d’analyse sont étroites, et où donc les fenêtres et les réponses impulsionnelles du filtre sont
longues. Comme les transitoires sonores (attaques) tendent à contenir des composants hautes fré-
quences, une réponse à Q constant possède l’avantage de localisation temporelle dans les hautes
fréquences avec une localisation fréquentielle dans les basses fréquences.
Un autre élément attractif des techniques à Q constant est que l’oreille humaine possède une réponse
fréquentielle ressemblant à la réponse du Q constant, particulièrement au-dessus de 500 Hz (Scharf,
246 ENVIRONNEMENT ET OUTILS
1961, 1970). C’est-à-dire que le système auditif effectue une sorte d’analyse par banque de filtres
avec une largeur de bande dépendante de la fréquence. Ces largeurs de bande auditives mesurées sont
d’une nature tellement fondamentale qu’elles sont appelées bandes critiques (voir le chapitre 16
pour plus de détails sur les bandes critiques). La figure 13.3 trace les fréquences centrales en fonction
des largeurs de bande pour une banque de 23 filtres passe-bande utilisés dans ce que l’on appelle
la transformée auditive, qui était basée sur une approximation des données de largeurs de bande
critiques par Stautner (1983). Pour améliorer la résolution fréquentielle, Stautner utilisa également
une version avec 42 filtres entre 79 et 3 177 Hz.
4000
3500
3000
2500
2000
1500
1000
500
Fréq.
0
0 2 4 6 8 10 12 14 16 18 20 22
Canaux d'analyse
traditionnelle (Nawab, Quatieri et Lim, 1983), ou des méthodes telles que le « gondolage de fré-
quence » d’un filtre fixe implémenté avec la FFT (Musicus, 1984).
© Dunod. Toute reproduction non autorisée est un délit.
Les algorithmes à Q constant peuvent ne pas être aussi efficaces que ceux basés sur la transformée
de Fourier rapide, mais l’espacement logarithmique des canaux d’analyse permet que le nombre
de canaux soit inférieur avec les méthodes à Q constant, tout en maintenant la même résolution
perceptuelle que dans la STFT. Le nombre de canaux d’analyse dans la STFT varie en général entre
plusieurs centaines et plusieurs milliers. Le nombre de canaux de filtres à Q constant nécessaires
pour couvrir la même gamme est souvent inférieur à cent.
Un autre élément des banques de filtres à Q constant est la faculté d’inversion. L’existence d’une
banque de filtres à Q constant n’implique pas nécessairement une méthode de resynthèse. Certaines
implémentations fournissent cette possibilité, d’autres non.
248 ENVIRONNEMENT ET OUTILS
(a) 100 ms
(b) 10 ms
(c) 1 ms
au chapitre 22, et aux segments fenêtrés de la transformée de Fourier à court terme présentés au
chapitre 11. L’aspect particulier de l’ondelette ne dépend pas de la fréquence qu’elle contient, car elle
contient toujours un certain nombre de cycles. Ceci implique que la taille (durée) de la fenêtre
d’ondelette s’étire ou se compresse selon la fréquence analysée (figure 13.4). Cet étirement et cette
compression sont appelés dilatation dans la littérature spécialisée et sont généralement spécifiés
comme un facteur de 1/fréquence.
L’implication de la taille de fenêtre dilatante est que la TO échange la résolution fréquentielle pour
une résolution temporelle pour les hautes fréquences, et échange la résolution temporelle pour une
résolution fréquentielle pour les fréquences basses. Ainsi, la TO peut simultanément détecter des
temps de départ précis signalés par des transitoires de hautes fréquences, et résoudre le spectre des
basses fréquences.
Le calcul direct de la transformée en ondelettes est une tâche coûteuse en calculs, similaire au calcul
de la transformée de Fourier discrète. Différentes propositions ont été avancées pour réduire le travail
nécessaire aux calculs de la transformée en ondelettes (Dutilleux, Grossmann et Kronland-Martinet,
1988 ; Mallat, 1989 ; Evangelista, 1991). Voir la littérature pour des détails sur ces algorithmes.
Ondelettes Fourier
320 320
160 260
80 180
40 100
20 20
Temps Temps
Les ondelettes longues détectent les basses fréquences ; elles se tiennent à la base du triangle,
brouillées dans le temps. Ce triangle est le domaine d’influence dans le temps des ondelettes. Le
domaine d’influence pour les fréquences est une bande horizontale constante, comme dans le spectro-
gramme (figure 13.7b). Plus la bande est foncée, plus la magnitude à l’intérieur de ce domaine
fréquentiel est forte.
Bien sûr, cette technique de tracé n’est que l’une des nombreuses façons de projeter les données
générées par la TO. Dans le travail du groupe de Marseille, les images de coefficients (magnitude)
et de phase sont tracées. Le spectre de phase est parfois appelé scalagramme. La phase n’est tracée
qu’au-dessus d’un certain seuil de magnitude pour éviter une estimation non viable.
Si la grille fréquentielle est alignée sur un intervalle de musique, l’affichage projette un fort indica-
teur foncé lorsque le signal d’entrée contient cet intervalle. Ceci est montré à la figure 13.8 pour une
TO configurée pour la détection d’octave. Les quatre exemples d’octaves montrent des triangles
foncés. Dans ce cas, on peut dire que l’ondelette analysante est la somme de deux ondelettes plus
simples séparées en fréquence par une octave.
CHAPITRE 13 – ANALYSE SPECTRALE : AUTRES MÉTHODES 251
(a) (b)
f(0)
(a)
Fréq.
© Dunod. Toute reproduction non autorisée est un délit.
Temps
(b)
Fréq.
Lorsque cette technique est appliquée à la voix parlée, par exemple, elle donne l’impression d’une
personne parlant « harmoniquement ». Un autre effet est de former une synthèse croisée utilisant
les composants d’amplitude d’un son et les composants de phase d’un autre pour créer un son
hybride.
D’autres types de transformations incluent le changement de la géométrie de la grille fréquentielle,
en ajoutant ou en multipliant un facteur d’échelonnage sur toutes les fréquences lors de la resyn-
thèse. Les effets de compression/expansion temporelle sont également possibles (déformation de
la grille temporelle). Dans les déformations fréquentielles et temporelles, les composants de phase
doivent être multipliés par le même facteur d’échelonnage que l’opération de hauteur ou de temps
(quel que soit celui qui est modifié). Ceci est appelé le désenroulement de phase ; voir Arfib (1991)
pour une présentation du désenroulement de phase dans la transformée en ondelettes. Kronland-
Martinet (1988) décrit une méthode de déplacement des hauteurs basée sur la distorsion non linéaire
des valeurs de phase lors de la resynthèse.
13.3.5 Séparation du bruit et du spectre harmonique par ondelettes en peigne
La transformée en ondelettes en peigne, développée à l’université de Naples, trie les transitoires, les
sons sans hauteur et les changements de hauteur à partir de signaux quasi périodiques (Evangelista,
1992 ; Piccialli et coll., 1992). La TO en peigne commence par un segment fenêtré du son. La période
de hauteur fondamentale est estimée, et un filtre en peigne est adapté sur le segment, avec les pics
alignés sur les harmoniques de la fondamentale. Le filtre en peigne passe au crible l’énergie dans
le spectre harmonique. Une analyse par ondelettes est ensuite effectuée sur ce signal harmonique
« propre ». Lorsque la TO inverse est soustraite au signal originel, le résiduel ou partie « sale » du
signal reste (figure 13.9). La partie sale inclut les transitoires d’attaque et les détails qui donnent
son identité et son caractère au son.
Lorsque les parties propres et sales sont séparées, on peut effectuer une sorte de synthèse croisée
en greffant la partie sale d’un son sur la partie propre d’un autre. Ce type de séparation est similaire
dans le concept — mais non dans l’implémentation — à la technique utilisée dans la synthèse par
modèles spectraux de Serra (1989), décrite au chapitre 11.
13.3.6 Comparaison de l’analyse par ondelettes et des méthodes de Fourier
Les méthodes de Fourier traditionnelles mesurent l’énergie moyenne le long d’une fenêtre dont la
durée reste constante, quel que soit le composant fréquentiel analysé. Ceci tend à délocaliser la vue
du temps de départ des transitoires de hautes fréquences. Au contraire, la TO offre une vue multi-
© Dunod. Toute reproduction non autorisée est un délit.
résolution d’un signal musical, car l’analyse temporelle fine est effectuée avec des ondelettes courtes
et de hautes fréquences, tandis que l’analyse fréquentielle fine utilise des ondelettes longues et de
basses fréquences. Une cymbale crash reste invisible pour une ondelette « lente » (basse fréquence),
mais sera détectée par une explosion d’ondelettes très « rapides ». Ainsi, la TO est bien adaptée à
l’étude des transitoires ou des temps de départ des signaux musicaux. Comme le montre la
figure 13.10, le tracé TO montre une grande sensibilité temporelle dans les hautes fréquences.
Dans les applications où l’efficacité de calcul est primordiale, les méthodes basées sur la FFT ont un
avantage sur les méthodes par ondelettes ou à Q constant de résolution similaire. Des optimisations
de la TO ont cependant été développées pour le cas de grilles fréquentielles strictement logarith-
miques (Dutilleux, Grossmann et Kronland-Martinet, 1988). Voir également Shensa (1992) pour
plus de détails sur les techniques par ondelettes rapides.
254 ENVIRONNEMENT ET OUTILS
théorique, la WD est directement liée aux autres méthodes de Fourier comme le sonagramme. Pour
des détails sur les mathématiques de la WD, voir Janse et Kaizer (1983, 1984), Preis et coll. (1987)
et Gerzon (1991).
(a) (b)
+ +
0 0
Fréq. Fréq.
- -
Temps Temps
fréquence. Ceci est montré sous forme d’un point noir à la figure 13.11a. De façon similaire, la zone
située en dessous d’une coupure verticale à un temps donné produit la puissance instantanée de
l’enveloppe du signal à ce temps (figure 13.11b), où le centre de gravité de cette coupure est égal à
la fréquence instantanée (point noir dans la figure 13.11b). Dans ce cas, les points sont symétriques à
la fois sur l’axe des x et des y et les centres de gravité sont donc situés au centre. Dans les signaux
réels, ils varient lorsque le signal varie. Lorsque la puissance instantanée et la fréquence instantanée
sont tracées dans le temps, les effets de modulation d’amplitude et de fréquence sur le signal peuvent
être révélés.
Janse et Kaizer (1983, 1984) présentent des tracés en trois dimensions et des guides pour interpréter
la WD. En particulier, ils comparent les tracés de systèmes idéaux (filtres idéaux, par exemple)
avec des appareils réels comme des haut-parleurs.
(a)
(b)
Pour des détails sur la façon dont ces tracés ont été calculés, voir Janse et Kaizer (1984) et Preis et coll.
(1987).
© Dunod. Toute reproduction non autorisée est un délit.
à un résonateur (par exemple le reste du conduit vocal). L’AR estime la forme du spectre global de
la résonance plutôt que l’énergie présente à un certain nombre de fréquences isolées. La figure 13.1d
montre cet effet.
La méthode AR prend plusieurs échantillons d’entrée puis utilise l’échantillon le plus récent comme
référence. Il tente de « prédire » cet échantillon à partir d’une somme d’échantillons passés pondérée
par des coefficients de filtrage. L’un des effets secondaires est que l’algorithme AR adapte un filtre
inverse au spectre du signal d’entrée. C’est cet effet secondaire qui est intéressant d’un point de vue
musical. Lorsque le filtre inverse est lui-même inversé — une procédure banale —, la réponse du
filtre résultante est une estimation du spectre du signal d’entrée.
La méthode AR prédit la téième valeur d’un signal selon l’équation suivante :
p
sonores multiples. En fait, la motivation scientifique pour ces techniques a été leur utilisation pour
séparer un signal du bruit ou pour décomposer plusieurs signaux mélangés (Kashino et Tanaka,
1993).
✦ Estimation de paramètres
Toute analyse du son est une forme d’estimation de paramètres qui tente d’analyser le signal entrant
en termes de réglages de paramètres nécessaires pour faire une approximation de ce son avec une
méthode de synthèse donnée (Tenney, 1965 ; Justice, 1979 ; Mian et Tisato, 1984). Par exemple,
nous pouvons concevoir l’analyse de Fourier comme une méthode d’estimation de paramètres
pour une resynthèse sinusoïdale, car elle calcule toutes les fréquences, les amplitudes et les phases
nécessaires à l’approximation du son d’entrée.
En théorie, l’estimation de paramètres peut être appliquée à n’importe quelle technique de synthèse.
En pratique, la simulation réussie d’un son donné par une méthode arbitraire de synthèse n’est pas
garantie. De nombreuses tentatives pour développer des analyses d’estimation de paramètres pour
la synthèse par modulation de fréquence, par exemple, ont donné des approximations grossières
du son originel. Il n’existe pas de technique d’analyse/resynthèse universelle. Certaines techniques
n’ont pas été conçues pour créer des types spécifiques de sons.
Certains types d’estimation de paramètres emploient des algorithmes de traitement du signal
adaptatifs qui tentent de minimiser l’erreur entre le signal entrant et la simulation en ajustant les
paramètres du modèle de simulation. Dans un système en temps réel, les mesures et les ajustages
doivent être faits à l’intérieur de la période temporelle d’un seul échantillon, ce qui oblige à faire
des compromis par rapport à des solutions mathématiquement idéales.
Le chapitre 26 présente le sujet de l’analyse de source pour la synthèse par modèles physiques,
et nous renvoyons donc le lecteur à cette présentation.
exemples possèdent des propriétés spéciales et ont déjà été appliqués à la musique, nous les pré-
sentons maintenant.
de sinusoïdes ayant une attaque rapide, mais atténuée abruptement, en général par une chute
exponentielle. La technique a été appelée comme cela d’après Gaspard de Prony, qui développa à
l’origine une méthode pour analyser l’expansion de différents gaz (Prony, 1795). La version moderne
de cette technique a évolué, et elle est similaire aux méthodes AR décrites précédemment.
La méthode de Prony est maintenant une famille de techniques apparentées qui modèle un signal
d’entrée sous forme d’une combinaison de sinusoïdes amorties accompagnées de bruit (Kay et
Marple, 1981). Comme les techniques AR, la méthode de Prony fait une estimation d’un ensemble
de coefficients basée sur les échantillons d’entrée passés. Mais au lieu de piloter un filtre, comme
dans les méthodes AR, les coefficients pilotent ici la fréquence, le facteur d’amortissement, l’ampli-
tude, et la phase d’un ensemble de sinusoïdes amorties qui font une approximation du signal
d’entrée. La méthode de Prony est transformée en technique d’analyse spectrale en prenant la FFT
d’un signal de sortie émis par la méthode de Prony. Un avantage de la méthode de Prony par rapport
aux techniques AR est qu’elle produit de l’information de phase, ce qui permet une resynthèse plus
précise. Voir Marple (1987) pour une description algorithmique de la méthode.
Dans la musique informatique, la méthode de Prony a été appliquée lors de l’étape d’analyse du
système de synthèse CHANT (d’Alessandro et Rodet, 1989 ; voir le chapitre 28) et dans un système
expérimental d’analyse/resynthèse conçu par LaRoche (1989a, b). LaRoche l’utilisait pour analyser
et resynthétiser des sons percussifs amortis, comme le glockenspiel, le vibraphone, le marimba,
les sons graves de piano et le gong. Selon lui, les résultats étaient moins prometteurs avec des sons
aigus de piano ou avec des cymbales.
Dans sa comparaison de la méthode de Prony et de l’analyse de Fourier, LaRoche (1989a) note qu’en
général la première est la plus « sensible » des deux. Les utilisateurs doivent méticuleusement
ajuster les paramètres d’analyse, ou bien l’estimation spectrale résultante aura peu de ressemblance
avec le spectre réel (LaRoche, 1989a). Au contraire, le paramètre premier dans les méthodes de
Fourier est la fenêtre. Les résultats de l’analyse de Fourier peuvent être incomplets et imprécis, mais
ils ne sont jamais totalement incohérents.
Lorsque les paramètres de la méthode de Prony sont correctement réglés, celle-ci a peu de difficulté
à tenir compte des partiels inharmoniques et peut résoudre de multiples sinusoïdes très proches. Au
contraire, l’analyse de Fourier divise arbitrairement le spectre en partiels harmoniques espacés de
façon égale et amasse des sinusoïdes proches sous forme d’un pic de type formantique global dans
le spectre. La méthode de Prony est limitée pour n’analyser que 50 partiels à la fois, car au-delà de
cette limite les polynômes utilisés pour la calculer ne convergent plus vers une solution. Et la méthode
de Prony est plus intensive en calculs que l’analyse de Fourier. En résumé, avec la méthode de Prony
nous avons une méthode d’analyse efficace pour résoudre certaines classes de signaux, en particulier
les sons percussifs comportant peu de composants sinusoïdaux, sous réserve qu’elle soit précisément
ajustée en amont.
Les buts du modelage d’audition sont de deux ordres : (1) vues plus claires des signaux musicaux
davantage en accord avec ce que nous percevons, et (2) compréhension plus profonde des méca-
nismes auditifs humains en utilisant des modèles lors d’expériences de simulation. Nous présentons
ici brièvement deux modèles d’audition, respectivement le cochléagramme et le corrélogramme.
13.7.1 Cochléagrammes
La cochlée est un minuscule organe ressemblant à un coquillage dans l’oreille interne qui transmet
les vibrations entrantes sous forme d’impulsions nerveuses transmises au cerveau. Chaque empla-
cement dans la longueur de la cochlée répond aux vibrations proches d’une fréquence centrale
propre à cet emplacement. Les scientifiques de l’audition ont mesuré le taux de déclenchement
moyen des neurones le long de la cochlée et ont déterminé qu’ils sont liés à différentes fréquences
perçues par l’oreille.
Un modèle logiciel de la réponse de la cochlée aux signaux entrants est appelé un cochléagramme
(Slaney et Lyon, 1992). Au lieu de tracer la fréquence sur l’axe vertical comme le spectrogramme,
le cochléagramme trace l’emplacement cochléaire. C’est-à-dire qu’il représente la réponse des dif-
férentes parties de la cochlée par rapport au son entrant. Lorsque le cochléagramme est tracé avec
une résolution grossière, il ressemble à une représentation de sonagramme, mais avec des départs
mis en valeur. Une différence plus importante entre le sonagramme et le cochléagramme peut être
vue à la figure 13.13. Cette vue rapprochée d’une image cochléagramme haute résolution révèle la
mise en place temporelle des impulsions glottales individuelles d’un signal parlé. Ainsi, le cochléa-
gramme permet d’étudier à la fois la mise en place temporelle (départs) de faible niveau et le spectre.
© Dunod. Toute reproduction non autorisée est un délit.
13.7.2 Corrélogrammes
Les corrélogrammes furent introduits au début des années 1950 par Licklider (1951, 1959), mais ce
n’est qu’au début des années 1990 qu’ils devinrent pratiques d’un point de vue de calcul. Le corré-
logramme part d’un modèle de la cochlée puis effectue une autocorrélation des signaux émis par
chaque canal du cochléagramme (Slaney et Lyon, 1992). Cette autocorrélation est effectuée
« image par image » ou par fenêtres, 30 à 120 fois par seconde, selon l’application.
Le tracé résultant est une fonction tridimensionnelle de la fréquence, du temps et du retard d’auto-
corrélation. Le corrélogramme est une image animée « dans le temps ». Les corrélogrammes de
Slaney peuvent être vus sur bande vidéo ou sous forme de films numériques projetés sur ordina-
teur personnel (Slaney et Lyon, 1991a, b).
La position le long de la cochlée est tracée sur l’axe vertical, avec les hautes fréquences placées dans
la partie supérieure de l’image. L’axe horizontal montre le retard temporel d’autocorrélation. Comme
dans un sonagramme conventionnel, les zones sombres représentent des amplitudes élevées. Les
sons procurant une forte sensation de hauteur et de structure harmonique apparaissent sous forme
de lignes verticales aux moments de retards d’autocorrélation lorsqu’un grand nombre de cellules
cochléaires se déclenchent en même temps. Voir Slaney et Lyon (1992) pour une application du
corrélogramme à la détection de hauteur. Lorsque la hauteur s’élève, la ligne verticale dominante
se déplace vers la gauche jusqu’à un retard représentant la période plus courte. Les bandes hori-
zontales représentent de grandes quantités d’énergie dans une bande fréquentielle, par exemple
un formant. Les sons bruiteux et inharmoniques n’apparaissent que comme des bandes horizontales,
sans lignes de hauteur verticales.
Le chapitre 9 montrait que l’autocorrélation d’une sinusoïde est elle-même une sinusoïde ayant des
pics espacés à des périodes sous-harmoniques de la période fondamentale f, c’est-à-dire f, f/2, f/3,…
De façon similaire, une seule sinusoïde passée à travers un corrélogramme apparaît sous forme
d’une série de lignes verticales, correspondantes aux sous-harmoniques « virtuels » de la période fon-
damentale, située quant à elle sur la position la plus à gauche. Nous n’entendons pas nécessairement
ces sous-harmoniques ; ils sont des artefacts de la recherche naturelle de périodicité de la fonction
d’autocorrélation.
La figure 13.14 montre trois images d’un film corrélogramme, respectivement à 0, 600 ms et 2 s.
Dans ce cas, nous pouvons voir la frappe d’un carillon. Il y a au départ de nombreux harmoniques,
et le son est riche. Les différents harmoniques chutent à des vitesses différentes, comme cela est
montré dans la deuxième image. Dans la dernière, il ne reste plus que deux composants.
L’avantage du corrélogramme est qu’il présente un tracé sensible au temps, fournissant simultané-
ment une information de hauteur et de formant. La dimension horizontale ou de retard représente
la hauteur, et la dimension verticale représente le spectre. Le calcul du corrélogramme est une opé-
ration très gourmande en calcul. Le corrélogramme a récemment été utilisé comme base de resyn-
thèse (Slaney, Naar et Lyon, 1994).
(a)
(b)
(c)
un signal musical s’il peut reconnaître celui-ci en tant qu’élément musical ou en tant que collection
d’éléments et s’il peut lier son analyse à des concepts musicaux au-dessus du niveau acoustique.
Nous pouvons diviser les systèmes musicaux CS en deux groupes : ceux qui tentent de simuler les
habiletés d’écoute des auditeurs humains entraînés (y compris les modèles du système auditif
humain), et ceux qui ne tentent pas d’émuler les habiletés d’écoute. Dans la première catégorie,
nous incluons les systèmes d’accompagnement expressif en temps réel, la classification de timbre
instrumental (séparation de source), et la transcription de musique à partir de sources polyphoniques.
Dans la seconde catégorie, nous incluons les tâches fastidieuses de réduction de données d’analyse
et d’extraction de la musique sur un bruit de fond. Un système pour la compréhension des signaux
musicaux peut englober de nombreux niveaux d’expertise. Mais nous nous contenterons dans
cette partie d’aborder les aspects généraux et de citer quelques exemples typiques.
264 ENVIRONNEMENT ET OUTILS
l’expliquer ou en créer des variations. Si la connaissance musicale requise pour de telles tâches n’est
pas préprogrammée, un sous-système d’apprentissage substantiel doit être incorporé au système.
13.8.3 Exemples de systèmes comprenant le signal
Les systèmes comprenant le signal commencent par la recherche décisive effectuée par J.A. Moorer
à l’université de Stanford pour créer un « scribe musical » (Moorer, 1975). La figure 13.15 montre
la stratégie suivie par Moorer. La figure 13.16 compare une partition originale avec la partition
transcrite par son système. Le travail de transcription automatique de musique de Moorer fut suivi
rapidement par celui de Piszczalski et Galler (1977).
Un exemple plus restreint de CS est l’interprétation de « l’explosion d’information » générée par des
systèmes tels que le vocodeur de phase (voir la présentation sur le vocodeur de phase au chapitre 11).
Les données d’analyse brutes (enveloppes d’amplitude et de fréquence pour chaque canal d’analyse)
générées par le vocodeur de phase peuvent prendre plusieurs fois l’espace mémoire du signal
d’entrée originel. Ces données sont pénibles à éditer et à interpréter manuellement. Les algorithmes
de réduction de données utilisant des méthodes de reconnaissance d’éléments peuvent être appli-
qués pour que les données soient manipulées par l’utilisateur sous une forme simplifiée, sans perte
significative de fidélité (Strawn, 1980, 1985b). Pour accomplir cette tâche, le système doit compren-
dre quelles parties de l’enveloppe sont importantes dans la perception humaine, et lesquelles ne le
sont pas.
Dans les années 1980, un autre système de transcription automatique de musique fut développé à
l’université de Stanford (Chowning et coll., 1984 ; Chowning et Mont-Reynaud, 1986). Ce système
analysait des interprétations enregistrées de musique (essentiellement des mélodies du dix-huitième
siècle) et tentait d’effectuer une transcription automatisée en partition musicale typique de cette
époque. Les interprétations déviaient de la partition originelle, et donc l’une des tâches du système
de transcription était de retrouver la partition originelle, et non ce qui était réellement joué. Ceci
nécessitait à la fois des processus analytiques de bas niveau et une connaissance des idiomes de la
notation du dix-huitième siècle. Une combinaison d’opérations bas niveau et haut niveau est
caractéristique des systèmes CS.
Une démonstration impressionnante des CS fut le WABOT-2 (figure 13.17), un robot construit par
un groupe d’étudiants et de professeurs à l’université Waseda (Tokyo), puis amélioré par la Sumitomo
Corporation au Japon (Matsushima et coll., 1985 ; Roads, 1986b). Le robot fut montré à des millions
de visiteurs à la Tsukuba World Expo en 1985 et 1986. WABOT-2 comprenait des signaux parlés,
des signaux musicaux, et des partitions visuelles. Il pouvait répondre à des requêtes exprimées en
© Dunod. Toute reproduction non autorisée est un délit.
japonais, et il pouvait lire la notation musicale. En mémorisant une partition placée devant son œil
de robot, WABOT-2 prévoyait son interprétation. Il pouvait également accompagner un chanteur
humain. Si le chanteur s’éloignait de l’intonation ou du rythme originel, le robot faisait des ajuste-
ments sur la hauteur de l’orgue et sur le rythme de l’accompagnement pour tenter de suivre le
chanteur (Roads, 1986b).
266 ENVIRONNEMENT ET OUTILS
Variation Amplitude
fréquentielle par bande
par bande
Estimation de la qualité
Enveloppes Enveloppes
de fréquence d'amplitude
Inférence de note
Liste de notes
Groupement de mélodies
Éditeur de partitions
Partition imprimée
trop haut. L’esprit littéral de l’ordinateur a fidèlement retranscrit la partition un demi-ton trop haut
sur toute la longueur.
268 ENVIRONNEMENT ET OUTILS
MIDI
Chaque machine MIDI contient un microprocesseur qui interprète et génère des données MIDI.
Toutes les configurations MIDI n’ont pas besoin d’un ordinateur, bien qu’il y ait de nombreux avan-
tages à en inclure un.
Ce chapitre décrit la nature du MIDI en détail. L’information fournie ici devrait être amplement
suffisante pour la plupart des utilisateurs. Notre intention n’est pas cependant de remplacer la spéci-
fication MIDI officielle et les nombreux ajouts et suppléments qui y sont apportés de temps à autre.
Il s’agit de documents essentiels pour quiconque développe du matériel ou des logiciels MIDI. Voir
la partie Contacts sur le MIDI à la fin de ce chapitre pour savoir où commander des documents
MIDI officiels. Rothstein (1992) et Yavelow (1992) sont de bonnes sources pour obtenir des conseils
sur le réglage des systèmes MIDI.
270 ENVIRONNEMENT ET OUTILS
Ordinateur
N canaux de signaux
numériques d’enveloppe
Multiplexeur
Canal 1 .. Canal N
.
CNA CNA CNA
Tensions
de contrôle analogiques
logiciel développés sur un système ne pouvaient pas être transférés sur un autre. Aucune méthode
© Dunod. Toute reproduction non autorisée est un délit.
standard n’existait non plus pour synchroniser l’interprétation d’un instrument avec un autre.
Cet état des lieux incita la création du protocole MIDI. Les débuts du MIDI remontent à des contacts
informels entre plusieurs constructeurs de synthétiseurs américains et japonais en 1981, en parti-
culier Sequential Circuits, Oberheim et Roland Corporation. Ces rencontres conduisirent à des
communications accrues entre un plus grand nombre de sociétés en 1982 et à la rédaction d’une
spécification préliminaire d’une interface de musique numérique par David Smith de la société
Sequential Circuits. La première version était le fruit d’une collaboration soutenue entre Smith et
plusieurs autres sociétés, notamment Roland et Oberheim (D. Smith, 1984).
Les premiers instruments MIDI furent lancés sur le marché au début de 1983. En août de cette
même année, la version 1.0 de la spécification MIDI fut publiée par un consortium de constructeurs
de synthétiseurs japonais et américains. La spécification a depuis été amendée de nombreuses fois
(pour obtenir la dernière version de la spécification, contacter l’International MIDI Association
dont les coordonnées se trouvent dans la partie Contacts sur le MIDI à la fin de ce chapitre). Les
272 ENVIRONNEMENT ET OUTILS
synthétiseurs hybrides sont par ailleurs toujours construits. Dans ceux qui ont été fabriqués depuis
1983, le protocole de contrôle est le MIDI.
Vers Depuis
UART UART
Opto-
isolateur
Α Α
© Dunod. Toute reproduction non autorisée est un délit.
2 Vcc Vcc
4 5
1 3
In Thru Out
Les connecteurs sont isolés optiquement (convertis en signaux optiques aux extrémités) pour se
prémunir du ronflement et des interférences des autres signaux électriques. Les signaux sont enfin
dirigés vers une puce récepteur/transmetteur asynchrone universel (universal asynchronous receiver
/transmitter – UART).
La puce UART constitue toute la puissance du port MIDI. Elle assemble ou trame les bits en entrée
par paquets de 10, en les récupérant les uns après les autres. Le premier bit a toujours une valeur
de zéro, et le dernier une valeur de 1. Il s’agit respectivement des bits de départ et de fin, qui initient
et terminent une transmission. La puce UART ne tient pas compte des bits de départ et de fin et ne
conserve que le contenu : un octet de 8 bits (figure 14.3). Elle transmet l’octet au microprocesseur
situé dans la machine MIDI (synthétiseur, échantillonneur, unité d’effets, etc.) pour être décodé.
Décoder l’octet et agir sur son contenu prend un certain temps. Celui-ci dépend de la vitesse du
microprocesseur de la machine MIDI réceptrice et non de la vitesse de transmission MIDI. Marans
(1991) constitue une étude des retards créés par des synthétiseurs populaires, tandis que Russ
(1993) étudie les retards créés par les ordinateurs et les séquenceurs. Voir également plus loin la
partie Retards de microprocesseur. Pour transmettre des données MIDI vers une autre machine,
la puce UART émet un bit de départ (0) avec chaque mot, suivi d’un bit de fin (1) lorsque la transmis-
sion de ce mot est achevée.
Bit état/données
0 11001001 1
Octet de données
7 bits
Électriquement, le MIDI est une boucle de courant, ce qui signifie qu’elle se base sur une commutation
en circuit et hors circuit du courant, et non de la tension, pour représenter les niveaux logiques. Le
courant « en circuit » est de 5 mA, et représente une valeur binaire de 0. Le courant « hors circuit »
représente une valeur binaire de 1.
✦ Connexion en chaîne et patchbays MIDI
Le port MIDI Thru dirige les données en entrée vers une autre machine MIDI avec un traitement
minimal. Le signal à la sortie Thru est une réplique du signal qui alimente le support In. C’est-à-dire
qu’un port Thru « réamplifie » le signal et le transmet au port In de la machine connectée suivante.
Connexion en chaîne ne signifie pas court-circuitage des machines intermédiaires. Chaque machine
de la chaîne interprète les messages entrants et peut ou non leur répondre.
CHAPITRE 14 – MIDI 275
Séquenceur Séquenceur
matériel matériel
Out In
In Thru
Synthétiseur 1 Synthétiseur 1
Thru In
In Thru
Synthétiseur 2 Synthétiseur 2
Thru In
In Out
Échantillonneur Échantillonneur
clavier clavier
Figure 14.4 – Connexion en chaîne de machines MIDI avec un connecteur MIDI Thru.
(a) Lecture depuis un séquenceur matériel vers deux synthétiseurs et un échantillonneur. (b) Inverser
la chaîne, c’est-à-dire enregistrer depuis l’échantillonneur clavier dans le séquenceur, nécessite de
recâbler celle-ci. Aucune donnée MIDI supplémentaire n’est apportée par les deux synthétiseurs
intermédiaires, bien qu’ils puissent émettre des sons lorsque le claviériste joue.
De cette façon, les machines MIDI peuvent être connectées en chaîne en une série de machines
(figure 14.4a). Remarquez comme la connexion en chaîne n’existe que dans un sens (Thru vers In).
© Dunod. Toute reproduction non autorisée est un délit.
(a)
(b)
C
Temps
Sources MIDI
Destinations MIDI
Figure 14.6 – Patchbay MIDI, avec huit sources et huit destinations possibles.
Une source peut être reliée aux huit destinations. Les lignes pointillées indiquent le « patch » ou
trajet du signal courant entre les machines. Les données transmises sont des données MIDI et non
des signaux audio.
ont une même fonction — simplifier l’interconnexion d’un certain nombre de machines —, mais
pour des types de signaux différents (messages MIDI dans un cas, signaux audio dans l’autre).
14.4.2 Interfaces informatiques MIDI
Certains ordinateurs ne possèdent pas de ports MIDI intégrés. Dans ce cas, il est nécessaire de con-
necter une interface informatique MIDI à l’ordinateur. Cette interface transmet de l’ordinateur
vers son port MIDI Out et convertit les messages entrants dans le port MIDI In dans le protocole
requis par l’ordinateur. Il existe trois types de base d’interfaces : série, parallèle et multiports.
✦ Interface série
Une interface série transmet et reçoit des données depuis et vers l’ordinateur avec un bit à la fois,
tout comme le protocole MIDI lui-même. Une interface série se connecte sur le port entrée/sortie
série de l’ordinateur (figure 14.7a). Une interface informatique MIDI attachée à un port série est une
simple machine constituée d’une puce UART avec un circuit de génération d’horloge, une étape de
sortie, et une étape d’entrée isolée optiquement.
CHAPITRE 14 – MIDI 277
(a)
Interface
Ordinateur
informatique
Un bit
à la fois MIDI
Vers et depuis
un appareil MIDI
(b)
Ordinateur Interface
8 bits informatique
à la fois MIDI
Port In Out
parallèle
Vers et depuis
un appareil MIDI
(c)
Ordinateur Transmission Interface informatique
parallèle MIDI multiligne
ou quasi-parallèle
Port parallèle
In Out In Out ...
ou multiples
ports série
Vers et depuis
des appareils MIDI
© Dunod. Toute reproduction non autorisée est un délit.
✦ Interface parallèle
Un autre type d’interface se connecte au port parallèle de l’ordinateur, qui en général transmet huit
bits à la fois (figure 14.7b). Le port parallèle peut fonctionner à plusieurs fois la vitesse du MIDI,
ce qui signifie que l’ordinateur peut transmettre et recevoir des données MIDI rapidement, ce qui
le laisse libre pour d’autres tâches. Une partie de la transmission et de la réception de données MIDI
peut être déchargée sur l’interface MIDI parallèle. Bien que l’interconnexion parallèle avec l’ordi-
nateur soit rapide, le taux de base du MIDI envoyé vers d’autres machines ne change pas. Ceci signifie
que l’interface parallèle doit garder en mémoire tampon des données envoyées par l’ordinateur
avant que celles-ci ne puissent être transmises en série au reste des machines de la chaîne MIDI.
278 ENVIRONNEMENT ET OUTILS
✦ Interface multiports
Une interface MIDI multiports connecte l’ordinateur à plusieurs lignes MIDI indépendantes
(figure 14.7c). Chaque ligne peut être conçue comme un réseau MIDI 16 canaux séparé. Certains
séquenceurs fonctionnent avec les interfaces multiports, ce qui permet à l’utilisateur de contourner la
limitation du nombre de canaux fixée par le protocole MIDI (voir plus loin la partie Canaux MIDI).
Pour des installations MIDI à multiples machines, une interface multiports peut simplifier de
nombreux problèmes d’envoi et de contrôle.
Clavier
Ordinateur
1 2
Point
de partage
Interface informatique MIDI
In
Thru Out
1 et 2
Synthétiseur
1
(10 voix 3 à 10
multitimbral)
Synthétiseur
2 11 à 14
(4 voix
multitimbral)
Unité d’effets 15
1
Unité d’effets 16
2
Figure 14.8 – Une vue logique (et non physique) d’un mécanisme de canal MIDI.
La sortie du clavier est séparée en deux canaux d’information, 1 et 2. Pour enregistrer une interpré-
tation au clavier, ces deux canaux sont dirigés vers l’ordinateur, qui contient un séquenceur logiciel.
Pour entendre l’interprétation, les canaux 1 et 2 sont dirigés par l’interface informatique MIDI vers
le synthétiseur 1. L’ordinateur contrôle deux synthétiseurs et une unité d’effets, et reçoit des données
© Dunod. Toute reproduction non autorisée est un délit.
d’un clavier. Un total de douze canaux MIDI peuvent être utilisés en même temps dans cette confi-
guration. Le synthétiseur 1 est un synthétiseur multitimbral à dix voix, tandis que le synthétiseur 2
possède quatre voix, et les unités d’effets répondent chacune à un canal.
Le mécanisme de mode MIDI, qui spécifie comment une machine interprète les données propres à
un canal, est une autre façon d’augmenter la flexibilité des envois. Comme les modes MIDI peuvent
ne pas être très clairs au début, nous ne les aborderons qu’après avoir poursuivi notre explication
des messages MIDI.
Note-on Si vous jouez une note sur le clavier, le synthétiseur joue la note et envoie un
message de trois octets à travers le port MIDI Out. Si nous devions traduire un
message en français, il pourrait avoir la forme suivante :
Événement de note : activé
Canal : 1
Numéro de touche : 60 (do du milieu)
Vélocité : 116 (fortissimo)
Note : le terme « vélocité » fait référence à la façon dont un clavier MIDI
détecte avec quelle force sont jouées les touches. Si vous appuyez fortement et
rapidement sur un clavier, le temps entre la position de repos et la position
basse de la touche est très court, ce qui signifie que celle-ci s’est déplacée à une
vélocité élevée. Un appui doux de la touche déplace celle-ci à une vélocité lente.
Une vélocité élevée associée à une note signifie donc en général « fort », tandis
qu’une vélocité faible signifie « doux ». Mais une machine MIDI peut interpréter
la valeur de vélocité de la façon dont elle veut, en la liant par exemple au con-
trôle de brillance ou à la largeur de bande d’un filtre. Un clavier mesurant la
vélocité des enfoncements de touche est appelé sensible à la vélocité.
Note-off Lorsque la note est relâchée, le clavier envoie un autre message de trois octets :
Événement de note : désactivé
Canal : 1
Numéro de touche : 60 (do du milieu)
Vélocité : 40 (piano ou doux)
Au lieu d’un message de note-off, certains synthétiseurs transmettent une note-
on avec une vélocité de 0.
Pression de touche Le message de trois octets transmet la pression du doigt détectée par le clavier
polyphonique et indique (1) canal, (2) numéro de touche de la note et (3) pression de la
(aftertouch) touche.
Pression de canal Ceci transmet la pression « moyenne » appliquée sur le clavier de toutes les
(aftertouch notes enfoncées. Le message contient deux octets : canal et pression de canal
de touche multiple) (0-127, avec 127 étant la pression maximale).
Changement Informe une machine réceptrice que la position d’une molette, d’un levier, d’un
de contrôle potentiomètre, d’une pédale ou d’un autre contrôleur continu spécifique est
modifiée. Ceci est effectué en envoyant un nouveau message de trois octets à
© Dunod. Toute reproduction non autorisée est un délit.
chaque fois que le contrôleur est modifié. Après l’octet de statut, le premier octet
de données indique le numéro du contrôleur et le second indique la valeur. Les
contrôleurs 32 à 63 sont définis comme « octet le moins significatif pour les
valeurs 0 à 31 ». Cela signifie que ces contrôleurs peuvent être couplés logique-
ment aux contrôleurs 0 à 31. C’est-à-dire que nous prenons l’octet de données
pour le contrôleur 0 comme étant l’octet le plus significatif (résolution gros-
sière) et l’octet de données pour le contrôleur 32 comme étant l’octet le moins
significatif (résolution fine), ce qui conduit à 14 bits de résolution. La résolution
de 14 bits complète est utilisée pour les numéros de paramètres enregistrés et
non enregistrés (voir la partie sur les numéros de paramètres).
Pitchbend Ce contrôleur utilise deux octets de données pour une résolution de 14 bits ou
16 384 divisions de hauteur. Un octet indique une plage grossière et l’autre indique
une plage fine. La plage du pitchbend est réglée sur le synthétiseur ou l’échan-
tillonneur affecté. Une molette de pitchbend qui est déplacée lentement peut
générer des milliers de messages de pitchbend. La quantité de changement
282 ENVIRONNEMENT ET OUTILS
Sélection Ce message passe un système sur la banque de patch spécifiée (jusqu’à 16 384
de banque banques de patch). Ceci est pratique pour les machines permettant plus de
128 patchs, voix ou programmes, car le message habituel Changement de
programme ne permet que 128 valeurs.
Contrôle clavier Rompt la connexion entre le clavier et le générateur de son d’un synthétiseur.
local/déporté En mode Déporté ou Local désactivé, un instrument pouvant générer des sons
transmet les messages de note par son port MIDI Out, mais pas à son synthé-
tiseur interne. Celui-ci peut être contrôlé à distance par des messages générés
en externe entrants dans le port MIDI In de l’instrument.
Extinction des notes Un message d’urgence qui arrête toutes les notes.
Réinitialisation de Replace tous les contrôleurs sur leur état initial optimum. Par exemple, un tel
tous les contrôleurs message replacerait une molette de vibrato sur 0 (pas de vibrato).
Système commun — Envoyé à toutes les machines sur tous les canaux ; ces messages furent
conçus pour régler les séquenceurs sur le morceau et la mesure appropriés à la lecture
Pointeur de position Adresse une séquence en termes d’une quantité de 14 bits représentant le
de morceau nombre de pulsations d’horloge MIDI survenues depuis le début du morceau
(6 horloges MIDI — 1 pulsation).
Sélection de morceau Sélectionne l’un des 128 fichiers de morceau dans une bibliothèque de
séquenceur.
Requête d’accordage Initie des routines dans un synthétiseur analogique pour accorder les oscilla-
teurs.
Quart d’image Utilisé par les instruments qui transmettent ou reçoivent du code temporel
MIDI (MTC). Chacune des huit variations de message agit comme pulsation de
tempo pour le système et définit un emplacement unique dans le code temporel
SMPTE. Huit messages de quart d’image définissent complètement le temps
SMPTE (deux pour chacune des heures, minutes, secondes et images).
Système temps réel — Messages d’horloge et commandes de départ et d’arrêt. Ils sont en
général utilisés par les séquenceurs et les boîtes à rythmes pour contrôler d’autres machines
MIDI. L’information de canal n’est pas transmise.
CHAPITRE 14 – MIDI 283
Horloge MIDI Utilisée comme pulsation de tempo par les séquenceurs MIDI et les boîtes à
rythmes. Transmise 24 fois par durée d’une noire.
Arrêt Généré lorsque le bouton d’arrêt d’un séquenceur ou d’une boîte à rythmes est
pressé. Arrête tout séquenceur ou boîte à rythmes le recevant.
Continuer Généré lorsque le bouton Continue est enfoncé dans un séquenceur ou une
boîte à rythmes. La machine le recevant lit depuis le point où la dernière com-
mande d’arrêt a été reçue.
Détection active Conçue à l’origine pour éviter les notes « bloquées » qui pouvaient survenir si
la connexion MIDI était temporairement interrompue entre la réception d’un
message Note-on et d’un message Note-off. La détection active fonctionne en
envoyant un message lorsqu’il n’y a aucune activité sur la ligne MIDI. Si le
message Détection active cesse et qu’il n’y a aucune autre activité sur la ligne,
alors l’esclave éteint ses générateurs de son pour empêcher les notes
« bloquées ». La détection active n’est plus souvent utilisée
Réinitialisation Lorsqu’une machine reçoit ce message, elle retourne à ses réglages par défaut
Système (ceux qui sont actifs au moment où on l’allume).
Système exclusif — Fourni pour qu’un constructeur puisse envoyer des données propres à
une machine ; utilisé pour communiquer des paramètres sonores et pour envoyer des
programmes dans un synthétiseur ou une unité d’effets.
Système exclusif Ce message est un « fourre-tout », car il transmet toutes les données de cons-
tructeur qui ne sont pas couvertes par les autres messages. L’octet d’état indique
un message Système exclusif (familièrement appelé « sysex »). Viennent ensuite
le numéro de constructeur (0-127), puis un ensemble d’octets de données,
tels que le contenu de la mémoire d’un synthétiseur avec tous ses réglages de
paramètres. Après que les données ont été envoyées, le processus s’arrête avec
un message d’un octet Fin de système exclusif ou un message Réinitialisation.
Système exclusif est largement utilisé pour transmettre une masse de données
de patch — des réglages de paramètre obtenus par édition de patch. Par
exemple, toute l’information d’édition du synthétiseur Yamaha DX7 peut être
© Dunod. Toute reproduction non autorisée est un délit.
réaccordage sur toutes les octaves de son étendue de hauteur. Cela rend impossible l’implémentation
d’échelles microtonales comprenant plus de douze notes par octaves ou s’étendant au-delà d’une
octave.
En appliquant cette connaissance de base de la représentation numérique des hauteurs par le MIDI,
nous pouvons aborder la grammaire des messages MIDI.
Message
Octet Octet(s)
d’état de données
Les octets de données commencent par un 0, les sept bits restants contenant la valeur réelle des
données. Ceci permet 27 = 128 valeurs différentes, de 0 à 127, exprimées dans un seul octet de
données. Dans un message de note-on, par exemple, le premier octet de données exprime un
numéro de touche (qui correspond généralement à la hauteur). Ici, la valeur de touche est 64,
ce qui correspond à une fréquence de 330 Hz. L’octet restant exprime la vélocité de touche (la vitesse
à laquelle une touche est enfoncée), en général interprétée comme l’amplitude de la note (voir
l’explication de la vélocité dans la description du message de note-on dans le tableau 14.1).
(a)
(b)
Temps État Num Vél Interprétation Description musicale
Delta (hex) (hex) (hex)
____________________________________________________________________________
0 90 34 35 Note On, canal 1, note=52, vél=53 Mi, octave 3, moyen fort
120 34 00 (État courant) note=52, vél=0 relâcher Mi3 après double croche
0 37 26 (État courant) note=55, vél=38 Sol3, moyen doux
60 37 00 (État courant) note=55, vél=0 relâcher Sol3 après triple croche
0 3B 28 (État courant) note=59, vél=40 B3, démarrer crescendo
60 3B 00 (État courant) note=59, vél=0 relâcher B3 après triple croche
0 40 2B (État courant) note=64, vél=43 Mi4, continuer crescendo
60 40 00 (État courant) note=64, vél=0 relâcher Mi4 après triple croche
0 43 2D (État courant) note=67, vél=45 Sol4, continuer crescendo
60 43 00 (État courant) note=67, vél=0 relâcher Sol4 après triple crochet
0 47 2F (État courant) note=71, vél=47 B4, continuer crescendo
60 47 00 (État courant) note=71, vél=0 relâcher B4 après triple croche
0 4C 32 (État courant) note=76, vél=50 Mi5, continuer crescendo
60 4C 00 (État courant) note=76, vél=0 relâcher Mi5 après triple croche
0 4F 3A (État courant) note=79, vél=58 Sol5, moyen fort avec accent métrique
360 4F 00 (État courant) note=79, vél=0 relâcher Sol5 après croche pointée
0 4F 2A (État courant) note=79, vél=42 Sol5, plus doux
120 4F 00 (État courant) note=79, vél=0 relâcher Sol5 après double croche
0 4F 42 (État courant) note=79, vél=66 accord : Sol5, moyen fort avec accent
0 48 37 (État courant) note=72, vél=55 Do5, moyen fort
0 45 37 (État courant) note=69, vél=55 La4, moyen fort
© Dunod. Toute reproduction non autorisée est un délit.
Pour un exemple de représentation MIDI de données de note, la figure 14.10 montre un fragment
de notation musicale et sa transcription en codes de message MIDI.
Une autre catégorie de message Voix de canal concerne ce que l’on appelle les programmes. En général,
un message de changement de programme transmet un nombre entier à une machine MIDI qui
lui indique quelle fonction effectuer. Dans un synthétiseur MIDI, un changement de programme
sélectionne une méthode de synthèse sonore particulière, comme « Patch 37 : Bells ». Dans du
matériel de traitement du signal, il sélectionne un effet audio, comme « Patch 37 : Reverberation ».
Le plus important est de se souvenir qu’un message de changement de programme n’envoie qu’un
nombre entier, et qu’il appartient à la machine réceptrice d’interpréter ce dernier.
1. Omni-on Poly Mode « Omni ». Une machine reçoit sur tous les canaux, mais les messages sont
envoyés depuis la machine sur un seul canal. La machine répond de façon polypho-
nique. Utilisé pour les tests.
2. Omni-on Mono Une machine reçoit sur tous les canaux et assigne les données aux voix de façon
monophonique. Conçu pour les synthétiseurs monophoniques ou les synthétiseurs
polyphoniques fonctionnant à l’unisson. Fait sonner une note à la fois. N’est pas implé-
menté dans de nombreux synthétiseurs.
3. Omni-off Poly Mode « Poly ». Les messages de voix sont reconnus depuis le canal de base et sont
assignés à toutes les voix de façon polyphonique. Plusieurs machines peuvent être
réglées pour répondre à différents canaux, afin que chaque machine puisse agir en
tant que partie d’une partition à plusieurs parties. Ceci est le mode le plus flexible,
car les canaux individuels peuvent être activés et désactivés.
4. Omni-off Mode « Multi ». Une machine multitimbrale peut répondre sur plusieurs canaux, mais
pas nécessairement sur tous. Les données peuvent être reçues sur autant de canaux
que l’unité possède de voix. Dans la spécification MIDI originelle, le récepteur répondait
de façon monophonique sur chaque canal. Le mode 4 est maintenant polyphonique
dans tous les canaux et est appelé mode Multi. Le mode 4 est souvent utilisé pour les
guitares MIDI, car chaque corde peut envoyer des données sur un canal différent.
5. General MIDI Les machines répondent selon une relation standard entre canaux, patchs et types de
son. Sous réserve que la musique reste à l’intérieur des limites de la norme General
MIDI, cette dernière améliore considérablement la transportabilité de fichiers de
séquence créés dans des endroits différents. Les dix premiers canaux sont préassi-
gnés, avec le canal 4 pour la mélodie, le canal 8 pour l’harmonie, et le canal 10 pour
la partie de percussion. De plus, les 128 patchs sont préassignés à des types de sons
spécifiques. Par exemple, en mode General MIDI (GM), le patch 1 signifie toujours un
© Dunod. Toute reproduction non autorisée est un délit.
son de grand piano acoustique, le patch 25 est toujours un son de guitare acoustique
avec cordes en nylon, etc.
programme (pour des raisons d’efficacité), la plupart des applications peuvent convertir ce format
interne en format SMF afin de permettre l’échange des données MIDI.
Le format SMF peut également servir comme format commun pour l’intercommunication entre
programmes dans des systèmes multitâches faisant fonctionner simultanément plusieurs applica-
tions musicales. La communication longue distance des données MIDI est également facilitée par
le format SMF, puisque des musiciens faisant fonctionner des logiciels différents peuvent néan-
moins échanger des données de séquence (voir la partie sur les télécommunications au chapitre 15).
des Fichiers MIDI standards (voir plus loin la partie Contacts sur le MIDI pour y trouver l’adresse
de l’IMA et celles d’autres organisations). Oostrum (1993) a décrit un programme traduisant les
fichiers SMF en format lisible par les humains.
Le MTC n’a pas été conçu pour la synchronisation de plusieurs magnétophones. Ce type de syn-
chronisation nécessite une précision de l’ordre de quelques microsecondes. Avec sa résolution de
1 à 2 ms, le MTC convient mieux aux applications comme le déclenchement de la lecture de sons
à partir de stations de travail de musique et d’échantillonneurs (figure 14.12). Voici comment cela
se passe. Dans une station de travail, un gestionnaire de fichiers sons lit des emplacements MTC
entrants et joue un son après réception d’un emplacement spécifique depuis une machine externe.
Pour lancer la lecture depuis un échantillonneur, le code temporel est interprété par un pro-
gramme de séquence qui envoie un message de note-on spécifique lorsqu’il voit l’adresse de code
temporel appropriée. Le MTC peut également déclencher des événements d’appel (voir la partie sur
les listes d’appel ci-dessous).
Un des désavantages du MTC par rapport à la méthode d’horloge est qu’il nécessite davantage de
largeur de bande MIDI. Le MTC est transmis par les messages d’image complète et de quart d’image
(voir le tableau 14.1). Un message d’image complète contient dix octets et inclut un numéro de
canal en plus du temps absolu. Le but principal de ce message est de faire avancer ou reculer une
294 ENVIRONNEMENT ET OUTILS
(a) (b)
Enregistreur Enregistreur
de bande vidéo de bande vidéo
Convertisseur SMPTE-MTC
Convertisseur SMPTE-MTC
machine jusqu’à une position stipulée. Un message d’image complète est trop grand pour envoyer
toutes les nouvelles images SMPTE.
Lors d’une opération normale, un transmetteur envoie des messages de quart d’image de deux octets
à un taux constant de 120 messages par seconde. Chaque message agit comme une sorte d’impul-
sion de synchronisation, mais transmet également 4 bits définissant un chiffre d’un champ spéci-
fique de l’emplacement de code temporel SMPTE courant. Il faut huit messages pour transmettre
un emplacement de code temporel SMPTE complet. En raison de la nature critique du temps dans ces
messages, le MTC doit être routé par un câble MIDI dédié. Si ce n’est pas le cas, la synchronisation
CHAPITRE 14 – MIDI 295
sera sujette au « jitter », puisque les données de synchronisation peuvent être mises de côté afin de
laisser de la place aux autres commandes.
14.12.3 Listes d’appel
En plus du déclenchement en temps absolu, le MTC permet de définir des listes de commandes
horodatées. L’horodatage indique à la machine réceptrice d’exécuter une commande à un moment
spécifique. Afin de gérer ces messages, qui sont appelés appels, la machine réceptrice doit avoir
une mémoire de liste d’appel et un logiciel de gestion du temps intégré. Les commandes typiques
qu’un musicien peut appeler incluent : lancer l’enregistrement, arrêter l’enregistrement, lancer la
lecture de séquence, arrêter la lecture de séquence, ou passer à un nouvel effet de réverbération.
Les réglages de paramètre peuvent également être envoyés avec l’appel temporel.
En utilisant un logiciel d’édition de liste d’appel (similaire à un programme de séquence), nous
pouvons programmer un ordinateur pour indiquer à chaque machine de la chaîne MIDI à quel
moment effectuer une action spécifique. Dans le langage MIDI, les commandes de liste d’appel sont
appelées des messages de configuration et sont classifiées comme étant un type de message Système
exclusif (voir le tableau 14.1).
un contrôle indirect de l’enregistreur. Dans tous les cas, la machine contrôlée peut également ren-
voyer des informations à la machine MIDI maître, comme son identité, diverses erreurs et son état
courant (mode de lecture, mode d’enregistrement, etc.).
Une extension liée au MIDI est le Contrôle de show MIDI (MSC). Le MSC fut créé pour le contrôle
des systèmes d’éclairage et pour la production théâtrale en général. Plutôt que de compter le temps
en numéros de mesure ou en codes temporels SMPTE, les productions théâtrales représentent le
temps en termes de scènes et d’appels qui peuvent survenir à différents moments, selon le rythme
de l’interprétation. Le MSC ressemble à un séquenceur pas à pas à accès aléatoire qui lit à la fois
des événements individuels et des séquences d’éclairage chorégraphiées avec un simple bouton.
Pour des détails sur le MMC et le MSC, veuillez contacter l’International MIDI Association.
296 ENVIRONNEMENT ET OUTILS
In In
Thru
In In
Out
Connecteurs In
Thru
Figure 14.14 – Copie d’écran d’un logiciel d’analyse de données MIDI, Midiscope,
créé par Ralph Muha de Kurzweil Music Systems. Remarquez le réglage des boutons de filtrage en
haut à droite, où seulement l’élément Note On/Off est coché. Ceci signifie que seuls les messages
de note-on et de note-off sont sélectionnés pour être affichés. Les messages de note apparaissent
dans la fenêtre Trace Buffer située au centre en haut. La première colonne est un index correspondant
au nombre d’octets reçus. La colonne suivante affiche les messages de note, encodés symbolique-
ment en NON (note-on) et NOF (note-off), suivis du numéro de canal entrant (1 dans tous les cas).
Après le canal se trouve la hauteur de la note, de nouveau encodée symboliquement avec la lettre
correspondant à la hauteur (par exemple, C#) et l’octave (9). La dernière colonne affiche la vélocité
de relâchement ou d’attaque, encodée en format hexadécimal. L’affichage en histogramme situé
au centre en bas montre les vélocités des notes. Les données numériques situées en bas à gauche
montrent les divers détails concernant le message reçu le plus récent.
© Dunod. Toute reproduction non autorisée est un délit.
Commutateur A/B Sélectionne entre deux sources MIDI vers un certain nombre de connexions
MIDI Thru (figure 14.13a). Le but principal est de contrôler l’acheminement
du signal avec un bouton-poussoir, en éliminant le recâblage manuel.
Patchbay Interconnecte N entrées avec M sorties grâce à des contrôles par bouton-
poussoir. Élimine les retards et la distorsion créés par la connexion en chaîne.
Certaines peuvent être programmées pour modifier les données qui passent
à travers elles.
Séparateur de note Convertit les messages de note provenant d’un clavier non séparé (un seul
ou Mappeur canal) en messages « séparés » distribués sur plusieurs canaux MIDI. Peut
également être utilisé pour « remapper » les messages Changement de pro-
gramme afin qu’ils correspondent à des unités d’effets et à des générateurs de
sons spécifiques.
Boîte Thru Achemine un seul canal d’entrée dans plusieurs connexions MIDI Thru
ou Séparateur (figure 14.13c), en évitant ainsi les problèmes de la connexion en chaîne
(retards et dégradation du signal). Peut également être réalisé avec une patch-
bay.
Programme Affiche l’état d’une connexion MIDI et indique les messages transmis. Peut
d’analyse MIDI être utilisé comme programme de test pour des machines afin d’afficher la
gamme de sorties qu’elles génèrent, quels numéros de contrôleurs sont utilisés,
etc.
aux environs de 50 à 150 messages par seconde, selon la taille du message et la vitesse de la machine
réceptrice. Ceci n’est pas assez rapide pour certaines situations d’interprétation en direct.
Le taux des données MIDI limite le nombre de voix, leurs fluctuations de hauteur et d’amplitude,
et finalement la complexité de la texture musicale. Le protocole fut conçu pour enregistrer les
interprétations d’un à quatre claviéristes sans trop de manipulation de contrôles continus.
La largeur de bande du MIDI peut être dépassée par un seul virtuose s’il utilise beaucoup de contrôles
continus comme les molettes de hauteur et de vibrato, les pédales et les contrôles de souffle (Abbott,
1984a ; Moore, 1988). Ceci est dû au fait que les contrôles continus envoient un flux continu de
messages tant qu’ils sont activés. Comme Moore (1988) l’explique, même un simple effet comme
CHAPITRE 14 – MIDI 299
la transmission de messages de molette de hauteur pour créer un vibrato de 10 Hz dans une seule
voix consomme la presque totalité de la largeur de bande MIDI ! Certains séquenceurs fournissent
une option pour « amincir » les données de contrôle continu (par exemple en supprimant un pour-
centage des messages), mais ceci transforme une fonction de contrôle lisse en une fonction à niveaux
disjoints.
Des entraves aux données (appelées « étranglements MIDI ») peuvent survenir durant la lecture
d’une partition modérément complexe. Des trous et des erreurs temporelles (se manifestant sous
la forme de saccades ou de ralentissements) peuvent être évidents. Bien qu’en théorie le MIDI auto-
rise seize voix par câble, les voix individuelles d’un accord ne sonnent pas en même temps. Ceci est
dû à la nature sérielle des messages MIDI (chaque message de note-on prend environ 1 ms pour
être transmis). Comme l’oreille est très sensible aux transitoires des attaques de note, un accord
MIDI brouillé dans le temps peut sonner de façon « flasque » et est entendu comme un arpège dans
le pire des cas (par exemple avec un accord de seize notes envoyées dans les seize canaux). Les apôtres
du MIDI ont suggéré que les retards de départ de note ajoutaient de la « vie » à certaines partitions
de musique. Mais l’introduction de tels retards devrait être un paramètre contrôlable dépendant
du contexte musical plutôt qu’une limite technique arbitraire.
✦ Retards de microprocesseur
L’un des aspects du retard dans les systèmes MIDI n’est pas directement lié au MIDI en soi. De
nombreuses machines introduisent leur propre retard en raison de la lenteur de leur microproces-
seur interne. Par exemple, des tests montrent que la réponse d’un seul oscillateur à un message de
note-on en mode Omni peut prendre jusqu’à 7 ms dans certains synthétiseurs (Marans, 1991).
Huit messages de note-on « simultanés » envoyés à un synthétiseur multitimbral (un oscillateur
par timbre) en mode Multi peut prendre jusqu’à 21 ms pour être décodé (dans l’idéal, cette valeur
devrait être de 8 ms, le temps qu’il faut au MIDI pour transmettre les messages de note-on). Les
retards augmentent de façon spectaculaire lorsque l’on utilise plus d’oscillateurs par voix, comme
cela est souvent le cas. Ces retards existent de fait dans les configurations MIDI.
14.15.2 Limites d’interconnexion
L’interface MIDI spécifie que chaque direction de communication nécessite un câble séparé. Ce
parti-pris unidirectionnel aboutit à un réseau de câbles. Un autre facteur ajoutant du désordre aux
câbles est que de plus en plus de machines multicanaux possèdent des ports MIDI multiples afin
de contourner les problèmes inhérents de largeur de bande dans un seul câble. La connexion en
© Dunod. Toute reproduction non autorisée est un délit.
chaîne, qui fut conçue pour diminuer le nombre de câbles MIDI, possède des limites pratiques
strictes en raison du brouillage d’impulsion dans les connexions MIDI Thru.
Ces aspects de la conception du MIDI rendent nécessaire une patchbay MIDI ou d’autres boîtes
d’accessoires dans un studio professionnel. Une partie de l’argument original en faveur du MIDI
en 1983 comparé à une approche de réseau plus sophistiquée était son faible coût. Le coût de fabri-
cation est très peu élevé en ce qui concerne le matériel MIDI d’une seule machine. Mais les systèmes
MIDI actuels nécessitent tant de câbles et de boîtes d’accessoires que le prix requis pour intercon-
necter un studio ne constitue plus une dépense négligeable. De plus, la technologie de réseau haute
vitesse est devenue bien meilleur marché.
14.15.3 Limites de la représentation musicale
Une contrainte fondamentale de la spécification MIDI est le concept de musique incorporé lors de
sa conception. Le MIDI fut conçu pour capturer un dialecte musical fortement orienté vers les mor-
ceaux populaires (avec une pulsation mesurée et un tempérament égal) tels que joués sur un clavier
300 ENVIRONNEMENT ET OUTILS
Ordinateur
LAN
Convertisseur LAN-MIDI
pouvant gérer plusieurs lignes MIDI indépendantes. Ces produits fonctionnent avec un logiciel
compatible avec l’adressage de lignes multiples.
3. Synchroniser plusieurs systèmes MIDI fonctionnant en parallèle grâce à du code temporel
SMPTE et à de la conversion SMPTE-MTC (voir le chapitre 15 pour plus d’informations sur
le SMPTE).
4. Utiliser la largeur de bande de câbles en fibre optique pour transmettre de nombreux flux de
données en série de façon concurrente (comme dans le système MidiTap développé par la
société Lone Wolf). Les flux de données en série obéissent à des protocoles normalisés comme
le MIDI, l’audionumérique AES/EBU, le code temporel SMPTE et d’autres formats numériques
de données.
5. Intégrer des communications MIDI à l’intérieur d’un réseau local haute vitesse (LAN) ou
d’un protocole de communications multimédias. Lorsque le MIDI fut lancé en 1983, une carte
interface LAN pour un petit ordinateur coûtait plusieurs milliers de dollars. Ces dernières
années, le prix des circuits LAN a diminué de façon spectaculaire, et ils équipent maintenant
en standard de nombreux ordinateurs. Certains circuits LAN ne coûtent pas plus cher qu’une
interface MIDI, et sont pourtant plusieurs centaines de fois plus rapides.
© Dunod. Toute reproduction non autorisée est un délit.
Dans un schéma LAN-MIDI, un ordinateur maître communique à haute vitesse dans le LAN jus-
qu’aux contrôleurs MIDI (figure 14.15). Chaque contrôleur MIDI, à son tour, communique avec un
synthétiseur par un lien MIDI dédié. Un problème que l’on rencontre avec certains protocoles LAN
est que le taux de transmission peut dépendre de la quantité de trafic sur le LAN, c’est-à-dire du
nombre de machines qui essaient de transmettre en même temps. Les « collisions » entre plusieurs
messages peuvent retarder les communications.
Les experts utilisent également des optimisations spéciales construites dans des machines MIDI
spécifiques lorsqu’elles sont disponibles. Un exemple pourrait être un synthétiseur possédant un
schéma de contrôle global pour la puissance qui affecte tous les canaux même si un message n’est
envoyé que sur un seul canal.
302 ENVIRONNEMENT ET OUTILS
Tableau 14.4 – Programmes d’application MIDI et les types de messages qu’ils gèrent.
Éditeurs de partition Maintiennent une structure de données interne qui fait le lien entre
et imprimeurs de notation une représentation graphique et une séquence de messages MIDI, en
particulier des messages de note.
Programmes de composition Génèrent des données de séquence MIDI (plus particulièrement des
algorithmique messages Voix de canal), en commençant parfois de données de note
reçues par une machine d’entrée comme un clavier.
Éditeurs et mélangeurs Reçoivent des données au format MIDI Sample Dump (MSD) ou dans
d’échantillon un format propriétaire, permettent à l’utilisateur de les éditer, et
retransmettent le format MSD ou propriétaire dans l’échantillonneur.
Certains systèmes permettent la lecture de l’échantillon en synchrone
avec des images spécifiques de code temporel SMPTE ayant été tra-
duites en messages de code temporel MIDI.
Sélections Affichage
graphiques des options
et des outils
d’entrée graphique
Gestionnaire d’interaction
graphique et textuelle
Mises à jour
de l’affichage Événements
graphique
Traitement Gestionnaire
Gestionnaire des données
d’entrée MIDI de sortie MIDI
musicales
Interface MIDI
In Out
phique ou le mouvement d’un curseur graphique. L’entrée dans le programme peut également
provenir de l’interface MIDI, en relais d’une machine d’entrée comme un clavier de musique.
Les données MIDI sont groupées en octets par l’interface MIDI et passées dans le pilote de machine
MIDI. Il s’agit du code qui gère les ports d’entrée et de sortie MIDI de l’ordinateur. Tous les pro-
grammes qui souhaitent transmettre ou recevoir des données MIDI doivent communiquer avec ce
pilote de machine. Certaines applications fournissent leur propre pilote, tandis que d’autres laissent
au système de l’ordinateur le soin de fournir cet ensemble de services. Pour le programmeur, le pilote
fournit un certain nombre de services, comme l’activation de l’interface MIDI, la création d’une
mémoire tampon d’entrée et de sortie, la capture ou l’envoi d’un octet dans la mémoire tampon, et
l’effacement de ces mémoires.
304 ENVIRONNEMENT ET OUTILS
Les parties spécifiques au MIDI d’un programme sont constituées de trois modules : entrée, trai-
tement et sortie. L’étape d’entrée gère les données MIDI entrantes en regroupant le flux de bits en
messages. Elle envoie les messages à l’étape de traitement pour décodage et action. L’étape de trai-
tement interprète les messages épars. Le traitement pourrait être, par exemple, un séquenceur MIDI
qui stocke les données dans l’une de ses pistes. L’étape de sortie prend des données dans l’étape de
traitement et l’envoie vers d’autres machines MIDI, comme dans l’opération « Lecture » d’un séquen-
ceur ou d’un programme de composition algorithmique.
14.19 Conclusion
La conception simple et les nécessités matérielles bon marché du MIDI ont conduit à son acceptation
universelle dans le monde de la musique commerciale. Le MIDI a été bénéfique dans de nombreuses
applications musicales, depuis l’éducation jusqu’à la production musicale pour la télévision et le
film, et il a ouvert un monde entièrement nouveau de possibilités d’interprétation interactives.
Une industrie de la musique électronique diverse s’est développée en tant qu’effet secondaire du
succès du MIDI. La présence d’une interface standard sur les synthétiseurs a conduit à une proli-
CHAPITRE 14 – MIDI 305
fération de nouvelles machines d’entrée musicale — les instruments physiques manipulés par les
interprètes.
Le MIDI est une spécification dynamique. Depuis qu’il a été proposé pour la première fois en 1983,
il a subi des amendements de façon continue. Les extensions à la norme MIDI originelle ont rendues
possibles le transfert d’échantillon (par le Sample Dump Standard), la synchronisation avec des
machines SMPTE (par le code temporel MIDI), l’échange de fichiers MIDI (par la définition Standard
MIDI File), le contrôle de paramètre normalisé, une configuration de preset, la transmission par
USB ou la lecture en continu par le biais d’Internet. Un grand nombre de nouvelles normes ont
émergé pour rendre le MIDI compatible avec des appareils mobiles comme les téléphones. Pour
plus de détails sur les dernières mises à jour du MIDI, voir le site web de la MIDI Manufacturers
Association : http://www.midi.org. Une conscience des limites fondamentales du MIDI a toujours
existé. À un moment, les amendements cesseront, et une nouvelle norme émergera.
© Dunod. Toute reproduction non autorisée est un délit.
Chapitre 15
Interconnexions de système
Tout propriétaire de système musical doit faire face à l’interconnexion de machines. Tout nouvel
équipement apporte son lot de connecteurs de tout type et de toute taille. La compatibilité entre les
machines est incomplète, ce qui conduit à l’achat d’interfaces matérielles spécialisées et de logiciels
de conversion. La connaissance des schémas d’interconnexion de machine est une nécessité pratique.
Ce chapitre présente ces concepts et leurs implications dans un système musical. Le chapitre 14
explique la spécification MIDI et nous recommandons sa lecture avant d’aborder la partie sur le
MIDI dans ce chapitre.
Nous examinons tout d’abord les propriétés de base des alimentations en courant alternatif et des
câbles audio analogiques. Puis nous abordons les différents types de canaux de communication
numérique :
• Lignes série (y compris le protocole MIDI).
• Liaisons audionumériques.
© Dunod. Toute reproduction non autorisée est un délit.
• Liaisons de synchro.
• Ports et bus parallèles.
• Contrôleurs d’accès direct à la mémoire et mémoires partagées.
• Réseaux et télécommunications.
Une règle générale est de placer tout l’équipement audio et informatique sur une alimentation en
courant alternatif séparée d’équipements électriques tels que les gradateurs de lumière, l’air con-
ditionné et les réfrigérateurs. Ceci permet d’éviter des distorsions (pics transitoires) dans la tension
d’alimentation causées par les commutateurs haute puissance présents dans ces appareils. L’ali-
mentation dédiée devrait avoir un signal de terre provenant de la source la plus propre possible.
Le signal de terre est un point de référence électrique pour « aucune charge électrique ». S’il est
contaminé par un bruit électrique quelconque, celui-ci entre dans tous les appareils connectés au
signal de terre et peut arriver dans les signaux audio. Dans les studios professionnels, le câble de
terre est souvent connecté sur une tige en métal enfoncée dans la terre, ce qui est considéré comme
étant électriquement neutre.
Une source importante d’interférence audio est constituée des signaux liés à l’alimentation passant
dans les signaux audio. Les alimentations en courant alternatif peuvent introduire du bruit dans
les câbles audio analogiques, et il est donc préférable de séparer les deux. Dans le meilleur des cas,
on peut utiliser des conduits en acier pour séparer ces câbles ou au moins ne pas placer les câbles
d’alimentation et les câbles audio côte à côte sur de longues distances. Un autre problème provient
des différences de tension qui existent entre différents châssis d’équipement. Ces différences peuvent
provenir de champs magnétiques de dispersion, d’une mise à la terre incompatible, d’une perte
d’alimentation, ou d’une interférence de fréquence radio, parmi d’autres choses. Une façon de
résoudre le problème est de connecter tout l’équipement dans une configuration en étoile sur ali-
mentation en courant alternatif centrale avec une mise à la terre centrale, plutôt que de « brancher
en chaîne » l’alimentation CA et de mettre à la terre à travers plusieurs appareils (brancher en chaîne
signifie interconnecter des appareils en série d’un appareil vers le suivant, et ainsi de suite).
Lorsqu’une interférence dans un appareil A est causée par une fuite magnétique dans un transfor-
mateur de puissance interne d’un appareil B, déplacez A à un endroit différent, car même une
distance d’un mètre peut aider. Si ce n’est pas le cas, il peut être nécessaire d’ajouter une isolation
supplémentaire (cuivre ou acier) à l’intérieur ou autour de l’appareil posant problème.
Un conditionneur d’alimentation s’adresse à deux autres sources de bruit : l’interférence fréquence
radio (FR) et les pointes électriques. Les symptômes de l’interférence FR sont une augmentation
du bruit haute fréquence et la présence d’un programme audible (parole ou musique) qui passe
dans un autre signal. Comme mentionné précédemment, les distorsions ou les pointes peuvent pro-
venir de commutateurs dans les appareils d’air conditionné, les réfrigérateurs, les gradateurs de
lumière, et de déchargements électrostatiques dans l’atmosphère (éclairs). Dès lors, les condition-
neurs d’alimentation sont recommandés même dans les petits studios, spécialement ceux ne
possédant pas un service électrique séparé pour le studio. Les conditionneurs d’alimentation con-
tiennent en général des filtres haute fréquence qui éliminent l’interférence FR et des suppresseurs
de pointes qui atténuent celles-ci. Un conditionneur d’alimentation équipé d’un fusible constitue
également une assurance bon marché contre la défaillance de disjoncteurs dans le système électrique
d’un immeuble, qui, nous l’attestons de notre expérience personnelle, peut survenir.
Un autre appareil plus coûteux appelé régulateur de tension va au-delà du filtrage de l’alimentation
pour maintenir la tension CA à l’intérieur de limites étroites. Ceci est utile, car le niveau de tension
provenant d’une prise murale peut varier considérablement, ce qui cause un comportement anormal
dans l’équipement électrique. Les chutes de tension sont particulièrement problématiques les
jours où la consommation est forte, par exemple les jours de forte chaleur pendant l’été.
CHAPITRE 15 – INTERCONNEXIONS DE SYSTÈME 309
15.2.1 Connecteurs
Les types de connecteurs de câble les plus couramment utilisés dans les studios audio sont les con-
necteurs cinch (ou RCA) standard utilisés dans les produits audio grand public, les connecteurs
jacks 6,35 mm (tout d’abord employés par les sociétés de téléphone) utilisés avec des instruments
tels que les guitares électriques et les amplificateurs de guitares, mais également sur les synthéti-
seurs, les connecteurs jacks TT ou bantam 4,4 mm utilisés dans les patchbays, et les connecteurs
XLR trois points et cinq points utilisés dans les appareils professionnels. Un protocole de connexion
standard pour les connecteurs XLR fut finalement défini en 1992, après des décennies de prati-
ques contradictoires (Audio Engineering Society, 1992c).
câble aux deux extrémités passe des signaux différentiels, ce qui signifie qu’il doit y avoir une diffé-
rence de tension entre les deux conducteurs pour que le courant circule. Puisque l’un des signaux
est déphasé de 180 degrés, il existe toujours une différence de tension entre les deux signaux.
Dès lors, le signal audio passe toujours à travers l’étape d’entrée différentielle. Un tel circuit montre
la propriété de rejet du mode commun, qui est la clé de l’immunité contre le bruit des lignes symé-
triques. Si les interférences extérieures passent à travers le blindage, elles contaminent inévitable-
ment les deux conducteurs. Dès lors, ce signal en « mode commun » est rejeté par le circuit d’entrée.
Dans une ligne asymétrique, un paquet de fils transporte le signal, entouré d’un blindage relié à la
terre. Le problème principal avec une ligne asymétrique est qu’elle est susceptible d’induire des
bruits et des pertes de signal. Ces problèmes potentiels peuvent ne pas avoir d’importance pour un
câble de courte longueur (par exemple, moins de deux mètres). Mais sur des longueurs de câble
plus importantes, les sources de contamination s’ajoutent. En général, les lignes symétriques sont
préférables, car elles rejettent le bruit induit et les différences de tension provoqués par un équipe-
ment qui n’est pas correctement relié à la terre.
310 ENVIRONNEMENT ET OUTILS
(a)
(b)
Figure 15.1 – Vue de signaux dans les fils d’un câble symétrique.
(a) Signal original. (b) Signal en inversion de phase.
Pour une qualité optimale, l’équipement audio devrait avoir des entrées symétriques haute impé-
dance (~ 10 kΩ) et des sorties symétriques basse impédance (~ 60 Ω). Si l’équipement ne satisfait
pas à ces règles, comme cela est le cas de la plupart des produits audio grand public, par exemple,
il est possible d’acheter des boîtes interface fournissant une conversion asymétrique-symétrique.
Ces boîtes convertissent également entre les différents niveaux de tension utilisés dans les équipe-
ments grand public et professionnels.
15.3 Patchbays
Des configurations audio différentes nécessitent que l’ingénieur du son déconnecte les câbles
d’une configuration existante et les reconnecte dans la configuration désirée. Lorsqu’un système
CHAPITRE 15 – INTERCONNEXIONS DE SYSTÈME 311
atteint un certain niveau de complexité, ce projet peut être difficile et prendre du temps. Une patch-
bay, qui garde tous les points d’interconnexion dans un emplacement central avec un schéma de
connexion standard, simplifie grandement cette tâche. Le terme patchbay provient des cordons de
raccordement (patch cords) utilisés pour connecter les entrées et les sorties des appareils de studio.
Nous pouvons distinguer trois types de patchbays, selon leur technologie : analogique, hybride et
numérique.
(a) (b)
Figure 15.2 – Deux vues d’un patch pour un remélange de quatre pistes
en deux pistes avec effets. (a) Vue logique de l’appareil. (b) Vue de la patchbay. Le côté gauche de
la patchbay est alloué aux prises d’entrée, et le côté droit aux prises de sortie.
Une partie spéciale d’une patchbay est la partie de mult (multiplexage). Un mult est un ensemble
de prises interconnectées qui envoie une entrée vers plusieurs sorties ou vice versa (figure 15.3).
312 ENVIRONNEMENT ET OUTILS
Lignes Lignes
numériques numériques
stéréo stéréo
à 48 kHz à 48 kHz
avantage est la vitesse. Une ligne RS-232C normale transfère des données à des taux allant jusqu’à
environ 20 kbits par seconde, tandis que la norme RS-422 permet des vitesses de transmission
bien plus élevées.
permettre aux synthétiseurs, séquenceurs, ordinateurs et claviers d’être interconnectés par une
interface standard. Il prend la forme de câbles attachés à des connecteurs DIN cinq points qui relient
chaque appareil MIDI (DIN est l’acronyme d’une organisation allemande définissant des normes).
Le câblage des connecteurs MIDI n’est pas compatible avec les normes DIN audio normales.
Les transmissions MIDI opèrent à un taux de 31,25 kbits par seconde, de façon asynchrone. Un
signal MIDI est constitué d’un bit de départ, d’un octet de données de 8 bits, et d’un bit d’arrêt
dans un seul mot de transmission. Un message MIDI est défini comme un ou plusieurs mots, selon
le type de message envoyé.
Un câble MIDI communique des informations de contrôle d’interprétation telles que le temps de
départ d’enfoncements de touche (notes), leur vélocité (amplitude), et les changements de pro-
gramme (ou changements de patch) initiés par le musicien. Le MIDI n’est pas normalement utilisé
pour transmettre des enveloppes ou des formes d’onde à un synthétiseur. Il peut transmettre des
fichiers son monauraux vers un échantillonneur, mais uniquement en temps différé à un taux très
lent.
314 ENVIRONNEMENT ET OUTILS
Chaque appareil équipé en MIDI contient un port MIDI. Ce port est constitué d’au moins trois
prises : In, Out et Thru. La prise In reçoit les données MIDI. Par exemple, lorsque des données de
note MIDI sont envoyées par un câble MIDI à la prise In d’un synthétiseur, celui-ci joue comme si
quelqu’un jouait de son clavier. Une prise Out d’un appareil transmet des messages MIDI depuis
celui-ci, tandis qu’une prise Thru permet au code MIDI entrant dans le port In d’être transmis à
un troisième appareil MIDI de façon plus ou moins transparente. Le port MIDI Thru rend possible
l’interconnexion de plusieurs appareils en chaîne (figure 15.5). Certains appareils possèdent de
multiples prises In ou Out pour permettre une mise en chaîne flexible.
Figure 15.5 – Connexion en chaîne MIDI grâce au port MIDI Thru du synthétiseur.
Le synthétiseur peut répondre aux messages envoyés sur plusieurs canaux MIDI tandis que l’échan-
tillonneur répond au même canal ou à d’autres canaux de façon indépendante.
Une chaîne MIDI est unidirectionnelle. Cela signifie que si nous souhaitons à la fois enregistrer et lire
en utilisant un séquenceur et un synthétiseur, il faut un câble pour envoyer les données du synthé-
tiseur vers le séquenceur et un autre câble pour envoyer les données stockées du séquenceur vers
le synthétiseur.
La longueur physique d’un câble MIDI ne devrait pas excéder 6,6 m, car les pertes de transmission
dans le câble commencent à créer des erreurs de données. Pas plus de trois appareils ne peuvent
être mis en chaîne en raison du brouillage d’impulsion qui s’accumule lorsque le signal passe le long
de la chaîne (Cooper, 1985 ; voir également le chapitre 14).
1 2 3 4 5 6 7 8
Figure 15.6 – Patchbay MIDI. Cet exemple montre l’interclassage (la fusion)
de données entrantes (dans ce cas, depuis les appareils 1, 2, 3 et 4), et leur acheminement vers
un seul port MIDI. Elle prend également des données d’un seul appareil (appareil 5) et les envoie
dans le port In de plusieurs autres appareils (4, 6 et 7 dans cette figure).
CHAPITRE 15 – INTERCONNEXIONS DE SYSTÈME 315
Une chaîne ou ligne MIDI donnée possède 16 canaux qui peuvent gérer 16 appareils logiques. Ces
appareils logiques peuvent être des appareils physiques séparés ou simplement des voix différentes
dans un synthétiseur multitimbral. De nombreux studios utilisent plusieurs lignes MIDI pour
obtenir plus de canaux. Comme chaque liaison à deux sens nécessite deux câbles, cela peut con-
duire à un imbroglio de câbles MIDI qui est peu commode à repatcher. Comme repatcher est souvent
nécessaire, un composant essentiel d’un studio MIDI est une patchbay MIDI, montrée à la figure 14.6.
Grâce à des contrôles par bouton-poussoir, une patchbay MIDI achemine un flux de données MIDI
vers un ou plusieurs appareils. Comme tous les appareils sont directement liés à la patchbay, il n’y
a pas de connexion en chaîne.
La patchbay MIDI achemine des flux de données MIDI d’un appareil vers un autre appareil ; les
entrées et sorties numérotées sur la patchbay MIDI correspondent aux différents appareils et n’ont
pas de rapport avec les canaux MIDI. D’autres boîtes d’accessoire MIDI peut relier les données d’un
canal vers un autre canal, ou filtrer et éliminer en même temps certaines données du flux MIDI
(voir le chapitre 14).
EIAJ ou PCM-F1 L’un des premiers schémas d’interconnexion, provenant du format de bus des proces-
seurs audionumériques Sony PCM-F1 et 701. Plusieurs sociétés ont développé des
unités d’interface qui modifiaient le F1 et le 701 afin de produire des versions électri-
quement isolées des flots binaires primaires d’entrée et de sortie des CAN et des CNA
de ces unités.
AES/EBU Format série deux canaux créé par l’Audio Engineering Society et la European Broad-
cast Union ; connu autrefois sous le nom de AES3-1992 ou ANSI S4.40-1992 (Finger,
1992 ; Audio Engineering Society, 1992a). Utilise un seul câble à paire torsadée d’une
longueur allant jusqu’à 100 m à un taux de bit de 3.072 MHz pour des échantillons
© Dunod. Toute reproduction non autorisée est un délit.
audio 48 kHz. Un câble à paire torsadée est constitué de deux fils blindés individuel-
lement puis torsadés ensemble et recouvert d’un blindage d’isolation. Il est bon marché,
mais susceptible de récupérer des interférences de bruit sur de grandes longueurs de
câble. Les canaux gauche et droit sont multiplexés, avec une horloge et une synchro
intégrée à 32, 44,1 ou 48 kHz. D’autres fréquences sont possibles. Comme le format
possède une horloge intégrée, le signal d’horloge est contenu dans le flux audionu-
mérique, ce qui simplifie l’interconnexion, car il n’y a pas besoin d’une synchro avec
une horloge maître, comme cela est le cas avec le format SDIF-2 (l’extension d’horloge
de synchro AES pour le format AES/EBU lui fait perdre sa fonction d’horloge intégrée
dans les applications qui nécessitent une synchro globale). Une image est constituée
de deux sous-images correspondantes aux canaux gauche et droit. Chaque sous-image
est en 32 bits, avec les données audio réparties sur 24 de ces 32 bits, représentées
en forme complémentaire des deux. Les autres 8 bits sont pour la synchro, l’indicateur
d’erreur, le bit utilisateur, l’état du canal audio et la parité de sous-image. Le format
standard pour le texte et les autres données utilisateur est décrit par la norme
AES18-1992 (Audio Engineering Society, 1992b). Un bloc est constitué de 192 images,
et un bloc d’état de canal complet est formé à partir des 192 bits d’état de canal de ce
316 ENVIRONNEMENT ET OUTILS
SDIF-2 SDIF-2 (Sony Digital Interface Format) est une interface série développée par Sony
et utilisée pour interconnecter des produits audio professionnels, en particulier le sys-
tème de mastering de disque compact Sony. La norme SDIF-2 est conçue pour trans-
férer des échantillons aux taux standards de 44,056, 44,1 et 48 kHz. Tous les appareils
doivent être synchronisés à une horloge maître. Le signal audio est encodé sous la
forme d’un mot de 32 bits, divisés en un champ d’échantillon audio de 20 bits, un
champ de contrôle de 8 bits et un champ de synchro de 3 bits. Lorsque des échan-
tillons 16 bits sont transmis, les quatre bits restants sont remplis de zéros. Le
champ de contrôle contient des indicateurs pour l’emphase, la protection de copie, et
un indicateur de bloc qui indique le commencement d’un bloc SDIF-2 (256 mots). Le
champ de synchro de 3 bits est divisé en deux parties : impulsion haut-bas (indiquant
le commencement d’un bloc) ou impulsion bas-haut (indiquant un mot normal
d’échantillon). Voir Pohlmann (1989a) pour un diagramme détaillé du format d’enco-
dage. Un connecteur 15 points est en général utilisé.
AES10 ou MADI MADI (Multichannel Audio Digital Interface) ou AES 10 est une version multicanal du
protocole AES/EBU professionnel. Transmise en série en utilisant des puces FDDI
(Fiber Distributed Digital Interface) standards, la norme MADI relie des équipements
audionumériques multicanaux, tels que des consoles, des enregistreurs à bande et
des stations de travail audionumériques. Taux de données de 100 Mbits/s. Permet
de transmettre jusqu’à 64 canaux de données audio 24 bits à des fréquences d’échan-
tillonnage jusqu’à 96 kHz sur un seul câble coaxial 75 Ω à embout BNC sur des dis-
tances allant jusqu’à 50 mètres. Deux câbles sont nécessaires pour les communica-
tions bidirectionnelles.
ProDigi Le format ProDigi ou PD fut développé par Mitsubishi et Otari pour leurs produits
audionumériques professionnels. Les blocs de données sont transmis au taux d’échan-
tillonnage choisi. Le mot d’échantillon est de 32 bits, mais dans la plupart des cas
seuls les 16 premiers bits sont utilisés. Un signal d’horloge (word clock) marque le
commencement de tous les échantillons, et chaque canal d’audio est transmis sur un
fil séparé. Deux canaux d’état (sur des fils séparés) transmettent des informations
supplémentaires, telles que les bits indiquant l’état d’enregistrement d’un enregis-
treur à bande multicanal.
CHAPITRE 15 – INTERCONNEXIONS DE SYSTÈME 317
Yamaha Digital Un format propriétaire pour interconnecter certains produits audionumériques cons-
Cascade truits par Yamaha. Une paire de connecteurs transmet deux canaux d’échantillons
24 bits. Un seul connecteur DIN huit points transmet une word clock séparée et des
données audionumériques. Les signaux d’horloge et de données audio sont des signaux
différentiels symétriques. La word clock est transmise à la fréquence d’échantillonnage
et définit le départ d’une séquence de données canal gauche/canal droit. 32 bits par
canal sont transmis par cycle de mot. Les bits non utilisés sont remplis de zéros.
MIDI Sample Développé par des constructeurs d’échantillonneurs afin d’améliorer la commodité
Dump Format d’utilisation des premiers échantillonneurs, qui avaient une mémoire d’échantillon
limitée. Puisqu’un connecteur MIDI était le seul port numérique d’entrée/sortie sur
ces systèmes, il constituait le seul moyen pour importer et exporter des fichiers de
données d’échantillon numérique. Utilise un câble MIDI standard. La transmission est
extrêmement lente, car les données d’échantillon sont transmises un bit à la fois.
Par exemple, il faut plusieurs minutes pour transférer par MIDI un son monaural 16 bits
échantillonné à 44,1 kHz de 10 secondes.
SMDI SCSI Musical Data Interchange. Présenté en 1991, suivant une conception signée
par Peavey Electronics, et installé à l’origine dans les instruments d’échantillonnage.
Les appareils équipés pour le SMDI peuvent transférer des échantillons à haute
vitesse vers et depuis n’importe quel appareil SCSI, y compris des ordinateurs, des
disques et d’autres échantillonneurs (Isaacson, 1993). Contactez Peavey Electronics
Corporation pour plus de détails.
ADAT Optical Conçue par la société Alesis, cette norme est également appelée ADAT Lightpipe car
Interface elle utilise des câbles en fibre optique avec des terminaisons de type Toslink. Permet
de transférer simultanément jusqu’à 8 canaux mono de données audio 24 bits, avec
la présence d’une horloge de synchro intégrée. La fréquence d’échantillonnage est
limitée à 48 kHz, mais certains constructeurs proposent des solutions matérielles
permettant de contourner cette limitation.
priétaires. Le tableau 15.1 résume leurs fonctions principales. Pour plus de détails sur les formats
audionumériques en général, voir par exemple Pohlmann (1989a) et Lambert (1990).
Une distinction importante entre les formats de transmission est la présence ou non d’une horloge
intégrée. Dans un format avec horloge intégrée tel que IEC 958, les données d’horloge sont envoyées
avec les données audio. Comme les horloges de taux d’échantillonnage de deux appareils audio-
numériques peuvent ne pas être synchronisées précisément, un système avec horloge intégrée cons-
titue une façon simple d’éviter des difficultés de synchro. Lorsqu’un appareil audionumérique doit
gérer plus d’un flux de données audionumériques (comme dans un mélangeur audionumérique),
un schéma avec horloge intégrée devient plus problématique. Certains formats permettent d’envoyer
en parallèle un signal d’horloge maître séparé sur un câble, à part des données audionumériques,
ce qui résout le problème. Ces sujets sont présentés plus en détail dans la partie sur les liaisons de
synchro audionumériques.
Transférer des échantillons audio entre des appareils peut être aussi simple que de connecter un
câble cinch entre la sortie numérique d’un appareil et l’entrée numérique d’un autre appareil et
318 ENVIRONNEMENT ET OUTILS
d’appuyer sur un bouton « Record ». Mais parfois des incompatibilités dans les formats de trans-
mission empêchent une solution simple. Deux types d’incompatibilités peuvent survenir : des dif-
férences de format de données et des différences de taux d’échantillonnage. Un exemple d’une dif-
férence de format de données serait un enregistreur DAT portable qui transmet uniquement du
S/PDIF et un appareil qui reçoit uniquement du format AES/EBU. Un autre exemple serait un enre-
gistrement sur DAT fait à la maison et « protégé » de la copie par le célèbre Serial Copy Manage-
ment System (SCMS) construit dans les enregistreurs DAT. Ces problèmes peuvent en général être
résolus par des appareils spéciaux « résolveurs de problème » connectés entre le lecteur et l’enre-
gistreur. Certains processeurs d’effets numériques effectuent également ces conversions de format.
Les différences de taux d’échantillonnage sont plus sérieuses et doivent être résolues grâce à un
convertisseur de taux d’échantillonnage. Il s’agit typiquement d’un appareil matériel placé entre un
lecteur et un enregistreur. Pour changer le taux d’échantillonnage d’un signal numérique, il faut en
fait le rééchantillonner. Une autre stratégie consiste à lire le fichier dans une station de travail audio-
numérique et d’effectuer la conversion du taux d’échantillonnage avec un logiciel. Dans les deux
cas, la conversion de taux d’échantillonnage n’est pas propre à 100 pour cent, puisqu’elle ajoute une
faible quantité de bruit au signal original (en général de l’ordre de 1 à 2 dB). Voir le chapitre 18
pour plus de détails sur la conversion de taux d’échantillonnage.
Format
de transmission
Station Fichiers
standard
de travail sur disque
audio en plusieurs
numérique formats
Processeur
d’effets numérique
Enregistreur
de disque compact
connecteurs physiques sont disponibles pour les liaisons en fibre optique, y compris les connecteurs
biconiques et ST courants. Les connecteurs de type biconique sont des connecteurs bon marché
utilisés dans les communications téléphoniques. Les connecteurs ST sont davantage appropriés
© Dunod. Toute reproduction non autorisée est un délit.
Les appareils contrôlés par MIDI peuvent être intégrés dans une configuration SMPTE au moyen
d’un convertisseur SMPTE-Code temporel MIDI. Comme son nom l’indique, cet appareil convertit
du code temporel SMPTE en code temporel MIDI qui peut être utilisé pour déclencher un séquenceur
ou un système de lecture de fichier son.
d’autres erreurs. Cette situation devient aiguë lorsqu’un élément centralisé de l’équipement, tel
qu’une console de mélange audionumérique, doit gérer plusieurs flux de données audionumériques
entrantes. Si elle se synchronise uniquement sur un flux, elle peut perdre la synchro avec un autre
flux.
Bien sûr, des convertisseurs de taux d’échantillonnage sont disponibles chez divers constructeurs,
et l’une des fonctions de ces appareils est de « resynchroniser » une source ayant une horloge
d’échantillon divagante. Mais utiliser un convertisseur de taux d’échantillonnage dans ce but n’est
qu’un remède temporaire et ne constitue pas une solution générale au problème de la synchro entre
appareils.
Ainsi, les studios numériques peuvent bénéficier d’un signal d’horloge maître qui gère tout le studio
et alimente tous les éléments d’équipement audionumérique (figure 15.8). Cela inclut les boîtes
d’effets, les convertisseurs de taux d’échantillonnage, les enregistreurs, les consoles de mélange et
les éditeurs logiciels. Un équipement audio et vidéo peut être connecté à la même horloge, chacun
obtenant leurs horloges de synchro respectives depuis l’horloge maître.
Dans le schéma recommandé par l’Audio Engineering Society, chaque appareil synchronise son hor-
loge de taux d’échantillonnage sur celle du maître (de préférence fournie par un connecteur d’entrée
séparé), afin que les différences de phase entre les appareils soient constantes quel que soit le nombre
d’appareils connecté (si les appareils étaient interconnectés en série sans synchro, les retards
dépendraient des différentes horloges et du nombre d’appareils connectés). Dans la norme
AES/EBU, les données audio sont transmises par une interface qui permet que le taux d’échantillon-
nage soit récupéré avec les données audio. Les spécifications techniques du protocole de synchro sont
définies dans le document AES11-1991 (ANSI S4.44-1991) (Audio Engineering Society, 1991 ; voir
également Rumsey, 1991).
Horloge maître
Signal d’horloge
H H
Enregistreur Enregistreur
multipiste DAT
H H H
Unité Enregistreur
d’effets optique
DSP Table de mixage inscriptible
Dès que les esclaves sont connectés, le maître échange avec eux des données sur le bus. Le maître
rompt la connexion avec ses répondeurs lorsque toutes les données ont été transférées. La séquence
consistant à établir une connexion, transférer des données et rompre une connexion est appelée
une transaction.
Les transactions de bus sont synchronisées par une information temporelle qui indique quand
l’adresse et les données sont valides. Certains bus laissent également le maître transmettre une
information de contrôle qui indique quel type de transaction il est sur le point de lancer.
de transfert séparés sont utilisés pour l’adresse et les données. Les systèmes asynchrones peuvent
tirer pleinement avantage de la vitesse des appareils répondants le plus rapidement, mais s’adapter
également au rythme des appareils plus lents.
Dans la plupart des systèmes de bus synchrones, une horloge centrale génère des signaux temporels
qui sont distribués vers tous les appareils du bus. Des changements de l’état des lignes de bus sur-
viennent à intervalles fixes. La durée d’un cycle de bus est établie par la vitesse d’horloge, qui dans
certains systèmes synchrones est déterminée par l’appareil le plus lent du bus. La plupart des bus
synchrones utilisent un protocole d’attente pour éviter cette contrainte. Par exemple, tout répondeur
qui ne peut traiter une requête au taux de base du système indique à celui-ci d’attendre. Lorsque le
répondeur est prêt, il annule l’état d’attente, et le bus reprend l’opération normale.
DSP
RAM Mémoire
avec
DSP du processeur
capacité DMA CNA
hôte
Bus
Mémoire
Processeur CAN
disque
hôte
hôte surviennent en parallèle. Dès que le DSP possède les données dont il a besoin dans sa mémoire,
les calculs au sein du DSP et de l’ordinateur hôte peuvent être effectués en parallèle.
La stratégie d’interconnexion la plus intime entre un ordinateur hôte et un DSP est un schéma de
mémoire partagée. Ceci est effectué grâce à une mémoire à double accès, ce qui implique l’exis-
tence de deux voies d’accès indépendantes dans la mémoire (figure 15.10). Lire et écrire dans la
mémoire peut être effectué simultanément par deux processeurs différents. Ceci élimine les états
d’attente à la fois dans l’ordinateur hôte et dans le DSP. La communication entre l’hôte et le DSP
peut être arrangée à travers des messages laissés dans une zone spéciale de mémoire. Le danger
d’un schéma de mémoire à double accès est que les deux appareils vont tenter de lire ou d’écrire au
même endroit au même moment. Ainsi, les systèmes de mémoire à double accès possèdent un
élément logique pour trier les requêtes en conflit.
© Dunod. Toute reproduction non autorisée est un délit.
1 2
Mémoire Processeur
DSP
à double accès hôte
15.11 Réseaux
Une association d’ordinateurs reliés entre eux est un réseau. Cette partie présente les concepts de
réseaux les plus basiques. Pour plus d’informations, voir l’un des nombreux livres sur le sujet (par
exemple, Stallings, 1988). Le but principal d’un réseau est l’échange de données et de services entre
326 ENVIRONNEMENT ET OUTILS
des nœuds reliés entre eux, où les nœuds peuvent être des ordinateurs, des scanneurs, des impri-
mantes, des disques, ou d’autres périphériques. Chaque appareil qui peut être une source ou une
cible de transmission sur le réseau — tel qu’un ordinateur ou une imprimante — est un nœud, et
chacun possède une adresse qui est connue du logiciel de réseau. N’importe quel type de données
numériques peut être transmis par un réseau, par exemple des données de séquence, des échan-
tillons audio, des images, des données de partition, du texte, ou du code. Les réseaux permettent
le transfert de fichier, le courrier électronique, et les applications distribuées qui tournent sur plus
d’un ordinateur.
Le protocole d’un réseau est l’ensemble de règles gouvernant l’échange de données. C’est-à-dire
que le protocole est le schéma logique d’envoi et de réception de messages. Les protocoles réseau
modernes possèdent plusieurs couches. Le tableau 15.2 montre une hiérarchie de protocole typique :
les sept couches de l’Open Systems Interconnexion (OSI), proposé par l’International Standards
Organisation (ISO), une norme pour la mise en réseau d’ordinateurs.
Tableau 15.2 – Couches du protocole OSI.
Physique Fournit la transmission de flux de bits non structuré dans un milieu physique. À
rapport aux caractéristiques mécaniques, électriques et procédurales pour accéder
au milieu physique.
Liaison Fournit un transfert fiable de l’information dans le milieu physique. Envoie des
de données blocs de données (images) avec la synchro, le contrôle d’erreur et le contrôle de
flux nécessaires.
Réseau Fournit une indépendance aux couches supérieures par rapport à la transmission
des données et aux technologies de commutation utilisées pour connecter les
systèmes ; est responsable pour établir, gérer et terminer les connexions.
Présentation Fournit une indépendance aux applications par rapport aux différences dans la
représentation de données (syntaxe).
Tous les nœuds sur le réseau possèdent une adresse, qui peut être une adresse physique (spécifiée
par l’envoyeur) ou une adresse logique (spécifiée par un processeur de contrôle réseau agissant comme
serveur d’adresse). La plupart des réseaux utilisent un schéma d’adressage logique.
Deux grandes classes de réseaux peuvent être distinguées. Un réseau local (LAN) (figure 15.11a)
interconnecte un nombre relativement faible d’ordinateurs, en général dans une zone restreinte
telle qu’un immeuble ou un groupe d’immeubles proches. Un réseau étendu (WAN) (figure 15.11b)
couvre de grands espaces géographiques, souvent à l’aide de lignes de téléphone longues distances
(y compris des micro-ondes et des liaisons satellites). Le propriétaire d’un LAN est en général une
institution ayant entre deux et plusieurs centaines d’ordinateurs à interconnecter. Par contraste, le
propriétaire d’un WAN est réparti entre l’institution et les différents porteurs de la transmission,
tels que les sociétés de téléphonie qui fournissent les principaux canaux de transmission. Le nombre
d’ordinateurs interconnectés dans un WAN peut être de plusieurs milliers. Comme les LAN sont
CHAPITRE 15 – INTERCONNEXIONS DE SYSTÈME 327
(a)
Ordinateur Ordinateur
station serveur
de travail de fichier
Réseau
local Système
Imprimante de sauvegarde
et d’archivage
Ordinateur Ordinateur
station station
de travail de travail
(b) Satellite
Continent Y
Continent X
Studio B LAN
Studio A
© Dunod. Toute reproduction non autorisée est un délit.
Passerelle
LAN
Émetteur/
Récepteur
Émetteur/ LAN
Récepteur
plus probables dans le domaine de l’informatique musicale, le reste de cette partie ne s’attachera
qu’à eux.
Trois composants définissent un LAN : un protocole, une interface et un canal de transmission. La
logique du protocole contrôle le LAN, tandis que l’interface traduit les messages provenant du
support logiciel du protocole du LAN dans le milieu physique du canal du LAN. Le canal du LAN
peut être une ligne coaxiale comme celles utilisées dans la télévision câblée ou dans une ligne en
fibre optique. Un câble coaxial est constitué d’un fil conducteur interne entouré d’un conducteur
externe. Entre les conducteurs internes et externes se trouve une couche isolante, et le câble entier
peut être blindé pour le protéger du bruit.
De nombreux types de protocoles existent pour les LAN, formalisés dans les recommandations
IEEE 802 Local Network Standards Committee. Les types de protocoles de LAN les plus courants
sont l’accès multiple par détection de la porteuse avec détection de collision (CSMA/CD), utilisé dans
la norme Ethernet, et l’anneau à jeton (token ring), utilisé dans la norme Fiber Distributed Data
Interface (FDDI), un LAN fonctionnant à 100 Mbits/seconde.
La topologie d’un réseau CSMA/CD est comme celle d’un bus (figure 15.12). L’émetteur d’un
paquet diffuse le message à tous les appareils du réseau tout en « écoutant » également celui-ci
pour voir s’il est occupé. S’il ne reçoit pas de signal d’accusé de réception du récepteur, il considère
qu’un autre émetteur a également envoyé un paquet au même moment — un état connu sous le
nom de collision. Si un émetteur détecte une collision, il arrête d’envoyer le message et envoie briève-
ment un signal de collision au reste du réseau (Metcalf et Boggs, 1976). Après avoir transmis le signal
de collision, l’émetteur attend une durée de temps aléatoire avant de transmettre de nouveau le
paquet. Une station tentera de transmettre de façon répétée en face de collisions répétées, mais
après chaque collision la valeur moyenne du retard aléatoire est doublée.
La topologie d’un réseau en anneau à jeton est un anneau. Les données circulent autour de l’anneau
sur une série de liaisons de données entre les ordinateurs (figure 15.13). Une station souhaitant
transmettre attend un tour puis envoie un paquet de données. Le paquet contient les adresses de
source et de destination ainsi que les données. Lorsque le paquet circule, le nœud de destination
copie les données dans un tampon local. Le paquet continue de circuler jusqu’à ce qu’il atteigne le
Nœud
transmetteur
Nœud A Nœud B
Bus
Nœud D Nœud C
Nœud A
Anneau à jeton
Jeton
circulant
Nœud D Nœud B
Nœud C
nœud source, qui sert de sorte d’accusé de réception. Lorsque le nombre de nœuds transmetteurs
augmente, les anneaux à jeton présentent un avantage d’interprétation sur les schémas CSMA/CD
en raison de la probabilité de plus en plus grande des collisions dans le schéma CSMA/CD (Stallings,
1988).
Les normes de vitesse de LAN dans les années 1980 se situaient entre 1 et 20 Mbits/s. Les normes
réseau haute vitesse émergentes cherchent à atteindre 1 Gbit/s comme taux de données pour
l’échange de vidéo plein écran non compressée, de canaux audio multiples, d’images, et pour le con-
trôle à distance d’expériences (y compris sans doute dans le domaine de l’interprétation musi-
cale).
✦ ZIPI
L’un des premiers protocoles formalisés dans le but de succéder à la norme MIDI fut ZIPI (Zeta
Instrument Processor Interface), développé par Keith McMillen, David L. Wessel et Matthew Wright
(McMillen, Wessel et Wright, 1994) du CNMAT. S’écartant radicalement du modèle de connexion
en chaîne, ZIPI adopta le modèle de connexion en étoile avec présence d’un concentrateur central
et l’utilisation de connecteurs Ethernet 10Base-T, qui autorisaient des vitesses de communications
entre les machines de 10 Mbits/s, contre un peu moins de 0,03 Mbits/s pour la norme MIDI 1.0.
Une autre différence fondamentale se situait également dans le mode d’adressage : la notion d’évé-
nement MIDI était abandonnée, au profit d’un nouveau système, le langage de description de para-
mètre musical (MPDL). Celui-ci tentait de prendre en compte des notions musicales complexes,
comme l’articulation, la brillance, la dureté ou la gestion de coordonnées spatiales. Afin de con-
tourner la rigidité de la structure du MIDI, dans lequel un message ne peut s’adresser qu’à un canal
ou à une note, le MPDL possédait un système de message organisé par paquets, structurés selon
330 ENVIRONNEMENT ET OUTILS
une hiérarchie à 3 niveaux : 63 familles, contenant chacune 127 instruments, contenant chacun
127 notes, pour un total de 1 016 127 adresses de note. Il était également possible d’envoyer un
message commun aux 63 familles. Chaque adresse de note pouvait être accédé individuellement,
ce qui permettait par exemple d’appliquer un vibrato sur la note d’un accord sans modifier les
autres notes de l’instrument. Le protocole prévoyait également la synchronisation entre les machi-
nes, l’échange d’informations sur leurs caractéristiques, la gestion de messages d’erreur et la
transmission de messages MIDI.
Le protocole ZIPI ne fut adopté par aucune société et resta à l’état de prototype. L’avènement de la
norme IEEE1394 (plus connue sous le nom de Firewire) rendit certains de ses aspects obsolètes.
La vitesse des réseaux atteignit 400 puis près de 800 Mbits/s et ceux-ci abandonnèrent graduelle-
ment leur conception en étoile avec un concentrateur central pour adopter un modèle où le réseau
est conçu comme un ensemble d’appareils autonomes et branchables à chaud.
Les auteurs de ZIPI s’associèrent de nouveau pour proposer un nouveau protocole plus ouvert et
plus en adéquation avec les réseaux rapides : Open Sound Control (Wright et Freed, 1997). OSC
s’affranchit totalement d’une dépendance avec telle ou telle norme physique de communication,
que cela soit au niveau des bus ou des systèmes réseau. Bien qu’il puisse fonctionner avec toute
sorte de format physique ou de réseau LAN ou WAN (Ethernet, Firewire, TCP/IP, UDP, etc.), il utilise
généralement dans la pratique le protocole de réseau UDP, en raison de sa grande précision tem-
porelle dans la gestion des messages.
Dans OSC, chaque entité du réseau peut être contactée de façon individuelle, dans une relation
client-serveur, par le biais d’un schéma de noms symboliques de type URL. Les messages sont
adressés selon un ensemble hiérarchique d’objets symboliques. Les données numériques sont
encodées en 32 ou 64 bits et envoyées par paquets contenant toutes les informations nécessaires
permettant de s’assurer de leur autonomie. Ainsi, contrairement au MIDI où un nouveau message
doit être envoyé vers une machine pour modifier son état, chaque paquet dans OSC est conçu pour
contenir à la fois les données suffisantes à l’exécution d’un ordre et l’indication temporelle précise
(avec une précision d’environ 200 picosecondes) à laquelle celui-ci doit avoir lieu. Les paquets
pouvant contenir des ensembles (bundles) de messages de façon récursive (un bundle peut lui-
même contenir d’autres bundles), il est possible d’envoyer des ordres offrant ainsi des possibilités
de synchronisation absolue. Le protocole prévoit également des fonctions de questions-réponses
entre les éléments connectés, afin de permettre l’échange d’informations : listes d’adresses utilisées,
signatures des types d’arguments prévus, requêtes pour obtenir de la documentation à propos
d’un objet ou d’une fonction, etc.
OSC a connu un certain succès parmi les développeurs d’applications musicales, et plusieurs logiciels
commerciaux ont même intégré certaines de ses fonctions. Pour plus de détails sur l’implémentation
d’OSC et ses applications dans les domaines de la musique, de la réalité virtuelle et du multimédia,
voir Wright (1998), ainsi que Wright, Freed et Momeni (2003).
L’adoption d’un nouveau protocole de communication qui devienne aussi universel que le MIDI
reste très hypothétique. Il n’est pas certain que la production de musique commerciale ait réellement
besoin d’un schéma plus évolué permettant autre chose que l’envoi de messages au niveau de la note
et l’utilisation de contrôleurs globaux. Certaines formats propriétaires permettant de transmettre
de l’audio (et parfois des données MIDI) et utilisant les normes Firewire, Ethernet ou USB ont vu
le jour, tels Cobranet de Cirrus Logic, mLan de Yamaha, MaGIC de Gibson ou EtherSound de Digi-
gram. L’Audio Engineering Society a également dévoilé les caractéristiques d’un protocole HRMAI
CHAPITRE 15 – INTERCONNEXIONS DE SYSTÈME 331
15.12 Conclusion
Dans le passé, les câbles analogiques constituaient le moyen principal pour transmettre de l’infor-
mation audio et vidéo, mais les communications numériques ont rapidement occupé une position
dominante. Parmi les moyens de transmission numérique, la technologie de la fibre optique semble
la plus prometteuse.
Comme le montre ce chapitre, il n’existe pas une seule solution pour tous les problèmes d’intercon-
nexion. En dépit des efforts en cours de normalisation, le nombre de protocoles d’interconnexion
différents continue de grandir. Ceci rend nécessaire de considérer les interconnexions avant d’acheter
et d’installer de l’équipement, même dans un petit studio (figure 15.14). Le point de départ pour
concevoir un schéma d’interconnexion devrait être une analyse détaillée des capacités musicales
désirées. La technologie disponible, le coût, l’interprétation et même le style musical sont tous des
facteurs à considérer lors de la conception d’un schéma d’interconnexion.
Les stations de travail intégrées « tout-en-un » simplifient les problèmes d’interconnexion, mais au
détriment de la flexibilité. Une approche modulaire de la conception de système laisse le musicien
sélectionner chaque composant selon son goût et son budget. Mettre à jour le système devient un
processus mesuré consistant à remplacer un composant à la fois.
© Dunod. Toute reproduction non autorisée est un délit.
332 ENVIRONNEMENT ET OUTILS
Services de
Réseau
télécommunications
local Logiciel
de musique
Modem
Ordinateur hôte
Apple Port modem
Carte réseau II
Macintosh
Port série 1 Interface
Port série 2 MIDI
Entrée/Sortie
numérique Carte DSP
AES/EBU Disques durs Entrée Sortie
Port Audionumérique pour les fichiers
Câbles
SCSI par fibre optique son et le stockage
MIDI
de programmes
Numérique
coaxial
Imprimante
SCSI IEC 958 AES/EBU SCSI laser Câbles
MIDI
Convertisseur
SMPTE-MTC
Table de mixage
et processeur
Contrôleurs
MIDI audionumérique MIDI
SMPTE MIDI In In
In Out
AES/EBU CAN CNA
Vers et
Code
depuis des
temporel Audio analogique synthétiseurs,
SMPTE asymétrique échantillonneurs,
boîtes d’effets
MIDI, etc.
Magnétoscope
professionnel Processeur Câble
Table de mixage analogique
d’effets analogique vers
pour la vidéo amplificateur
Câbles d’écoute
analogiques
symétriques
Télécommandes
à infrarouge
Microphones
La psychoacoustique
et la synthèse
John William Gordon
Avant que les compositeurs commencent à écrire une pièce de musique pour un moyen d’expression
donné, ils apprennent en général à maîtriser celui-ci. Si la musique doit par exemple être écrite
pour violon, alors l’étendue et l’accordage de l’instrument, ainsi que les techniques d’archet et de
doigté doivent être connues ; sinon, le compositeur court le risque d’écrire quelque chose qui est
impossible à jouer. Mais l’effort fourni pour arriver à cette compréhension est bien récompensé :
plus on connaît de commandes de détails techniques, moins ceux-ci altèrent le processus compo-
sitionnel, et plus grande est peut-être la liberté du compositeur pour exprimer ses idées musicales.
Si le moyen d’expression implique des instruments traditionnels, le compositeur peut tout d’abord
communiquer les idées musicales aux interprètes. Puis, ceux-ci, en exprimant ces idées musicales,
© Dunod. Toute reproduction non autorisée est un délit.
génèrent des sons que l’auditeur entend. En d’autres termes, le geste musical est codé en ondes
sonores, et l’auditeur, en écoutant ce son, l’interprète comme un geste musical.
En composant de la musique informatique, on commence souvent avec le son lui-même. Les para-
mètres sont manipulés ou combinés pour tenter d’accomplir des effets musicaux. Quoi qu’il en soit, il
n’existe dans de nombreux cas aucun moyen pour déterminer a priori les valeurs absolues ou rela-
tives de ces paramètres à partir de concepts musicaux traditionnels. On doit recommencer et con-
naître ces nouveaux blocs de construction. Jadis, il était souvent suffisant d’apprendre certaines
propriétés génériques d’un instrument de musique. Maintenant, les propriétés acoustiques d’un son,
telles que la fréquence, la durée, la forme d’onde, l’intensité et le spectre doivent être comprises.
Pour une introduction supplémentaire des concepts acoustiques, voir Backus (1977), Benade (1990),
Roederer (1975), et Campbell et Greated (1987).
Puisque les attributs physiques ne constituent pas en eux-mêmes de la musique, le compositeur doit
également apprendre comment l’oreille les perçoit. En d’autres termes, le compositeur doit savoir
comment construire et équilibrer les attributs physiques du son pour que l’auditeur interprète ce
334 ENVIRONNEMENT ET OUTILS
son d’une façon qui corresponde plus ou moins aux concepts musicaux du compositeur. Il est donc
logique de se tourner vers le domaine de la psychophysique (l’étude des réponses physiologiques à
un stimulus physique) ou plus spécifiquement vers la psychoacoustique, pour mieux comprendre
la relation entre son et musique.
La dichotomie entre les événements physiques et les constructions mentales qu’ils produisent est
un thème constant de ce chapitre. La connaissance de la psychoacoustique ne permet pas seulement
de donner au compositeur de musique informatique une plus grande liberté d’expression, mais
elle suggère également de nouvelles structures musicales basées sur les phénomènes perceptuels.
Le reste de ce chapitre examine les structures basiques de l’audition humaine et la perception des
différents aspects du son : intensité, éléments temporels, fréquence, bruit et timbre. Nous parlerons
également de phénomènes comme la fusion et les effets de masques, et nous montrerons leurs
implications dans la composition. Pour l’étudiant en psychoacoustique, nous donnerons de nom-
breuses références. Plusieurs livres récents sur la psychologie de la musique traitent en détail de la
psychoacoustique ; voir par exemple Deutsch (1982), Sloboda (1985), Dowling et Harwood (1986),
Clynes (1982), McAdams (1987) et Campbell et Greated (1987).
120
100
80
60
40
20
SPL
en dB
0
0 20 100 500 1K 5K 10 K 20 K
Fréquence en Hz (échelle logarithmique)
Figure 16.1 – Étendue globale de l’audition chez l’être humain avec l’intensité
en fonction de la fréquence, d’après des données incluses dans Winckel (1967).
Nous mentionnions plus haut que la sensibilité de l’oreille par rapport aux changements d’intensité
est proportionnelle à la magnitude de l’intensité. La relation exponentielle est ainsi reflétée en un
nombre presque constant de dB. En d’autres termes, la différence absolue d’intensité entre 90 et
91 dB SPL (un facteur de l’ordre de 3 859) est bien plus élevée que celle existante entre 30 et 31 dB
SPL (un facteur de l’ordre de 3,86), mais le changement de sonie, ou différence d’intensité perçue,
est à peu près la même dans les deux cas. Au milieu de l’étendue d’intensité et de fréquence de
l’oreille, le seuil de perception différentielle en intensité peut varier de quelques dixièmes de dB à
plusieurs dB (Scharf, 1978).
L’oreille est plus sensible à certaines régions fréquentielles qu’à d’autres. La région la plus sensible
est située entre 2 700 et 3 200 Hz, et la sensibilité chute plus ou moins graduellement sur chaque
© Dunod. Toute reproduction non autorisée est un délit.
côté de cette région. Ce que cela signifie pour le compositeur est qu’une sinusoïde à 3 000 Hz ayant
une certaine intensité, va sonner beaucoup plus fortement qu’une sinusoïde à 200 ou à 8 000 Hz
ayant la même intensité.
Pour visualiser cela, un outil pratique est l’ensemble de courbes de Fletcher-Munson, montrées à
la figure 16.2. Ce sont les courbes isosoniques (ou courbes de phone) en fonction de la fréquence.
Les phones, par définition, correspondent aux décibels d’un son pur à 1 000 Hz. Ainsi, une sinusoïde
à 1 000 Hz ayant une intensité de 40 dB SPL aura un niveau de sonie de 40 phones. Si nous voulons
produire une sinusoïde à 300 Hz avec le même niveau de sonie que celle à 1 000 Hz ayant un niveau
d’intensité de 40 dB, nous pouvons suivre la courbe de 40 phones de 1 000 à 300 Hz, et nous voyons
qu’il faut environ 47 dB SPL pour obtenir ce même niveau de sonie. C’est-à-dire qu’une sinusoïde
à 1 000 Hz avec une intensité de 40 dB SPL et une sinusoïde à 300 Hz avec une intensité de 47 dB
SPL vont sonner avec la même force pour l’auditeur moyen.
Bien sûr, les musiciens s’intéressent en général plus aux sons complexes qu’aux sinusoïdes. La
sonie d’un son complexe dépend en grande partie de son contenu fréquentiel. En général, chaque
336 ENVIRONNEMENT ET OUTILS
composant contribue à la sonie du son, selon sa fréquence et son intensité par courbe de Fletcher-
Munson ; quoi qu’il en soit, une relation linéaire stricte ne s’applique pas nécessairement. Voir la
présentation sur les bandes critiques et les effets de masque plus loin.
De surcroît, l’oreille peut être trompée, en croyant percevoir une sonie constante alors que le son
décroît en intensité, en admettant que celui-ci soit perçu comme s’éloignant de l’auditeur. Sur un
ordinateur, cet effet est rehaussé en ajoutant une réverbération artificielle, mais il peut parfois
survenir même sans réverbération si le son est familier à l’auditeur (Sheeline, 1982).
Le seuil d’audition montré à la figure 16.1 s’applique aux sinusoïdes relativement entretenues.
Pour des sons très courts, le seuil doit être augmenté. Ceci en raison du fait que près du seuil, l’oreille
semble intégrer l’énergie des sons inférieurs à 200 ms. Enfin, au-dessus des niveaux de seuils, la
relation entre sonie et durée n’est pas claire (Scharf, 1978).
Pavillon
Os de l'oreille
moyenne Membrane
(osselets) basilaire Nerf auditif
Tympan
Ondes
sonores
Trompe
d'Eustache Cochlée
déroulée
L’oreille externe amplifie les vibrations entrantes de l’air. L’oreille moyenne traduit ces vibrations
en vibrations mécaniques. L’oreille interne effectue un traitement supplémentaire de ces vibrations,
les filtrant, et les traduisant mécaniquement, hydrodynamiquement, et électrochimiquement, avec
pour résultat que les signaux électrochimiques sont transmis par les nerfs jusqu’au cerveau. Les
oreilles externes, moyennes et internes sont collectivement classifiées sous le nom de système auditif
périphérique.
La cochlée est l’organe central de l’oreille interne. Elle contient la membrane basilaire et l’organe de
Corti (qui ne figure pas sur la figure 16.3), qui forment ensemble les mécanismes compliqués tra-
duisant les vibrations en signaux neuroniques ou codes. Un autre traitement auditif survient au-delà
de la cochlée dans le cerveau, en utilisant de l’information contenue dans les signaux neuroniques.
Ce traitement central est important, car il combine les signaux entrants dans les deux oreilles. Ces
© Dunod. Toute reproduction non autorisée est un délit.
mécanismes et ces processus sont tous très complexes, et il serait trop long d’expliquer en détail
tous les mécanismes auditifs centraux et périphériques dans le cadre de ce chapitre. Pour une
introduction à ces sujets, voir Yost et Nielsen (1977).
son entrant, et les conséquences que cela peut avoir sur la musique informatique. Dans la partie
suivante, nous examinerons les mécanismes fréquentiels ; puis nous verrons comment ceux-ci se
combinent avec les mécanismes temporels dans la perception de la hauteur et du timbre.
Un des types de mécanismes est le détecteur de période. Il opère sur la structure fine de la forme
d’onde codée neurologiquement. La structure neuronique est obtenue par les cellules nerveuses de
l’organe de Corti qui produisent une impulsion (individuellement ou en groupes) à un taux corres-
pondant à la période de l’onde. Les cellules individuelles peuvent opérer de cette façon jusqu’à un
certain taux ; si la période est trop petite, elles ne peuvent retrouver leur équilibre et ne peuvent
produire suffisamment rapidement une nouvelle impulsion. Quoi qu’il en soit, des groupes de
cellules peuvent effectuer leurs impulsions en rotation ou alternativement, et peuvent ainsi suivre
des sous-multiples de la période. Ce mécanisme en tant que tel peut détecter des fréquences jusqu’à
4 kHz (Nordmark, 1970, 1978).
L’oreille interne code également les variations dans l’enveloppe de l’onde, et il existe de façon évidente
des mécanismes du système nerveux auditif central qui détectent la modulation d’amplitude (MA).
Voir le chapitre 25 pour une explication de la MA dans le contexte de la synthèse du son. Cette
détection est limitée à des fréquences MA situées approximativement entre 75 et 500 Hz. Elle est
également limitée par la profondeur de modulation — c’est-à-dire que les cellules ne produisent
une impulsion que dans le cas où le changement est suffisamment significatif (entre 50 et 100 pour
cent de modulation). Voir Burns et Viemeister (1976) pour plus de détails.
Il existe également un mécanisme codant les événements. Ces types de cellules produisent une
impulsion au commencement ou à l’attaque d’un son, et différentes cellules opèrent sur les différents
domaines des pentes d’attaque (Kiang et Moxon, 1972 ; Whitfield, 1978 ; Smith et Brachman, 1980 ;
Delgutte, 1980). Lorsqu’un instrument joue une note, les transitoires déclenchent ce mécanisme,
mais pas les portions fixes. Un modèle de ce détecteur d’événement a été développé par Gordon
(1984) afin de déterminer le moment d’attaque perceptuelle d’un son musical, qui peut être retardé
de façon significative par rapport à son attaque physique. Ce modèle est utile pour synchroniser
des sons synthétiques ou enregistrés ayant des timbres différents.
D’autres cellules répondent à certains intervalles temporels entre les événements. Cette information
peut être utilisée pour connecter des événements isolés en flux rythmiques (c’est-à-dire pour iden-
tifier des séquences d’événements comme venant d’une ou plusieurs sources, chacune ayant son
propre rythme). Pour plus de détails sur les effets de flux, voir McAdams et Bregman (1979).
La résolution de la perception de rythme est limitée par l’intégration temporelle. Ceci signifie que,
si plus de deux événements apparaissent à l’intérieur d’une tranche minimale de temps, l’oreille
les « brouille » en une seule sensation. En d’autres termes, la résolution temporelle est perdue.
Quoi qu’il en soit, la taille de cette tranche temporelle peut varier selon la durée et le type des évé-
nements. Dans certains cas, l’oreille peut percevoir des événements séparés si leur écartement
n’est que de quelques millisecondes ; dans d’autres cas, il faut au moins 20 à 50 ms (ou même plus)
pour percevoir une résolution séparée. Ainsi, on ne peut parler d’une seule tranche temporelle, ou
d’une « constante de temps » pour l’oreille (Schubert, 1979b).
Quoi qu’il en soit, nous pouvons voir que la résolution temporelle prend en compte certains phé-
nomènes qui sont familiers aux musiciens. L’un de ceux-ci est la distinction entre l’écho (ou une
séquence d’échos) et la réverbération. Lorsqu’un son se reflète sur une seule surface, nous enten-
dons à la fois la source et son écho. Si d’autres surfaces sont présentes, il y aura probablement pré-
sence de plusieurs échos de la source, ainsi que d’échos des échos eux-mêmes. Le nombre d’échos
par seconde est souvent appelé la densité d’échos. Si ce nombre est supérieur à 20 ou 30 échos par
seconde, alors ceux-ci apparaissent à des intervalles inférieurs à 30 ou 50 ms. En général, l’oreille
CHAPITRE 16 – LA PSYCHOACOUSTIQUE ET LA SYNTHÈSE 339
n’entend plus les échos comme des événements séparés, mais elle les fusionne en une sensation de
retard continu, ou réverbération (Moorer, 1979c ; voir également le chapitre 10).
Un autre phénomène lié à l’intégration temporelle est le taux de note maximum d’une phrase musi-
cale (dans une mélodie monophonique). Si les notes sont jouées plus rapidement que ce taux, elles
sont brouillées au lieu d’être perçues comme des sons individuels. Ceci a un rapport direct avec la
musique informatique, car dans celle-ci le tempo n’est pas limité par la dextérité d’un interprète.
Malheureusement, il nous est impossible de fournir un nombre absolu pour le taux de note maxi-
mum, car là encore la nature des sons est un facteur important.
Nous pourrions par exemple espérer entendre une note principale et sa note ornementale la précé-
dant (c’est-à-dire sans qu’elles soient brouillées) si leurs attaques n’étaient séparées que de 2 ou 3 ms
et si la note ornementale était courte. Mais plus la note ornementale est longue, plus il y a de pro-
babilités pour que les deux notes soient perçues de façon brouillée. La différence de fréquence entre
les deux notes influe également sur la probabilité de brouillage (Schubert, 1979b). S’il y a trop de notes
dans une phrase, il se forme alors en général une construction auditive, qui influe certainement
sur les limites momentanées de résolution temporelle. Dans ce cas, il peut être nécessaire d’avoir
au moins 50 ms entre les attaques afin d’éviter le brouillage. Voir plus loin dans ce chapitre une dis-
cussion sur les masques en avant et en arrière.
férence de fréquence correspond à la bande critique. Nous pouvons l’imaginer comme une sorte
d’intégration en travers de la fréquence, analogue à l’intégration temporelle dont nous parlions
plus haut (Zwicker, Flottorp et Stevens, 1957).
La bande critique est censée jouer un rôle important dans la plupart des sensations de dissonance
(bien que le terme dureté soit souvent préféré dans la littérature traitant de la psychoacoustique, en
raison des connotations associées avec le terme de dissonance dans la théorie traditionnelle de la
musique). Si deux sons sinusoïdaux sont très proches l’un de l’autre, ils sont entendus comme un
seul son, avec une fréquence située entre les deux fréquences réelles, et accompagnés d’une nette
perception de battement. Si les sons s’éloignent l’un de l’autre, mais restent à l’intérieur de la bande
critique, il y a une sensation de dureté. Éloigner encore les sons permet à l’oreille de discriminer
les deux fréquences ; mais la sensation de dureté continue jusqu’à ce que la différence de fréquence
entre les sons ait dépassé la largeur de bande critique (Roederer, 1975).
La figure 16.4 est une représentation schématique (non échelonnée) de ce phénomène, où une fré-
quence reste fixe, tandis qu’une autre balaye son domaine. La largeur de la bande critique dépend
Limites
de discrimination
d'une hauteur
F2
Son fusionné
F1
Dureté
Battements
Fréquence
-ΔF 0 +ΔF
de la fréquence, comme on peut le voir à la figure 16.5. Remarquez que l’oreille peut discriminer
deux fréquences situées à une distance inférieure à la largeur de la bande critique. Ainsi, bien qu’une
intégration de sonie apparaisse dans la bande critique, ceci n’implique pas qu’il y ait également
© Dunod. Toute reproduction non autorisée est un délit.
forces égales). Ce type de spectre est appelé « blanc » en raison de son analogie avec le fait que toutes
les fréquences du spectre visible sont présentes dans la lumière blanche. Bien que toutes les fré-
quences soient présentes dans le bruit blanc, celui-ci n’évoque aucune sensation de hauteur en raison
du caractère aléatoire de sa forme d’onde. Cependant, il existe plusieurs façons de « colorier » le bruit,
et certaines d’entre elles produisent une vague sensation de hauteur.
L’une de ces techniques consiste à moduler l’amplitude du bruit. Certaines études indiquent que si
la modulation est à l’intérieur du domaine du détecteur MA, il peut y avoir une hauteur, correspon-
dante à la fréquence de modulation superposée à la sensation de bruit. Burns et Viemeister (1976)
ont même été capables de jouer des mélodies grâce à cette technique, mais l’effet était faible.
Une autre façon de colorier le bruit est de le retarder de t secondes, et d’ajouter ce retard au bruit
non retardé. Ceci équivaut à passer le bruit dans un filtre en peigne (voir le chapitre 4) et est appelé
bruit de filtre en peigne ou bruit cosinus, car son enveloppe spectrale ressemble à une onde cosinus
(Bilsen, 1977). On peut déplacer vers le haut ou vers le bas le spectre en cosinus en modifiant la
phase de la partie retardée en fonction de la partie non retardée. Deux angles de phase sont évoqués
dans la littérature spécialisée : 0 degré (absence de déphasage), appelé cosinus + bruit, et 180 degrés
(ce qui équivaut à soustraire la partie retardée plutôt que de l’ajouter) appelé cosinus-bruit. La sen-
sation de hauteur résultante de cosinus + bruit correspond à une fréquence égale au réciproque de t
(par exemple, t = 2 ms implique une hauteur de fréquence égale à 500 Hz). Cosinus-bruit, d’un
autre côté, tend à impliquer deux hauteurs, une à 1,14/t, et l’autre à 0,89/t. Ces sensations de hauteur
sont plus fortes autour de 500 Hz et sont quasiment inaudibles en dessous de 50 Hz et au-dessus
de 2 kHz (Yost et Hill, 1978). Elles s’affaiblissent également lorsque la durée du signal devient infé-
rieure à 200 ou 250 ms (Yost, 1980). Ces hauteurs peuvent émaner de la détection de fréquence
(ce qui correspond à la place sur la membrane basilaire), ou de la détection de période (retard tem-
porel), mais leur existence suggère que la détermination de hauteur s’effectue à un niveau supérieur
au système auditif périphérique.
Passer du bruit blanc à travers un filtre passe-bande peut avoir pour résultat deux jugements de
hauteur, selon la largeur de bande. Si la bande est plus étroite qu’environ un cinquième d’une
octave, la hauteur résultante correspond à la fréquence centrale de la bande ; les largeurs de bande
moins étroites tendent à imposer les hauteurs correspondantes aux limites du filtre passe-bande
(fréquences de coupure inférieures et supérieures) (Bilsen, 1977). Bien entendu, dans tous ces cas,
la perception de bruit est augmentée et non remplacée par les sensations de hauteur particulières.
Nous voyons ainsi qu’il est possible de faire des prédictions grossières de la façon dont les hauteurs
seront perçues dans certains types de bruits colorés. Ceci peut être utile pour le compositeur de
musique informatique où une transition est nécessaire entre du bruit et des spectres ayant des com-
posants fréquentiels discrets (harmoniques ou inharmoniques). En d’autres termes, nous devrions
être capables de travailler le bruit en sachant plus ou moins comment celui-ci sera perçu.
expérimentations de la perception du timbre, voir Grey (1975), Plomp (1976), Grey et Gordon (1978),
Wessel (1979), et McAdams (1987). Une anthologie plus récente de la recherche sur le timbre
musical est disponible dans Barrière (1991).
Considérons maintenant l’un des aspects les plus saillants du timbre : l’équilibre des partiels dans
un spectre harmonique (c’est-à-dire la relation des forces relatives des partiels individuels). L’une
des choses curieuses au sujet du mécanisme perceptuel est qu’une onde comprenant de nombreuses
fréquences peut être perçue comme ayant une hauteur, et que l’équilibre spectral des harmoniques
les fusionne en une seule sensation de qualité, ou timbre. La fusion est sans doute un phénomène
d’ordre élevé qui résulte d’une combinaison d’information spectrale et temporelle fournie par le
système auditif périphérique. Par exemple, des études récentes ont suggéré que si plusieurs partiels
se retrouvent à l’intérieur d’une bande critique, il existe une plus grande probabilité de fusion que
s’ils sont très espacés, se retrouvant dans des bandes critiques séparées (Cohen, 1980).
D’autre part, si un ensemble de partiels est modulé en fréquence par une enveloppe temporelle
commune, ils tendent à fusionner en un seul timbre. Ceci a été démontré par John Chowning (1980,
1989), qui synthétisa un spectre pour approximer une voyelle chantée par une soprano. Lorsque
les harmoniques commençaient les uns après les autres, il n’y avait pas de perception d’un son
vocal, même lorsque tous les harmoniques étaient présents. Lorsqu’un vibrato commun était ajouté
à tous les harmoniques, le son se transformait en une voyelle chantée convaincante.
Il est beaucoup plus facile d’introduire un effet de fusion si les partiels sont harmoniques ; cependant,
les spectres inharmoniques peuvent fusionner si l’enveloppe temporelle commune est suffisamment
saillante, par exemple une enveloppe ayant une attaque raide et une chute exponentielle (Cohen,
1980). En fait, de nombreux sons de cloche ont un spectre inharmonique ayant ce type d’enveloppe
d’amplitude.
Lorsque de nombreux instruments jouent simultanément, comme dans un orchestre, la fusion est
une partie importante du processus d’identification de source — le processus qui entend une seule
forme d’onde complexe sous forme de combinaison de nombreux sons, chacun ayant son propre
timbre. Le ruissellement est également un aspect important de ce processus et il est exposé en
détail dans McAdams et Bregman (1979) et McAdams (1981).
Les partiels supérieurs d’un spectre harmonique fusionnent dans la perception d’une hauteur à la
fréquence fondamentale, même si ce composant n’est pas présent. Ceci est appelé le phénomène
d’absence de fondamental et a donné lieu à la théorie dite de périodicité de la perception de hauteur
(Nordmark, 1978). Ce phénomène joue un rôle intéressant dans l’interprétation de l’opéra. On a
© Dunod. Toute reproduction non autorisée est un délit.
découvert que les chanteurs professionnels (surtout les chanteurs masculins) développent une
région formantique supplémentaire, appelée le formant chantant. Ce formant est en général situé
entre 2 500 et 3 000 Hz, et n’apparaît pas dans la parole naturelle. Les plus grandes intensités de
l’orchestre apparaissent à des fréquences inférieures et tendent à dominer l’énergie du chanteur au
niveau de sa fréquence fondamentale. Grâce au renforcement d’énergie dû au formant chantant,
l’auditeur peut entendre la partie supérieure du spectre du chanteur. L’oreille est plus sensible aux
fréquences situées dans cette région. L’auditeur « rétablit » alors la fréquence fondamentale à partir
de la combinaison des partiels supérieurs, et le chanteur peut ainsi être entendu au-dessus de
l’orchestre (Sundberg, 1972).
perception (ou même de leur organisation) par l’oreille humaine. Malheureusement, il existe peu
d’études expliquant comment les sons sont entendus dans un contexte musical. Grey (1978) et
McAdams et Bregman (1979) sont cependant deux bons exemples. Pour aller dans cette direction,
il nous faut considérer le travail effectué sur les effets de masque.
La figure 16.6 présente les résultats d’une étude restée classique de Wegel et Lane (1924). Une pre-
mière sinusoïde est jouée à 1 200 Hz et à 80 dB SPL. L’intensité du deuxième son est changée pour
déterminer son seuil d’audibilité (appelé seuil du masque). La courbe de la figure 16.6 montre les
seuils du masque pour un grand nombre de fréquences du deuxième son. Il faut réaliser que les
fréquences supérieures à celles du premier son seront masquées avec plus d’efficacité que les fré-
quences inférieures. Notez également que la présence de battements fait que le seuil du masque se
confond avec le premier son (1 200 Hz).
104
Battements
Battements
Mélange Mélange des sons Mélange des sons
des sons
Magnitude du deuxième son
Premier, second
Battements
Premier, second
103 et son de différence Premier, second et son
et son de différence de différence
Premier et son
de différence
2
10
10
1
400 600 800 1 000 1 200 1 600 2 000 2 400 2 800 3 200 4 000
3 600
Fréquence du deuxième son
Le battement qui apparaît à 2 400 et 3 600 Hz indique la présence d’harmoniques auditifs. C’est-à-
dire que les harmoniques du premier son, absents dans le son en entrée, sont fournis par le processus
non linéaire de l’oreille à haute intensité (80 dB SPL).
Lorsque le deuxième son est au-dessus de 40 dB SPL, un autre effet non linéaire de l’oreille apparaît :
il y a un son à la différence entre le premier et le second son. Des intensités encore plus élevées con-
duisent à un mélange de sons à plusieurs hauteurs. Lorsque Wegel et Lane présentèrent deux sons
à 95 dB SPL, l’un à 700 Hz, et l’autre à 1 200 Hz, ils déclarèrent que dix-neuf hauteurs différentes
pouvaient être entendues, bien qu’ils n’aient pas enregistré leurs sonies. En général, les sons de
combinaison les plus fréquemment entendus sont le son différentiel (|F2 – F1|) et le son différentiel
cubique (2[F1 – F2] ou 2[F2 – F1]) (Yost et Nielsen, 1977). Ces deux cas ont été étudiés en profondeur
par Goldstein (1967). Une discussion pertinente des sons de combinaison peut également être
trouvée dans Plomp (1976).
Les harmoniques auditifs, les sons différentiels, et d’autres sons de combinaison peuvent être ou
non désirés par le compositeur de musique informatique, mais l’on doit faire attention à leur pré-
CHAPITRE 16 – LA PSYCHOACOUSTIQUE ET LA SYNTHÈSE 345
sence aux intensités élevées. D’autres expériences sur les effets de masques ont été effectuées, mais
une présentation plus détaillée dépasse le cadre de ce chapitre. Les effets de masque par une bande
de bruit étroite furent étudiés par Egan et Hake (1950), tandis que Hawkins et Stevens (1950)
rédigèrent une étude restée classique sur les effets de masques à large bande.
Jusqu’à présent, nous avons discuté des masques simultanés, mais il est également possible qu’un
événement (sinusoïde ou bruit) masque un son apparaissant après son extinction (masque en avant),
ou même un son apparaissant avant son arrivée (masque en arrière). Ces phénomènes, ainsi que
d’autres détails sur les masques sont longuement exposés par Zwislocki (1978) et Jeffress (1970).
Le lecteur est invité à lire l’article de Zwicker et Scharf (1965), dans lequel les auteurs ont développé
un modèle mathématique pour représenter comment l’oreille traite n’importe quel son arrivant
jusqu’à elle. Il tient compte des effets de masque, de la sensibilité variable de l’oreille aux différentes
fréquences, et des phénomènes liés à la bande critique. Le modèle est conçu pour prédire une
valeur quantitative de sonie, mais Grey et Gordon (1978) l’ont également utilisé pour déterminer
le « point d’équilibre » d’un spectre d’instrument de musique.
compositionnel.
16.9 Remerciements
L’auteur tient à remercier Stephen McAdams pour sa contribution à l’organisation et au contenu de
ce chapitre.
Partie B
Synthèse sonore
Chapitre 17
Introduction à la synthèse
Curtis Roads et John Strawn
Ce chapitre expose les méthodes fondamentales de la production numérique du son. Après un bref
survol historique, nous présenterons la théorie de la synthèse par lecture de table — le noyau de la
plupart des algorithmes de synthèse. Nous présenterons ensuite les stratégies pour synthétiser des
sons variant dans le temps. Ceci sera suivi d’une comparaison pratique de la « synthèse logicielle »
et de la « synthèse matérielle », c’est-à-dire des programmes informatiques et des synthétiseurs à
proprement parler. Enfin, nous survolerons les différents moyens pour spécifier les sons musicaux
dans un ordinateur ou un synthétiseur. La seule condition préalable à la lecture de ce chapitre est
une bonne connaissance des concepts de base de l’audionumérique, tels qu’ils sont expliqués au
chapitre 1.
Les premières expériences de synthèse du son grâce à un ordinateur ont commencé en 1957 avec des
chercheurs des Bell Telephone Laboratories de Murray Hill dans le New Jersey (David, Mathews
et McDonald, 1958 ; Roads, 1980 ; Wood, 1991). Dans les premières expériences, Max Mathews
(figure 17.1) et ses collègues prouvèrent qu’un ordinateur pouvait synthétiser des sons selon n’importe
quelle échelle de hauteur ou n’importe quelle forme d’onde, y compris des fréquences et des enve-
loppes d’amplitude variant dans le temps.
Leurs premiers programmes étaient écrits directement en langage machine, pour un ordinateur
IBM 704 géant fabriqué avec des circuits à lampes (figure 17.2). Le 704 était une machine puissante
pour l’époque, avec des longueurs de mots de 36 bits et une unité à virgule flottante pour des opé-
rations de calcul rapide. On pouvait lui charger jusqu’à 32 000 mots sur la mémoire centrale magné-
tique. Les ordinateurs étaient à cette époque si rares que les calculs de synthèse devaient être effectués
aux IBM World Headquarters à New York, car les Bell Telephone Laboratories ne possédaient pas
de machine adéquate. Après le voyage jusqu’à Manhattan pour calculer un son, Mathews et ses asso-
ciés revenaient aux Bell Telephone Laboratories avec une bande magnétique numérique. Là, un
350 SYNTHÈSE SONORE
ordinateur moins puissant doté d’une lampe 12 bits servant de « convertisseur numérique-son »
transformait les échantillons sur la bande sous forme audible. Ce convertisseur, conçu par Bernard
Gordon, était à cette époque le seul dans le monde capable de produire du son (Roads, 1980).
Depuis le temps de Music III, une famille de systèmes de synthèse par logiciel — tous basés sur le
concept de générateurs élémentaires — a été développée par différents chercheurs. Music IV était
un recodage de Music III en un nouveau langage assembleur macro développé aux Bell Laboratories
et appelé BEFAP (Tenney, 1963, 1969). Music V, développé en 1968, fut le point culminant des efforts
de Max Mathews dans le domaine des logiciels de synthèse (Mathews, 1969). Écrit presque exclu-
sivement en Fortran IV — un langage informatique standard —, Music V fut exporté dans le monde
entier vers plusieurs douzaines d’universités et de laboratoires au début des années 1970. Pour de
nombreux musiciens, dont l’auteur de ce livre, il servit d’introduction à l’art de la synthèse numé-
rique du son.
En prenant Music IV ou Music V comme modèles, d’autres personnes ont développé des programmes
de synthèse tels que Music 4BF, Music 360, Music 7, Music 11, Csound, MUS10, Cmusic, Common
Lisp Music, et ainsi de suite. En tant que catégorie générale, ces programmes sont souvent référencés
sous la rubrique des langages « Music N ».
352 SYNTHÈSE SONORE
des échantillons. Ceci a pour effet de rétrécir la taille de la table d’onde, ce qui permet de générer
différentes fréquences.
Par exemple, si l’on ne prend que les échantillons avec des nombres pairs, nous nous déplaçons
deux fois plus vite dans la table. Ceci transpose la hauteur du signal de sortie d’une octave. Si nous
sautons deux échantillons, la hauteur est encore transposée (d’une octave et une quinte, pour être
exact). Dans l’algorithme de lecture de table, l’incrément détermine le nombre d’échantillons à
sauter. L’incrément est ajouté à la position de phase en cours, afin de trouver la prochaine position
de lecture de la valeur de l’échantillon. Dans l’exemple le plus simple, lorsque nous lisons tous les
échantillons d’une table, l’incrément est de 1. Si nous ne lisons que les échantillons avec des nombres
impairs — ou pairs — de la table, l’incrément est de 2.
localiser par son index, qui est un entier. Nous devons par conséquent dériver une valeur entière
de la valeur réelle de l’incrément.
La valeur réelle peut être tronquée pour rendre une valeur entière d’index de table. Il faut donc effacer
la partie du nombre située à droite de la virgule, pour qu’un nombre comme 6,99 devienne 6 lorsqu’il
est tronqué.
Tableau 17.1 – Valeurs d’index de phase d’une table d’onde d’oscillateur,
calculées et tronquées.
Index de phase
1,000 1
2,125 2
3,250 3
4,375 4
5,500 5
6,625 6
7,750 7
8,875 8
10,000 10
11,125 11
12,250 12
13,375 13
14,500 14
15,625 15
© Dunod. Toute reproduction non autorisée est un délit.
16,750 16
17,875 17
19,000 19
Supposons que l’on utilise un incrément de 1,125. Le tableau 17.1 compare les incréments calculés
et les incréments tronqués. Cette imprécision causée par la troncation signifie que nous obtenons
une valeur de forme d’onde proche, mais non exacte, de celle dont nous avons besoin. Le résultat
est que de petites quantités de distorsions de forme d’onde sont introduites, que nous nommons
bruit de lecture de table (Moore, 1977 ; Snell, 1977b). Plusieurs remèdes peuvent réduire le bruit.
On peut par exemple utiliser une grande table d’onde, puisqu’une table à quadrillage serré réduit
l’erreur de lecture. Une autre technique est d’arrondir la valeur de l’incrément à l’entier supérieur
ou inférieur, plutôt que de simplement le tronquer. Dans ce cas, un incrément de 6,99 devient 7,
356 SYNTHÈSE SONORE
ce qui est plus proche que 6. Mais les meilleures performances sont atteintes grâce à un oscillateur
interpolant. Cette technique demande plus de calculs, mais génère des signaux très propres.
Un oscillateur interpolant calcule ce que la valeur de la table d’onde aurait été, s’il avait été possible
de référencer la table au point exact spécifié par l’incrément. En d’autres termes, il interpole les
entrées de la table d’onde pour trouver celle qui correspond exactement à l’incrément d’index de
phase spécifié (figure 17.4).
.75
(.5)
.25
Amp.
27 (27.5) 28
Index
Grâce aux oscillateurs interpolants, de plus petites tables d’onde peuvent offrir la même qualité
audio qu’avec des oscillateurs non interpolants plus grands. Une table d’onde à 1 024 entrées utilisée
avec un oscillateur interpolant délivre dans le pire des cas un excellent rapport signal/bruit de 109 dB,
alors que la même table utilisée avec un oscillateur non interpolant ne délivrera que 48 dB de rapport
signal/bruit (Moore, 1977). Ces exemples ne concernent que le cas de l’interpolation linéaire ;
des résultats encore meilleurs sont possibles avec des techniques d’interpolation plus élaborées
(Chamberlin, 1985 ; Crochiere et Rabiner, 1983 ; Moore, 1977 ; Snell, 1977b).
Ceci conclut notre introduction à la synthèse par lecture de table d’onde fixe. La partie suivante
montre comment les aspects de la synthèse peuvent varier dans le temps.
Une façon courante pour concevoir un instrument de synthèse est de l’imaginer sous forme de
système modulaire, contenant un certain nombre d’éléments spécialisés de traitement du signal,
qui créent ensemble un son variant dans le temps.
Le générateur élémentaire est un concept fondamental de la synthèse numérique. Un GE est soit un
générateur de signal, soit un modificateur de signal. Un générateur de signal (tel qu’un oscillateur)
synthétise les signaux tels que des formes d’ondes musicales et des enveloppes. Un modificateur
de signal, tel qu’un filtre, prend un signal en entrée, et le transforme de quelque façon que ce soit.
Pour créer un instrument pour la synthèse du son, le compositeur connecte ensemble les GE dans
un patch. Le patch est inspiré des vieux synthétiseurs analogiques modulaires, dans lesquels des
modules de son étaient connectés avec des câbles. Bien sûr, lorsque le programme fait de la musique,
les branchements sont tous faits par le logiciel ; il n’y a pas de câbles connectés. Mais si un GE produit
un nombre à sa sortie, celui-ci peut devenir l’entrée d’un autre GE.
✦ Notation graphique pour instruments de synthèse
Nous allons maintenant présenter la notation graphique fréquemment utilisée dans les publications
sur la synthèse du son numérique pour illustrer les patchs. Cette notation fut inventée pour expliquer
l’opération des premiers langages modulaires de synthèse numérique du son, tels que Music 4BF
(Howe, 1975) et Music V (Mathews, 1969), et elle est toujours utile aujourd’hui.
Le symbole pour chaque générateur élémentaire a une forme unique. La figure 17.5 montre la
notation graphique pour un oscillateur à lecture de table appelé osc, un générateur de signal fon-
damental. Il accepte trois entrées (amplitude, fréquence, forme d’onde) et produit une sortie (un
signal). L’oscillateur lit une seule table d’onde qui reste identique pendant toute la lecture de l’oscil-
lateur. Des oscillateurs plus complexes peuvent lire plusieurs tables d’onde pendant la durée de
l’événement ; voir le chapitre 20 sur la synthèse par tables d’onde multiples.
Amplitude
Fréquence
f1
osc
0
© Dunod. Toute reproduction non autorisée est un délit.
Signal de sortie
Dans la figure 17.5, l’entrée en haut à droite est la fréquence. L’entrée en haut à gauche détermine
l’amplitude maximale du signal généré par l’oscillateur. La boîte sur la gauche est la table d’onde f1
contenant une sinusoïde. Dans certaines implémentations, au lieu de la fréquence, la valeur chargée
directement dans l’oscillateur est un incrément de phase brut. Puisque l’incrément de phase n’est
pas un paramètre intuitif musicalement, nous considérons ici que le système tient compte automa-
tiquement des conversions de fréquences en incrément de phase, selon l’équation 1.
358 SYNTHÈSE SONORE
Si nous fournissons un nombre constant (par exemple 1) à l’entrée d’amplitude d’un oscillateur,
alors l’amplitude globale de forme d’onde de sortie est constante pendant la durée de chaque évé-
nement. Au contraire, les sons plus intéressants ont une enveloppe d’amplitude qui varie en fonction
du temps. De façon typique, une note commence avec une amplitude de 0, puis s’élève jusqu’à une
valeur maximale (généralement normalisée pour ne pas dépasser 1), puis redescend plus ou moins
rapidement vers 0. On dit d’une onde qu’elle est normalisée lorsqu’elle a été échelonnée pour ne
pas dépasser les limites standards telles que 0 et 1 pour une enveloppe d’amplitude, ou –1 et +1
pour les autres ondes. La première partie de l’enveloppe est appelée portion d’attaque, tandis que
la fin de l’enveloppe est appelée l’extinction.
Attaque
Chute
Extinction
Maintien (ou chute finale)
Amp.
Temps
Durée de l'événement
enveloppe_amp
Fréquence
f2
0 osc
signal_de_sortie
(b) Amplitude
f1 maximale
1
Durée
0
env_gen
enveloppe_amp
Fréquence
f2
0 osc
signal_de_sortie
© Dunod. Toute reproduction non autorisée est un délit.
tude qu’une seule fois au cours de cette période. Pour chaque échantillon, env_osc produit à sa
sortie une valeur tirée de l’enveloppe stockée f1. Cette valeur devient l’entrée de gauche (amplitude)
de l’oscillateur sinusoïdal osc. Après qu’osc a lu un échantillon dans sa table d’onde f2, la valeur de
l’échantillon est échelonnée à l’intérieur d’osc par tout ce qui apparaît à l’entrée d’amplitude, dans
ce cas ce qui provient d’env_osc.
360 SYNTHÈSE SONORE
La figure 17.7a montre un instrument typique défini dans un langage de synthèse tel que celui que
nous venons d’évoquer. La figure 17.7b montre une façon de caractériser la même structure, qui
est sans doute plus répandue dans les synthétiseurs. La figure remplace l’oscillateur d’enveloppe par
un simple générateur d’enveloppe env_gen. L’env_gen prend une durée, une amplitude maximale,
et une table d’onde ; il lit la table d’onde pendant la durée spécifiée, en l’échelonnant grâce à l’ampli-
tude maximale spécifiée.
Comme le lecteur peut le deviner, nous pourrions également attacher un générateur d’enveloppe à
l’entrée de fréquence d’osc pour obtenir un changement de hauteur tel qu’un vibrato ou un glis-
sando. En fait, nous pouvons interconnecter les oscillateurs et les autres générateurs élémentaires
de nombreuses façons, afin de créer des sons différents. Les oscillateurs interconnectés sont la base
de nombreuses techniques de synthèse décrites dans les chapitres 18 à 32.
(a)
Instrument 1
/* env_osc arguments are wavetable, duration, amplitude */
amp_envelope f env_osc f1 p3 1.0;
/* osc arguments are wavetable, frequency, amplitude */
output_signal f osc f2 p4 amp_envelope;
out output_signal;
EndInstrument 1;
______________________________________________
(b)
Figure 17.8 – Représentation sous forme de texte d’un instrument et d’une partition.
(a) Instrument correspondant à la figure 17.7. Les remarques entre les caractères « /* » et « */ »
sont des commentaires. Les champs de paramètres commençant avec p indiquent les valeurs qui
seront calculées à partir de la partition alphanumérique, comme dans (b). p3 spécifie la durée et p4
la fréquence. Remarquez que le troisième argument du second oscillateur (l’amplitude) est fourni
par le signal amp_envelope généré par le premier oscillateur. (b) Partition pour l’instrument de
(a). Le premier domaine est le numéro de l’instrument. Le second paramètre indique le temps de
départ, le troisième la durée et le quatrième la fréquence.
Avec un langage, le musicien spécifie les sons en écrivant un texte qui est interprété par un pro-
gramme de synthèse. La figure 17.8a montre une représentation textuelle de l’instrument montré
à la figure 17.7a. Cet exemple utilise un langage de synthèse hypothétique simple que nous appelons
Music 0. Le symbole ← signifie « est assigné à la valeur de ». Par exemple, la sortie d’env_osc est
assignée (dirigée) à la variable du signal amp_envelope. Puis, la valeur d’amp_envelope, à chaque
période d’échantillonnage, est introduite dans l’entrée d’amplitude du module osc.
La figure 17.8b présente une partition simple qui fournit les paramètres de cet instrument.
© Dunod. Toute reproduction non autorisée est un délit.
qui étaient suffisamment rapides pour effectuer tous les calculs nécessaires à un échantillon dans
une durée inférieure à une période d’échantillonnage. Grâce aux progrès de la technologie des cir-
cuits, les ordinateurs volumineux du passé ont été remplacés par de minuscules circuits intégrés
(CI ou microprocesseurs) qui peuvent réaliser des algorithmes de synthèse multicanaux en temps
réel.
La figure 17.9 montre l’aperçu d’un système de synthèse musicale informatique en temps réel.
Ce système possède en fait trois façons de générer du son : (1) synthèse logicielle différée calculée
sur l’ordinateur, avec le son venant du CNA ; (2) synthèse en temps réel calculée par l’unité de trai-
tement numérique du signal (DSP), avec le son venant du CNA, et (3) synthèse en temps réel en
utilisant un synthétiseur contrôlé par MIDI.
Figure 17.9 – Vue simplifiée d’une installation typique pour l’enregistrement numérique
et la synthèse. Les musiciens communiquent avec les synthétiseurs en utilisant des claviers ou
d’autres outils d’entrée, ou par des programmes tournant dans l’ordinateur. Le son peut être enre-
© Dunod. Toute reproduction non autorisée est un délit.
gistré par le CAN et stocké sur le disque pour une lecture ultérieure à travers le CNA. Dans un ordi-
nateur équipé pour la production multimédia, tous les composants à l’exception du clavier MIDI peu-
vent être inclus dans l’ordinateur.
Un avantage évident du synthétiseur en temps réel est que les outils d’entrée de musique (également
appelés contrôleurs) tels que des claviers, des pédales, des manettes, des boutons, et des molettes
peuvent lui être connectés, ce qui permet au musicien de modifier le son tandis que celui-ci est
produit. Les séquenceurs et les éditeurs de partitions rendent possibles l’enregistrement et l’édition
de ces interprétations, et les éditeurs de patchs qui tournent sur l’ordinateur peuvent changer les
patchs de synthèse et de traitement du signal à n’importe quel moment.
Les systèmes en temps réel sont étudiés de façon plus poussée à travers ce livre (voir également
Alles, 1977a ; Buxton et coll., 1978 ; Strawn, 1985c ; Roads et Strawn, 1985 ; Roads, 1989).
364 SYNTHÈSE SONORE
d’objet sonore est souvent pratique, puisqu’il peut définir des sons plus longs ou plus compliqués que
ce que l’on conçoit habituellement avec l’idée de note. Un objet sonore peut contenir des centaines
de sous-événements très courts (comme dans la synthèse vectorielle ou la synthèse granulaire).
Ou bien il peut être contrôlé par une douzaine — ou plus — de paramètres variant dans le temps,
lui faisant subir des mutations d’identité d’une hauteur-timbre à une autre.
Le poids du contrôle des évolutions complexes de paramètres dans la synthèse d’objets sonores
revient au compositeur. Ceci pose la question : comment pouvons-nous spécifier toutes ces quantités
variant dans le temps ? Dans la prochaine partie, nous montrerons combien de données une tech-
nique élémentaire de synthèse peut nécessiter. Puis, la partie sur l’interface du musicien présentera
cinq stratégies différentes pouvant répondre à cette demande.
env_osc env_osc
0 0
1.0 1.0
Enveloppe Durée Enveloppe Durée
d'amplitude d'amplitude
1 1
env_osc env_osc
0
Fréquence 0 Fréquence
centrale centrale
+ +
0
Sinusoïde
osc
1
... 0
Sinusoïde
osc
N
+
Signal additif de sortie
Figure 17.10 – Le patch montré à la figure 17.7 a été étendu pour former un instrument
simplifié de synthèse additive. Chaque oscillateur sinusoïdal est modifié par une enveloppe d’ampli-
tude et une enveloppe de fréquence. Les sorties de nombreux oscillateurs sinusoïdaux sont addition-
nées pour ne former qu’un seul échantillon. Trois oscillateurs supplémentaires peuvent être ajou-
tés à ce patch pour créer des sons plus compliqués.
la synthèse additive. La prochaine partie présente six stratégies globales qui s’appliquent à toutes
les techniques de synthèse.
17.8.3 L’interface du musicien
Les différentes façons de fournir des données de synthèse à un ordinateur et à un synthétiseur entrent
dans six catégories :
CHAPITRE 17 – INTRODUCTION À LA SYNTHÈSE 367
Les outils d’entrée des données musicales sont des instruments physiques manipulés par les musi-
ciens. L’instrument fait directement le lien entre les gestes du musicien et la production du son.
Les outils d’entrée électroniques rendent aisée la manipulation du son en permettant une action
physique sur celui-ci. Ils sont ainsi potentiellement plus flexibles que les instruments traditionnels.
Par exemple, avec les instruments électroniques, un simple contrôleur de souffle peut créer aussi
facilement des sons extrêmement graves que des sons très aigus. En fait, les outils d’entrée électro-
niques sont si faciles à utiliser que l’on recherche parfois à réintroduire une difficulté physique,
afin de recréer le sens de l’effort qui conduit aux interprétations expressives.
Les avantages des outils d’entrée musicaux en temps réel sont clairs, bien que les problèmes tech-
niques lors de leur branchement à un ordinateur puissent devenir très importants. Les instruments
acoustiques traditionnels se sont développés pendant plusieurs centaines d’années, alors que leurs
équivalents numériques viennent juste de commencer leur évolution. Les outils d’entrée musicaux
sont mieux adaptés au contrôle fin de quelques paramètres musicaux. Par exemple, les touches d’un
clavier peuvent indiquer la hauteur, tandis que la vélocité de la touche déterminera l’amplitude des
oscillateurs hautes fréquences. La plupart des claviers MIDI ont au moins un contrôleur continu
(tel qu’une pédale, une molette de modulation, ou des manettes). Ces contrôleurs peuvent assigner
n’importe quel paramètre manipulable, et l’on peut ainsi assigner la pédale au contrôle de l’ampli-
tude globale, et la molette de modulation au déplacement de la hauteur fondamentale.
✦ Logiciels d’interprétation
© Dunod. Toute reproduction non autorisée est un délit.
L’utilisation des logiciels d’interprétation en temps réel s’est grandement développée grâce à la
prolifération des systèmes basés sur le MIDI. Les logiciels d’interprétation incluent des utilitaires
tels que des séquenceurs qui peuvent se souvenir d’interprétations au clavier, et les rejouer. Les
séquenceurs enregistrent des données de contrôle pures (telles que le moment de départ de l’appui
d’une touche sur un clavier, signalant le commencement des notes) au lieu des échantillons de formes
d’ondes audio. La musique informatique offre également la possibilité d’aller au-delà des interpré-
tations solos traditionnelles. Elle peut par exemple offrir un contrôle au chef d’un ensemble.
Pourvus d’yeux (une caméra ou un autre type de détecteur) et d’oreilles (microphones et logiciels
d’analyse du son), les instruments implémentés sur ordinateur peuvent répondre au geste humain
de façon arbitrairement complexe, grâce à l’utilisation de procédures intercalées dans le logiciel
d’interprétation. Il est tout à fait banal de voir des concerts dans lesquels un synthétiseur contrôlé
par ordinateur improvise avec un interprète humain. Une autre application d’un tel système est
l’interprétation plus flexible d’une partition préparée, lorsqu’il remplace par exemple un enregis-
treur à bandes.
368 SYNTHÈSE SONORE
(a) Données
MIDI Synthétiseurs,
Outils
d'entrée échantillonneurs,
effets, etc.
(d)
Texte Compilateur
Langages de langage Synthétiseur
ou CNA
(e) Programme
Programmes Données de composition
de composition initiales algorithmique
algorithmique Synthétiseur
ou CNA
Microphone
(f)
Programme
Analyse du son d'analyse
du son
CAN CNA
Comme exemple simple de logiciel d’interprétation, on peut imaginer une situation où un certain
passage joué sur un clavier déclenche le début d’une section de partitions préenregistrées, tandis
qu’un simple appui sur une touche de Do aigu arrêtera cette séquence. Une molette de modulation
peut déterminer le tempo de la séquence préenregistrée.
✦ Éditeurs
Un éditeur permet au musicien de créer et de changer un texte, un son, ou une image. De nombreux
éditeurs interactifs emploient des techniques graphiques pour procurer au musicien un environ-
nement efficace. Le matériau édité peut facilement être coupé, collé ou changé grâce à des gestes
simples.
Les éditeurs graphiques facilitent les prototypages rapides d’idées, et on les trouve ainsi souvent
dans les studios personnels, où du temps existe pour la recherche. Les idées musicales peuvent être
construites par incréments dans un éditeur et le musicien peut fréquemment entendre le résultat
en même temps qu’il procède au changement.
Puisque la musique existe à de nombreux niveaux et perspectives, il semble logique de penser qu’il
devrait y avoir de nombreux types différents d’éditeurs de musique. Pour mettre au point une inter-
prétation avec un synthétiseur additif, on utilise une partition, un instrument et des éditeurs de
fonctions. Nous entrons les paramètres pour chaque objet sonore dans un éditeur de texte ou nous
manipulons une image graphique (telle qu’une partition traditionnelle ou une notation en rouleau
de piano mécanique). L’éditeur d’instrument configure le synthétiseur additif à partir de générateurs
élémentaires tels que des oscillateurs et des générateurs d’enveloppe. À la fin d’une séance d’édition,
nous disons au programme d’écrire le patch pour le synthétiseur. Un éditeur de fonction offre plu-
sieurs méthodes pour définir des fonctions du temps (formes d’ondes et enveloppes), y compris
des méthodes graphiques et des formules mathématiques. Nous demandons ensuite à l’éditeur de
fonction de créer les enveloppes d’amplitude et de fréquence pour les différents oscillateurs.
✦ Langages
La méthode la plus précise pour définir la musique implique la préparation de listes de notes et de
listes de lecture qui font partie d’un langage de partition. Le langage de partition définit une syntaxe
pour les paramètres de l’instrument, listés dans des champs de paramètres (abrégés en pfields
— pour l’anglais parameter fields).
© Dunod. Toute reproduction non autorisée est un délit.
; p1 p2 p3 p4 p5 p6
; Ins Start Dur. Freq.(Hz) Amp.(dB) Waveform
i1 0 1.0 440 70 3
i2 1.0 .5 660 80 4
Notre premier exemple de langage de partition était la ligne simple de la figure 17.8b. Traditionnel-
lement, le premier paramètre après le nom de l’instrument donne le temps de départ, et le second
370 SYNTHÈSE SONORE
donne la durée d’un événement. Les paramètres suivants ont des significations différentes selon la
nature de l’instrument. Par exemple, la première ligne du fichier de partition montré à la figure 17.12
dit que l’événement utilise l’instrument 1, commence à 0, joue pendant 1 s, a une fréquence de
440 Hz, une amplitude de 70 dB, et utilise la forme d’onde numéro 3. Les deux lignes du bas en gras
sont la partition ; les autres lignes sont des commentaires.
Les langages de partition contiennent également des définitions de table de fonction — les définitions
de l’enveloppe et de la forme d’onde utilisées par les instruments.
Les langages de partition traditionnels sont à la base sous forme de nombres : les instruments, les
hauteurs, et les amplitudes sont exprimés sous forme de nombres. Des langages de partition alter-
natifs répondent à un besoin de spécifications plus « naturelles » de la musique, permettant par
exemple des noms de hauteur à tempérament égal (pour un exposé de ces langages de partition,
voir Smith, 1973 ; Schottstaedt, 1983, 1989a ; Jaffe, 1989 ; Loy, 1989a).
Le principal avantage des langages de partition est également leur désavantage : précision et détail.
Avec un langage, les musiciens doivent entrer la partition sous forme de texte alphanumérique. Tous
les compositeurs ne prennent pas le soin de spécifier leur musique avec autant de détails à chaque
fois. Dans l’exemple de synthèse additive donné ci-dessus, le musicien est obligé de taper 120 valeurs
pour chaque objet sonore. D’un autre côté, un langage de partition permet au musicien de spécifier
précisément une partition qui est si détaillée qu’elle ne pourrait jamais être jouée précisément par
un interprète humain.
✦ Programmes de composition algorithmique
Certaines des premières œuvres de musique informatique impliquaient la composition algorithmique :
la création d’une partition musicale selon une procédure spécifiée par le compositeur-program-
mateur (Hiller et Isaacson, 1959 ; Xenakis, 1971 ; Barbaud, 1966 ; Zaripov, 1969). Par exemple, l’ordi-
nateur peut calculer les paramètres du son selon une distribution de probabilités ou selon un autre
type de procédure.
Supposons que nous chargions un ensemble de données initiales dans un programme de compo-
sition algorithmique, puis que nous le laissions générer une partition complète, comprenant tous les
paramètres nécessaires à la synthèse additive. Il est ainsi compréhensible que la nature des données
initiales change de programme en programme. Pour un programme qui calcule une partition selon
les probabilités, le compositeur doit spécifier les attributs généraux de la partition comme suit :
1. Nombre de sections.
2. Durée moyenne des sections.
3. Densité minimum et maximum des notes dans une section.
4. Groupement des enveloppes de fréquence et d’amplitude en classes de timbres.
5. Probabilité pour chaque instrument d’une classe de timbres de jouer.
6. Durée la plus longue et la plus courte pouvant être jouées par chaque instrument.
Dans ce cas, le contrôle est global et statistique par nature. Le compositeur peut déterminer les
attributs généraux de la partition, mais tous les détails sont calculés par le programme. Dans d’autres
programmes, les données peuvent être plus détaillées, et les contraintes de style plus spécifiques.
✦ Analyse du son
Comme la musique, le son peut être disséqué d’innombrables façons. Les catégories établies d’ana-
lyse du son désignent trois aspects : hauteur, rythme, et spectre. Nous pouvons utiliser la sortie de ces
analyseurs pour conduire la synthèse, comme dans un convolveur qui applique le rythme d’un son
CHAPITRE 17 – INTRODUCTION À LA SYNTHÈSE 371
sur le timbre d’un autre (Roads, 1993a ; chapitre 5), un détecteur de hauteur captant la voix humaine
qui conduit la hauteur d’accompagnement d’un oscillateur numérique (chapitre 9), ou un analy-
seur de spectre qui extrait les courbes de fréquence et d’amplitude variant dans le temps pour une
resynthèse additive (chapitre 11).
17.9 Conclusion
Les développements dans l’acoustique physique et électronique ont ouvert la voie à de nombreuses
expériences dans la production du son musical. Les créations dans cette catégorie représentent les
développements les plus avant-gardistes de la musique d’aujourd’hui. Les nouveaux sons, ajoutés aux
rythmiques, aux harmonies, aux concepts tonals nouveaux, rendent la musique extrêmement difficile
à évaluer en ce qui concerne les normes musico-esthétiques. (Hugh Miller, 1960)
Le potentiel musical de la synthèse numérique du son a commencé à être exploré, mais beaucoup
de choses restent encore incomprises. Pour l’instant, la technologie numérique permet une généra-
tion du son précise et renouvelable. Grâce au matériel, aux logiciels, et aux systèmes de reproduction
adéquats, nous pouvons générer des signaux musicaux de très haute qualité audio. Peut-être plus
importante encore que la précision, elle permet la programmabilité, qui se traduit en flexibilité musi-
cale. Si on lui donne suffisamment de mémoire et de temps de calcul, un ordinateur peut réaliser
n’importe quel algorithme de synthèse, quelle que soit sa complexité.
Tandis que le matériel continue à gagner en vitesse, il y a toujours un problème pour trouver les
données de contrôle adéquates pour conduire le moteur de synthèse. L’un des défis de la synthèse est
de trouver comment imaginer et convoyer jusqu’à la machine les paramètres des sons que l’on veut
produire.
La théorie de la musique est en retard d’un demi-siècle par rapport à la pratique actuelle de la
musique informatique. Les techniques de synthèse de compositeurs de premier plan explorent
l’espace des possibilités, laissant derrière elles des cartes de géographie sonore musicale que les
générations futures pourront lire. L’histoire de la musique en période d’expérimentation comme
celle-ci indique que l’époque actuelle nous conduit vers une période de consolidation — lorsque
la plupart des expérimentations d’aujourd’hui sembleront habituelles, lorsque les ressources qui
aujourd’hui semblent radicales apparaîtront comme des lieux communs. La composition musicale
entrera alors dans une nouvelle ère de raffinement, et des questions d’orchestration pourront de
nouveau être abordées à l’intérieur d’un cadre systématique, comme elles l’étaient à l’époque de
l’orchestre symphonique.
© Dunod. Toute reproduction non autorisée est un délit.
Chapitre 18
L’échantillonnage
afin que les groupes d’échantillons puissent être chargés dans l’échantillonneur relativement rapi-
dement.
Musique Concrète fait référence à l’utilisation de sons enregistrés avec un microphone, plutôt qu’à
des sons générés synthétiquement, comme dans la musique électronique pure. Mais cela fait aussi
référence à la façon de travailler avec de tels sons. Les compositeurs de musique concrète travaillent
directement avec des objets sonores (Schaeffer, 1977 ; Chion, 1982). Leurs compositions nécessitent
de nouvelles formes de notation graphique, hors des limites des partitions classiques pour orchestre
(Bayle, 1993).
Les instruments échantillonneurs modernes sont basés sur un principe utilisé dans des appareils
photoélectriques et à bouclage de bandes tels que le Licht-Ton Orgel d’Edwin Welte (Berlin,
années 1930), le Singing Keyboard de Sammis (Hollywood, 1936), le Phonogène de Pierre Schaef-
fer (figure 18.2, Paris, début des années 1950), le Special Purpose Tape Recorder de Hugh Le Caine
CHAPITRE 18 – L’ÉCHANTILLONNAGE 375
(Ottawa, 1955), le Chamberlin (Los Angeles, fin des années 1960) et le Mellotron (Londres, début des
© Dunod. Toute reproduction non autorisée est un délit.
années 1970). Ces appareils jouaient soit des disques optiques (codés avec des photographies de
formes d’ondes), soit des boucles de son sur bandes magnétiques. Suivant la bande ou le disque
sélectionné et la touche pressée sur le clavier musical, une tête de lecture à l’intérieur de ces instru-
ments jouait le son à un taux qui s’harmonisait avec la hauteur spécifiée par la touche pressée.
Le concepteur du Singing Keyboard, Frederick Sammis, décrit le potentiel d’un tel instrument en
1936 :
Supposons que nous devions utiliser cette machine comme un instrument à usage spécialisé, pour
réaliser des dessins animés « parlants ». Il est tout de suite évident que nous sommes en possession d’une
machine avec laquelle le compositeur peut essayer diverses combinaisons de mots et de musiques, et
savoir immédiatement comment ils sonneront dans la version achevée du travail. L’instrument aura
probablement plus de dix pistes sonores enregistrées les unes à côté des autres sur une pellicule de
cinéma et qui contiendront des mots tels que « coin » pour un canard, « miaou » pour un chat, « meuh »
pour une vache… Cela pourrait aussi être l’aboiement d’un chien ou le bruit sourd d’une voix humaine
à la hauteur désirée. (Frederick Sammis, cité dans Rhea, 1977)
376 SYNTHÈSE SONORE
Pour créer un instrument d’échantillonnage commercial, trois points de base doivent être abordés :
le bouclage, le déplacement de hauteurs, et la réduction de données, dont nous allons parler dans
les trois prochaines parties.
18.2 Bouclage
Le bouclage étend la durée des sons échantillonnés joués sur un clavier musical. Si le musicien garde
une touche enfoncée, l’échantillonneur lit la note « sans raccord apparent » jusqu’à ce que la touche
en question soit relâchée. Ceci est effectué en spécifiant des points de bouclage de début et de fin
dans le son échantillonné. Après que l’attaque de la note s’est achevée, l’échantillonneur lit de façon
répétée la partie bouclée de la table d’onde, jusqu’à ce que la touche soit relâchée ; puis il joue la partie
finale de la table d’onde de la note.
Les échantillons sortants d’usine sont souvent « prébouclés ». Mais pour des sons fraîchement
échantillonnés, la responsabilité de la spécification des points de bouclage de départ et de fin revient
au musicien qui les a échantillonnés. Créer une boucle sans raccord apparent, mais qui soit égale-
ment naturelle, à partir d’un son d’instrument traditionnel demande un grand soin. La boucle doit
commencer après l’attaque de la note, et s’achever avant l’extinction (figure 18.4).
Zone correcte
de bouclage
Amp.
Temps
Certains échantillonneurs offrent des méthodes automatiques pour trouver de futurs points de
bouclage. L’une des méthodes est d’effectuer une détection de hauteur sur le son échantillonné
(Massie, 1986). Voir le chapitre 9 pour un exposé des méthodes de détection de hauteur. L’algorithme
de détection de hauteur cherche des motifs répétitifs dans la forme d’onde qui peuvent indiquer une
période de hauteur fondamentale. La période de hauteur est l’intervalle de temps qui s’étend sur un
cycle d’une forme d’onde périodique (figure 18.5). Une fois la hauteur estimée, l’échantillonneur
suggère une paire de points de bouclage qui concorde avec un certain nombre de périodes de hauteur
dans la forme d’onde. Ce type d’algorithme de bouclage a tendance à générer des boucles lisses, de
hauteur constante. Si le corps de la boucle est trop court, quoi qu’il en soit, le résultat est similaire
aux sons stériles de la synthèse par forme d’onde fixe. Par exemple, une boucle couvrant une ou deux
périodes de hauteur d’une note de violon fait abstraction des qualités variant dans le temps d’une
corde frottée, ce qui produit un son artificiel ayant perdu son identité.
378 SYNTHÈSE SONORE
Période de hauteur
fondamentale
+1
0
Amp.
-1
Temps
(a)
Fin de boucle Début de boucle
Point
de bouclage
(b)
Fin de boucle
Temps
Début de boucle
Figure 18.6 – Comparaison des boucles collées et des boucles en fondus enchaînés.
(a) Un collage vertical de deux parties d’une forme d’onde à un point zéro commun. Le point de
fin de la boucle se colle au commencement de la même boucle de table d’onde. (b) La boucle en
fondu enchaîné peut être perçue comme la superposition d’un fondu de sortie appliqué à la fin de la
boucle et d’un fondu d’entrée appliqué au début de la boucle.
CHAPITRE 18 – L’ÉCHANTILLONNAGE 379
Les points de départ et de fin d’une boucle peuvent être soit collés l’un contre l’autre à un point
d’échantillonnage commun soit en fondu enchaîné. Un collage est une coupure d’un son vers l’autre.
Coller des formes d’ondes crée un clic, un crac, ou un coup sourd au point de collage, à moins que
les points de commencement et de fin ne concordent correctement. Le fondu enchaîné signifie que
la partie finale de chaque événement bouclé s’efface graduellement au moment même où la partie
de départ réapparaît lentement ; le procédé par fondu enchaîné se répète tant que la note est main-
tenue (figure 18.6). Les durées des fondus enchaînés s’étendent en général de 1 à 100 ms, mais elles
peuvent être allongées sans limites.
Lorsqu’aucune de ces techniques ne crée de boucle lisse, à cause d’un vibrato ou d’autres variations
dans le signal, des méthodes plus compliquées permettent également d’agir, telles que le bouclage
bidirectionnel. Une boucle bidirectionnelle alterne une lecture à l’endroit et à l’envers (figure 18.7a).
Les boucles à l’endroit et à l’envers peuvent être placées en couches pour masquer les discontinuités
dans les deux directions (figure 18.7b). Des techniques de bouclage encore plus complexes basées
sur l’analyse du spectre sont disponibles. Par exemple, on peut analyser un son, rendre aléatoire la
phase de chacun des composants spectraux de la boucle, et resynthétiser (Collins, 1993).
(b) Avant
Arrière
(a) Trois cycles d’une boucle bidirectionnelle. (b) Boucles à l’endroit et à l’envers superposées.
Jusqu’ici, nous avons vu comment transposer la hauteur par des intervalles d’octaves. Pour trans-
poser d’un rapport entre nombres entiers, on utilise une combinaison d’interpolation et de décima-
tion (Schafer et Rabiner, 1973a ; Moorer, 1977 ; Rabiner, 1983 ; Lagadec, 1983 ; Crochiere et Rabiner,
1983 ; Hutchins, 1986a ; Duncan et Rossum, 1988). En particulier, pour transposer une hauteur
dans un rapport de N/M, nous interpolons par M, puis décimons par N. Par exemple, pour trans-
poser de 3/4 un son vers le bas (une quarte juste), nous échantillonnons vers le haut et interpolons
par un facteur de quatre, puis échantillonnons vers le bas et décimons par un facteur de trois. Pour
© Dunod. Toute reproduction non autorisée est un délit.
transposer vers le haut dans un rapport de 4/3, nous interpolons tout d’abord par 3 puis décimons
par 4.
25 × 5
------------- = -------------2 = ⎛ - × - × -----⎞
48 000 4 4 10
44 100 3×7 ⎝3 7 7 ⎠
Ces rapports peuvent être implémentés sous forme de six étapes d’interpolations et de décimations
par les facteurs de 2, 3, 5, et 7.
1. Interpoler par 4 de 44 100 à 176 400 Hz.
2. Décimer par 3 de 176 400 à 58 800 Hz.
3. Interpoler par 4 de 58 800 à 235 200 Hz.
4. Décimer par 7 de 235 200 à 33 600 Hz.
5. Interpoler par 10 de 33 600 à 336 000 Hz.
6. Décimer par 7 de 336 000 à 48 000 Hz.
Le signal peut alors être lu à un taux de 48 kHz sans changement des hauteurs.
Tant que les taux d’entrée et de sortie peuvent être écrits sous forme de simples fractions, le procédé
de conversion est direct. Si les taux n’ont pas un rapport entier, ou s’ils changent constamment,
d’autres techniques mathématiques plus sophistiquées doivent être employées, dans lesquels nous
ne nous aventurerons pas ici (voir Crochiere et Rabiner, 1983 ; Rabiner, 1984 ; Lagadec, 1984). Ceci
est le cas avec les effets flangeur (voir chapitre 6) et le brossage audio (simulation du mouvement
manuel d’avant en arrière d’une bande magnétique se déplaçant devant une tête de lecture pour
localiser un point de coupure).
(a)
(b)
nées pour réduire le poids du stockage. Les deux sont très différents. La réduction de données jette ce
qu’elle considère être des données « non essentielles », alors que la compression de données utilise
plus ou moins l’excédent de données pour le coder sous forme plus efficace du point de vue de la
mémoire. La compression de données peut reconstituer les données originelles, tandis que la
réduction de données suppose une perte de celles-ci. Les deux méthodes sont parfois regroupées
sous la rubrique des schémas de codage ou de chiffrage dans la documentation audio.
bits indiquant l’amplitude originelle du son (Pohlmann, 1989a). En dépit de déplacements dans le
domaine dynamique apparent, le taux de signal/bruit des échantillons basses résolutions reste peu
élevé. Une autre méthode consiste à abaisser le taux d’échantillonnage. Ceci diminue le nombre
d’échantillons stockés par unité de temps, mais provoque un rétrécissement de la largeur de bande
audio. Une troisième façon est de ne stocker qu’une note sur trois ou quatre sur l’ambitus de l’ins-
trument, puis de transposer ces échantillons pour lire les hauteurs intermédiaires. Ceci a pour effet
de transposer le spectre, ce qui n’est pas idéal. Si le son contient une quelconque variation comme
un trémolo ou un vibrato, le taux de ces variations est également influé par la transposition.
Comme le coût des mémoires ne cesse de baisser, il existe de moins en moins de justifications à ces
méthodes qui compromettent toutes la qualité audio.
Une approche plus sophistiquée de la réduction de données débute par une étape d’analyse, qui
stocke les sons sous une forme de réduction des données couplée avec des fonctions de contrôle qui
peuvent approximativement les reconstituer. Il existe de nombreuses possibilités d’approche à cette
analyse et resynthèse. Par exemple, l’analyse peut tenir compte des phénomènes de masque et jeter
384 SYNTHÈSE SONORE
les parties qui sont censées être masquées par d’autres parties plus fortes (pour une introduction
aux effets de masques, voir le chapitre 16 ; pour davantage de détails, voir Buser et Imbert, 1991).
Dans le chapitre 19, nous examinerons quatre méthodes expérimentales de réduction de données
basées sur un modèle de synthèse additive. Certains schémas commerciaux de réduction de données
sont installés à l’intérieur des produits de consommation audio. Ceci n’est pas l’endroit pour rentrer
dans une large discussion sur la perfection des modèles perceptuels sur lesquels les schémas de
réduction de données sont basés. Il suffit de dire que dans tout schéma de réduction de données,
il y a une perte de données conduisant à une réduction de la qualité audio. Ces pertes sont tout
spécialement apparentes avec les matériaux musicaux exploitant le domaine complet d’un système
audio de bonne qualité.
18.6.2 Compression des données
Pour conserver de l’espace mémoire, certains systèmes utilisent des techniques de compression
des données qui limitent la quantité d’espace utilisée par une chaîne d’échantillons. Ceci est réalisé
par élimination des redondances de données et ne devrait impliquer aucun sacrifice de la qualité
audio. Une méthode de compression courante est le chiffrage par longueur de séquence. L’idée de
base du chiffrage par longueur de séquence est que chaque valeur d’échantillon n’est pas stockée.
Au contraire, tout échantillon différent du précédent est stocké, suivi d’une valeur précisant combien
d’échantillons successifs auront la même valeur. Pour plus d’informations sur la compression de
données audio, voir Moorer (1979b).
d’un orgue d’église ou d’un orgue électronique. D’autres instruments comme les voix, les violons,
les saxophones, les guitares électriques et les sitars sont intrinsèquement plus difficiles à capturer
avec la technologie d’échantillonnage existante. Les notes individuelles peuvent être relativement
bien capturées, mais lorsque les notes sont assemblées en phrases, en mélodies et en accords, il est
évident qu’une grande partie de l’information sur l’interprétation et l’acoustique a été oubliée.
Les échantillonneurs d’usine fournissent le chanteur moyen, le saxophone moyen joué par le saxo-
phoniste moyen, l’orchestre moyen joué dans une salle moyenne, et ainsi de suite. Pourtant, les
connaisseurs peuvent dire les différences entre deux chanteurs, deux saxophonistes, et deux chefs
avec deux orchestres différents. Il semblerait difficile de confondre le rendu d’un solo de saxophone
avec un échantillonneur/séquenceur et le style d’un original de John Coltrane. Ceci montre une
limite fondamentale des échantillonneurs existants. Au-delà d’un certain point, il est impossible
d’augmenter le réalisme des échantillonneurs actuels sans avancées majeures de la technologie et
sans une compréhension de la relation entre la structure du son et l’interprétation musicale. L’un
des chemins d’évolution évidente des échantillonneurs est l’analyse/resynthèse (voir chapitre 11),
qui permet des transformations flexibles et sensibles au contexte des sons musicaux.
Dans les instruments expressifs comme les voix, les saxophones, les sitars, les guitares, et d’autres,
chaque note est créée dans un contexte musical. À l’intérieur d’une phrase, une note provient d’une
autre note (ou du silence), et s’enchaîne à d’autres notes (ou au silence). En plus de ces indications
contextuelles, des sons transitionnels tels que le souffle, la respiration, le bruit de langue, les clics
de clés, et les glissements du doigt le long des cordes ponctuent le phrasé. Les contraintes de style
et de goût déterminent quand les effets sensibles au contexte, tels que le rubato, le portamento,
le vibrato, le crescendo et le diminuendo, et toutes les autres nuances doivent apparaître.
Ces problèmes peuvent être séparés en deux catégories : (1) comment pouvons-nous modeler la
microstructure du son lors des transitions note à note ? (2) comment pouvons-nous interpréter
(analyser) les partitions pour rendre, selon les règles spécifiques d’un style donné, une impression
d’interprétation sensible au contexte ? Ces questions sont le sujet des deux petites prochaines parties.
Figure 18.10 – Tracé temporel d’une transition note à note d’un intervalle
de tierce majeure ascendante joué par une trompette avec coup de langue (a) et sans coup de
langue (b). La durée totale est d’environ 120 ms (avec l’aimable autorisation de John Strawn).
stocke les données de transition sous une forme qui leur permet d’être étirées ou compressées
(Rodet, Depalle et Poirot, 1988). Holoway et Haken (1992) modèlent les transitions sous forme de
pistes superposées dans un vocodeur de phase pisteur (voir chapitre 11).
Si les transitions doivent être calculées automatiquement — par exemple lorsqu’un musicien joue
d’un clavier — l’instrument doit être capable de faire une détermination du contexte extrêmement
rapide.
CHAPITRE 18 – L’ÉCHANTILLONNAGE 387
(a)
(b)
© Dunod. Toute reproduction non autorisée est un délit.
La synthèse additive
un ensemble de tuyaux. L’air était ensuite relâché — ce qui créait le son — en appuyant sur une
touche du clavier de l’orgue. En tirant plusieurs registres dans des proportions variables, on pouvait
mélanger le son de plusieurs tuyaux pour chaque touche appuyée sur le clavier de l’orgue. Selon les
termes d’un spécialiste, « le Moyen Âge favorisa particulièrement les “mélanges” dans lesquels
chaque note est accompagnée par plusieurs quintes et octaves supérieures » (Geiringer, 1945).
Cette idée de « mélanges » de fréquences est l’essence même de la synthèse additive.
La synthèse additive a été utilisée depuis les premiers jours de la musique électronique et électrique
(Cahill, 1897 ; Douglas, 1968 ; die Reihe, 1955 ; Stockhausen, 1964). L’énorme synthétiseur Telhar-
monium dévoilé en 1906 additionnait le résultat de douzaines de générateurs électriques de son
pour créer des complexes sonores additifs (figure 19.1).
Incorporant une version miniature des générateurs de son rotatifs du Telharmonium, les célèbres
orgues Hammond étaient de purs instruments de synthèse additive (figure 19.2). La puissance
de la synthèse additive vient du fait qu’il est théoriquement possible d’approcher de près n’importe
quelle forme d’onde complexe en additionnant des formes d’ondes élémentaires. Il existe des
390 SYNTHÈSE SONORE
méthodes permettant d’analyser un son tel que celui d’un violon et de le resynthétiser en utilisant
des combinaisons variant dans le temps de sinusoïdes ayant des fréquences, des phases et des
amplitudes variables. À cause des limites intrinsèques dans la résolution de l’analyse, cependant,
© Dunod. Toute reproduction non autorisée est un délit.
cette version reconstruite n’est jamais une réplique à l’échantillon près du signal originel (voir le
chapitre 11).
Toute méthode additionnant plusieurs formes d’ondes élémentaires pour en créer une nouvelle peut
être classifiée comme une forme de synthèse additive. Par exemple, certaines formes de synthèse
granulaire exposées au chapitre 22 pourraient être considérées comme des techniques de synthèse
additive (Risset et Wessel, 1982). Nous avons cependant dans ce chapitre séparé ces techniques de
la synthèse additive afin de bien faire la distinction entre celles-ci et la méthode traditionnelle de
synthèse additive avec des sinusoïdes.
(a)
Harmonique 1
Harmonique 3
Harmonique 5
Amp.
1 10 20 30 40 50 60
Harmoniques
(b)
Amp. 0
Temps
(1653-1716) en 1701. Par exemple, 400 Hz est le second harmonique de 200 Hz, puisque 2 fois 200
égale 400. Les harmoniques peuvent être représentés sous forme de graphiques en barres ou his-
togrammes, où la hauteur de chaque barre représente la force relative d’un harmonique donné.
La figure 19.3 montre un spectre harmonique et la forme d’onde correspondante.
Une fois que le spectre voulu est obtenu, le logiciel calcule une forme d’onde qui reproduit le spectre
lorsqu’elle est jouée par un oscillateur numérique. Ce spectre de référence s’aligne à différentes
fréquences lorsque l’on change la fréquence de l’oscillateur. La figure 19.4 montre différentes étapes
d’une addition de formes d’ondes utilisée pour créer une onde quasi carrée.
CHAPITRE 19 – LA SYNTHÈSE ADDITIVE 393
(a) (b)
(c) (d)
(e)
Figure 19.4 – Étapes d’une addition harmonique montrées sous forme d’une série
de formes d’onde temporelles. (a) Fondamentale seule. (b) Premier et troisième harmonique.
(c) Somme des harmoniques impairs jusqu’au cinquième. (d) Somme des harmoniques impairs
© Dunod. Toute reproduction non autorisée est un délit.
jusqu’au neuvième. (e) Onde quasi carrée créée en additionnant les harmoniques impairs jusqu’au
101e.
✦ Facteur de phase
La phase est trompeuse. Selon le contexte, elle peut ou ne pas être un facteur significatif dans la
synthèse additive. Par exemple, si nous changeons les phases de départ des composants fréquentiels
d’une forme d’onde fixe et que nous resynthétisons le son, ceci ne crée aucune différence pour
l’auditeur. Et pourtant, un tel changement peut avoir un effet significatif sur l’apparence visuelle de
la forme d’onde, comme cela est montré à la figure 19.5.
Les relations de phase deviennent apparentes lors de la perception d’attaques, de grains ou de tran-
sitoires brillants mais courts. L’oreille est également sensible aux relations de phase dans les sons
complexes où les phases de certains composants se déplacent dans le temps. Comme nous le verrons
plus tard dans la partie sur l’analyse du son et la resynthèse, des données de phase correctes aident
394 SYNTHÈSE SONORE
à rassembler les composants courts dans le bon ordre, et sont ainsi essentielles lors de la recons-
truction d’un son analysé.
✦ Addition de partiels
Nous pouvons généraliser l’addition d’harmoniques à l’addition de partiels. En acoustique, un partiel
fait référence à un composant fréquentiel arbitraire dans un spectre (Benade, 1990). Le partiel peut
347.5 Hz (inharmonique)
9921.8 Hz
Amp. 2000 Hz (harmonique) (inharmonique)
Fréquence
(b)
Amp.
Temps
ou ne pas être harmonique (multiple entier) de la fréquence fondamentale f. La figure 19.6a montre
un spectre contenant quatre partiels : deux harmoniques et deux inharmoniques. Un partiel inhar-
monique n’a pas un rapport entier avec la fréquence fondamentale. La figure 19.6b est le résultat
de l’addition des quatre partiels.
L’addition de partiels possède une limite : elle ne sait que créer un son ayant une forme d’onde fixe
plus riche. Comme le spectre dans la synthèse par forme d’onde fixe est constant pendant toute la
durée de la note, l’addition de partiels ne peut jamais reproduire exactement le son d’un instrument
acoustique. Elle ne fait qu’une approximation de la partie en état stationnaire d’un son instrumental.
La recherche a montré que la portion d’attaque d’un son, où le mélange de fréquence change sur
une échelle de temps de l’ordre de la milliseconde, est bien plus utile pour identifier les sons des
instruments traditionnels que la partie en état stationnaire. Dans tous les cas, un timbre variant
dans le temps est en général plus séduisant pour l’oreille qu’un spectre constant (Grey, 1975).
19.1.3 Synthèse additive variant dans le temps
En changeant le mélange des sinusoïdes dans le temps, on peut obtenir des timbres synthétiques
plus intéressants, et des sons d’instruments plus réalistes. Dans la note de trompette de la figure 19.7,
il faut douze sinusoïdes pour reproduire la partie initiale d’attaque de l’événement. Après 300 ms,
il n’en faut plus que trois ou quatre.
Nous pouvons visualiser graphiquement le procédé d’addition de partiels de plusieurs façons. La
figure 19.8a montre la synthèse additive dans le domaine analogique, telle qu’elle fut pratiquée dans
© Dunod. Toute reproduction non autorisée est un délit.
Figure 19.7 – Tracé du spectre variant dans le temps de douze partiels de trompette,
avec les partiels supérieurs à l’arrière. Le temps s’écoule de gauche à droite. Remarquez que la
fondamentale (à l’arrière) n’a pas la plus haute amplitude, mais la plus longue durée.
396 SYNTHÈSE SONORE
Sinusoïdes
Contrôles
Table de niveau
de mélange d'entrée
analogique
Niveau de sortie
Mélange
des sinusoïdes
(b)
F ...
A ...
Banque
d'oscillateurs ...
sinusoïdaux
...
Unité
de sommation
+
Signal
de sortie
les années 1950 (Stockhausen, 1964). Elle montre plusieurs modules matériels d’oscillateurs, cha-
cun avec un bouton de contrôle manuel de la fréquence. Les sorties des oscillateurs sont dirigées vers
une console de mélange. Le compositeur ajustait la balance des oscillateurs en temps réel pour
déterminer le spectre variant dans le temps. Avec cette configuration, le contrôle manuel était la
seule option. Pour réaliser précisément un mélange variant dans le temps, il fallait que plusieurs
personnes travaillent ensemble à cette tâche (Morawska-Büngler, 1988).
La figure 19.8b montre la synthèse additive numérique. Un oscillateur audio est représenté sous la
forme d’un demi-cercle à deux entrées — une pour l’amplitude et l’autre pour la fréquence. Pour
générer un spectre variant dans le temps, les entrées d’amplitude et de fréquence des oscillateurs
ne sont pas constantes, mais une fonction d’enveloppe variant dans le temps lue sur la durée de
l’événement. Les oscillateurs audio sinusoïdaux alimentent un module qui additionne les signaux.
Ce module additionneur envoie finalement le résultat dans un CNA pour la conversion du son.
2. Générées par un programme de composition qui renferme des contraintes spécifiées par le
compositeur sur la microstructure musicale. Un exemple est Stria (1977) de John Chowning,
réalisé avec la synthèse additive de spectres inharmoniques.
3. Générées par un système de composition interactif qui traduit des concepts musicaux de haut
niveau, tels que des phrases (dans le langage Formes de Rodet et Cointe 1984), des masques de
tendance (comme dans le système POD de Truax, 1977, 1985), des objets sonores (comme dans
le système SSSP de Buxton et coll., 1978), ou des nuages (comme dans la synthèse granulaire
asynchrone de Roads, 1978c, 1991) en paramètres de synthèse.
4. Entrées manuellement par le compositeur, en utilisant des combinaisons des sources men-
tionnées ci-dessus, ou la connaissance intuitive, théorique, ou empirique que le composi-
teur a de la psychoacoustique. Un exemple de cette méthode est la pièce de Jean-Claude Ris-
set Inharmonique (1970).
5. Fournies par un sous-système d’analyse qui enveloppe le son naturel et recrache les données
de contrôle nécessaires à la resynthèse. Les données peuvent également être éditées afin de créer
des transformations des sons originels. Trevor Wishart (1988) utilisa l’analyse du son comme
étape intermédiaire pour transformer des sons vocaux pour sa pièce Vox-5 (voir également
Murail, 1991).
Comme les méthodes 1 à 4 sont basées sur une esthétique compositionnelle, nous n’avons pas besoin
d’en parler plus longuement dans ce chapitre. La cinquième méthode requiert un sous-système
pour l’analyse ; ceci est le sujet de la prochaine partie.
Son originel
Échantillons
audionumériques
Analyse
Données d'analyse
Modification
Données d'analyse
modifiées
Resynthèse
Échantillons
audionumériques
Son transformé
Signal
d'entrée
fenêtré
Banque de filtres
passe-bande étroits
...
F ...
A ...
Banque
d'oscillateurs
sinusoïdaux
...
© Dunod. Toute reproduction non autorisée est un délit.
...
Unité
de sommation
+
Réplique
du signal d'entrée
Stratton, 1962 ; Fletcher, Blackham et Christensen, 1963). Il n’utilisait qu’un matériel analogique.
Lorsque des méthodes additives numériques sont utilisées pour la resynthèse, le système entier a
l’apparence de la figure 18.10. L’analyse est effectuée successivement sur de petits segments du
signal d’entrée. Le procédé de segmentation du signal d’entrée est appelé fenêtrage (exposé au
chapitre 11). Nous pouvons concevoir chaque segment comme étant envoyé dans une banque de filtres
passe-bande étroits où chaque filtre est accordé sur une fréquence centrale précise. En pratique,
une transformée de Fourier rapide (FFT) remplace généralement la banque de filtres et effectue
globalement la même tâche dans cette application, c’est-à-dire mesurer l’énergie dans chaque bande
fréquentielle (voir de nouveau le chapitre 11).
L’amplitude du signal sortant de chaque filtre est mesurée, et ces valeurs variant dans le temps
deviennent les fonctions de contrôle d’amplitude pour ce domaine fréquentiel. En même temps,
le système calcule des fonctions de contrôle correspondant aux légères variations fréquentielles en
regardant la sortie de filtres adjacents (ou casiers d’analyse, dans le cas de la FFT).
Les fonctions de contrôle de fréquence et d’amplitude dirigent une banque d’oscillateurs lors de
l’étape de resynthèse. En d’autres termes, nous utilisons l’information glanée dans l’analyse d’un
son existant pour créer un ensemble de fonctions de contrôle nécessaires pour resynthétiser ce son
en additionnant des sinusoïdes. Si le son d’entrée est correctement modelé sous forme d’additions
de sinusoïdes, le signal fait d’additions générées par les oscillateurs devrait être en tout point
semblable au signal d’entrée originel.
Bien sûr, l’analyse/resynthèse directe d’un son n’est pas intéressante d’un point de vue musical.
Afin de créer des effets intéressants musicalement, nous devons modifier les données générées par
l’analyse. Ceci est le sujet de la prochaine partie.
19.2.1 Applications musicales de l’analyse/resynthèse additive
Après que l’analyse a été effectuée, le musicien peut éditer les fonctions de contrôle pour créer des
variations du signal d’entrée originel. De nombreux effets différents sont possibles avec cette tech-
nique, comme cela est montré au tableau 19.1. Trois compositions produites dans les années 1980
sont de bons exemples de manipulations compositionnelles des données d’analyse : Mortuos
Plango, Vivos Voco (1981) de Jonathan Harvey, Désintégrations (1983, Salabert Trajectoires) de
Tristan Murail, et Digital Moonscapes (1985, CBS/Sony) de Wendy Carlos.
Dans la pièce d’Harvey, le compositeur analysa le son d’une grande cloche. Pour chaque composant
sinusoïdal, le compositeur substitua une voix de garçon échantillonnée à la fréquence appropriée,
lors de la resynthèse. Les échantillons de voix suivaient la fréquence analysée et les fonctions de
contrôle d’amplitude des cloches carillonnantes, créant un effet surnaturel de chœur enfant-cloche.
Dans la composition de Murail, le compositeur analysa des sons d’instruments traditionnels et créa
des compléments synthétiques à ces sons qui se mêlaient parfaitement lorsque les instruments
étaient joués, mais se détachaient brusquement lorsque les instruments s’arrêtaient. Désintégrations
est un exemple classique des techniques de composition spectrale où la structure harmonique de
l’œuvre est basée sur l’analyse des sons des instruments (Murail, 1991). Dans Digital Moonscapes,
Carlos utilisa des données d’analyse comme inspiration pour créer un orchestre synthétique adapté
de timbres de percussions, de cordes, de bois et de cuivres, utilisés dans un style orchestral idio-
matique.
La prochaine partie traite brièvement des techniques actuelles d’analyse du son avec resynthèse
additive, avec une attention toute particulière sur le problème de réduction de données. Elle sert
de prélude au traitement plus détaillé du chapitre 11.
CHAPITRE 19 – LA SYNTHÈSE ADDITIVE 401
Déplacement du spectre Ajouter un facteur n ou une fonction arbitraire à tous les partiels
(sans échelonnage temporel) (à l’exception si possible de la fondamentale). Ceci préserve les
structures formantiques pour de petites valeurs.
Timbres hybrides Remplacer les enveloppes d’un son par les enveloppes sélec-
tionnées d’un autre son.
Transformer un timbre percussif Retarder le temps d’attaque de chaque partiel et lisser leurs
en un passage synthétique prolongé enveloppes.
Interpolation timbrale d’un son Faire une interpolation dans le temps des enveloppes de deux
instrumental en un autre sons instrumentaux.
Mutation de sons synthétiques Faire une interpolation des enveloppes de sons synthétiques
arbitraires.
Mise en avant de régions résonantes Augmenter l’amplitude des partiels de fréquence sélectionnés.
de sons enregistrés
Synthèse croisée Méthode 1 : Utiliser les enveloppes d’amplitude des partiels d’un
son pour les appliquer aux enveloppes d’amplitude d’un autre
© Dunod. Toute reproduction non autorisée est un délit.
d’un son échantillonné par l’extraction de segments successifs de courtes durées se superposant
(mis en forme par une fonction de fenêtrage) et par application d’une banque de filtres sur le segment
sélectionné. La sortie de chaque filtre est mesurée, indiquant l’amplitude et la phase du spectre à
cette fréquence particulière. Une série de ces analyses à court terme (semblables aux images d’un
film de cinéma) constitue un spectre variant dans le temps. Le cœur de la STFT est la FFT (trans-
formée de Fourier rapide), une implémentation de l’analyse de Fourier se révélant très efficace du
point de vue du calcul (Cooley et Tukey, 1965 ; Singleton, 1967 ; Moore, 1978a, 1978b ; Rabiner et
Gold, 1975).
Le vocodeur de phase (VP) (Flanagan et Golden, 1966 ; Portnoff, 1978 ; Holtzman, 1980 ; Moorer,
1978 ; Dolson, 1983 ; Gordon et Strawn, 1985 ; Strawn, 1985b) a droit ici à une mention spéciale,
car c’est une méthode populaire d’analyse/resynthèse qui a été distribuée avec plusieurs logiciels
de musique. Le VP convertit un signal d’entrée échantillonné en un format de spectre variant dans
le temps. En particulier, il génère un ensemble de courbes de fréquence et d’amplitude variant dans
le temps. De nombreuses transformations intéressantes du son peuvent être effectuées en éditant
et en resynthétisant les données du VP. Par exemple, le vocodeur de phase peut être utilisé pour la
compression temporelle ou l’expansion temporelle sans transposition de hauteur. Grâce à cet effet,
un son est allongé ou raccourci sans que l’on influe de façon significative sur sa hauteur ou son timbre.
Contrairement aux espoirs des chercheurs qui les ont inventés (ils cherchaient des techniques de
codage), les techniques d’analyse du son peuvent générer une « explosion d’information » (Risset
et Wessel, 1982). C’est-à-dire que les données d’analyse (les fonctions de contrôle) peuvent occuper
plusieurs fois l’espace de mémoire du signal d’entrée originel. La quantité de données dépend d’une
part de la complexité du son d’entrée, c’est-à-dire de combien de fonctions d’ondes sinusoïdales
nous avons besoin pour le resynthétiser, et d’autre part de la représentation interne des données
utilisées dans le programme d’analyse. En utilisant le vocodeur de phase, par exemple, un fichier
son de courte durée occupant 2 Mo peut générer des dizaines de Mo de données d’analyse. De tels
besoins de stockage rendent difficiles la mise en place de bibliothèques de sons analysés, et le volume
des données devient compliqué à éditer. Cette situation oblige à recourir à des réductions des
données de contrôle, ce qui est le sujet de la prochaine partie.
Des articles de Sasaki et Smith (1980) et Schindler (1984) expliquent la conception de matériel
permettant la synthèse numérique à grande vitesse à partir des données réduites.
Nous jetons ici un coup d’œil sur quatre techniques qui ont été appliquées en informatique musicale :
approximation de segments de ligne, analyse des composants principaux, synthèse par interpola-
tion spectrale, et synthèse par modèle spectral. Voir également Goldberg (1989) pour une description
de l’approche par algorithme génétique, qui a été récemment appliquée à la réduction de données
de synthèse (Horner, Beauchamp et Haken, 1993).
La technique d’analyse des composants principaux (ACP) a été appliquée dans plusieurs systèmes
d’analyse/resynthèse (Stautner, 1983 ; Sandell et Martens, 1992 ; Horner, Beauchamp et Hakken,
1993). L’ACP brise une forme d’onde en utilisant la technique mathématique de calcul de matrice
de covariance. Ceci a pour résultat un ensemble de formes d’ondes de base (les composants prin-
cipaux) et un ensemble de coefficients de poids pour ces formes d’ondes de base. Lorsque les com-
posants sont additionnés selon leur poids, le résultat est une approximation proche de la forme
d’onde originelle.
L’avantage de l’ACP est son potentiel dans la réduction de données. L’ACP fait la somme des relations
sous-jacentes entre les échantillons pour qu’au plus petit nombre de composants corresponde le
maximum possible de variations dans le signal. Le procédé de détermination des composants prin-
cipaux et de leur coefficient de poids est implémenté comme une approximation itérative qui essaie
de minimiser l’erreur numérique (différence entre l’original et l’approximation) au carré. Le premier
composant principal est un ajustement d’une seule forme d’onde à l’ensemble entier des données.
Le second composant principal est un ajustement au résiduel (parfois appelé résidu), autrement dit
404 SYNTHÈSE SONORE
(a)
(b)
petit ensemble de sentiers spectraux communs à deux sons successifs et en un ensemble de fonc-
tions en pente qui décrit la transition entre un spectre donné et le suivant. La principale difficulté
de cette procédure semble être la manipulation qu’elle fait de la partie d’attaque des sons.
✦ Synthèse par modèles spectraux
La synthèse par modèles spectraux (SMS) (Serra, 1989 ; Serra et Smith, 1990) réduit les données
d’analyse en un composant déterministe (composants de bande étroite du son originel) et un com-
posant stochastique. Le composant déterministe est une version avec données réduites de l’analyse
qui modèle les fréquences proéminentes du spectre. Ces fréquences sont isolées par un procédé de
détection de pics dans chaque tranche de l’analyse, et de continuation de pics qui suit chaque pic sur
les tranches successives. La SMS resynthétise les fréquences suivies avec des sinusoïdes. C’est la
même méthode que celle employée dans les vocodeurs de phase pisteurs décrits au chapitre 11.
La SMS va cependant au-delà de cette représentation en analysant également le résiduel ou diffé-
rence entre le composant déterministe et le signal originel. Ceci est nommé le composant « stochas-
tique » du signal. Le composant stochastique prend la forme d’une série d’enveloppes contrôlant
une banque de filtres. Ceux-ci façonnent la fréquence lorsqu’on leur injecte du bruit blanc. Un com-
positeur peut ainsi s’il le désire transformer séparément les enveloppes déterministes (sinusoïdes)
et les composants stochastiques (bruit filtré) (figure 19.12). Les composants bruiteux restent
bruiteux, même si le filtrage ou d’autres transformations leur sont appliqués. Ceci est différent
d’un modèle pur de sinusoïdes, dans lequel les transformations (telles que compression-expansion
temporelle) sur les composants bruiteux changent ceux-ci en clusters ordonnés de sinusoïdes,
dénaturant par là même leurs textures bruiteuses.
Signal d'entrée
Analyse
Partie Partie
déterministe stochastique
Transformation Transformation
© Dunod. Toute reproduction non autorisée est un délit.
Resynthèse Resynthèse
sinusoïdale par bruit filtré
Signal de sortie
Des algorithmes efficaces pour la génération de bruit pseudo aléatoire sont bien connus (Knuth,
1973a ; Keele, 1973 ; Rabiner et Gold, 1975). Ainsi, l’utilisation de bruit filtré a pour résultat une
énorme réduction des données. Dans la resynthèse sinusoïdale pure, sans cette réduction de données,
les composants bruiteux doivent être approximés avec des centaines de sinusoïdes. Les fonctions
de contrôle de ces sinusoïdes nécessitent un grand espace de stockage, et la resynthèse sinusoïdale
est coûteuse du point de vue du calcul.
Un problème d’exactitude non réglé par la SMS est que le bruit pseudo aléatoire filtré qu’elle utilise
pour reconstruire le composant stochastique n’est pas nécessairement de la même qualité que celui
de la source originelle. Dans de nombreux sons, le « bruit » est le résultat de turbulences complexes
qui ont une personnalité et une identité audibles. Pour certains sons, l’approximation par un bruit
uniforme nécessite encore de l’amélioration.
Figure 19.13 – Les huit premières fonctions de Walsh, de 0 (en haut) à 7 (en bas).
(a)
(b)
La synthèse
par tables d’ondes multiples
Ce chapitre traite de méthodes de synthèse utilisées dans les échantillonneurs et les synthétiseurs
commerciaux, et efficaces d’un point de vue sonore : le fondu enchaîné de tables d’ondes et l’empi-
lement d’ondes. Celles-ci ne sont pas les seules méthodes de synthèse à pouvoir utiliser les tables
d’onde multiples ; en fait, la plupart des méthodes peuvent être configurées pour les utiliser. Nous
distinguons les deux techniques traitées ici par le fait qu’elles sont dépendantes de l’existence des
tables d’ondes multiples. Elles sont l’une et l’autre fréquemment employées dans les échantillonneurs
commerciaux.
Horner, Beauchamp et Hakken (1993) ont développé une autre technique qu’ils appellent la « synthèse
par tables d’ondes multiples ». On peut la considérer comme une variante de l’analyse/resynthèse
additive (présentée au chapitre 19). Mais elle peut également être vue comme un exemple de la
© Dunod. Toute reproduction non autorisée est un délit.
méthode d’empilement d’ondes présentée ici même, où les tables d’ondes sont des sommes de
sinusoïdes tirées d’une étape d’analyse et de réduction de données.
torielle (par les compagnies Sequential Circuits, Korg et Yamaha), et synthèse A/L ou arithmétique
linéaire (Roland).
Le fondu enchaîné de tables d’ondes crée des sons qui mutent d’une source vers une autre dans le
temps. Par exemple, une technique fréquente de fondu enchaîné consiste à greffer l’attaque riche
d’un instrument acoustique tel qu’une guitare, un piano ou un instrument de percussion à la partie
d’entretien d’une forme d’onde synthétique. La figure 20.2 montre un instrument pour le fondu
enchaîné de tables d’ondes.
Le premier synthétiseur commercial possédant le fondu enchaîné de tables d’ondes était le Prophet VS
de Sequential Circuits Incorporated, apparu en 1985 (figure 20.3), qui pouvait enchaîner quatre
formes d’ondes. Les synthétiseurs plus récents laissent la possibilité à l’utilisateur de spécifier un
nombre arbitraire de formes d’ondes à enchaîner pendant un seul événement (figure 20.4). Le fondu
enchaîné peut être automatique (déclenché par un événement de note) ou contrôlé manuellement
en actionnant une manette, comme dans les implémentations de synthèse vectorielle conçues par
David Smith et fabriquées dans les synthétiseurs Korg et Yamaha.
CHAPITRE 20 – LA SYNTHÈSE PAR TABLES D’ONDES MULTIPLES 411
Amplitude maximale
Enveloppe
d'amplitude 1/durée
globale
1
ENV
OSC
0
Fréquence
-1 0
Forme d'onde 3 Enveloppe 3
+1 +1
-1 0
-1 0
SORTIE
Amplitude Amplitude
Enveloppe Durée Enveloppe Durée
ENV ENV
Fréq. Fréq.
Onde 1 Onde 4
OSC OSC
Amplitude Amplitude
Enveloppe Durée Durée
Enveloppe
ENV ENV
Fréq. Fréq.
Onde 2 Onde 3
OSC OSC
Signal de sortie
La synthèse
par terrains d’ondes
Une table d’onde traditionnelle peut être tracée dans deux dimensions sous la forme d’une fonction
onde (x) indexée par x. Un terrain d’onde à deux index peut être tracé sous la forme d’une fonction
onde (x, y) gravée sur une surface tridimensionnelle (figure 21.1). Dans ce cas, z — ou hauteur de
la surface à chaque point — représente une valeur de forme d’onde pour un couple donné (x, y).
La forme d’onde stockée dans ce type de table est une fonction à deux variables, et c’est pourquoi
l’on parle aussi de synthèse par fonction à deux variables (Borgonovo et Haus, 1986).
Une lecture de terrain est appelée une orbite. Bien que le terme d’astronomie « orbite » fasse plutôt
référence à une fonction elliptique, l’orbite peut être formée de n’importe quelle séquence de
points sur le terrain d’onde. Nous parlerons des orbites dans un moment ; nous allons tout d’abord
traiter du problème de la génération de formes d’ondes prévisibles avec la synthèse par terrains
d’ondes.
416 SYNTHÈSE SONORE
Amp.
Temps
(En haut) Tracé de l’orbite. Les dimensions x et y varient entre –1 et +1 (d’après Borgonovo et Haus,
1986). (En bas) Forme d’onde générée par l’orbite elliptique sur le terrain d’onde défini par l’équation 1
(note : cette forme d’onde est une approximation redessinée d’après Borgonovo et Haus, 1986).
La figure 21.3 montre une autre orbite périodique en boucle autour du terrain, et définie par les
fonctions :
x = 0,23 × sin(24πt)
y = (16 × t) + 0,46 × sin(24πt + π/2)
418 SYNTHÈSE SONORE
Amp.
Temps
La synthèse granulaire
Le son, tout comme la lumière, peut être considéré sous forme d’ondes ou de particules. La synthèse
granulaire construit des événements sonores à partir de milliers de grains sonores. Un grain sonore
dure en général de 1 à 100 ms, ce qui approche le minimum perceptible en ce qui concerne les dis-
criminations de durée, de fréquence et d’amplitude.
Les représentations granulaires sont un moyen pratique pour visualiser des phénomènes sonores
complexes, sous forme de constellations d’unités élémentaires d’énergie, chacune étant bornée en
temps et en fréquence. De telles représentations sont fréquentes dans la synthèse et les algorithmes
de traitement du signal, bien qu’il existe de nombreux termes pour le même phénomène. Le quantum
(Gabor, 1946, 1947), le signal élémentaire gaussien (Helstrom, 1966 ; Bastiaans, 1980), le segment
de courte durée (Schroeder et Atal, 1962), la fonction de pondération de courte durée (Flanagan, 1972),
la fenêtre (Arfib, 1991 ; Harris, 1978 ; Nuttall, 1981), la fenêtre coulissante (Bastiaans, 1985), l’impulsion
par fonction de fenêtre (Bass et Goeddel, 1981), l’ondelette (Kronland-Martinet et Grossmann, 1991),
la fonction d’onde formantique ou FOF (Rodet, 1980), l’impulsion VOSIM (Kaegi et Tempelaars, 1978),
© Dunod. Toute reproduction non autorisée est un délit.
le paquet d’ondes (Crawford, 1968), l’explosion sonore (Blauert, 1983 ; Pierce, 1990), l’impulsion sonore
(Whitfield, 1978), et même le top sonore (Buser et Imbert, 1992) peuvent tous être considérés comme
des représentations granulaires de signaux musicaux.
Le grain est une représentation convenable du son, car il combine informations temporelles (moment
de départ, durée, enveloppe, forme d’onde) et informations fréquentielles (période de la forme
d’onde à l’intérieur du grain, spectre de la forme d’onde). Cela est contraire aux représentations de
l’échantillonnage qui ne captent pas les informations fréquentielles, ou aux méthodes abstraites de
Fourier qui considèrent les sons comme des sommes de sinusoïdes infiniment longues.
coupait l’atmosphère environnante en corps sphériques d’air projetés dans toutes les directions
par la vibration. Lorsque ces corps entraient en collision avec le tympan, le son était perçu. Bien que
cette théorie ne soit pas exacte sur le plan scientifique, elle offre une métaphore étonnante pour la
compréhension de la synthèse granulaire.
Plusieurs siècles plus tard, une approche granulaire ou quantique du son fut proposée par le physicien
britannique Dennis Gabor dans deux écrits fondamentaux qui associaient la théorie de la physique
quantique à des expériences pratiques (1946, 1947). Selon Gabor, la représentation granulaire
pouvait décrire n’importe quel son. Cette hypothèse fut vérifiée mathématiquement par Bastiaans
(1980, 1985). En fait, Gabor construisit dans les années 1940 un granulateur de son basé sur un
système d’enregistrement optique dentelé, adapté d’un projecteur de cinéma. Il fit des expériences de
compression-expansion temporelle avec transposition de hauteur – ce qui permet de changer la hau-
teur d’un son sans changer sa durée, et inversement. Voir au chapitre 6 l’étude de la compression-
expansion temporelle par déplacement des hauteurs.
Une représentation granulaire est implicite dans la technique de fenêtrage appliquée lors de la
transformée de Fourier à court terme, développée dans les années 1960 (Schroeder et Atal, 1962 ; voir
également le chapitre 11). Le cybernéticien du MIT Norbert Wiener (1964) et le théoricien de
l’information Abraham Moles (1968) ont également proposé des représentations granulaires du son.
Le compositeur Iannis Xenakis (1960) fut le premier à fournir une explication compositionnelle des
grains sonores. Il commença en adoptant le lemme suivant : « Tout son, même une variation musi-
cale continue, est conçu comme un assemblage d’un grand nombre de sons élémentaires disposés
de façon adéquate dans le temps. Dans l’attaque, le corps et l’extinction d’un son, des milliers de sons
purs apparaissent dans un intervalle de temps Δt plus ou moins long. » Xenakis créa des sons granu-
laires en utilisant des générateurs de son analogiques et du découpage de bande. Cette technique fut
utilisée dans la composition Analogique A-B pour orchestre à corde et bande (1959). La composition
est décrite dans Xenakis (1992). La partition et la bande sont disponibles aux Éditions Salabert.
L’auteur de ce livre développa la première implémentation logicielle de synthèse granulaire en 1974 à
l’université de San Diego (Roads, 1978c) et en 1981 au Massachusetts Institute of Technology
(Roads, 1985g). La technique apparaît dans plusieurs compositions, dont nscor (1980, disque
compact Wergo 2010-50), Field (1981, disque compact MIT Media Laboratory), et Clang-tint (Roads,
1993b). La synthèse granulaire a été implémentée de différentes façons, notamment par le com-
positeur canadien Barry Truax (1987, 1988, 1990a, b) comme nous le verrons de façon plus détaillée
par la suite.
(a)
(b)
(c)
(d)
(e)
Des enveloppes compliquées comme une impulsion à bande limitée (figure 22.1d) créent des grains
résonants qui sonnent comme de petits coups donnés sur des claves en textures éparpillées lorsque la
durée des grains est inférieure à 100 ms. Des enveloppes étroites comme dans la figure 22.1e créent
des textures avec des craquements et de petites explosions lorsque la durée totale du grain est infé-
rieure à 20 ms. Comme l’on peut s’y attendre, des angles raides dans l’enveloppe créent de gros effets
© Dunod. Toute reproduction non autorisée est un délit.
secondaires dans le spectre. Ces effets secondaires sont dus à la convolution du spectre de l’enveloppe
avec celui de la forme d’onde du grain. Voir le chapitre 5 pour une explication de la convolution.
La durée du grain peut être constante, aléatoire, ou elle peut varier en fonction de la fréquence. Ceci
signifie par exemple que l’on peut assigner des durées plus courtes aux grains de hautes fréquences.
Une correspondance entre fréquence du grain et durée du grain est caractéristique de l’analyse
/resynthèse par ondelettes, expliquée plus tard dans ce chapitre, ainsi qu’au chapitre 11.
La forme d’onde à l’intérieur du grain peut être de deux types : synthétique ou échantillonnée. Les
formes d’onde synthétiques sont en général des sommes de sinusoïdes lues à une fréquence spéci-
fique. Pour des grains échantillonnés, on lit en général la forme d’onde à partir d’un endroit stipulé
dans un fichier stocké, avec ou sans transposition de hauteur.
Plusieurs paramètres peuvent varier de grain en grain : la durée, l’enveloppe, la fréquence, la position
dans le fichier son (pour les grains échantillonnés), la position spatiale, et la forme d’onde (une
table d’onde pour les grains synthétiques, un nom de fichier ou un canal d’entrée pour les grains
424 SYNTHÈSE SONORE
échantillonnés). C’est ce niveau de contrôle grain par grain qui permet les effets rendus possibles
par cette méthode.
Amplitude
1/durée
Enveloppe du grain
1
ENV
OSC
0
Fréquence
Forme d'onde du grain
+1
OSC
-1
Position spatiale
SORTIE
En dépit de la simplicité de l’instrument, générer ne serait-ce qu’un son plat et peu compliqué
demande un nombre de données de contrôle énorme — jusqu’à plusieurs milliers de paramètres par
seconde de son. Ces paramètres décrivent chaque grain : temps de départ, amplitude, etc. Comme
l’on ne souhaite pas avoir à spécifier chaque paramètre de grains manuellement, il est nécessaire
d’avoir une unité d’organisation à un niveau supérieur. L’unité d’organisation génère automatique-
ment les milliers de spécifications des grains individuels.
est de laisser les compositeurs stipuler de grandes quantités de grains en n’utilisant que quelques
paramètres globaux.
Les méthodes de synthèse granulaire existantes peuvent être classées en cinq catégories, selon le
type d’organisation des grains :
1. Grilles de Fourier et d’ondelettes.
2. Flux superposés synchrones aux hauteurs.
3. Flux quasi synchrones.
4. Nuages asynchrones.
5. Flux de sons échantillonnés ou granulés temporellement, avec lecture superposée, quasi
synchrone ou asynchrone.
Nous exposerons brièvement chaque approche dans les parties suivantes.
Fréq.
Temps
Taille de saut
Amp.
Temps
Amp.
© Dunod. Toute reproduction non autorisée est un délit.
Temps
Figure 22.5 – Flux de cinq grains de 40 ms à 1 060 Hz avec une enveloppe Hanning.
Dans ce cas, la période de retard entre les grains varie légèrement.
Du point de vue du traitement du signal, nous pouvons observer que, pour chaque composant
sinusoïdal dans la porteuse, la fonction d’enveloppe périodique crée une série de bandes secondaires
dans le spectre final. Les bandes secondaires sont des composants fréquentiels additionnels au-
dessus et en dessous de la fréquence de la porteuse. Les bandes secondaires sont séparées de la
porteuse par une distance correspondant à l’inverse de la période de la fonction d’enveloppe. Pour
un flux de grains de 20 ms se suivant les uns les autres, les bandes secondaires du spectre de sortie
sont situées à des intervalles de 50 Hz. La forme de l’enveloppe du grain détermine l’amplitude
précise de ces bandes secondaires.
428 SYNTHÈSE SONORE
Le résultat créé par l’effet de modulation de l’enveloppe périodique est un formant entourant la
fréquence de la porteuse. C’est-à-dire, au lieu d’une simple ligne dans le spectre (ne montrant qu’une
seule fréquence), le spectre a l’apparence d’une petite colline (montrant un groupe de fréquences
autour de la porteuse). La QSGS est dans un certain sens similaire aux méthodes de synthèse forman-
tique VOSIM (Kaegi et Tempelaars, 1978) et FOF ou fonction d’onde formantique (Rodet, 1980 ;
Rodet, Potard et Barrière, 1984). Voir le chapitre 28 pour plus de détails sur les synthèses FOF et
VOSIM.
En combinant plusieurs flux de grains quasi synchrones en parallèle (chaque flux créant son propre
formant autour d’une fréquence séparée), le signal peut simuler les résonances de la voix chantée
ou d’instruments acoustiques.
Lorsque les intervalles entre les grains sont irréguliers, comme dans la figure 22.6, ceci conduit à
une finesse contrôlable de la texture du son par un brouillage de la structure formantique (Truax,
1987, 1988). Dans sa forme la plus simple, la méthode de retard variable est similaire à la modulation
d’amplitude (MA) en utilisant un bruit coloré de basse fréquence comme modulante. En soi, ceci
n’est pas très intéressant. La représentation granulaire, quoi qu’il en soit, nous permet de porter cette
technique bien au-delà de la simple MA avec du bruit. En particulier, nous pouvons simultanément
varier plusieurs autres paramètres grain par grain, tels que la forme d’onde, l’amplitude, la durée,
et la position spatiale du grain. À un niveau plus global, nous pouvons également varier dynamique-
ment la densité des grains par seconde pour créer une variété d’effets frappants.
(a)
(b)
Fréq.
(c)
Temps
Le compositeur spécifie un nuage selon les paramètres suivants, montrés à la figure 22.7.
1. Temps de départ et durée du nuage.
2. Durée du grain (en général de 1 à 100 ms, mais elle peut également varier en dessous et au-
dessus de ces limites). La durée du grain peut être constante, aléatoire à l’intérieur de certaines
limites, dérivée d’une courbe, ou bien elle peut varier en fonction de la fréquence du grain,
avec les grains de haute fréquence ayant des enveloppes plus courtes.
3. Densité des grains par seconde ; par exemple, si la densité est basse, seuls quelques grains
sont dispersés à des points aléatoires à l’intérieur du nuage. Si la densité est élevée, les grains
se superposent pour créer des spectres complexes. La densité peut varier au cours de la
durée du nuage.
4. Largeur de bande du nuage, en général spécifiée par deux courbes formant les limites supé-
rieures et inférieures à l’intérieur desquelles les grains sont éparpillés (nuages cumulus) ; la
fréquence des grains peut également être restreinte à un ensemble de hauteurs spécifiées
(comme dans les nuages stratus).
5. Enveloppe d’amplitude du nuage.
6. Forme(s) d’onde à l’intérieur du grain ; ceci constitue l’un des paramètres les plus puissants
des nuages. Par exemple, chaque grain d’un nuage peut avoir une forme d’onde différente ;
les formes d’onde peuvent être synthétiques ou échantillonnées.
7. Dispersion spatiale des grains dans le nuage, où le nombre de sorties est propre à une implé-
mentation donnée.
En variant ces sept paramètres de l’AGS, on peut réaliser un grand nombre d’effets. Le reste de cette
partie fait un résumé des effets de la durée, de la forme d’onde, de la largeur de bande, de la densité,
et de la spatialisation. Les paramètres de forme d’onde et de largeur de bande ne s’appliquent qu’aux
grains synthétiques, et non aux grains échantillonnés. Pour une analyse plus détaillée des effets
paramétriques de l’AGS, voir Roads (1991).
Comme le montre la figure 22.7, la durée des grains peut être constante (ligne horizontale), variable,
aléatoire à l’intérieur de deux limites, ou dépendante de la fréquence.
La durée des grains change la texture sonore du nuage. De courtes durées créent des sonorités
craquées et explosives, tandis que des durées plus longues créent une impression plus lisse. Une loi
fondamentale du traitement du signal rentre en jeu dans l’établissement de la durée du grain :
plus la durée d’un événement est courte, plus sa largeur de bande est grande. La figure 22.8 démontre
cette loi pour trois signaux élémentaires.
La figure 22.9 montre les effets spectraux de l’abaissement de la durée des grains. Remarquez
comme la largeur de bande s’étend lorsque la durée du grain se rapetisse.
Comme la forme d’onde peut varier de grain en grain, nous pouvons remplir les nuages avec des
grains ayant une seule forme d’onde ou plusieurs formes d’onde. Un nuage monochrome utilise
une seule forme d’onde, tandis qu’un nuage polychrome contient un mélange aléatoire de plusieurs
formes d’onde. Un nuage transchrome mute statistiquement d’une forme d’onde à une autre pendant
la durée du nuage.
Pour un cumulus (figure 22.10a ; voir également figure 22.7, colonne 2) le générateur disperse les
grains de façon aléatoire à l’intérieur de limites de fréquences inférieures et supérieures. En réduisant
ces bandes à un petit intervalle, nous pouvons générer des hauteurs précises. Différents types de
glissandos sont facilement réalisés (figure 22.10b). Une autre spécification possible crée un stratus
(figure 22.10c ; voir également figure 22.7, colonne 3), où les grains sont contraints d’apparaître à
une seule hauteur ou à des hauteurs spécifiques pour créer des accords ou des clusters de hauteur.
CHAPITRE 22 – LA SYNTHÈSE GRANULAIRE 431
Figure 22.8 – Fonctions dans le domaine temporel (en haut) et fréquentiel (en bas)
de trois signaux élémentaires, d’après Blauert (1983). (a) Sinusoïde de durée infinie correspondant
à une seule ligne du spectre. (b) Grain gaussien et spectre formantique correspondant. (c) Impulsion
brève et spectre infini correspondant.
La densité des grains se combine au paramètre de largeur de bande pour créer différents effets.
Des densités éparses, sans tenir compte de la largeur de bande, créent des textures pointillistes.
À de hautes densités de grains, des bandes fréquentielles resserrées créent des flux de hauteur fixe
ayant un spectre formantique, tandis que des bandes larges (une octave ou plus) génèrent des
© Dunod. Toute reproduction non autorisée est un délit.
(a)
(b)
(a)
(b)
(c)
© Dunod. Toute reproduction non autorisée est un délit.
(a)
Réplication
(b) 3 2 1 5 4
etc.
Réordonnencement
(c) A B C
Interclassement et réordonnencement
(figure 22.11c). Ces tissus sonores entrelacés varient en grande partie selon la hauteur et le timbre
des grains individuels utilisés.
Le second cas s’applique à une granulation en temps réel d’un son continu avec l’ordinateur agissant
en tant que ligne de retard ou fenêtre, qui peut être configurée pour fournir les différents grains.
Voir la description et la configuration de lignes de retard au chapitre 6. Dans ce cas, les effets spec-
traux secondaires distordent et enrichissent le son de façon contrôlable.
Le troisième cas ressemble au précédent à l’exception du taux de lecture qui peut être varié par un
paramètre contrôlant la vitesse à laquelle la synthèse s’avance à travers les échantillons. La lecture
peut varier d’une vitesse normale à un taux abaissé dans lequel un seul échantillon est répété en
continu. Cette méthode peut ainsi être considérée comme une interpolation entre le premier et le
deuxième cas.
sions). Enfin, en combinaison avec la granulation temporelle et la convolution (Roads, 1993a), les
méthodes granulaires passent des techniques de synthèse pure à des applications de transformation
du son.
Chapitre 23
La synthèse pulsar
En juillet 1967, une jeune astronome anglaise détecta par hasard dans le ciel un signal radio pré-
sentant des impulsions périodiques espacées de 1,337 301 130 seconde. L’astre fut baptisé CP 1919
(Cambridge Pulsar, d’ascension droite 19 h 19 min). Aussitôt, l’incrédulité s’empara de la communauté
scientifique : là-bas, au fond du ciel, quelque chose battait la mesure avec une régularité de métronome.
Les temps d’arrivée des impulsions étaient si réguliers — au milliardième de seconde près — que pen-
dant quelque temps on crut qu’il s’agissait d’un message envoyé par une civilisation extraterrestre,
à destination des autres peuples de l’univers. (Jean-Pierre Luminet, 1996)
Toutes les formes de composition musicale — depuis l’improvisation la plus libre jusqu’à l’organi-
sation la plus formelle — sont contraintes par leurs matériaux sonores. Ainsi, le besoin d’étendre
le champ sonore provient d’un désir d’enrichir les possibilités compositionnelles. Il est possible de
beaucoup obtenir de la récolte de formes d’onde synthétiques. Les hybrides qui croisent la richesse
des sons familiers avec des harmoniques peu courants sont particulièrement intéressants.
Ce chapitre décrit une méthode puissante de synthèse sonore numérique qui établit un lien avec
© Dunod. Toute reproduction non autorisée est un délit.
des techniques analogiques du passé. Il s’agit de la synthèse pulsar (SP), nommée d’après les étoiles à
neutrons tournantes qui émettent des signaux périodiques dans le domaine situé entre 0,25 Hz et
642 Hz. Par coïncidence, ce même domaine de fréquences — entre le rythme et le son — est d’un
intérêt central dans la synthèse pulsar.
La SP combine des principes établis à l’intérieur d’un nouveau paradigme. Dans sa forme de base,
elle génère des impulsions électroniques et des sons avec hauteur similaires à ceux produits par
des instruments analogiques comme l’Ondioline (Jenny, 1958 ; Fourier, 1994) et le Hohner Elek-
tronium (1950), qui furent conçus autour du principe de trains d’impulsions filtrés. Les composi-
teurs pionniers de musique électronique comme Karlheinz Stockhausen (1955, 1957, 1961, 1963)
et Gottfried Michael Koenig (1957, 1959, 1962) utilisaient de la génération d’impulsions filtrées
comme pièce centrale de leur travail en studio. La synthèse pulsar est cependant une technique
numérique et elle possède les avantages d’un contrôle programmable précis, d’une flexibilité de la
forme d’onde, d’une interface graphique et de possibilités d’extensions. Dans sa forme plus avancée,
la synthèse pulsar génère un monde de sons échantillonnés croisés structurés rythmiquement.
438 SYNTHÈSE SONORE
(a) p
t s
1.0
0 Amplitude
w
-1.0
Temps
(b) p p p
... ...
+1
-1
t t t
Temps
enveloppe avec une attaque raide suivie d’une extinction exponentielle (Kaegi et Tempelaars, 1978 ;
Rodet, 1980). Cette configuration peut être considérée comme un cas spécial de la synthèse pulsar.
© Dunod. Toute reproduction non autorisée est un délit.
Comme le montre la figure 23.3h, l’enveloppe peut également être un modulateur en anneau bipo-
laire.
Conserver p et w constants et varier t sur une base continue crée l’effet d’un filtre résonant balayé
en travers d’un son. Il n’y a, bien sûr, aucun filtre dans ce circuit. C’est en fait la fréquence corres-
pondant au cycle de travail t qui apparaît dans le spectre sous la forme d’un pic formantique. En
balayant la fréquence de ce pic dans le temps, nous obtenons l’équivalent sonore d’un filtre passe-
bande variant dans le temps appliqué sur un train d’impulsions de base.
440 SYNTHÈSE SONORE
(a) (d)
(b) (e)
(c)
1 v
w
0 s
-1 (a) (b)
1
0
t
β (d)
-1 (c)
1
0 } ξ
t
-1 (e) (f)
1
-1 (g) (h)
1
(a) ... ...
0
1
(b) Constante 0
0
1
Constante 1
(c)
0
(d)
(e)
© Dunod. Toute reproduction non autorisée est un délit.
(f)
(g)
mente de (d) à (e). Dans (f), p = t. Enfin, dans (g) p < t. C’est-à-dire que le cycle de travail est plus
long que la période fondamentale. Seul le premier quadrant de la sinusoïde se répète. La période
fondamentale coupe le cycle de travail de la pulsarette au milieu de la forme d’onde. Dans notre
implémentation, nous appliquons un temps de fondu enchaîné contrôlé par l’utilisateur autour de
ce point de coupure, que nous appelons le facteur anguleux. Lorsqu’il n’y a pas de fondu enchaîné,
le facteur anguleux est élevé.
Nous avons également testé une approche alternative de la modulation de largeur de pulsar, qui
produit un son différent. Dans la modulation de largeur de pulsarette superposée ou MLPulS, la fré-
quence fondamentale est interprétée comme le taux de l’émission pulsar, indépendamment du
cycle de travail de pulsarette. C’est-à-dire que le cycle de travail d’un pulsar individuel est toujours
achevé, même lorsqu’il passe en dessous de la fréquence fondamentale. Dès que la période fonda-
mentale expire, notre algorithme engendre un nouveau pulsar. Ainsi, lorsque t > p, plusieurs pulsars
se superposent à d’autres dont le cycle de travail n’est pas encore achevé. Lorsque t augmente, le géné-
rateur engendre de plus en plus de pulsars superposés. Pour des raisons pratiques, nous stipulons
une limite de superposition arbitraire. En général, la MLPulS a pour résultat une grande quantité
d’annulations de phase et tend ainsi à être un effet plus subtil que la MLPul normale.
16
8
3
4
3
2
1
0.5
0.25
0.12
0
0 1 2 3 4 5 6 7 8 9
Temps
Amplitude
Temps
tracé en fonction du temps (échelle horizontale). L’échelle de gauche mesure les valeurs de note tra-
ditionnelles, tandis que l’échelle de droite mesure les fréquences. (En bas) Image dans le domaine
temporel du train pulsar généré correspondant au tracé du dessus.
4 kHz
3 kHz
2 kHz
1 kHz
0 dB
-30 dB
-65 dB
500 Hz 8 kHz 500 Hz 8 kHz 500 Hz 8 kHz
Ainsi, en modifiant l’enveloppe pulsarette, on peut altérer le profil du spectre du pulsar. Voir Roads
(2001) pour une analyse mathématique de l’effet de l’enveloppe pulsarette sur le spectre.
CHAPITRE 23 – LA SYNTHÈSE PULSAR 445
Microphone
Générateur Générateur Générateur
enveloppe enveloppe enveloppe
amplitude fréq. fond. formantique
a fp fd
Préamplificateur
Générateur
pulsar
GP
Convertisseur
analogique-numérique Enveloppe Pulsarette w
pulsarette v
Explosion
Enregistrement et Masquage
édition dans un pulsar Canal
éditeur de son Stochastique
Base
Base de données de données
de sons de trains
échantillonnés pulsars
Convolution
Base
de données
de trains
pulsars
convolvés
Sortie
(a)
qqqqqqqqqqqqqqq ...
qqqŒŒŒqqqŒŒŒqqq ...
(c) 1
Probabilité
Courbe
de masquage
0
Temps
qqqŒqŒŒŒŒŒqŒŒŒŒŒqŒqqŒqqq
Figure 23.8 – Le masquage pulsar transforme un train régulier en train irrégulier.
Les pulsars sont illustrés sous forme de noires et les pulsars masqués sont indiqués sous forme de
© Dunod. Toute reproduction non autorisée est un délit.
soupirs. (a) Masquage d’explosion. Le rapport d’explosion est ici de 3:3. (b) Masquage de canal.
(c) Masquage stochastique selon un tableau de probabilité. Lorsque la probabilité est de 1, il n’y a pas
de masquage. Lorsque la probabilité est de 0, il n’y a pas de pulsars. Dans le milieu, le train pulsar
est intermittent. Remarquez l’éclaircissement de la texture lorsque la courbe de probabilité plonge
au centre.
le masquage d’explosion impose un effet de modulation d’amplitude sur le timbre (figure 23.9),
en divisant la fréquence fondamentale en fréquences sous-harmoniques e + r.
Le masquage de canal (figure 23.8b) supprime des pulsars dans des canaux alternatifs. En masquant
de façon sélective des pulsars dans deux canaux 1 et 2, on crée un dialogue à l’intérieur d’une phrase,
en articulant chaque canal chacun son tour. La figure 23.8b ne montre que deux canaux, mais nous
pouvons généraliser ce schéma à N canaux.
Le masquage stochastique introduit une intermittence aléatoire dans le flux régulier de pulsars.
Nous avons implémenté le masquage stochastique sous la forme d’une probabilité pondérée qu’un
448 SYNTHÈSE SONORE
5 kHz
4 kHz
3 kHz
2 kHz
1 kHz
400 Hz
266 Hz
133 Hz
Temps
Démarrage du masquage d’explosion 2:1
1/400 s 1/133 s
pulsar sera émis à un point particulier dans un train pulsar. La probabilité est exprimée sous la
forme d’une enveloppe couvrant la durée du train pulsar. Lorsque la valeur de l’enveloppe est de 1,
un pulsar est émis. Si la valeur est inférieure à 1, il y a moins de possibilités. Une valeur de 0 a pour
résultat une absence d’émission de pulsars. Des valeurs situées entre 0,9 et 0,8 produisent une inter-
mittence intéressante ressemblant à des sons analogiques, comme s’il existait un contact erratique
dans le circuit de synthèse (figure 23.8c).
CHAPITRE 23 – LA SYNTHÈSE PULSAR 449
doivent être de courte durée (inférieure à la période fondamentale du train pulsar) et avoir une attaque
raide (un temps de montée inférieur à 100 ms). Ces contraintes minimisent les effets de brouillage
temporel de la convolution (Roads, 1992, 1993b, 1997). Ainsi, un bon point de départ pour une base
de données sonore est une collection d’échantillons de percussion. Les contraintes peuvent être
assouplies si l’on recherche une texture plus lisse et plus continue. Les échantillons ayant de longues
durées superposent des copies multiples de l’objet échantillonné, en créant un flux sonore ondoyant.
Les échantillons ayant des attaques lentes troublent le départ de chaque copie échantillonnée, en
brouillant le flux en un continuum. Ainsi, en contrôlant la forme d’attaque de l’échantillon, on possède
un moyen pour gérer la texture sonore.
450 SYNTHÈSE SONORE
Temps
(b)
*
=
(c)
Temps
d’été au Center for New Music and Audio Technology de l’université de Berkeley. Des raffinements
ultérieurs de ce prototype conduisirent à l’application PulsarGenerator, distribuée par CREATE. La
figure 23.11 présente l’interface graphique de PulsarGenerator, version 1. Remarquez les enveloppes
de contrôle pour les variables de synthèse. Ces enveloppes peuvent être conçues avant la synthèse, ou
manipulées en temps réel lorsque l’instrument joue. Alberto de Campo a implémenté un schéma
pour enregistrer et charger ces enveloppes dans des groupes appelés réglages. Le programme permet
d’effectuer des fondus enchaînés à un taux variable entre des réglages multiples, ce qui fait passer
l’interprétation avec PulsarGenerator à un autre niveau de complexité de la synthèse.
Dans les techniques de synthèse basées sur les ondes, un algorithme boucle dans une table d’onde
© Dunod. Toute reproduction non autorisée est un délit.
et varie le signal selon des fonctions de contrôle mises à jour relativement lentement. Ainsi, l’efficacité
de la synthèse correspond au nombre de générateurs élémentaires simultanés (oscillateurs, filtres,
etc.). Par contraste, la synthèse particulaire est plus gourmande, car l’algorithme de synthèse doit
également gérer la tâche d’inscrire jusqu’à plusieurs milliers d’événements par seconde, chacun pou-
vant être unique. L’efficacité de la synthèse pulsar est ainsi liée au taux d’émission de particule. Des
tests effectués par les programmateurs ont montré que des taux d’émission pulsar supérieurs à
6 000 pulsars/s (correspondant à un instrument à trois formants à une fréquence fondamentale de
2 kHz), peuvent facilement être obtenus avec un processeur Apple G4 ayant une vitesse d’horloge
supérieure ou égale à 500 MHz.
seront utilisés à l’intérieur d’une composition. Le programme PulsarGenerator peut également enre-
gistrer les sons produits lors d’une séance en temps réel. Cette séance peut être éditée par le com-
positeur et par la suite convolvée ou mélangée avec d’autres matériaux sonores.
Une étape finale de la composition pulsar est de fusionner des trains multiples pour former une
texture composite. Il s’agit d’une question de montage, et celle-ci est mieux gérée par un logiciel
d’édition et de mélange conçu à cet effet. Chaque couche de la texture peut posséder son propre modèle
rythmique, son enveloppe de fréquence formantique, son choix d’objets convolvés et son trajet spatial.
En travaillant sur une variété d’échelles temporelles, un compositeur peut appliquer des transfor-
mations de traitement du signal sur des pulsars individuels, des trains pulsar et des textures pulsar.
Ces dernières peuvent inclure du mélange avec d’autres sons, du filtrage, des modulations, de la
réverbération, etc.
23.7 Conclusion
La musique passe à travers de multiples échelles temporelles, depuis la macrostructure de haut niveau
jusqu’à une myriade d’objets sonores individuels ou notes. En dessous de ce niveau se trouve une
autre hiérarchie d’échelles temporelles. Ici se trouvent les particules microsoniques comme les
impulsions rectangulaires classiques, les grains, les ondelettes et les pulsars (Roads, 1999). La géné-
ration d’impulsions en tant que moyen efficace de synthèse musicale fut établie il y a plusieurs
décennies dans le studio électronique analogique. Par comparaison, la synthèse pulsar numérique
offre un choix flexible de formes d’onde et d’enveloppes, une précision accrue et un contrôle pro-
grammable graphique.
Contrairement aux techniques de synthèse basées sur les ondes, la notion de rythme est construite
dans les techniques basées sur les particules. Rythme, hauteur et timbre sont tous reliés, mais peuvent
être contrôlés séparément. La synthèse pulsar offre un lien invisible entre les échelles temporelles
des rythmes individuels de particules, des hauteurs périodiques et du niveau de composition méso
(c’est-à-dire de la phrase). Une autre nouvelle fonction de cette technique est la génération de
multiples trajectoires formantiques indépendantes, chacune suivant son propre trajet spatial.
CHAPITRE 23 – LA SYNTHÈSE PULSAR 453
Comme ce chapitre l’a montré, la technique pulsar de base peut être étendue pour créer une large
famille de structures musicales : impulsions singulières, séquences rythmiques, sons continus,
phrases variant dans le temps et textures en battement. Les microévénements pulsar peuvent être
déployés en séquences rythmiques ou, lorsque la densité des événements est suffisamment élevée,
en sons tenus, permettant ainsi à la composition de passer directement de la microstructure à la
mésostructure.
© Dunod. Toute reproduction non autorisée est un délit.
Chapitre 24
La synthèse soustractive
La synthèse soustractive implique l’utilisation de filtres pour modeler le spectre d’une source sonore.
Lorsque le signal sonore passe à travers le filtre, celui-ci amplifie ou atténue des régions sélectionnées
du spectre de fréquence. Si la source originelle possède un spectre riche et que le filtre est flexible, la
synthèse soustractive peut sculpter des approximations proches de beaucoup de sons naturels
(tels que les voix et les instruments traditionnels), ainsi qu’une grande variété de timbres nouveaux
et non classés.
Le reste de cette partie présente le principal outil de la synthèse soustractive — les filtres — et
conduit ainsi à la partie traitant des techniques d’analyse/resynthèse soustractives. Dans le chapitre 4,
nous examinons plus en détail les opérations internes des filtres. Nous nous contenterons ici de
décrire leurs effets.
(a)
Retard
Entrée + Sortie
(b)
Retard
Entrée + Sortie
Nous allons maintenant parler des propriétés des différents filtres. Puisque notre but principal est
d’expliquer les applications musicales de la synthèse soustractive, nous ne traiterons pas de la façon
dont les filtres numériques sont implémentés, ni de la théorie mathématique des filtres. Voir également
Moorer (1977) et Moore (1978a, 1978b). Ceux qui possèdent des connaissances en ingénierie peuvent
étudier les textes de Moore (1990), Smith (1985a, 1985b), Oppenheim et Willsky (1983), Rabiner
et Gold (1975), et Oppenheim et Schafer (1975), parmi d’autres.
(a) +4
+2
-2 Presque plate
-4
-6
Amp.
-8
0 Hz Fréquence 25 kHz
(b) +4
+2
-2
Non linéaire
-4
-6
Amp.
-8
Chaque type de filtre a sa propre courbe de réponse fréquentielle caractéristique. Les courbes de
réponse fréquentielle typiques pour quatre types de filtres de base sont montrées à la figure 24.3 :
passe-bas, passe-haut, passe-bande et coupe-bande.
Les filtres en pente, montrés à la figure 24.4, amplifient ou coupent toutes les fréquences au-dessus ou
en dessous d’un seuil donné. Leur nom peut prêter à confusion, car un filtre en pente haut agit
comme un filtre passe-bas lorsqu’il est paramétré pour couper les hautes fréquences, et un filtre en
© Dunod. Toute reproduction non autorisée est un délit.
pente bas agit comme un filtre passe-haut lorsqu’il est paramétré pour couper les basses fréquences.
Une des propriétés importantes d’un filtre est sa fréquence de coupure. Les figures 24.3 et 24.4 montrent
la fréquence de coupure des filtres passe-bas et passe-haut. Par convention, c’est le point dans le
domaine de fréquence où le filtre réduit le signal de 0,707 par rapport à la valeur maximale. Pourquoi
0,707 ? La puissance du signal à la fréquence de coupure est proportionnelle à l’amplitude du signal
au carré, puisque 0,7072 = 0,5. Ainsi, la fréquence de coupure est également appelée point de demi-
puissance. Un autre terme pour nommer la coupure de fréquence est le point 3 dB (Tempelaars,
1977), car la relation de 0,707 à 1 est proche de –3 dB.
Les composants spectraux atténués en dessous du point de demi-puissance d’un filtre sont dans la
bande de coupure du filtre. Ceux situés au-dessus du point de demi-puissance sont dans la bande
de passage du filtre. La différence entre les fréquences de coupure supérieures et inférieures d’un
filtre passe-bande est la largeur de bande du filtre. La fréquence centrale d’un filtre passe-bande est
le point maximum d’amplitude ; la fréquence centrale d’un filtre coupe-bande est le point minimum
d’amplitude.
458 SYNTHÈSE SONORE
Passe-bas Passe-haut
Fréquence Fréquence
de coupure de coupure
Amp. Amp.
Fréquence Fréquence
Fréquence Fréquence
centrale centrale
Amp. Amp.
Fréquence Fréquence
Amplification
0 dB
Coupure
Amp.
Fréquence
Amplification
0 dB
Coupure
Amp.
Fréquence
(a)
1.0
0.707
Bande Bande
de passage de coupure
Amp.
0
Fréq.
Fréquence de coupure
(b) Bande
1.0 de
transition
0.707
Bande Bande
de passage de coupure
Amp.
0
Fréq.
Fréquence de coupure
Dans un filtre idéalement étroit, la fréquence de coupure est une sorte de mur de brique : tout ce qui
est situé en dehors est abaissé au minimum, ce qui divise de façon tranchée la réponse fréquentielle
en une bande de coupure et une bande de passage (figure 24.4a). En fait, la pente d’un filtre n’est
pas linéaire jusqu’à la fréquence de coupure : il y a une ondulation dans la réponse fréquentielle,
et la zone entre la bande de passage et la bande de coupure est appelée la bande de transition
(figure 24.5b).
© Dunod. Toute reproduction non autorisée est un délit.
Le degré d’inclinaison de la pente d’un filtre est en général spécifié en décibels d’atténuation ou
d’amplification par octave, abrégés en « dB/octave ». Par exemple, une pente de 6 dB/octave pour
un filtre passe-bas crée une atténuation légère, tandis qu’une pente de 90 dB/octave crée une coupure
raide (figure 24.6).
L’utilisation de pentes raides ou douces dépend de la situation musicale. Par exemple, un filtre coupe-
bande raide peut être nécessaire pour éliminer un son centré sur une fréquence particulière, tandis
qu’un filtre passe-bas à pente douce peut être la façon la plus discrète d’éliminer du bruit de fond
dans le domaine des hautes fréquences.
460 SYNTHÈSE SONORE
(a) 0
-6
Pente douce
-12
Amp. -18
en dB
-24
500 1000 2000 4000 8000
Fréquence
(b)
0
-6 Pente raide
-12
Amp. -18
en dB
-24
500 1000 2000 4000 8000
Fréquence
Amp.
Fréquence
Q peut être défini précisément pour un filtre passe-bande comme le rapport entre sa fréquence
centrale et l’étendue de sa largeur de bande à son point –3 dB (point de coupure) :
f centrale
Q = -----------------------------------------------------------------
-
f coupure supérieure – f coupure inférieure
où fcentrale est la fréquence centrale du filtre, fcoupure supérieure est le point 3 dB supérieur, et fcoupure inférieure
le point 3 dB inférieur. Remarquez que, lorsque la fréquence centrale est constante, ajuster le Q
revient à ajuster la largeur de bande. Voici un exemple du calcul du Q d’un filtre. Nous pouvons
définir un filtre passe-bande avec une fréquence centrale de 2 000 Hz et des points 3 dB à 1 800 et
2 200 Hz. Ce filtre a un Q de 2 000/(2 200 – 1 800) = 5. Les filtres résonants de Q élevés sont utiles
pour générer des sons de percussions. Les tambours accordés comme les tablas, les woodblocks,
les claves, et les effets de marimba peuvent être simulés en excitant un filtre résonant à Q élevé avec
un train d’impulsions.
Une autre propriété d’un filtre passe-bande ou coupe-bande est son gain. Ceci est la quantité
d’amplification ou de coupure d’une bande fréquentielle. Il apparaît sous la forme de la hauteur ou
de la profondeur de la bande dans une courbe de réponse (figure 24.8). Lorsque l’on passe un
signal à travers un filtre à Q élevé, on doit faire attention de s’assurer que le gain à la fréquence
résonante (la hauteur du pic) ne surcharge pas le système, ce qui cause de la distorsion. De nom-
breux systèmes possèdent des circuits de compensation de gain dans leurs filtres qui préviennent
ce genre de surcharge.
Amp.
Fréquence
Un type particulier de filtre passe-bande est appelé un filtre à Q constant. Pour maintenir un Q fixe,
un filtre à Q constant doit varier la largeur de bande en fonction de la fréquence centrale. Par exemple,
lorsque la fréquence centrale est 30 Hz et le Q de 1,5 (ou 3/2), la largeur de bande est de 20 Hz,
puisque 30/20 = 1,5. Mais si nous déplaçons le filtre à 9 kHz et gardons le Q à 1,5, la largeur de
bande doit être égale à 2/3 de sa fréquence centrale, c’est-à-dire 6 000 Hz. La figure 24.10 montre
la courbe de deux filtres à Q constants tracées sur des échelles fréquentielles linéaires et logarith-
miques. Sur l’échelle linéaire (figure 24.9a), le filtre centré à 30 Hz apparaît sous forme de bande
très étroite, tandis que le filtre centré à 9 kHz semble avoir une courbe plus large. Sur l’échelle loga-
rithmique, les filtres ont la même forme (figure 24.9b).
Un filtre à Q constant a comme qualité musicale de ne pas changer l’intervalle de fréquence lorsque
la fréquence centrale change. Par exemple, un filtre à Q constant centré sur La 440 Hz avec un Q
de 1,222 couvre le même intervalle musical qu’un filtre avec un Q de 1,222 centré sur La 880 Hz
(respectivement de Do 260 à Ré 620, et de Do 520 à Ré 1 240).
462 SYNTHÈSE SONORE
(a)
1 2
Fréquence (linéaire)
(b)
1 2
0
20 40 80 160 320 640 1.2K 2.5K 5K 10K 20K
Fréquence (logarithmique)
Banque de filtres
15 kHz
12.5 kHz
10 kHz
8 kHz
5 kHz
Signal d'entrée Signal de sortie
2.5 kHz
1 kHz
500 Hz
200 Hz
80 Hz
Figure 24.10 – Modeleur de spectre à dix éléments avec une molette de contrôle
(amplification ou atténuation) associée à chaque bande de fréquence.
fadeur linéaire pour couper ou amplifier les bandes fréquentielles spécifiques. La réponse fré-
quentielle potentielle d’un tel filtre est montrée à la figure 24.11b.
Un égaliseur paramétrique met en jeu un nombre moindre de filtres, mais le contrôle de chacun
d’entre eux est plus flexible. Une situation typique est d’avoir trois ou quatre filtres en parallèle.
L’utilisateur peut ajuster de façon indépendante la fréquence centrale, le Q, et la quantité de coupure
ou d’amplification de chaque filtre. Un filtre semi-paramétrique possède un Q fixe.
Deux autres types de filtres méritent d’être mentionnés ici, bien qu’ils soient présentés au chapitre 4.
Un filtre possédant plusieurs courbes étroites et régulières au sein de sa réponse fréquentielle est
appelé un filtre en peigne. La figure 24.12 montre les courbes de réponse fréquentielle de deux types
de filtres en peigne. L’une possède des entailles profondes et l’autre de grands pics. L’origine du terme
« en peigne » devrait être claire au regard de ces deux courbes. Le chapitre 4 contient une description
plus complète des filtres en peigne et de leurs applications musicales.
Le dernier filtre à mentionner est le filtre passe-tout. Lorsqu’on l’alimente avec un son fixe, un filtre
passe-tout laisse passer toutes les fréquences avec un gain égal — d’où son nom. Le but d’un filtre
passe-tout est d’introduire un déphasage en fonction de la fréquence. Tous les filtres introduisent du
déphasage lorsqu’ils atténuent ou amplifient certaines fréquences, mais le principal effet d’un fil-
tre passe-tout est de déphaser. Si le signal d’entrée n’est pas fixe, le passe-tout colore le signal, en rai-
son des effets de déphasage dépendants de la fréquence. Cette coloration est particulièrement évi-
dente sur des sons transitoires où les relations de phase sont primordiales dans la qualité sonore.
464 SYNTHÈSE SONORE
(a)
+12 dB
0 dB
-12 dB
40 100 250 600 1200 4000 10000
(b)
+12
+9
+6
+3
0
-3
-6
-9
-12
0
20 40 80 160 320 640 1.2k 2.5 5 10 20
Fréquence
(logarithmique)
Une application d’un filtre passe-tout est de corriger les déphasages non désirés d’un autre filtre.
Les filtres passe-tout peuvent également être utilisés pour le traitement musical du son. Un filtre
passe-tout peut imposer un déphasage variant dans le temps et dépendant de la fréquence, ce qui
peut ajouter de la richesse aux sons. Les filtres passe-tout sont à la base des réverbérations numé-
riques. Le chapitre 4 présente les applications des filtres passe-tout.
CHAPITRE 24 – LA SYNTHÈSE SOUSTRACTIVE 465
(a)
Amp.
Fréquence
(b)
Amp.
Fréquence
au cours du temps peut apporter une énorme variété de coloration du son, particulièrement si le
signal filtré varie également dans le temps. Un exemple de filtre variant dans le temps est la section
d’égaliseurs paramétriques dans une console de mixage. L’ingénieur peut changer le Q, la fréquence
centrale, et la quantité de coupure ou d’amplification à n’importe quel moment lors du mixage,
ou bien ces paramètres peuvent être programmés pour changer automatiquement.
Un des premiers exemples d’un système pour la synthèse soustractive variant dans le temps est le
SYTER (SYstème TEmps Réel) — un processeur de traitement numérique du signal développé à
la fin des années 1970 au Groupe de Recherches Musicales (GRM) à Paris par Jean-François Allouis et
ses collègues (Allouis, 1979 ; Allouis et Bernier, 1982). La presque-totalité du logiciel SYTER a depuis
été portée sur une carte de traitement du signal pour ordinateur personnel (INA/GRM, 1993).
SYTER a été utilisé comme appareillage de synthèse soustractive variant dans le temps par des
compositeurs comme Jean-Claude Risset dans ses compositions Voilements, Lurai, et Echo for John
Pierce. Utilisant le logiciel écrit par Benedict Maillard, SYTER réalisait plusieurs douzaines de filtres
passe-bande à Q élevé en temps réel avec des changements de paramètres dynamiques. Les filtres
466 SYNTHÈSE SONORE
pouvaient également être pilotés par des données générées par l’analyse de Fourier d’un son (voir
la prochaine partie sur l’analyse/resynthèse soustractive). Lorsque des sons utilisant toute la largeur
de bande audio tels que l’eau ou le vent étaient traités par le système, les filtres résonants « sonnaient »
en accords et en clusters musicaux. De riches filtres en peigne et des effets de phasing pouvaient
également être créés (voir chapitre 4).
24.2.1 Vocodeur
Le système d’analyse/synthèse soustractive originel est le vocodeur, dont la première démonstration
fut faite par un robot parlant au World’s Fair de 1936 à New York (Dudley, 1936, 1939a, 1939b, 1955 ;
Dudley et Watkins, 1939 ; Schroeder, 1966 ; Flanagan, 1972). Le vocodeur analogique classique était
constitué de deux parties. Le premier est un groupe de filtres passe-bande de fréquences fixes dis-
tribués sur toute la largeur de bande audio. La sortie de chaque filtre est connectée à un détecteur
d’enveloppe qui génère une tension proportionnelle à la quantité d’énergie de la fréquence suivie
par le filtre (figure 24.13).
La seconde partie du vocodeur est une banque de filtres passe-bande identiques aux premiers. On
envoie le même signal d’entrée à tous les filtres, et la sortie de chaque filtre est envoyée à son propre
amplificateur contrôlé par tension (Voltage-Controlled Amplifier, VCA). Les sorties de tous les ampli-
ficateurs sont combinées pour ne donner qu’un signal de sortie. Les filtres et les détecteurs de la
première partie génèrent des signaux de contrôle (également appelés fonctions de pilotage) qui
déterminent l’amplitude du signal audio passant des filtres à la seconde partie du vocodeur.
Si l’on se réfère à la figure 24.13, la source A est le signal à partir duquel le spectre formantique est
déduit, par exemple une voix chantante. Si nous traçons la bordure de ce spectre, nous pouvons
l’appeler enveloppe spectrale ou courbe de résonance. La source B est la fonction excitatrice. La fonction
excitatrice est en général un signal de large bande tel qu’un bruit blanc ou un train d’impulsion. La
sortie du vocodeur consiste en la fonction d’excitation de la source B et de l’enveloppe spectrale
variante dans le temps de la voix chantante de la source A. La figure 24.14 montre graphiquement
le procédé du filtrage formantique appliqué à une fonction excitatrice.
Le but originel de la recherche sur le vocodeur était la réduction de données pour la parole synthé-
tisée. Le taux de données et les besoins en canaux des fonctions de pilotage sont véritablement
largement inférieurs à celles du signal originel.
Dans les applications musicales, la séparation des fonctions de pilotage (ou résonance) et des
fonctions d’excitation permet de contrôler indépendamment le rythme, la hauteur et le timbre. Par
exemple, un compositeur peut changer la hauteur d’une voix chantée (en changeant la fréquence de
la fonction d’excitation), mais retenir l’articulation spectrale originelle de la voix. En dilatant ou
CHAPITRE 24 – LA SYNTHÈSE SOUSTRACTIVE 467
Source B (excitation)
Source A
(fonctions de pilotage
ou résonances) Fn ... F3 F2 F1
F1 DE1 A1
F2 DE2 A2
F3 DE3 A3
. .
. .
. .
Fn DEn An ...
Signal
de sortie
Étape 1 Étape 2
compressant les fonctions de pilotage dans le temps, un texte parlé peut être ralenti ou accéléré
sans toucher à la hauteur et sans influer sur la structure formantique.
468 SYNTHÈSE SONORE
(a)
Amp.
Fréquence
(b)
1
2
3
4
Amp.
Fréquence
Figure 24.14 – L’effet des filtres formantiques sur une fonction excitatrice.
(a) Vue simplifiée d’une fonction excitatrice comme le spectre produit par les cordes vocales à nu ;
un bourdonnement ayant un certain nombre d’harmoniques d’intensités égales. (b) Vue simplifiée du
spectre d’une voyelle montrant quatre pics formantiques numérotés 1, 2, 3 et 4.
x[n+1]
x[n]
x[n-1]
x[n-2]
Figure 24.15 – La prédiction linéaire fait une extrapolation d’un ensemble de points.
Si nous prenons des clichés réguliers de ces coefficients de filtrage dans le temps, que nous les
inversons, et que nous alimentons le filtre résultant avec un son riche et de large bande, nous devrions
avoir une bonne approximation du spectre variant dans le temps du signal d’entrée originel. Ainsi,
un « effet secondaire » de la prédiction est d’estimer le spectre du signal d’entrée : c’est un point
important. Mais l’estimation de spectre n’est qu’une étape dans l’analyse CPL, les autres étant
appliquées à la hauteur, à l’amplitude, et à la décision voisée/dévoisée. Celles-ci sont brièvement
© Dunod. Toute reproduction non autorisée est un délit.
Signal
d'entrée
Coefficients
de filtre
omnipolaire
Analyse (par trame)
formantique Résiduel Erreur
− + Détecteur
de
Hauteur
(par trame)
+ hauteur
Décision
Analyse voisée/dévoisée
voisée/dévoisée
(par trame)
et Gold, 1975). Sans rentrer dans le détail des diagrammes pôles zéros (voir les textes spécialisés
dans le traitement du signal), nous pouvons simplement dire qu’un pôle de filtre est son point de
résonance — un pic ou une région formantique dans le tracé du spectre. Au contraire, un zéro est
un point nul ou une entaille dans le spectre.
Lorsqu’un filtre possède plusieurs pics lisses, il est appelé filtre omnipolaire. Ce type de filtre est
caractéristique du CPL, qui sculpte le spectre avec quelques pics formantiques. Un tel modèle est une
approximation raisonnable de nombreux sons émis par la voix humaine et par certains instruments
de musique.
Comme nous l’avons précédemment mentionné, la prédiction linéaire — ou analyse autorégressive
(voir le chapitre 13) — prend simultanément plusieurs échantillons d’entrée en utilisant l’échan-
tillon le plus récent comme référence. Il tente de prédire cet échantillon à partir de l’addition pon-
dérée des coefficients de filtrage et des échantillons passés. Comme effet secondaire de cette pré-
diction, l’algorithme alimente un filtre inverse du spectre du signal d’entrée. L’inverse d’un filtre
omnipolaire est un filtre omnizéro qui crée un certain nombre d’entailles dans les spectres des
signaux qui lui sont envoyés.
L’analyseur CPL fait une approximation de l’inverse du filtre que l’on souhaite avoir pour la synthèse.
Si l’approximation est satisfaisante, le résultat de la prédiction linéaire devrait être le signal excitateur
(figure 24.17). En d’autres termes, le filtre inverse supprime l’effet de l’enveloppe spectrale du son.
L’approximation n’est jamais parfaite, et il existe donc toujours un signal appelé le résiduel, c’est-
à-dire la fonction excitatrice (une série d’impulsions) plus du bruit. Le but de l’analyse spectrale
CPL est de minimiser le résiduel.
Lorsque le filtre inverse a été convenablement ajusté, celui-ci est lui-même inversé pour créer un
filtre de resynthèse. L’inversion de filtre est mathématiquement directe (Rabiner et Gold, 1975) ;
le signe de tous les coefficients du filtre est inversé, et ils sont appliqués aux sorties précédentes au
CHAPITRE 24 – LA SYNTHÈSE SOUSTRACTIVE 471
(a) Filtre
Excitation formantique Excitation
omnipolaire filtrée
+ =
Amp. Amp. Amp.
Fréquence Fréquence Fréquence
+ =
Amp. Amp. Amp.
Fréquence Fréquence Fréquence
lieu de l’être aux entrées précédentes. Le filtre est ainsi transformé d’un filtre FIR en un filtre IIR
(voir le chapitre 4). Le chapitre 13 s’étend sur le fonctionnement interne des analyses de filtrage
CPL. Pour une description de l’ingénierie, voir Markel (1972), Makhoul (1975) et Moore (1990).
Le lecteur peut se demander : comment le CPL connaît-il la fonction excitatrice d’un son arbitraire ?
En fait, il ne la connaît pas. Il suppose que l’excitation est, soit un train d’impulsions harmoniques,
soit du bruit blanc. Cette supposition marche relativement bien pour approcher la parole et certains
instruments, mais elle n’est pas un modèle universel pour tous les sons. Ainsi, la méthode CPL
laisse en général des traces artificielles dans les sons resynthétisés. Certaines méthodes amélio-
© Dunod. Toute reproduction non autorisée est un délit.
rées de l’analyse CPL imposent un cluster à multiple impulsion plutôt qu’une seule impulsion à cha-
que période de hauteur, où la forme du cluster (amplitude et espacement entre les impulsions) pro-
vient des données d’analyse (Atal et Remde, 1982). Ceci aide à réduire le côté artificiel de la
resynthèse CPL.
✦ Analyse de hauteur et d’amplitude
La technique de détection de hauteur utilisée dans le CPL peut être n’importe laquelle des techniques
décrites au chapitre 9. La méthode particulière utilisée varie selon les différentes implémentations.
La figure 24.16 montre un schéma tentant d’estimer la hauteur à partir du signal résiduel.
Plusieurs techniques existent pour caractériser l’amplitude de chaque trame. Une façon typique est
de la calculer trame après trame, comme étant une valeur moyenne de la forme d’onde en entrée
décrite par la trame.
472 SYNTHÈSE SONORE
✦ Décision voisée/dévoisée
Lorsque la détection de hauteur a été effectuée, l’analyse CPL essaie de prendre la décision voisée/
dévoisée pour chaque trame. Cette décision est importante, car elle détermine si le son est ou non
harmonique lors de la resynthèse. Un son voisé possède une hauteur, comme les voyelles a, e, i, o, u
créées par le bourdonnement des cordes vocales. Un son dévoisé ressemble aux consonnes sifflantes
s et z, aux explosives t et p, ou à la fricative f. En dehors des sons voisés ou dévoisés, il existe une
troisième catégorie d’excitation appelée « voix mixe », combinant un son harmonique et du bruit,
comme dans le g de « gilet ».
En analysant un son d’instrument à vent, les données voisées/dévoisées indiquent en général la
quantité de souffle, et pour un son comme celui du violon, elles peuvent indiquer le bruit résiduel de
l’archet. Lors de la resynthèse, les sons voisés sont modelés par un train d’impulsions harmonique,
tandis que les sons dévoisés sont modelés par du bruit blanc. Les deux sont bien sûr filtrés.
La décision voisée/dévoisée est difficile à automatiser (Hermes, 1992). Dans les systèmes CPL qui
ont été adaptés pour la musique, l’analyse effectue un premier passage lors de la décision, mais le
compositeur est censé apporter des corrections à certaines trames particulières (Moorer, 1979). La
décision au premier passage utilise différentes heuristiques. La figure 24.16 montre le résultat
d’une détection de hauteur alimentant une décision voisée/dévoisée. Par exemple, si l’analyse ne peut
identifier une hauteur dans le signal d’entrée, elle génère une erreur d’estimation de hauteur. Lorsque
cette erreur — normalisée pour être contenue entre 0 et 1 — est supérieure à une certaine valeur
(autour de 0,2), il est considéré à ce moment que l’on est en présence d’un son bruiteux dévoisé
tel qu’une consonne. L’amplitude moyenne du résiduel est une autre indication. Si l’amplitude du
résiduel est faible en comparaison de l’amplitude du signal d’entrée originel, alors le signal est
probablement voisé.
✦ Trames d’analyse
Le résultat d’une étape d’analyse est une série de trames représentant une version du signal d’entrée
dont les données ont été largement réduites. Chaque trame est décrite par une liste de paramètres :
• Amplitude moyenne du son résiduel.
• Amplitude moyenne du son originel.
• Rapport des deux amplitudes (aide à déterminer si la trame est voisée ou dévoisée).
• Hauteur estimée.
• Durée de la trame.
• Coefficients pour le filtre omnipolaire (chaque pôle crée un pic formantique dans le spectre).
La figure 24.18 montre un exemple des données de trame pour le mot « sit » (Dodge, 1985). Les
coefficients de filtres ont été omis par souci de clarté.
La colonne ERR est une indication précieuse pour savoir si la trame est voisée ou non. Une grande
valeur de ERR (supérieure à 0,2) indique en général une trame dévoisée. Mais cet indicateur doit
être vérifié, car la décision voisée/dévoisée est difficilement automatisable. Remarquez comme les
valeurs de ERR changent de façon significative entre S et I. Les valeurs de RMS1 et RMS2 sont un
meilleur indicateur de changement entre I et T.
24.3.3 Synthèse CPL
La figure 24.19 montre l’étape de synthèse du CPL. Le premier paramètre est la durée de la trame,
qui détermine le nombre d’échantillons de sortie générés à partir d’un ensemble donné de para-
mètres. Le paramètre suivant détermine si la trame est voisée ou dévoisée. Pour des trames voisées
CHAPITRE 24 – LA SYNTHÈSE SOUSTRACTIVE 473
S 197
198
199
813.27
1189.36
553.71
1618.21
2090.14
838.38
0.252
0.323
0.436
937.50
937.50
937.50
0.010
0.010
0.010
200 742.59 1183.17 0.393 937.50 0.010
201 1041.95 1918.33 0.295 123.95 0.010
202 1449.16 2677.06 0.293 123.95 0.010
203 1454.84 2920.50 0.248 937.50 0.010
204 1430.03 2496.88 0.348 937.50 0.010
205 1570.88 2981.21 0.277 142.84 0.010
206 1443.27 2665.22 0.293 142.84 0.010
207 1172.67 2150.50 0.297 150.00 0.010
208 1200.73 2080.20 0.333 150.00 0.010
209 1095.51 2055.25 0.284 116.26 0.010
210 1260.36 2408.14 0.273 116.26 0.010
211 1105.17 2293.05 0.232 937.50 0.010
212 809.10 1659.80 0.237 937.50 0.010
213 428.20 784.93 0.297 250.00 0.010
I 214
215
216
419.45
925.86
746.28
3886.15
6366.20
8046.81
0.011
0.021
0.008
250.00
208.32
208.32
0.010
0.010
0.010
217 829.82 8277.42 0.010 192.29 0.010
218 754.64 8049.50 0.008 192.29 0.010
219 771.84 8001.70 0.009 197.35 0.010
220 726.81 7955.17 0.008 202.69 0.010
221 807.63 7835.20 0.010 202.69 0.010
222 874.27 7732.59 0.012 205.42 0.010
223 776.87 7491.86 0.010 205.42 0.010
224 684.64 7317.04 0.008 205.42 0.010
225 560.87 6297.36 0.007 102.03 0.010
226 175.63 1842.81 0.009 102.03 0.010
227 46.53 1329.09 0.001 197.85 0.010
T 228
229
38.25
39.26
793.00
316.92
0.002
0.032
197.85
202.69
0.010
0.010
Figure 24.18 – Une séquence de trames CPL comme elle pourrait apparaître
pour des besoins d’édition, d’après Dodge (1985). La colonne Phonème est ajoutée par souci de
clarté. La colonne RMS2 indique l’amplitude résiduelle, RMS1 l’amplitude du signal originel. ERR est
une approximation du rapport entre les deux et indique un signal dévoisé si le rapport est trop élevé.
PITCH est la hauteur estimée en Hz et DUR la durée de la trame en secondes.
© Dunod. Toute reproduction non autorisée est un délit.
standards, le synthétiseur utilise le paramètre de hauteur pour simuler la fonction excitatrice (l’onde
glottale) de la voix humaine. C’est un son « bourdonnant » (en général un train d’impulsions de
bande limitée) utilisé pour les voyelles et les diphtongues (séquences de voyelles telles qu’« oy »
dans le mot anglais toy, jouet). Pour les trames dévoisées, le synthétiseur utilise un générateur de
bruit pour simuler la turbulence du conduit vocal.
La sortie du générateur approprié, modelé par le paramètre d’amplitude, sert d’entrée au filtre omni-
polaire. Pour le travail sur la parole et le chant, le filtre omnipolaire simule les résonances du conduit
vocal. Jusqu’à douze pôles dans le filtre omnipolaire sont utilisés pour la synthèse de la parole,
et plus de 55 pôles peuvent être utilisés dans la synthèse de la musique (Moorer, 1979a).
474 SYNTHÈSE SONORE
Lecture
des paramètres
édités
Établissement
de la taille de trame
Décision
voisée/dévoisée
Détection
de hauteur
Générateur
de bruit
Générateur
d'impulsion
Multiplicateur
d'amplitude
Filtre
omnipolaire
Signal de sortie
Source A Source B
(parole) (orchestre)
Coefficients
de filtrage
Analyseur Filtre
CPL Amplitude CPL
« Orchestre parlant »
Figure 24.20 – La synthèse croisée CPL prend l’enveloppe spectrale d’un son
et l’applique à un autre son.
476 SYNTHÈSE SONORE
Lorsque l’effet désiré est de faire « parler » la source B, l’intelligibilité de la parole peut être améliorée
en utilisant des sources de très large bande telles qu’un orchestre complet et un chœur — contraire-
ment à une source de bande étroite telle qu’un violon solo. Si nécessaire, la fonction excitatrice peut
également être blanchie pour amener tous les composants spectraux à un niveau uniforme (Moorer,
1979).
Une autre utilisation de la synthèse CPL extrapole la réponse du filtre d’un instrument seul en une
famille d’instruments proches. Par exemple, en commençant par l’analyse d’un violon, on peut cloner
un alto, un violoncelle, et une contrebasse pour avoir un quatuor à cordes (Lansky et Steiglitz, 1981 ;
Moorer, 1981b, 1983a). Ces transformations de filtres peuvent, en théorie, être étendues pour émuler
les résonances de n’importe quel instrument. Dans la musique de Paul Lansky, cette méthode,
appelée prédiction linéaire faussée, a été utilisée pour synthétiser des versions électroniques de
cordes, de saxophones et d’harmonicas (New Albion Records NA 030CD, 1990).
voir également Depalle, 1991). En conséquence, cette recherche est liée au problème de la création
de transitions convaincantes entre les notes (Strawn, 1985a, 1987a). Mais elle offre également la
possibilité de créer des sons hybrides qui lient les diphones de différents instruments. On peut
également créer des diphones synthétiques.
Des sons individuels sont analysés pour créer un dictionnaire ; nous supposons ici que la méthode
d’analyse est le CPL, avec environ 200 trames par seconde pour le signal d’entrée. Si les données sont
dilatées ou compressées, en vue d’un effet musical, des discontinuités peuvent apparaître dans les
signaux changeants rapidement tels que les attaques et les transitions entre les notes. Ainsi, la
méthode diphone réordonne les données d’analyse d’une transition rapide dans une forme qui
permet des transitions continues, même lorsque les données sont soumises à l’articulation et aux
transformations du phrasé. Par exemple, la règle pour dilater ou compresser un diphone peut varier,
selon le diphone d’où l’on vient et le diphone vers lequel on va (Depalle, 1991). À l’intérieur de chaque
diphone existe une zone de non-interpolation qui est gardée intacte sans souci de la transition
(figure 24.21).
N I Transition I N I Transition I N
d’oscillateurs (en général de deux à six), là où les techniques additives et soustractives nécessitent
plusieurs fois cette quantité de puissance de calcul. La modulation est réalisée par quelques lectures
de tables, quelques multiplications, et quelques opérations d’addition, selon le type de modulation
désirée. Comme il y a moins de paramètres que dans les techniques additives ou soustractives, les
musiciens trouvent souvent que les techniques de modulation sont plus faciles à manipuler.
En changeant les valeurs de paramètre dans le temps, les techniques de modulation produisent
facilement des spectres variant dans le temps. Les modulations réglées avec soin génèrent des sons
riches et dynamiques qui s’approchent des sons naturels des instruments. Il est également possible
d’utiliser les modulations de façon non imitative, pour s’aventurer dans le domaine des sons syn-
thétiques non classés.
Dans cette présentation de la modulation, nous utiliserons un minimum de mathématique accom-
pagnée d’une quantité abondante de diagrammes d’instruments ou « patchs ». Ces diagrammes
décrivent les instruments de synthèse sous forme de configuration de générateurs élémentaires de
traitement du signal. Voir le chapitre 17 pour une présentation des générateurs élémentaires.
480 SYNTHÈSE SONORE
Le signal modulant peut varier d’une sinusoïde pure à une fréquence fixe jusqu’au bruit blanc
contenant toutes les fréquences. Voir le chapitre 32 pour plus de détails sur les modulations de bruit.
Cette distinction est importante, car la différence fondamentale entre la modulation en anneau et
la modulation d’amplitude est que la première module deux signaux bipolaires, tandis que la seconde
module un signal bipolaire avec un signal unipolaire. Les deux prochaines parties expliquent les deux
méthodes en détail.
CHAPITRE 25 – LA SYNTHÈSE PAR MODULATION 481
et M).
Les phases des composants du signal de sortie sont également la somme et la différence des phases
des deux entrées. Si P et M sont deux signaux plus complexes que des sinusoïdes, ou si leur fré-
quence change dans le temps, le spectre de sortie contient de nombreuses fréquences de sommes
et de différences. Un tracé spectral montrerait de nombreuses lignes, indiquant un spectre com-
pliqué.
(a) Fréquence
modulante
Amplitude
1.0
+1
OSC
MOD -1
Fréquence
Signal porteuse
bipolaire
+1
OSC
-1 POR
Sortie modulée
en anneau
Amplitude Amplitude
1.0 1.0
+1 +1
OSC OSC
POR MOD
-1 -1
Signal Signal
bipolaire bipolaire
Sortie modulée
en anneau
Amp.
400 Hz 1000 Hz
(M) (P)
Fréquence
(b) 500 Hz
(P + M)
100 Hz
(P)
Amp.
400 Hz
(M)
-300 Hz
(P - M)
© Dunod. Toute reproduction non autorisée est un délit.
quences identiques, puisque les composants déphasés peuvent atténuer ou supprimer les compo-
sants en phase.
25.2.2 Applications de la modulation en anneau
L’utilisation musicale de la modulation en anneau met en général en jeu la modification de signaux
porteurs échantillonnés (voix humaine, piano, etc.) par des modulantes sinusoïdales. Une autre
stratégie est de créer des sons purement synthétiques en utilisant des sinusoïdes en rapports soit
harmoniques soit inharmoniques. C’est cette approche que le compositeur James Dashow a utilisée
dans des pièces telles que Sequence Symbols (Dashow, 1987).
484 SYNTHÈSE SONORE
(a)
(b)
(a)
(b) 1
(c)
0
© Dunod. Toute reproduction non autorisée est un délit.
Temps
Comme la modulation en anneau, la MA génère une paire de bandes latérales pour chaque compo-
sant sinusoïdal de la porteuse et de la modulante. Les bandes latérales sont séparées de la porteuse
par une distance correspondante à l’inverse de la période de la modulante. La différence sonore entre
la modulation en anneau et la MA est que le spectre de celle-ci contient la fréquence de la porteuse
(figure 25.6). L’amplitude des deux bandes latérales augmente proportionnellement à la quantité
de modulation, mais n’excède jamais la moitié du niveau de la porteuse.
486 SYNTHÈSE SONORE
1000 Hz
600 Hz 1400 Hz
(P - M) (P + M)
Amp.
Fréquence
La figure 25.7 montre une vue temporelle de la MA créée par la modulation de sinusoïdes dans la
bande audio.
+1
(a)
-1
(b)
+1
(c)
-1
Figure 25.7 – Vue dans le domaine temporel d’une MA dans les fréquences audio.
Le signal sinusoïdal à 1 kHz de (a) est modulé par le signal sinusoïdal à 40 Hz de (b) pour produire
le signal modulé en amplitude de (c).
25.3.1 Instruments de MA
Pour implémenter la MA classique, on doit avoir un signal unipolaire comme modulante — située
dans le domaine positif entre 0 et 1. La figure 25.8a montre un instrument simple pour la MA où
la modulante est un signal unipolaire.
CHAPITRE 25 – LA SYNTHÈSE PAR MODULATION 487
Fréquence
modulante
Amplitude
1.0
1.0
OSC
MOD
0
Signal Fréquence
unipolaire
[0, 1] porteuse
Enveloppe d'index 1/durée
de modulation +1
1.0
1 OSC
POR
ENV -1
0
OSC
OSC
-1 MOD
1/durée
Signal 0.5
de modulation 1.0
bipolaire
ENV 0
Échelonneur OSC
positif Enveloppe
d'amplitude
globale
Signal Signal
+
unipolaire unipolaire
[0, 0.5] [0, 0.5]
Fréquence
Modulation
© Dunod. Toute reproduction non autorisée est un délit.
porteuse
positive
OSC
POR
Sortie MA (b)
Après des expériences effectuées avec soin pour explorer le potentiel de cette technique, Chowning
déposa un brevet pour l’implémentation de la MF. En 1975, la firme japonaise Nippon Gakki (Yamaha
Corporation) obtint une licence pour appliquer le brevet à ses productions. Après plusieurs années
de développements et d’améliorations de la technique de base (décrits plus loin), Yamaha présenta
le coûteux synthétiseur numérique GS1 (80 000 F, et vendu dans un boîtier en bois comme celui d’un
piano) en 1980. Mais ce fut l’introduction du synthétiseur bien connu DX7 (10 000 F) à l’automne
1983 qui rendit la MF synonyme de synthèse numérique pour des centaines de milliers de musiciens.
25.4.2 Modulation de fréquence et modulation de phase
La MF et la technique proche appelée modulation de phase (MP) représentent deux cas virtuellement
identiques de modulation angulaire (Black, 1953, p. 28-30). Les amplitudes des partiels générés
par les deux méthodes sont légèrement différentes, mais, dans la pratique, il n’existe pas de grande
différence entre MP et MF, particulièrement dans le cas des spectres variant dans le temps. Nous
ne parlerons donc pas plus de la MP dans ce livre. Néanmoins, une variation appelée distorsion de
phase est expliquée plus loin dans ce chapitre. Pour plus de détails sur la distinction entre MP et MF,
voir Bate (1990), Holm (1992), et Beauchamp (1992).
25.4.3 MF simple
Dans la technique de modulation de fréquence de base (appelée MF simple ou MF Chowning), un
oscillateur porteur est modulé en fréquence par un oscillateur modulant (Chowning, 1973, 1975).
Fréquence
modulante
Amplitude
de la modulante
OSC
MOD
Fréquence
porteuse
+
© Dunod. Toute reproduction non autorisée est un délit.
Amplitude
de la porteuse
OSC
POR
Signal de sortie MF
La figure 25.9 montre un instrument de MF simple. Il existe un léger écart entre les amplitudes des
composants spectraux émis par l’instrument montré à la figure 25.9 et le spectre décrit par la formule
de la MF classique, présentée plus loin. Cependant, ces différences sont mineures. Pour un résumé,
voir Holm (1992) et Beauchamp (1992).
Si l’on examine le spectre montré à la figure 25.10, nous pouvons immédiatement voir la différence
entre les méthodes de modulation en anneau, de MA et de MF. Au lieu de n’avoir que des bandes
latérales de somme et de différence, la MF de deux sinusoïdes génère une série de bandes latérales
autour de la fréquence de la porteuse P. Chaque bande latérale apparaît à une distance égale à un
multiple de la fréquence de la modulante M. Nous verrons plus tard le nombre de bandes latérales ;
il suffit pour l’instant de dire que le nombre de bandes latérales dépend de la quantité de modulation
appliquée à la porteuse.
Figure 25.10 – Spectre MF montrant des bandes latérales espacées de façon égale
autour de la porteuse P à des multiples de la modulante M.
Lorsque P:M n’est pas un rapport entier, tel que 8:2,1 (comme dans les cas de deux signaux à 800
et 210 Hz), la MF génère un spectre inharmonique (multiples non entiers de la porteuse et de la
modulante) :
P = 800 Hz (porteuse)
P + M = 1 010 Hz (somme)
P + (2 × M) = 1 120 Hz (somme)
P + (3 × M) = 1 230 Hz… (somme)
P – M = 590 Hz (différence)
P – (2 × M) = 380 Hz (différence)
P – (3 × M) = 170 Hz… (différence)
(a)
(b)
(c)
© Dunod. Toute reproduction non autorisée est un délit.
(d)
(e)
0.5
Amp. 0
-0.5
100 200 300 400 500 600 700
Fréquence
Figure 25.12 – Tracé spectral montrant les effets des bandes latérales
de basse fréquence reflétées. Le rapport P:M est 1: 2 , et l’index de modulation 5. Les lignes
orientées vers le bas indiquent la présence de composants reflétés en inversion de phase (d’après
Chowning, 1973).
CHAPITRE 25 – LA SYNTHÈSE PAR MODULATION 493
dire que la forme d’onde se retourne par rapport à l’axe des x, et donc que la partie positive de la
sinusoïde devient négative, et inversement. Des partiels en inversion de phase sont dessinés sous
forme de lignes se dirigeant vers le bas, comme dans la figure 25.12. En général, les composants
fréquentiels négatifs ajoutent de la richesse à la portion la plus basse du spectre, mais si les compo-
sants négatifs se superposent exactement avec des composants positifs, ils se suppriment mutuel-
lement.
25.4.7 Formule de la MF
Lorsque la porteuse et la modulante sont deux sinusoïdes, la formule pour connaître le signal modulé
en fréquence MF à l’instant t est la suivante :
MF t = A × sin [ P t + ( I × sin ( M t ) ) ]
où A est l’amplitude pic de la porteuse, Pt = 2π × P, Mt = 2π × M, et I est l’index de modulation.
Comme le montre la formule, la MF simple est assez efficace, ne demandant que deux multiplica-
tions, une addition, et deux lectures de tables. Les lectures de tables renvoient à des sinusoïdes
stockées en mémoire.
MF t = ∑ J n ( I ) × sin { 2π × [ f c ± ( n × f m ) ] }t
n = –∞
Chaque n est un partiel individuel. Ainsi, pour calculer l’amplitude du troisième partiel, nous multi-
plions la troisième fonction de Bessel au point I, c’est-à-dire J3(I), par deux sinusoïdes sur chaque côté
de la fréquence porteuse. Les composants fréquentiels bas et impairs sont en inversion de phase.
La figure 25.13 montre les fonctions de Bessel dans une représentation tridimensionnelle pour
n = 1 à 15, avec un index de modulation allant de 0 à 20. L’axe vertical (la surface ondulante) montre
comment les amplitudes des bandes latérales varient lorsque l’index de modulation change. La figure
© Dunod. Toute reproduction non autorisée est un délit.
montre que, lorsque le nombre de bandes latérales est faible (à l’arrière du tracé), les variations
d’amplitude sont fortes. Lorsque le nombre de bandes latérales augmente (à l’avant du tracé),
les variations d’amplitude sont plus faibles.
D’un point de vue musical, la propriété importante est que chaque fonction de Bessel ondule comme
une sinusoïde amortie — grosses variations pour I faible, et petites variations pour I élevé. La MF
simple est marquée de façon audible par cette ondulation lorsque l’on modifie l’index de modulation.
Remarquez également que Jn(I) pour différentes valeurs de n traverse l’axe des zéros à différentes
valeurs de I. Ainsi, lorsque l’on modifie l’index de modulation I, les bandes latérales apparaissent
et disparaissent de façon quasi aléatoire.
Une des caractéristiques pratiques de la MF est que l’amplitude maximale et la puissance du signal
n’ont pas à varier avec I. Cela signifie que lorsque I augmente ou décroît, l’amplitude du son ne varie
pas de façon significative. Musicalement, cela signifie que l’on peut manipuler indépendamment
l’amplitude et l’index de modulation en utilisant des enveloppes séparées, et cela, sans se soucier
de savoir si la valeur d’I va influer sur l’amplitude globale. Comme nous le verrons plus tard dans
494
point de coupure pour les bandes latérales « significatives d’un point de vue perceptuel ». E est l’amplitude maximum pour chaque ordre. Les lignes F à K
montrent les traversées du point zéro, et donc les valeurs de l’index produisant une amplitude nulle pour les bandes latérales.
SONORE
CHAPITRE 25 – LA SYNTHÈSE PAR MODULATION 495
ce chapitre, ceci n’est pas le cas avec d’autres techniques de synthèse, notamment la distorsion non
linéaire et les formules d’addition discrète. Ces techniques nécessitent une normalisation d’ampli-
tude puisque la modulation peut influer sur l’amplitude de sortie de façon radicale.
1/durée
Enveloppe d'index 1.0
de modulation
1
ENV
OSC Fréquence
0 modulante M
Index
de modulation I
×
Forme d'onde
Déviation D de modulation
1
OSC
MOD -1
1/durée
Enveloppe Fréquence
de la porteuse 1.0 porteuse
1
ENV
+
© Dunod. Toute reproduction non autorisée est un délit.
0
OSC
Forme d'onde
de la porteuse
1
OSC
POR -1
Sortie
celui-ci décrit une variation de cet instrument avec un index de modulation qui varie entre deux
valeurs I1 et I2 selon une enveloppe. Voir Maillard (1976) pour une autre implémentation.
25.4.11 MF exponentielle
Dans les implémentations numériques usuelles de la MF, les bandes latérales sont réparties à dis-
tances égales autour de la fréquence de la porteuse. Nous appelons cela la MF linéaire. Quoi qu’il en
soit, dans certains synthétiseurs analogiques, l’espacement des bandes latérales est asymétrique,
ce qui crée un type de son différent. Nous appelons cela la MF exponentielle. Cette partie explique
la différence entre ces deux implémentations de la MF.
La plupart des synthétiseurs analogiques possèdent un oscillateur contrôlé par tension (VCO pour
Voltage-Controlled Oscillator) modulé en fréquence par un autre oscillateur. Quoi qu’il en soit,
afin de permettre un contrôle par clavier du VCO qui soit de tempérament égal, celui-ci répond à
une tension donnée dépendante de la fréquence. En particulier, un VCO répond à un protocole d’un
volt par octave, ce qui correspond au protocole tension/octave des claviers analogiques. Dans un tel
système un La de 880 Hz sera obtenu en appliquant un volt supplémentaire à l’entrée de contrôle
du VCO par rapport à la tension nécessaire pour obtenir un La 440.
Dans le cas de la MF, un signal modulant variant entre –1 et +1 V fait que la porteuse établie à
La 440 varie entre La 220 et La 880. Ceci signifie qu’elle module de 220 Hz vers le bas et de 440 Hz
vers le haut, une modulation asymétrique. La fréquence centrale moyenne de la porteuse change,
ce qui signifie en général que la hauteur centrale perçue est désaccordée d’un intervalle significatif.
Ce désaccordage est causé par l’index de modulation, ce qui signifie que largeur de bande et fré-
quence centrale sont liées. D’un point de vue musical ce lien n’est pas idéal. Il est souhaitable de
CHAPITRE 25 – LA SYNTHÈSE PAR MODULATION 497
pouvoir augmenter l’index de modulation sans changer la fréquence centrale. Voir Hutchins (1975)
pour une analyse de la MF exponentielle.
Dans la modulation numérique, les bandes latérales sont à distances égales autour de la porteuse,
d’où le terme de MF linéaire. Lorsque l’index de modulation augmente, la fréquence centrale reste
la même. Toutes les MF numériques sont linéaires, et il existe même un constructeur, Serge Modular,
qui produit un module d’oscillateur analogique MF linéaire.
25.4.12 Analyse et MF
Comme les techniques MF peuvent créer de nombreuses familles différentes de spectres, il pourrait
être utile de posséder un processus d’analyse/resynthèse lié à la MF, similaire à ceux utilisés dans les
techniques additives et soustractives. Un tel processus pourrait prendre un son existant et le traduire
en valeurs de paramètres pour un instrument de MF. En envoyant ces valeurs dans l’instrument,
nous pourrions entendre une approximation de ce son par la synthèse MF. Le nom pour ce type de
processus est en général l’estimation de paramètres (voir le chapitre 13). Différentes tentatives ont
été effectuées pour essayer de faire une approximation d’un spectre fixe donné en utilisant automati-
quement la MF (Justice, 1979 ; Risberg, 1982). Le problème de l’estimation des paramètres de MF
pour des sons complexes en évolution est difficile (Kronland-Martinet et Grossmann, 1991 ; Horner,
Beauchamp et Haken, 1992).
Comme la puissance du matériel numérique n’a cessé d’augmenter, les motivations originelles pour
l’estimation des paramètres de MF ont diminué. La synthèse MF était à l’origine proposée comme
une méthode efficace du point de vue du calcul, mais d’autres techniques de synthèse plus puissantes
(comme la synthèse additive) ne sont plus aussi difficiles. Seuls certains sons sont correctement
modelés avec la modulation. Les synthèses additives et par modèles physiques (chapitre 26) sont
sans doute des modèles plus appropriés des instruments traditionnels.
voix humaine et de la plupart des instruments traditionnels. Une autre justification des systèmes
Porteuse 1
fondamentale
Porteuse 2
Porteuse 3
Amp.
Fréquence
utilisant des porteuses séparées est de pouvoir établir des retards différents pour chaque région for-
mantique. Cela est pratique pour simuler des sons de cuivres dans lesquels les partiels supérieurs
s’éteignent plus rapidement que les partiels inférieurs.
La figure 25.16 montre un instrument MF à trois porteuses. Afin d’indiquer clairement la struc-
ture à multiples porteuses, la figure omet les contrôles d’enveloppe et les tables de forme d’onde.
Les amplitudes des porteuses sont indépendantes. Lorsque les amplitudes Porteuse 2 et Porteuse 3
sont des fractions de Porteuse 1, l’instrument génère des régions formantiques autour des fréquen-
ces de la seconde et de la troisième porteuse.
Fréquence
modulante
Déviation
de fréquence
OSC
MOD
+ + +
Amp. Amp. Amp.
L’équation d’une forme d’onde MF à multiples porteuses au temps t est simplement l’addition de
n équations MF simples :
MFMP t = A w1 × sin [ P 1t + ( I 1 × sin ( M ) ) ] … + A wn × sin [ P nt + ( I n × sin ( M ) ) ]
où : A est une constante d’amplitude, 0 < A = 1,0 ;
w1 est le poids de la Porteuse 1 ;
wn est le poids de la Porteuse n ;
P1 est la hauteur fondamentale = 2π × fréquence de la porteuse 1 (en Hz) ;
CHAPITRE 25 – LA SYNTHÈSE PAR MODULATION 499
Ainsi, pour une hauteur de 440 Hz, V est égal à environ 1,2 %, soit 5,3 Hz de profondeur. La fré-
quence du vibrato s’étend de 5 à 6,5 Hz pour le domaine de fréquences de fondamentales se situant
entre Fa3 et Fa6.
(a) (b)
Fréquence Fréquence Fréquence
Mod. 1 Mod. 2 Mod. 1
Amplitude Amplitude
Mod. 1 Mod. 2 Amplitude
Mod. 1
OSC OSC
MOD 1 MOD 2 OSC
Fréquence MOD 1
centrale
Mod. 2
+
+
Amplitude
Fréquence Mod. 2
porteuse
OSC
+ Fréquence
centrale
MOD 2
porteuse
Amplitude
porteuse
OSC
+
POR Amplitude
porteuse
OSC
Sortie MF MM parallèle POR
Sortie MF MM en série
25.6.1 MF MM parallèle
En MF MM parallèle, deux sinusoïdes modulent simultanément une autre sinusoïde porteuse. La
modulation génère des bandes latérales à des fréquences selon l’équation suivante :
P ± ( i × M1 ) ± ( k × M2 )
où i et k sont des nombres entiers et M1 et M2 sont les fréquences de modulation. La MF MM paral-
lèle se conduit comme si chaque bande latérale produite par les modulantes était elle-même modulée
comme une porteuse par l’autre modulante. L’explosion du nombre des partiels est claire dans la
figure 25.18, qui établit une liste des produits de modulation primaires et secondaires.
L’équation d’onde du signal MF à double modulante en parallèle au temps t est la suivante :
MFMMP t = A × sin [ P t + ( I 1 × sin ( M 1t ) ) + ( I 2 × sin ( M 2t ) ) ]
CHAPITRE 25 – LA SYNTHÈSE PAR MODULATION 501
MF
MF MF MF MF MF MF MF
Pour des descriptions mathématiques du spectre produit par cette classe de techniques, voir
Schottstaedt (1977) et Le Brun (1977).
25.6.2 MF MM en série
Dans la MF MM en série, la sinusoïde modulante M1 est elle-même modulée par M2. Ceci crée une
onde modulée compliquée avec un nombre potentiel de bandes latérales sinusoïdales immense, selon
l’index de modulation. L’amplitude instantanée de la MF à double modulante en série est donnée
par l’équation suivante, adaptée d’après Schottstaedt (1977) :
MFMMP t = A × sin { P t + [ I 1 × sin ( M 1t + [ I 2 × sin ( M 2t ) ] ) ] }
© Dunod. Toute reproduction non autorisée est un délit.
Les différences entre les équations en parallèle et en série reflètent la configuration des oscillateurs.
En pratique, I2 détermine le nombre de bandes latérales significatives dans le signal modulant et I1
détermine le nombre de bandes latérales dans le signal de sortie. Même de petites valeurs de I1 et I2
créent des formes d’onde complexes. Le rapport M1:P détermine le placement des bandes latérales
de la porteuse, chacune ayant elle-même ses propres bandes latérales à des intervalles déterminés
par M2:M1. Ainsi, chaque bande latérale est à la fois modulée et modulante.
Schottstaedt rendit les amplitudes des index de modulation dépendantes de la fréquence. C’est-à-dire
que, lorsque la fréquence de la porteuse augmente, l’index de modulation décroît. Le résultat est
un spectre riche dans le registre bas, mais qui devient plus simple lorsque la hauteur augmente.
Puisque la longueur de la chute d’un son de piano varie également avec la hauteur (les sons graves
ont une chute plus longue), il utilisa une longueur de chute dépendante de la fréquence.
Chowning et Schottstaedt ont également travaillé sur la simulation de sons d’instruments à cordes,
en utilisant de la MF à triple modulante, où le rapport P:M1:M2 était 1:3:4, et où les index de modu-
lation étaient dépendants de la fréquence (Schottstaedt, 1977). Chowning a également développé
une voix de basse profonde en utilisant un instrument combinant MF MP et MF MM. Voir Chowning
(1980, 1989) pour plus de détails sur cet instrument.
(a) (b)
(c) (d)
(e) (f)
© Dunod. Toute reproduction non autorisée est un délit.
(g) (h)
(i) (j)
(k) (l)
phase est le signal de sortie sin(y). Dans un synthétiseur, x est en général obtenu en enfonçant la
touche d’un clavier musical. Cette pression est traduite en grande valeur d’incrément de phase
pour une note aiguë ou en petite valeur d’incrément de phase pour une note grave.
Dans la MF bouclée, le signal de sortie sin(y) est réinjecté dans l’additionneur après avoir été mul-
tiplié par le facteur de bouclage β. Le facteur β agit comme une sorte de fonction d’échelonnage ou
« index de modulation » pour la boucle. Avec le bouclage, l’adresse de l’échantillon suivant est
x + [β × sin(y)].
La figure 25.21 trace le spectre d’un instrument de MF bouclée à un oscillateur, avec β en augmen-
tation. Remarquez l’augmentation du nombre de partiels, et les différences d’amplitude régulières,
incrémentielles entre les partiels, contribuant toutes à la construction quasi linéaire du spectre. En
CHAPITRE 25 – LA SYNTHÈSE PAR MODULATION 505
Index de
modulation
β
×
Fréquence β × sin(y)
x
+
Amplitude y
OSC
sin(y)
augmentant la modulation, le signal évolue d’une sinusoïde à une onde en dent-de-scie de façon
continue.
L’équation de la MF bouclée à un oscillateur peut être caractérisée par référence aux fonctions de
Bessel (Tomisawa, 1981) :
∞
2
MFB t = ∑ -----------
n×β n
- × J ( n × β ) × sin ( n × x )t
n–1
où Jn(n) est une fonction de Bessel d’ordre n et n × β est l’index de modulation. Les fonctions de
© Dunod. Toute reproduction non autorisée est un délit.
Bessel agissent de façon différente dans la MF bouclée et dans la MF simple. Dans cette dernière,
l’index de modulation I est commun pour tous les composants de Bessel Jn(I). Ceci signifie que
chaque valeur de fonction de Bessel Jn(n) est représentée par une hauteur à une position où les
index de modulation communs se croisent. En conséquence, lorsque l’index de modulation de la
MF régulière augmente, l’enveloppe spectrale prend un caractère ondulant. Dans la MF bouclée,
l’ordre n de la fonction de Bessel Jn(n × β) est inclus dans l’index de modulation, et le facteur
2/(n × β) est multiplié comme coefficient de l’équation de Bessel (Mitsuhashi, 1982a).
Dans la MF bouclée, l’index de modulation n × β diffère pour chaque ordre n et augmente approxi-
mativement à la façon d’une fonction monotone (c’est-à-dire que l’augmentation se fait selon un
facteur constant). Le coefficient d’échelonnage 2/(n × β) assure que lorsque l’ordre n des partiels
augmente, l’amplitude de ceux-ci décroît.
506 SYNTHÈSE SONORE
Fréquence
modulante x1
+
Amplitude
OSC
MOD
×
M
Fréquence
porteuse
×
x2
© Dunod. Toute reproduction non autorisée est un délit.
+
Amplitude
porteuse
OSC
POR
même spectre qu’un instrument de MF bouclée à un oscillateur, comme cela est montré à la
figure 25.20.
Lorsque le rapport entre x2 (la porteuse) et x1 (la modulante) est 2:1, l’index de modulation M est 1,
et β varie entre 0,09 et 1,571, le résultat d’une variation continue entre une onde quasi sinusoïdale
et une onde quasi carrée.
élaborations théoriques et empiriques de la méthode de base. La distorsion non linéaire est intéres-
sante musicalement, car, comme dans la synthèse MF, elle offre une manipulation simple de la largeur
de bande et du spectre variant dans le temps d’un son, et ceci, de façon efficace du point de vue du
calcul.
L’idée fondamentale derrière la distorsion non linéaire est de faire passer un signal sonore x à travers
une « boîte de distorsion ». Sous forme numérique, la boîte de distorsion est une fonction d’une table
stockée dans la mémoire de l’ordinateur. La fonction w relie n’importe quelle valeur x du domaine
[–1, +1] à une valeur de sortie w(x) du même domaine.
Dans le cas le plus simple, x est une sinusoïde générée par un oscillateur. Mais x peut être n’importe
quel signal, pas seulement une sinusoïde. Pour chaque échantillon de sortie devant être calculé,
nous utilisons la valeur de x pour indexer la table w. Celle-ci contient la fonction de distorsion
(également appelée fonction de transfert). Nous n’avons plus qu’à prendre la valeur dans w indexée
par x comme valeur de sortie w(x).
510 SYNTHÈSE SONORE
β1
Fréquence x1
×
+
Amplitude
OSC
MOD1
β2
Fréquence x2
×
+
Amplitude
OSC
MOD2
β3
Fréquence x3
×
+
Amplitude
OSC
POR
(a) (b)
Figure 25.25 – Formes d’onde dans la synthèse par distorsion de phase de Casio.
La forme d’onde audio change lorsque le taux de lecture d’une table sinusoïdale varie. (a) Un taux
de lecture constant génère une sinusoïde. (b) Une lecture dont le taux change deux fois par cycle
crée par distorsion de la sinusoïde une forme d’onde proche d’une dent-de-scie.
w relie une entrée de –1 (en bas de la fonction) à –1 à la sortie (à la droite de la fonction), que 0 est
relié à 0, 1 à 1, et ainsi de suite. Puisque cette relation simple entre l’entrée et la sortie ne survient
que lorsque la fonction de distorsion est une droite diagonale, nous disons dans ce cas que la sortie
est la fonction linéaire de l’entrée.
Si la table de distorsion contient autre chose qu’une droite diagonale allant de –1 à +1, x est distordu
par la fonction de distorsion dans w. La figure 25.28 montre les effets de plusieurs fonctions de dis-
torsion sur une sinusoïde en entrée. La figure 25.28a montre une fonction de distorsion en inversion.
Pour chaque valeur positive de l’amplitude d’entrée, la distorsion non linéaire émet une valeur
négative correspondante et vice versa. La figure 25.28b est une droite ayant un angle plus étroit que
la courbe de la figure 25.27. Elle relie dans un domaine plus étroit sur le côté droit (sortie) de la
fonction de distorsion, ce qui atténue le signal d’entrée. La figure 25.28c augmente les signaux de
faible niveau et écrête les signaux de niveau élevé. La sensibilité à l’amplitude de la distorsion non
linéaire est bien claire dans la figure 25.28d. La fonction de distorsion est une droite autour de zéro,
ce qui correspond à la partie de faible amplitude de la grille. Une telle fonction fait passer les
512 SYNTHÈSE SONORE
1/durée
Amplitude
1
ENV
0 OSC
α Fréquence
1.0
OSC
-1.0
αx
Fonction
de distorsion W
W (αx )
Signal de sortie distordu
+1
w
0 Sortie
-0.4
-1
-1 -0.4 0 +1
Entrée
(a) (b)
+1.0 +1.0
Signal de sortie Signal de sortie
W
W
-1.0 -1.0
-1.0 +1.0 -1.0 +1.0
(c) (d)
+1.0 +1.0
Signal de sortie Signal de sortie
W W
-1.0 -1.0
-1.0 +1.0 -1.0 +1.0
signaux d’entrée de faible amplitude sans distorsion. Lorsque l’amplitude augmente, les extrémités
© Dunod. Toute reproduction non autorisée est un délit.
d’appliquer différentes régions de la fonction de distorsion. Ainsi, la distorsion non linéaire est réel-
lement une technique de synthèse efficace. Arfib (1979) donne des exemples pratiques de distorsion
non linéaire dans des applications musicales spécifiques.
T0 = 1
T1 = x
T2 = 2x2 – 1
T3 = 4x3 – 3x
T4 = 8x4 – 8x2 + 1
T5 = 16x5 – 20x3 + 5x
Un des avantages de l’utilisation des fonctions de Chebychev est la garantie que la sortie de la tech-
nique de distorsion non linéaire sera limitée en fréquences. C’est-à-dire qu’elle ne contient pas de
CHAPITRE 25 – LA SYNTHÈSE PAR MODULATION 515
fréquences situées au-dessus de la fréquence de Nyquist, ce qui évite donc tout effet de repliement.
Le tableau 25.1 fait une liste des équations de T0 à T8 où x = cosq.
La technique de distorsion non linéaire classique — envoyer une onde en cosinus à travers une
fonction de distorsion de polynômes de Chebychev — produit un spectre harmonique. Nous pouvons
étendre ce spectre de distorsion non linéaire en changeant l’entrée ou la fonction de distorsion.
Une autre possibilité est de modifier le signal sortant de l’instrument de distorsion grâce à un autre
moyen de traitement du signal, tel qu’un filtre.
Comme nous l’avons précédemment mentionné, l’entrée x de la distorsion peut être n’importe quel
signal, et pas seulement une onde en cosinus. Reinhard (1981) par exemple, détaille ce qui se passe
lorsque x est la somme de deux ondes en cosinus avec différentes fréquences. Une autre variation
est d’utiliser un signal modulé en fréquence comme entrée. Grâce à cela, nous pouvons obtenir des
combinaisons inharmoniques de partiels et de structures formantiques (Arfib, 1979).
Le signal x peut également être un son concret ou échantillonné. Lorsque la fonction de distorsion
w est un polynôme simple, l’effet ressemble au phasing, puisque les harmoniques d’entrée ondulent
dans le temps. Ainsi, un instrument de distorsion non linéaire peut générer des hybrides intéressants
516 SYNTHÈSE SONORE
Fréquence 1/durée
Amplitude Amplitude
1.0 1
OSC ENV
-1.0 0 OSC
x α
×
αx
Fonction Fonction
de distorsion W de normalisation
d'amplitude N
W(αx) N(α)
×
W(αx) × N(α)
Signal distordu normalisé
sous le nom de modulation de paramètres de forme d’onde. Par exemple, les modulations d’amplitude
et de fréquence peuvent être classifiées comme techniques de modulation de paramètres de forme
d’onde. Pour plus d’informations sur les schémas de classification, voir Mitsuhashi (1980).
James A. Moorer (1976) montra que l’équation de la MF simple est un exemple d’une classe géné-
rale d’équations appelées formules de somme discrète (FSD). Les FSD font référence à un ensemble
de formules qui sont la solution sous forme fermée des sommes de la série trigonométrique finie et
infinie. « Forme fermée » signifie la représentation plus compacte et plus efficace d’une formule
d’addition plus longue. Ces formules sont applicables à la synthèse du son si l’on considère qu’elles
décrivent des formes d’onde constituées de sinusoïdes additionnées. Par exemple, la partie droite
de l’équation suivante est la solution sous forme fermée de l’addition montrée dans la partie gauche :
n
Cette équation montre que l’on peut représenter la somme de n sinusoïdes avec seulement cinq multi-
plications, trois divisions, et trois opérations de lecture de table. En tant qu’équations sous forme
fermée, les FSD ne manipulent qu’un nombre limité de paramètres et peuvent être réalisées de façon
économique sous forme numérique. L’article de Moorer décrit quatre FSD prometteuses quant à la
synthèse du son. Il existe une classe plus large de FSD (Hansen, 1975), mais la plupart d’entre elles
ne sont probablement pas utiles en synthèse musicale.
Certaines FSD peuvent générer des sons variant dans le temps, ayant un spectre ressemblant à ceux
produits par la MF. Moorer a également décrit des FSD générant des spectres impossibles à obtenir
avec la MF simple, tel qu’un spectre unilatéral dont les partiels ne s’étendent que d’un côté de la fré-
quence de la porteuse. Une autre famille de spectres possibles avec les FSD est celle comportant des
partiels dont les amplitudes augmentent selon un facteur constant.
Un désavantage des FSD comparées à la MF est l’absence de normalisation d’amplitude. Il est ainsi
nécessaire d’appliquer une sorte d’échelonnage ou de normalisation à la sortie de l’algorithme de
synthèse FSD. Voir la présentation de la normalisation dans la partie sur la distorsion non linéaire.
Les lecteurs possédant un certain bagage technique et souhaitant approfondir les méthodes FSD
pourront se pencher sur les articles de Moorer (1976, 1977) ou de Moore (1990).
25.11 Conclusion
La modulation du signal est une source riche d’effets et de sonorités musicales. Les modulations
d’amplitude et en anneau ont une longue histoire due à leurs applications dans le domaine des trans-
missions radio. Dans le domaine audio, elles génèrent des sons « radio » classiques. Elles sont cepen-
dant plus limitées que la MF, en partie parce qu’elles ne génèrent pas autant de bandes latérales, et
en partie à cause de la flexibilité des paramètres MF. Dans le cas de cette dernière, de patientes années
de recherche par des douzaines d’ingénieurs aux États-Unis et au Japon ont apporté un grand
nombre de raffinements. Les musiciens ont investi un grand nombre d’heures de travail pour établir
les paramètres des instruments de MF, afin de créer des « voix » ou des timbres intéressants.
L’un des inconvénients des techniques de modulation de base est inhérent aux formules de la modu-
lation. Le spectre des sons générés par les techniques de modulation est limité par les lois mathé-
matiques à quelques types de comportements préétablis. En pratique, cela signifie que chaque type
de modulation simple possède une « signature » sonore caractéristique qui peut être reconnue après
une certaine expérience de la technique. Selon l’habileté du compositeur, cette signature peut être
soit un cliché gênant, soit une force musicale attrayante. Dans cette dernière catégorie, la musique
de film électronique que Louis et Bebe Barron ont composée pour le film Planète interdite (1956) reste
un exemple remarquable d’utilisation musicale de la modulation. Dans le futur, des techniques de
synthèse plus élaborées seront développées, mais il restera quelque chose de profondément évocateur
dans la modulation utilisée artistiquement.
Chapitre 26
La synthèse
par modèles physiques
système. Dans ce sens, un modèle physique personnifie l’idéal newtonien de modèle mathématique
précis d’un processus mécanique et acoustique complexe. Pour une introduction à la physique des
ondes dans les systèmes mécaniques et acoustiques, voir Pierce (1974), Crawford (1968) ou Olson
(1991).
Le second but des MP est artistique. La simulation par modèles physiques peut créer des sons
d’instruments imaginaires qui seraient impossibles à construire autrement. Dans cette catégorie
nous incluons les instruments fantasmagoriques dont les caractéristiques et la géométrie peuvent
varier au cours du temps — un violoncelle élastique qui se « dilaterait » et se « contracterait » pendant
la durée d’une phrase, ou des tambours impossibles dont les peaux ne pourraient être détruites,
quand bien même elles seraient frappées avec une grande force. Les techniques MP sont souvent
échelonnables, ce qui permet, à partir de la description d’un gong, de fabriquer un ensemble de
douzaines de gongs ayant par exemple des diamètres entre 30 cm et 30 m. En extrapolant les spé-
cifications d’une seule corde, un musicien peut construire une guitare virtuelle dont les cordes sont
aussi longues et aussi épaisses que les câbles de suspension d’un pont. À la grande joie des alchimistes
520 SYNTHÈSE SONORE
de la musique, changer les matériaux de construction — de l’argent au cuivre, aux bois exotiques,
au plastique — peut être aussi simple que de rentrer quelques constantes.
Les MP excellent dans la simulation des transitions entre notes et timbres. En changeant dynamique-
ment la taille de certaines parties d’un instrument virtuel — en allongeant par exemple un tube
résonateur —, des transitions sonores crédibles sont souvent produites. Une autre caractéristique
des MP est qu’ils capturent les incidents survenant au cours de l’interprétation, tels que les couacs,
les blocages de mode et les multiphoniques. Ces sons restent imprévisibles lorsqu’un interprète
débutant essaie de les jouer, mais lorsqu’ils sont utilisés de façon contrôlée ils injectent une dose
de réalisme dans la simulation. Dans la synthèse MP, ces sons apparaissent naturellement, comme
effets secondaires lors de certains réglages de paramètres. Comparez cela à la synthèse additive,
dans laquelle des spécifications détaillées doivent être données pour chaque aspect du son.
Les méthodes de synthèse MP n’essaient pas de créer un modèle physique « complet » d’un instru-
ment. Plutôt que de tenir compte de toutes les conditions possibles de l’existence d’un instrument,
elles ne retiennent la physique de celui-ci que dans les conditions extrêmement contenues de l’inter-
prétation. Lors de celle-ci, le musicien n’effectue qu’un petit nombre de gestes idiomatiques sur
l’instrument. Cette information de contrôle de largeur de bande relativement faible peut être en général
représentée de façon concise dans un programme.
Tyndall, 1875 ; Mayer, 1878). Après l’invention de la lampe, des modèles analogiques électroniques
furent construits (Steward, 1922 ; Miller, 1935 ; Stevens et Fant, 1953). Voir Olson (1967) pour des
modèles physiques à circuits analogiques d’instruments de percussion, des instruments à anche,
des instruments à cordes frappées et de la voix. Mais les progrès furent lents avant l’arrivée de
l’ordinateur.
John Kelly et Carol Lochbaum aux Bell Telephone Laboratories furent des pionniers dans l’adaptation
d’un modèle physique de la voix humaine sur un ordinateur numérique (Kelly et Lochbaum, 1962).
Leur interprétation de Bicycle Built for Two, qui apparut sur le disque des Bell Telephone Laboratories
Music from Mathematics produit par Max Mathews en 1960 devint un symbole mondial de la capacité
croissante des ordinateurs. Le film de Stanley Kubrick 2001 : l’odyssée de l’espace fait référence à cet
exploit lorsque l’ordinateur HAL régresse jusqu’à ses premiers jours et chante une chanson. La version
du film fut cependant chantée par un humain.
Lejaren Hiller, James Beauchamp et Pierre Ruiz à l’université de l’Illinois furent les premiers à
adapter les modèles physiques à la synthèse des instruments (Hiller et Beauchamp, 1967 ; Ruiz,
1970 ; Hiller et Ruiz, 1971). Leur travail était centré sur la synthèse du son d’objets vibrants tels que
des cordes, des barres, des plaques, et des membranes, mises en mouvement par pincement et frap-
pement. Un autre pionnier de la synthèse par modèles physiques est Ercolino Ferreti, qui dirigea
des travaux d’étudiants au MIT, à l’université de Harvard et à l’université de l’Utah dans les années
1960 et 1970 (Ferreti, 1965, 1966, 1975).
L’intérêt dans l’application des guides d’onde à la synthèse fut provoqué par la découverte de
l’algorithme de corde pincée de Karplus-Strong décrit plus loin dans ce chapitre. Cette méthode,
efficace du point de vue du calcul, arriva plus comme un accident que comme une tentative inten-
tionnelle de modèles physiques (Karplus et Strong, 1983 ; Jaffe et Smith, 1983). Keefe (1992) fait un
résumé des développements survenus depuis 1963 (voir également Fletcher et Rossing, 1991). En
1993, la compagnie Yamaha présenta des synthétiseurs commerciaux basés sur les guides d’onde,
le VL1 et le VP1.
mais également la façon dont l’instrument est excité. Si vous prenez une trompette et que vous la frappez
avec un marteau, le son sera percussif. Si vous prenez une caisse claire et que vous l’excitez avec un
vibrateur, le son sera harmonique. (Bernie Hutchins, 1984)
Un principe fondamental de la synthèse par modèles physiques est l’interaction entre un excitateur
et un résonateur. Une excitation est une action qui provoque des vibrations, telles qu’un coup d’archet,
un coup de baguette, ou un souffle d’air. Une résonance est la réponse du corps d’un instrument à
la vibration excitatrice. Du point de vue du traitement du signal, le corps agit comme un filtre variant
dans le temps appliqué au signal excitateur.
En général, l’excitateur a un comportement non linéaire, et le résonateur a un comportement linéaire.
Pour expliquer intuitivement un système acoustique « linéaire », nous pouvons dire qu’il répond
proportionnellement à la quantité d’énergie qu’on lui applique. Si nous mettons deux signaux dans
un tel système, nous pouvons espérer que la sortie sera leur somme. Un système « non linéaire »
possède des seuils intégrés qui, s’ils sont dépassés, font en sorte que le système répond différemment,
comme si un interrupteur avait été actionné.
522 SYNTHÈSE SONORE
Les interactions excitateur/résonateur appartiennent à deux classes de base : découplée (ou alimenta-
tion directe) et couplée (ou alimentation rétroactive). Dans les techniques de synthèse soustractives
comme le codage prédictif linéaire (voir le chapitre 24), la source ou signal excitateur est injectée
dans un filtre résonant. Il n’existe pas d’autre interaction entre le signal et l’excitation que le transfert
d’énergie entre excitateur et résonateur.
Par contraste, le mécanisme de la production du son dans un saxophone est un exemple d’excitation
couplée. Ceci signifie que la partie résonante est réintroduite dans la partie excitatrice. Par exemple,
la fréquence de l’anche vibrante est fortement influencée par la réintroduction acoustique du tube
résonateur de l’instrument, après avoir été initialement excitée par le souffle de la bouche.
L’interaction entre l’excitation et la résonance crée la variété et la subtilité du son que l’on entend
lors des interprétations de virtuoses. Comme les techniques MP peuvent modeler cette interaction,
elles tendent à communiquer une sensation de geste lors de l’émission sonore (Florens et Cadoz,
1991 ; Adrien, 1991). Ceci est différent des méthodes de synthèse abstraites contrôlées par des for-
mules mathématiques qui ne sont pas directement liées au contrôle gestuel.
Dans certaines implémentations de la synthèse MP, l’excitation vient d’un outil d’entrée (ou con-
trôleur d’interprétation) joué par un interprète (Cadoz, Florens, et Luciani, 1984 ; Cook, 1992).
Voir la partie sur les outils d’entrée de la synthèse MP plus loin.
Enfin, le filtrage survenant en raison de facteurs comme la friction et la radiation sonore est spécifié
comme restriction supplémentaire aux conditions de vibration.
À ce stade, nous sommes en face d’un système plutôt compliqué d’équations qui représente le modèle
physique d’un instrument. L’équation d’onde correspondante, qui combine tous ces facteurs, est
soumise aux conditions initiales et à l’excitation (Morse, 1936). L’équation d’onde est ensuite résolue
par un processus d’approximations itératives successives qui cherche simultanément des valeurs
raisonnables pour de nombreuses variables interdépendantes. Cette équation génère une valeur
d’échantillon discrète représentant l’onde de pression sonore à un instant donné.
En dessous de la méthodologie classique, il existe un ensemble d’équations différentielles basées
sur le paradigme masse-ressort — un modèle de structures vibrantes que nous décrirons dans les
prochaines parties.
✦ Équations différentielles
Dans l’approche classique de la synthèse par modèles physiques, les échantillons sont le résultat
d’une évaluation d’équations différentielles qui décrit le comportement vibratoire d’objets physiques.
Une équation différentielle comporte des différences et des dérivées de fonctions. Ces équations
sont généralement utilisées pour décrire les changements d’un signal dans le temps. Par coïncidence,
la première application des équations différentielles faite par Joseph Bernoulli en 1732 était la simu-
lation d’une corde vibrante de longueur finie — une technique centrale de synthèse par modèles
physiques. Les équations différentielles servent également à décrire les filtres numériques. Toutes
les équations de filtres FIR et IIR du chapitre 4 sont des exemples d’équations différentielles. Pour
en savoir plus sur les équations différentielles voir Rabiner et Gold (1975) ou tout autre texte abordant
le traitement numérique du signal.
Les physiciens utilisent des équations différentielles pour décrire les lois de changement de quantités
physiques. En modelant un phénomène de cette façon, la première étape est de déterminer le plus
petit nombre de variables possible pouvant décrire l’état du phénomène modelé avec précision.
L’étape suivante établit les équations différentielles les plus simples qui sont des descriptions précises
des lois gouvernant les changements de ces variables. Certains types d’équations différentielles ont des
solutions algébriques globales, tandis que d’autres ne peuvent être résolues que par des méthodes
d’approximations successives demandant beaucoup de temps (Press et coll., 1988). Dans ces méthodes,
on établit une valeur approximative de solution qui sera affinée par la suite de façon itérative.
✦
© Dunod. Toute reproduction non autorisée est un délit.
L’étude des cordes vibrantes dans les instruments de musique a fasciné les scientifiques et les
musiciens depuis des siècles. Il n’est donc pas surprenant que Hiller et Ruiz (1971) aient pris la corde
vibrante comme point de départ de leur travail de recherche. Ils résolurent les équations différen-
tielles pour les cordes pincées et frottées au centre, près des extrémités, et près du point limite. La
vélocité de l’archet, la pression appliquée, et le coefficient de friction étaient fournis comme partie
des conditions initiales. Ils prenaient également en compte d’autres facteurs, dont la friction de l’air,
l’épaisseur de la corde, le mouvement du chevalet, la transmission d’énergie du chevalet au réso-
nateur, et la radiation d’énergie de la caisse de résonance.
Dans ce travail, comme dans d’autres simulations plus récentes, les cordes sont modelées de façon
classique sous forme de série de masses discrètes reliées par des ressorts. Le modèle masse-ressort
a longtemps été utilisé par les physiciens et les acousticiens pour décrire les objets vibrants et les
ondes qu’ils émettent (Crawford, 1968 ; Benade, 1990 ; Cadoz, Luciani et Florens, 1984 ; Weinreich,
1983 ; Smith 1982, 1983 ; Hutchins, 1978 ; Adrien et Rodet, 1985 ; Boutillon, 1984 ; Chafe, 1985).
524 SYNTHÈSE SONORE
Le paradigme masse-ressort capture deux qualités essentielles du milieu vibrant. Tout d’abord,
celui-ci a une densité, qui existe pour une quantité donnée de volume. Pour une corde, la densité peut
être considérée comme son poids. Deuxièmement, les milieux vibrants sont élastiques ; si une partie
du milieu est déplacée de son point d’équilibre, une force de restauration apparaît immédiatement
pour essayer de le ramener à ce point. Si nous créons une perturbation dans l’une des parties d’une
corde en la pinçant, les parties déplacées du milieu exercent des forces sur les parties adjacentes,
ce qui les fait quitter leur position d’équilibre. Ceci fait à leur tour déplacer les parties suivantes,
dans un processus appelé propagation d’onde. En raison de la masse du milieu, les parties ne se
déplacent qu’après un court retard de leur position d’équilibre. Ceci a pour résultat que l’impulsion
de pincement se propage dans le milieu à une vitesse donnée.
La figure 26.1a décrit une corde sous forme de masses identiques reliées par de petits ressorts.
Si la première masse est déplacée vers la droite, le premier ressort se compresse, exerçant une force
sur la seconde masse (figure 26.1b). Celle-ci se déplacera alors vers la droite, compressant le second
(b)
(c)
(d)
Déplacement initial
(e)
ressort, et ainsi de suite, comme dans la figure 26.1c. Comme les déplacements des masses succes-
sives se font dans la même direction que le trajet de la perturbation, c’est-à-dire horizontalement,
ce phénomène est appelé onde longitudinale.
Les figures 26.1d et 26.1e montrent une propagation d’onde transversale qui apparaît lorsque le
déplacement initial est perpendiculaire à la direction du trajet de propagation de l’onde. Ceci est le
type principal de vibration d’onde survenant dans les cordes pincées, frappées ou frottées. Il existe
un autre type de vibration dit rotatif, mais qui n’est pas modelé en synthèse sonore.
La séparation de la corde en un ensemble de masses discrètes offre un avantage du point de vue du
calcul : en effet, l’effet d’excitation en un point donné de la corde peut être considéré comme l’appli-
cation d’une force sur une seule masse qui transmet cette force aux autres masses en passant par
les ressorts. Après la frappe d’un ressort, la forme de la corde en un point donné dans le temps est
déterminée par la résolution d’un ensemble d’équations différentielles.
✦ Le paradigme masse-ressort pour les surfaces et les volumes vibrants
La représentation masse-ressort peut être étendue aux surfaces vibrantes et aux volumes. Les sur-
faces peuvent être modelées sous forme d’une structure de masses reliées par plus d’un ressort
(figure 26.2a), ou arrangées de façon circulaire pour modeler la peau d’un tambour (figure 26.2b).
Les volumes prennent la forme d’un treillage (figure 26.2c), avec les masses reliées de six façons
différentes.
connectées par des ressorts. Les points noirs sont les masses, et les lignes représentent les ressorts.
(a) Modèle de surface vibrante. (b) Modèle de peau de tambour sous forme d’arrangement circulaire
de ressorts et de masses. (c) Un volume vibrant peut être modelé sous forme de treillage de masses
connectées par des ressorts sur six faces.
Contrôleur de position
Position
Plectre
Pincement
© Dunod. Toute reproduction non autorisée est un délit.
Sortie
L’exemple est écrit en Scheme (Abelson et Sussman, 1985), un dialecte du langage de programmation
Lisp. Le langage Scheme possède une syntaxe générale de la forme :
(function arguments)
Cela signifie que le « verbe » ou opération est tout d’abord spécifié, suivi des arguments propres à
cette opération. Lorsque les expressions entre parenthèses sont emboîtées, elles sont exécutées dans
un ordre commençant avec celles situées à l’intérieur. Par exemple, la commande :
(define my-string (make object ‘mono-string))
crée un objet corde appelé my-string et le place sur l’établi virtuel. Lorsque Modalys exécute cette
commande, il effectue une analyse modale complète. Le nom my-string désigne les données
générées par cette analyse. En plus d’une corde, nous avons besoin d’un plectre :
CHAPITRE 26 – LA SYNTHÈSE PAR MODÈLES PHYSIQUES 529
Nous souhaitons demander à Modalys d’utiliser le plectre pour pincer la corde, mais Modalys
demande que l’on stipule les points d’accès spécifiques. Ils sont donnés par les lignes suivantes :
(define my-string-pluck
(make-access my-string (const .6) ‘trans0))
(define my-plectrum-pluck
(make-access my-plectrum (const 1) ‘trans0))
Les noms my-string-pluck et my-plectrum-pluck ne sont que des noms pour les points où les
deux objets se touchent. La ligne suivante établit la connexion par pincement :
(make-connection ‘pluck my-string-pluck
my-plectrum-pluck0.1 (const 50))
Le premier argument après le ‘pluck sont les points d’accès pour l’objet pincé et le pinceur. Les
deux arguments suivants disent que la position de l’objet pincé est 0 et que le pinceur est à 0,1 m
de ce point. Le troisième argument dirige un contrôleur qui décide quand relâcher la corde. Le nom-
bre 50 est la force en newtons (1 N pousse une masse de 1 kg pour l’accélérer de 1 m/s). Lorsque le
pinceur exerce une force supérieure à 50 N, la connexion par pincement s’achève. Les lignes suivantes
créent un second accès sur le plectre pour qu’il puisse être déplacé par un contrôleur d’enveloppe.
(define -my-plectrum-move
(make-access my-plectrum (const 0) ‘trans0))
(make-connection ‘position my-plectrum-move
(make-controler ‘envelope 1
(list (list 0.00 .1)
(list 0.50 -.5))))
Les valeurs d’enveloppe sont spécifiées par paires, sous la forme (valeur temporelle). Les fonctions
list créent une liste de deux listes à partir de ces paires. Les dernières phrases (define my-string-
out…) créent un accès pour l’écoute de la corde et commandent à l’instrument de jouer.
© Dunod. Toute reproduction non autorisée est un délit.
Après avoir étudié plusieurs instruments, McIntyre, Schumacher et Woodhouse décrivirent une
méthode de synthèse efficace, que nous appelons la synthèse MSW. L’un de ses avantages est que les
paramètres de contrôle sont liés à ceux exploités par des interprètes de musique.
La prochaine partie expose la théorie de l’approche MSW. Elle est suivie d’une esquisse de la tech-
nique de synthèse MSW.
Source d’énergie
Réintroduction
Résonateur linéaire
(corde, tube, corps, etc.)
Dans le modèle MSW des cordes frottées, une commutation non linéaire apparaît lorsque la friction
de l’archet « capture » la corde pendant un bref intervalle de temps jusqu’à ce que la corde glisse et
soit « relâchée » par l’archet. Puis la friction recommence, la corde est de nouveau « capturée », et
ainsi de suite. Dans une flûte ou un tuyau d’orgue, l’excitation non linéaire est causée par l’accu-
mulation de pression d’air à l’extrémité du tube. Lorsque l’accumulation de pression est élevée, la
force de relâchement résiste au jet d’air entrant et interrompt brièvement le flux d’air dans le tube.
Dans ces trois cas (bois, cordes frottées et tuyaux), l’excitation est un mécanisme de commutation
non linéaire qui envoie une onde rapide d’impulsion dans la partie linéaire de l’instrument. Celle-ci
agit comme un filtre en arrondissant la forme d’onde pour que celle-ci prenne le timbre caractéristique
de l’instrument.
✦ Esquisse de la synthèse MSW
Pour un instrument donné, la synthèse MSW modèle des objets et des actions sous forme d’un
ensemble réduit d’équations. Les équations les plus compliquées et spécifiques aux instruments
décrivent l’excitation. Les variables principales sont la source d’énergie (souffle d’air dans une clari-
nette, une flûte, un tuyau d’orgue, ou force de friction de l’archet d’un instrument à cordes), l’énergie
de l’élément non linéaire fluctuante, et une fonction de réflexion qui décrit l’effet de filtrage de la forme
d’onde jouée par la partie linéaire du système. Les équations pour les parties non linéaires et linéaires
sont évaluées simultanément. Pour plus de détails sur ces équations, voir McIntyre, Schumacher et
Woodhouse (1983). Smith (1986) et Keefe (1992) décrivent des implémentations efficaces du modèle
MSW. Leurs implémentations utilisent des lectures de table et des multiplications, à la place de
solutions d’équations simultanées pour chaque échantillon, très coûteuses en calcul.
Le son produit par le modèle MSW pur n’est pas très réaliste, et ceci à cause de ses trop nombreuses
simplifications. Un raffinement considérable est nécessaire pour réaliser des modèles convaincants
de sons d’instruments réels. Par exemple, Keefe (1992) décrit une extension de la synthèse MSW
aux cuivres. Il a implémenté un sous-programme détaillé pour la spécification des colonnes d’air
(telles que celles des cuivres, des flûtes et des tuyaux d’orgue), afin de tester différentes conceptions
de proximité sonore.
26.1.7 Synthèse par guide d’onde
Les guides d’onde sont une implémentation efficace de la synthèse par MP qui sert de moteur à des
synthétiseurs présentés par Yamaha et Korg en 1993 et 1994 (Smith, 1982, 1983, 1986, 1987a, b,
1991b, 1992 ; Garnett, 1987 ; Garnett et Mont-Reynaud, 1988 ; Cook, 1991a, b, 1992, 1993 ; Hirsch-
© Dunod. Toute reproduction non autorisée est un délit.
man, 1991 ; Hirschman, Cook et Smith, 1991 ; Paladin et Rocchesso, 1992 ; Van Duyne et Smith,
1993). Un guide d’onde (ou filtre par guide d’onde) est un modèle de calcul pour un milieu dans
lequel se déplacent les ondes. Dans les applications musicales, ce milieu est en général un tube ou une
corde. Les guides d’onde ont longtemps été utilisés par les physiciens pour décrire le comportement
d’ondes dans des espaces résonants (Crawford, 1968).
Un bloc de construction de guide d’onde de base est une paire de lignes à retard numériques (voir
le chapitre 6). On injecte dans chaque ligne à retard une onde excitatrice se propageant dans la
direction opposée puis renvoyée vers le centre lorsqu’elle atteint la fin de la ligne. Une ligne à retard
est un bon modèle de ce processus, car les fronts d’onde prennent une quantité finie de temps pour
parcourir la longueur du milieu résonant. Les ondes se déplaçant de long en large dans le guide
d’onde causent des résonances et des interférences à des fréquences liées à ses dimensions. Lorsque
le réseau de guides d’onde est symétrique dans toutes les directions, le son qu’il produit après exci-
tation tend à être harmonique. Si le guide d’onde se tord, change de taille, ou croise un autre guide
d’onde, ceci change sa résonance. Comme nous le verrons, la voix et les instruments tels que les
532 SYNTHÈSE SONORE
cuivres, les bois et les cordes peuvent être simulés grâce à des oscillateurs dirigeant un réseau de
guides d’onde. Garnett (1987) a construit un modèle simplifié de piano à partir des guides d’onde.
Le chapitre 8 décrit les applications des guides d’onde pour la réverbération.
Un élément attrayant des guides d’onde est qu’ils sont largement compatibles avec le paradigme de
langage de synthèse Music N. Ceci signifie que les blocs de construction des réseaux de guides d’onde
peuvent être fusionnés dans les générateurs élémentaires standards (Link, 1992).
Les quatre prochaines parties décrivent un modèle de guide d’onde pour les cordes pincées, un
instrument générique de guide d’onde simulant des instruments à cordes ou à vent, et des modèles
plus spécifiques de clarinette et de cor.
Le modèle de guide d’onde le plus simple est sans doute un instrument monocorde. Ce modèle peut
être compris comme l’image de ce qui arrive lorsqu’une corde est pincée à un point particulier :
deux ondes se déplacent dans des directions opposées à partir de leur point d’impact (figure 26.5).
Chevalet Chevalet
Front d'onde Front d'onde
Lorsqu’elles atteignent les chevalets, une partie de l’énergie est absorbée, et le reste est renvoyé
dans la direction opposée — vers le point d’impact et au-delà, où les deux ondes rentrent en inter-
action, causant des résonances et des interférences. Dans le langage de la théorie du guide d’onde,
les chevalets agissent comme des jonctions de dispersion puisqu’ils dispersent l’énergie dans tous
les guides d’onde connectés. La hauteur de la corde vibrante est directement liée à la longueur des
deux guides d’onde.
La figure 26.6 montre un modèle générique d’un simple instrument de guide d’onde capable de
modeler des instruments à cordes ou à vent (Cook, 1992). Une onde excitatrice non linéaire rapide
est envoyée dans la ligne à retard jusqu’à ce qu’elle frappe la jonction de dispersion qui laisse passer
une partie de l’énergie et renvoie le reste en retour. La jonction de dispersion est un filtre linéaire
ou non linéaire qui modèle les effets d’un doigt ou d’un archet appuyant sur la corde, ou le trou d’un
instrument à vent. Le filtre final modèle l’effet du chevalet, du corps, ou du pavillon d’un instrument.
Afin d’approximer un tube non cylindrique tel qu’un cor ou le conduit vocal, le tube est divisé en
sections de longueurs égales, chacune étant représentée par un guide d’onde. Ceci est appelé échantil-
lonnage spatial, ce qui correspond directement à l’échantillonnage temporel, puisqu’il faut une quan-
tité finie de temps à un front d’onde pour parcourir une certaine distance dans l’espace. Les para-
mètres de la jonction de dispersion à la limite des guides d’onde adjacents sont tirés des dimensions
physiques du tube à ce point.
CHAPITRE 26 – LA SYNTHÈSE PAR MODÈLES PHYSIQUES 533
Retard Retard
Excitation Jonction
non linéaire de dispersion Filtre
Retard Retard
Signal
acoustique
simulé
La figure 26.7 montre un tube acoustique lisse divisé en une série de sections discrètes, chacune
étant modelée par un guide d’onde. Des approximations similaires peuvent être ajustées sur des
surfaces bidimensionnelles ou des espaces tridimensionnels, pour simuler des réverbérations
(Smith, 1991b ; Cook, 1992).
(a) (b)
© Dunod. Toute reproduction non autorisée est un délit.
Dans les simulations de cuivres et de vents, les guides d’onde simulent chaque section du tube de
l’instrument. L’anche ou l’embouchure, qui servent d’excitation, sont modelées, soit par un oscil-
lateur simple à lecture de table d’onde, soir par un oscillateur non linéaire plus complexe dirigeant
534 SYNTHÈSE SONORE
le réseau de guides d’onde. L’oscillateur non linéaire est modelé comme mécanisme masses-ressorts-
amortisseurs, comme nous l’avons vu plus haut. Le même schéma (oscillateur non linéaire dirigeant
un réseau de guides d’onde) peut également être appliqué à la synthèse des cordes, où l’oscillateur
non linéaire modèle l’interaction entre l’archet et la corde (Chafe, 1985).
En adjoignant différents guides d’onde par des jonctions de dispersion, en ajoutant des filtres à des
points stratégiques, et en insérant des jonctions non linéaires qui excitent le réseau de guides d’onde,
les chercheurs ont construit des modèles de familles entières d’instruments de musique. Les deux
prochaines parties donnent des exemples spécifiques de modèles d’instruments par guides d’onde.
✦ Clarinette par guide d’onde
La figure 26.8 montre le modèle par guide d’onde d’une clarinette, d’après Hirschman, Cook et Smith
(1991), et Hirschman (1991). Le modèle de clarinette possède cinq parties :
1. le bec ;
2. le corps du haut ;
3. le trou ;
4. le corps du bas ;
5. le pavillon.
Trou
(modélisé par Corps du bas
Corps du haut une jonction (modélisé par
(modélisé par une de dispersion une ligne à retard)
ligne à retard) à 3 ports)
Pression Radiation
de la bouche du pavillon
(écrite en
fichier son)
Anche
(modélisée par Pavillon
un oscillateur (modélisé par
non linéaire) des filtres)
Radiation du trou
(écrite en fichier son)
Un seul trou est nécessaire, car les tailles des corps du haut et du bas changent selon la hauteur
jouée. Ce type de modèle produit un son ressemblant à la clarinette avec plusieurs éléments réalistes,
y compris la production d’harmoniques selon l’amplitude d’entrée et les couacs de l’instrument
— pour des entrées appropriées.
✦ Cor par guide d’onde
La figure 26.9 montre une capture d’écran de Tbone, une simulation de cuivres utilisant des guides
d’onde et contrôlée par une interface graphique (Cook, 1991b). L’écran est divisé en trois fenêtres :
French Trumbuba Controller, Performer Controller et Time-varying Event Controller.
Le French Trumbuba Controller, en bas, offre des contrôles graphiques pour la modification de l’ins-
trument. Les curseurs contrôlent la position de la coulisse, l’évasement du pavillon, et les sections
CHAPITRE 26 – LA SYNTHÈSE PAR MODÈLES PHYSIQUES 535
La fenêtre Time-varying Event Controller, en haut à gauche, permet des contrôles de la synthèse
variant dans le temps. Les mouvements de lèvre et les trilles de piston peuvent être spécifiés grâce
à des temps de départ et de fin.
26.1.8 Outils d’entrée pour la synthèse par modèles physiques
Les interfaces graphiques offrent une bonne visualisation de l’instrument MP, mais il est difficile
de jouer de l’instrument de façon réaliste en ayant seulement la souris et le clavier alphanumérique,
en raison de la nécessité de pouvoir manipuler de nombreux paramètres simultanément. On peut
grouper certains paramètres, mais, pour une interprétation efficace, le contrôleur idéal serait un outil
d’entrée musicale ayant plusieurs degrés de liberté. Lorsque le modèle peut être réalisé en temps réel,
comme cela est le cas pour de nombreux modèles par guides d’onde, les techniques MP reviennent
presque au point de départ : d’un instrument réel à un instrument virtuel joué grâce à des outils
d’entrée.
26.1.9 Évaluation de la synthèse par modèles physiques
La synthèse MP a fait de grands progrès ces dernières années. Certains sont même allés jusqu’à dire
que les modèles physiques étaient le futur de la synthèse numérique. Il reste néanmoins un pro-
blème conceptuel : il existe beaucoup de sons pour lesquels aucun modèle n’a encore été construit.
Construire un modèle physique exact d’un instrument est un projet scientifique sérieux. Seuls
quelques laboratoires possèdent l’équipement et l’expérience nécessaires pour mener à bien ce
travail. Les pages des revues d’acoustique sont pleines de détails que les scientifiques ont glanés au
cours de patientes années d’expérimentation et de mesure. Il existe des milliers de types différents
d’instruments acoustiques dans le monde, et seuls quelques modèles MP ont été achevés. Même
lorsque le modèle est construit, il reste à déterminer des douzaines de paramètres pour chaque son.
L’un des problèmes fondamentaux de la synthèse MP est le fait qu’un instrument seul n’est pas un
système complet de production sonore ; les instruments ont besoin d’interprètes. Les premières
tentatives pour jouer des instruments MP sonnent parfois comme les exercices douloureux d’un
débutant. Pour chaque instrument créé, il faut produire beaucoup d’efforts afin d’apprendre à s’en
servir correctement. Lorsque l’instrument est purement contrôlé par un logiciel, plutôt que par un
outil d’entrée, on doit définir un modèle physique de l’interprète en plus de celui de l’instrument.
Ce modèle doit être capable de réaliser des gestes idiomatiques et une bonne technique de jeu
— quelles que soient les façons dont ces buts sont définis pour un instrument particulier. Quelques
avancées ont été faites sur les modèles d’interprètes, mais beaucoup de travail reste à faire (Garton,
1992).
Pour un modèle d’instrument traditionnel donné, le développement d’un modèle d’interprète
pourrait être aidé par un système d’analyse qui pourrait extraire des données de paramètres à partir
d’interprétations. La prochaine partie fait un survol des premières étapes effectuées en matière
d’analyse pour la synthèse MP.
CHAPITRE 26 – LA SYNTHÈSE PAR MODÈLES PHYSIQUES 537
✦ Séparation de source
Wold (1987) a effectué une importante étude sur l’estimation de paramètres basée sur une approche
par modèles physiques de la resynthèse. Son but n’était pas la synthèse en tant que telle, mais la
séparation de sources polyphoniques. C’est-à-dire, que l’on introduisait dans le système un signal
constitué du mélange de deux instruments différents. Celui-ci essaya ensuite d’estimer quels seraient
© Dunod. Toute reproduction non autorisée est un délit.
les paramètres de resynthèse pour chaque instrument, en référence à un synthétiseur par modèles
physiques, plutôt qu’à un synthétiseur additif, par exemple.
Il commença par concevoir des modèles physiques approximatifs d’instruments acoustiques tels que
des voix, des marimbas et des clarinettes. La forme de ces modèles était un ensemble d’équations
d’état paramétrées. Pour tout son en entrée donné, le but était de comparer le son en entrée avec le
modèle par équation d’état et d’essayer d’identifier une combinaison de mise en place de paramètres
qui pourrait recréer le même son.
La figure 26.10 montre un diagramme représentant le système d’estimation de paramètres de
Wold. La première partie du système abordait le problème en faisant face à tous les estimateurs
— en faisant une conjecture savante pour savoir où commencer. Son système utilisait une analyse
spectrale et une détection de hauteur comme estimation de « premier passage ». En s’appuyant sur
l’estimation initiale, le système affinait son analyse en utilisant des techniques itératives et comparait
ses résultats avec le modèle par équation d’état pour la resynthèse. La partie d’affinage de l’estimation
initiale était basée sur une approche par filtre Kalman. Un filtre Kalman variant dans le temps pro-
538 SYNTHÈSE SONORE
Son échantillonné
Préanalyse
par méthode rapide
Données de préanalyse
Recherche initiale
pour l'estimation de paramètres
Estimation initiale
Recommencement
avec l'estimation améliorée
Affinage Modèle
de l'estimation par équation d'état
initiale d'un instrument
Erreur trop
importante
Analyse
de l'erreur
Estimation finale
de paramètres
pour un instrument
cure, par une technique comparable à l’approximation par moindres carrés, une estimation d’erreur
d’un signal échantillonné basée sur les observations bruiteuses. Sa caractéristique principale est
qu’il est basé sur des critères statistiques. La théorie du filtre Kalman est un sujet complexe ; pour
plus de détails, voir Rabiner et coll. (1972).
Le poids de calcul de ce type de processus — estimation de filtre Kalman des paramètres de synthèse
par modèles physiques — est extrêmement lourd. L’estimation des paramètres de haute fidélité
basée sur les modèles de percussion, de voix ou de clarinette demande des milliards d’opérations
à virgule par seconde de son analysé (Wold, 1987). Il est significatif que Wold ait conclu sa thèse par
un exposé sur les architectures de nouveaux types d’ordinateurs nécessaires pour la réalisation
de ces méthodes en temps réel.
CHAPITRE 26 – LA SYNTHÈSE PAR MODÈLES PHYSIQUES 539
Le programme Singer de Perry Cook est un modèle physique avec filtre par guide d’onde du conduit
vocal humain (Cook, 1991a, 1993). Faisant la distinction entre ce MP pour les sons vocaux, et d’autres
approches comme le codage prédictif linéaire (chapitre 24) ou les méthodes formantiques expliquées
dans le chapitre 28, Singer contient des modèles des lèvres, du conduit vocal et du conduit nasal,
lui permettant de capturer les détails d’articulation de façon plus réaliste.
La complexité du modèle de synthèse est évidente à la vision du patch montré à la figure 26.11. Des
douzaines de paramètres doivent être réglées pour chaque articulation. Un tel modèle pose la
question : où obtenir les données appropriées afin de réaliser de la parole et du chant réalistes ?
En se basant sur le modèle Singer, Cook a employé l’estimation de paramètres sur la parole pour
tenter d’harmoniser les paramètres du modèle et le signal parlé.
Un aspect notable de cette recherche a été l’effort pour modeler la forme d’onde glottale — le signal
d’excitation de la parole émit par les cordes vocales. Cook utilisa la déconvolution pour trouver la
forme d’onde glottale et la hauteur estimée en utilisant une méthode de filtrage en peigne. Le bruit
du conduit vocal était modelé en utilisant une approche de la dynamique des fluides. Voir Blake
(1986) pour plus de détails sur les modèles de dynamique des fluides pour le son et la vibration.
Denis Matignon a également poursuivi la stratégie d’analyse par filtre Kalman, en partant d’un
modèle d’équation d’état, et en employant le modèle de resynthèse par guide d’onde (Matignon,
1991 ; Matignon, De Palle et Rodet, 1992).
nique efficace basée sur le principe d’une ligne à retard ou table d’onde à recirculation (Karplus et
Strong, 1983 ; Jaffe et Smith, 1983). Dans son implémentation, KS est liée aux techniques MSW et à la
synthèse par guide d’onde décrites dans les parties précédentes. Les ressources de calcul nécessaires
pour la synthèse KS de base sont modestes (il n’y a pas de multiplications). Il n’est donc pas surpre-
nant que cette technique ait été implémentée sur du matériel aussi divers qu’un microprocesseur
8 bits, un synthétiseur numérique et un circuit intégré appelé la puce Digitar (Karplus et Strong,
1983).
Figure 26.11 – Diagramme par blocs de Singer, un synthétiseur par modèles physiques des sons de voix.
La partie gauche de la figure montre les sources excitatrices. La partie médiane montre les résonateurs par guide d’onde. La partie droite montre
l’étape de sortie. Deux oscillateurs glottaux par table d’onde (Glotte1 et Glotte2) permettent des variations lentes et synchrones au vibrato dans le signal
excitateur. La source bruiteuse glottale est constituée de bruit blanc filtré, multiplié par une forme d’onde temporelle arbitraire synchronisée aux oscil-
lateurs glottaux. Ce modèle permet au bruit impulsé d’être mélangé à la source périodique. Un oscillateur sinusoïdal simule le vibrato, et la fréquence du
vibrato est rendue aléatoire par du bruit. Du bruit blanc filtré est injecté dans une onde glottale en mouvement. Le bruit peut être inséré dans
SYNTHÈSE
n’importe quel nombre de sections de guide d’onde, avec à chaque fois des contrôles de niveau indépendants. La source glottale mélangée est envoyée
dans le filtre de conduit vocal. Les réflexions glottales sont modelées par un simple coefficient de réflexion, et un filtre passe-bas simule les effets des
lèvres et des narines. Un filtre passe-bas et une ligne à retard modèlent la radiation de la peau dans le trajet de sortie Gorge.
SONORE
CHAPITRE 26 – LA SYNTHÈSE PAR MODÈLES PHYSIQUES 541
Modificateur
Table d'onde
Commutateur à recirculation Sortie
(ligne à retard)
Générateur
de bruit
valle d’échantillonnage, les pointeurs de lecture et d’écriture de la table d’onde sont incrémentés.
Lorsque les pointeurs atteignent la fin de la table d’onde, ils effectuent une boucle et recommen-
cent à partir du début. Le résultat audible de cet algorithme simple est un son harmonique qui
sonne de façon « brillante » au début, mais dont le timbre s’obscurcit rapidement jusqu’à un simple
son de sinusoïde lors de la chute — tout comme le son d’une corde pincée.
Si la table d’onde est initialement alimentée avec des valeurs aléatoires, on peut se demander pour-
quoi le résultat ne sonne pas comme du bruit – au moins au début du son. La raison pour laquelle le
son est harmonique est que la table est répétée (avec une légère modification) à chaque passage.
Puisque ces répétitions ont lieu des centaines de fois par seconde, ce qui était initialement une forme
d’onde aléatoire devient en un instant une forme d’onde quasi périodique. Sans la partie de chute
de l’algorithme (le filtre passe-bas), la forme d’onde a (en théorie) un contenu harmonique égal à la
moitié de la fréquence d’échantillonnage, avec un timbre d’harmonium (Karplus et Strong, 1983).
En pratique, il est utile de recharger la table d’onde avec un nouvel ensemble de valeurs aléatoires
pour chaque note. Ceci donne à chaque note une structure harmonique légèrement différente. Une
© Dunod. Toute reproduction non autorisée est un délit.
routine de génération de nombre pseudo aléatoire (tel qu’un générateur à bit aléatoire et déplacement
de registre bouclé ; Knuth, 1981, p. 29) peut fournir ces valeurs.
Lorsque b est égal à 1, le modificateur est un filtre passe-bas comme précédemment, et le son res-
semble à celui d’une corde pincée. Lorsque b est égal à 0,5 le son ne ressemble plus à une corde. Il perd
son harmonicité et sonne davantage comme un tambour. Lorsque b est fixé à 0, le signal est négatif
tous les p + 0,5 échantillons. Ceci coupe la fréquence perçue de moitié et ne laisse que les harmo-
niques impairs dans le spectre, créant un son ressemblant à la harpe dans les graves.
La figure 26.13 montre un instrument KS pour la synthèse de tambour. Remarquez la moyenne
effectuée entre les échantillons de la table d’onde à recirculation et les échantillons précédents,
ainsi que l’attribution d’un signe positif ou négatif basée sur le facteur de mélange b. Lorsque b est
proche de 0,5 la longueur de la table d’onde ne contrôle plus la hauteur, puisque la forme d’onde
n’est plus périodique. Au contraire, la longueur p détermine le temps de retard de l’éclatement de
bruit au début du son de tambour. Lorsque p est relativement grand (supérieur à 200), l’instrument
sonne comme une caisse claire bruiteuse. Lorsque p est petit (moins de 25), l’effet est celui d’un
tom-tom balayé. Pour créer un tambour résonant, la table d’onde est tout d’abord chargée avec une
constante plutôt qu’avec des valeurs aléatoires.
M
o
y +
Commutateur Retard e
Ligne à retard ou
n
à recirculation -
n
e
Générateur Générateur
de bruit de bit b
pseudoaléatoire
Dans les années récentes, les musiciens et le public en général ont redécouvert le monde de la synthèse
analogique (Vail, 2000 ; Pinch et Trocco, 2002). Une des conséquences de cela est que les synthéti-
seurs analogiques « vintage » sont devenus très chers. Les synthétiseurs qui suscitent un intérêt
particulier sont ceux construits avant 1983, lorsque le MIDI et les synthétiseurs numériques à bas
prix furent introduits sur le marché. Depuis, des concepteurs ont présenté une nouvelle génération
de synthétiseurs analogiques, y compris certains qui sont similaires aux modèles classiques plus
anciens de Moog, EMS et autres.
Ce chapitre présente la nouvelle tendance des simulations numériques de techniques de synthèse
analogique. Celles-ci sont en général appelées techniques par émulation analogique ou analogique
virtuelle (AV). Le but de ces techniques est d’imiter pour un faible coût le son des synthétiseurs ana-
logiques classiques. Une tendance proche de cet effort est celle du « modelage analogique » d’amplifi-
cateurs de guitare et d’instrument. Ces unités à bas prix utilisent la technologie numérique pour
simuler les caractéristiques d’amplification et de distorsion d’amplificateurs et de cabinets de haut-
© Dunod. Toute reproduction non autorisée est un délit.
parleurs analogiques à lampes plus chers (Barbour, 1998). Une autre ligne de produits modèle les
compresseurs et les égaliseurs analogiques classiques.
Après un bref aperçu des principes de la technologie analogique, nous évoquons les questions
techniques impliquées dans le modelage de circuits analogiques avec la technologie numérique.
Quelle que soit l’implémentation, le cœur de n’importe quel synthétiseur numérique est un algo-
rithme pour la génération d’échantillons.
Dans un synthétiseur analogique pur, il n’y a pas de microprocesseur ou de mémoire en soi. Le
synthétiseur contient des circuits matériels construits à partir de composants de base comme des
amplificateurs, des résistances, des condensateurs, des diodes, et des bobines opérationnels. Ces
circuits génèrent des signaux continus (et non discrets). Il n’y a pas d’horloge d’échantillonnage.
Les signaux dans un synthétiseur analogique circulent pratiquement à la vitesse de la lumière.
L’amplitude des signaux analogiques continus varie de façon libre et instantanément à l’intérieur
d’une gamme de tensions spécifiée.
Avant l’invention de l’ordinateur numérique, tous les circuits électroniques étaient de conception
analogique. Le comportement de ces circuits pouvait être prédit selon le flux des quantités continues
de tension et de courant en interaction avec les propriétés du circuit comme la résistance, l’impé-
dance et l’inductance. On retrouve plus d’un siècle d’inventions dans la conception des instruments
de musique électronique analogiques (Roads, 1996b ; Rhea, 1972, 1977, 1984). Pour ceux qui s’inté-
ressent plus en détail aux caractéristiques des circuits analogiques, des textes d’ingénierie présentent
la théorie des circuits analogiques (Black, 1953 ; Chirlian, 1971 ; Benedict, 1976 ; Old Colony Sound
Labs, 2004). Plusieurs livres expliquent les principes de la synthèse de signal analogique et du con-
trôle par tension à la fois d’un point de vue musical et technique (Strange, 1983 ; Manning, 1993 ;
Wells, 1981 ; Chadabe, 1967).
Figure 27.1 – Copie d’écran du Arturia Moog V, une émulation analogique virtuelle
d’un synthétiseur Moog. Le panneau de contrôle à l’écran imite le matériel original.
700 euros par canal, alors que son homologue logiciel est vendu sous forme de module d’extension
pour une fraction de ce coût.
548 SYNTHÈSE SONORE
Clavier
Modulateur VCO
de fréquence 1
C T
C
Générateur VCO
de bruit 2
A A
Mélangeur
A Modulateur
d‘amplitude
VCO
3 EG
C C
VCA
A
VCO Modulateur
4 d‘amplitude
VCF
A
© Dunod. Toute reproduction non autorisée est un délit.
Fiche
de
sortie
par exemple un oscillateur, la tension contrôlait sa hauteur. La séquence pouvait être bouclée, per-
mettant ainsi de réaliser une mélodie répétitive. D’une façon plus générale, la séquence de tension
pouvait contrôler n’importe quel module, comme la fréquence centrale d’un filtre, l’amplitude d’un
amplificateur, etc. Le taux auquel le séquenceur passait était réglé grâce à une molette d’horloge ou
contrôlé depuis un autre module.
Une limite majeure des séquenceurs analogiques était le nombre d’étapes différentes qu’ils conte-
naient, correspondant à la taille de leur mémoire de tension, en général entre 24 et 48 étapes. Dans
ces séquenceurs, lorsque plus d’un paramètre était contrôlé à chaque étape, le nombre d’étapes était
réduit de ce facteur. Par exemple, un séquenceur Moog à 24 étapes pouvait contrôler la hauteur, la
durée et l’amplitude de seulement huit notes (24 étapes divisées par 3 paramètres). De plus, chaque
paramètre de chaque étape devait être accordé à la main avec une molette de contrôle. Il n’était pas
possible de programmer le séquenceur en jouant.
Jusqu’à la moitié des années 1970, les synthétiseurs analogiques étaient, pour la plupart, mono-
phoniques. À la fin des années 1970, certains synthétiseurs analogiques polyphoniques firent leur
apparition, comme le Arp Omni, le Moog Memorymoog, le Oberheim Four Voice, le Sequential
Prophet-5 et le Roland Juno. Dans certains cas, ceux-ci opéraient sous contrôle d’un microproces-
seur. Cela signifiait une plus grande capacité de séquenceur : il était possible de passer du stockage
de quelques douzaines de notes à un stockage de milliers de notes dans la mémoire du micropro-
cesseur. Nous appelons de tels instruments des synthétiseurs hybrides, car ils combinent synthèse
analogique et contrôle et acheminement du signal numérique. L’époque MIDI, commençant en 1983,
normalisa les protocoles pour le contrôle numérique de tous les types de synthétiseurs. Les syn-
thétiseurs AV d’aujourd’hui sont tous compatibles MIDI.
En général, on n’essaie pas de modeler tous les composants d’un circuit analogique (transistors,
résistances, condensateurs, etc.), car cela ne serait pas efficace du point de vue du calcul. Il est dif-
ficile de généraliser au-delà de cette remarque, car les équipes d’ingénieurs ont des approches dif-
férentes de l’émulation. Certaines étudient les circuits analogiques originaux, tandis que d’autres
travaillent à partir d’un modèle plus abstrait qui n’est lié à aucun synthétiseur analogique spécifique.
Dans tous les cas, le but principal est de modeler précisément le son des synthétiseurs analogiques,
et non leurs circuits.
Pour certains, les défauts et l’imprévisibilité des synthétiseurs analogiques sont un des aspects de
leur charme. Par exemple, dans certains synthétiseurs analogiques des années 1970, la fréquence
des oscillateurs se modifiait avec les changements de température. À cette époque, cela était consi-
déré comme un défaut. Au vingt et unième siècle, cependant, la modification aléatoire de fré-
quence a été réintroduite sous la forme d’une fonction de certains synthétiseurs AV.
De plus, toute machine analogique est construite avec des composants de circuit spécifiques et le
choix de ces composants possède un fort impact sur la performance sonore de la machine. On peut
par exemple construire une famille de modulateurs en anneau différents, employant tous la même
conception de circuit, mais utilisant des composants différents. Chacune sonnera de façon légèrement
différente. L’équivalent numérique de la modulation en anneau est la multiplication, qui produit
par contre le même résultat dans tous les circuits numériques de résolution similaire. Une simple
émulation numérique est ainsi générique et médiocre.
Cependant, même un logiciel d’émulation imparfait peut avoir des bénéfices, y compris un coût
plus faible, une fiabilité plus grande, un meilleur rapport signal/bruit, des bibliothèques de patchs,
des extensions à la conception du synthétiseur original, un encombrement réduit, etc.
mettent des transitions continues entre, par exemple, une sinusoïde et une dent-de-scie, ou une
sinusoïde et une onde carrée. De telles transitions sont caractéristiques de la synthèse analogique.
Certains oscillateurs numériques imitent ces transitions. Par exemple, les Roland JP-8000 et JP-8080
ne lisent pas des tables d’onde, mais génèrent au contraire les échantillons de façon algorithmique
en temps réel. Voir également Lane et coll. (1997), qui propose un schéma d’oscillateur numérique
limité aux formes d’onde de type sinusoïde, carrée et dent-de-scie.
Les oscillateurs numériques peuvent avoir des difficultés à simuler précisément toutes les formes
d’onde analogiques. Ceci est dû au fait que certaines formes d’onde analogiques comme les impul-
sions, les ondes carrées et les bandes de bruit contiennent des fréquences qui peuvent s’étendre
jusqu’à 100 kHz et au-delà. Nous pouvons les considérer comme étant non limitées en bande. Ceci
est une fonction et non un défaut d’un synthétiseur analogique. Par contre, un synthétiseur numé-
rique doit être contraint afin de générer uniquement des signaux limités en bande, c’est-à-dire des
signaux qui ne contiennent pas de fréquences supérieures à la fréquence de Nyquist (la moitié du
taux d’échantillonnage). Si le synthétiseur n’est pas contraint, le signal de sortie sera défiguré par
552 SYNTHÈSE SONORE
le repliement, dans lequel les fréquences supérieures à la fréquence de Nyquist se reflètent dans le
spectre audio. Le repliement est un problème pernicieux dans la synthèse numérique et le traitement
du son (voir le chapitre 1 pour plus de détails sur le repliement).
La première génération de synthétiseurs AV opérait à des taux d’échantillonnage standards de 44,1
et 48 kHz. Le manque de « marge de fréquence » à ces taux ouvrit la porte au repliement depuis
l’intérieur de l’algorithme de synthèse. Des formes d’onde courantes sont la cause de repliement si
elles sont transposées en dehors d’une gamme de fréquences étroite. Par exemple, dans un synthé-
tiseur AV opérant à un taux d’échantillonnage de 44,1 kHz, une onde carrée limitée en bande cons-
truite à partir de 16 composants harmoniques impairs est la cause de repliement à des fréquences
fondamentales supérieures à 760 Hz.
Remarquez que ce genre de repliement interne ne peut pas être résolu en filtrant en passe-bas la
sortie de l’oscillateur, car les fréquences repliées sont déjà présentes dans le signal de sortie ! Comme
d’autres formes de distorsion non linéaire, elles sont virtuellement impossibles à éliminer dès lors
que le repliement est survenu.
L’une des conséquences de ces limites strictes est que les instruments de synthèse numérique néces-
sitent des mesures préventives afin d’éliminer la distorsion de repliement. Au moins quatre stratégies
sont possibles, qui peuvent être utilisées ensemble :
1. Construire des approximations limitées en bande de formes d’onde analogiques. Pour un
exemple simple, on peut faire une approximation des formes d’ondes carrées et des impulsions
en ajoutant ensemble des collections de sinusoïdes à des fréquences harmoniques impaires
(figure 26.3). Pour des techniques de synthèse de forme d’onde limitée en bande plus avancées,
voir Stilson et Smith (1996). Par exemple, certains instruments utilisent du filtrage à l’intérieur
de l’algorithme d’oscillateur lui-même pour éliminer le repliement (Romblom, 2004).
2. Utiliser l’oscillateur à un taux d’échantillonnage interne plus élevé. Par exemple, en considérant
que l’on veut produire une sortie à 44,1 kHz, on peut utiliser l’oscillateur à un taux interne
de 88,2 kHz, ce qui permet à des composants jusqu’à 44,1 kHz d’être générés sans repliement.
Il suffit alors de filtrer en passe-bas la sortie de l’oscillateur avec une fréquence de coupure
de 22,05 kHz avant de convertir le signal à un taux de 44,1 kHz.
3. Utiliser un taux d’échantillonnage haute résolution lors de toute l’émulation. Par exemple, cer-
tains synthétiseurs numériques opèrent à des taux d’échantillonnages de sortie de 96 kHz et
plus. Ces synthétiseurs améliorent le problème, même s’ils ne le résolvent pas complètement.
4. En dernier recours, limiter la gamme de fréquences à l’intérieur de laquelle l’oscillateur peut
opérer. Lancer des tests pour déterminer à quel moment le repliement devient audible, et régler
une limite sur la fréquence de l’oscillateur.
5
7
Amp.
31
Numéro d’harmonique
(b)
Amp.
Temps
© Dunod. Toute reproduction non autorisée est un délit.
des filtres sonores par ce moyen, car les impédances d’entrée et de sortie ne correspondront pas, et la
régulation de la réponse du filtre est mieux obtenue à l’oreille. (Alan Douglas, 1968)
En pratique, les filtres analogiques peuvent être très compliqués. De nombreuses décennies d’expéri-
mentation ont eu pour résultat une grande variété de conceptions idiosyncrasiques de filtres. De plus,
tout filtre est construit avec des composants de circuit spécifiques et le choix de ces composants peut
avoir un fort impact sur la performance sonore du filtre. Par contre, la théorie des filtres numériques
est relativement récente, et seuls certains types de circuits de filtre ont été intégrés sous forme de
logiciels.
554 SYNTHÈSE SONORE
Des techniques existent pour convertir une conception de filtre analogique en conception de filtre
numérique, mais celles-ci ne fonctionnent bien que dans certains cas standards. Comme Smith (2003)
l’a observé, il n’est pas facile de préserver toutes les propriétés désirables d’un filtre analogique
(comme la réponse de fréquence, l’ordre et la structure de contrôle), lorsqu’il est traduit sous
forme numérique par des moyens standards.
Rossum (1992) a analysé les caractéristiques de filtres analogiques et en a déduit que l’une de leur
différence majeure par rapport aux filtres numériques était leur comportement de « limitation
douce » lorsque le filtre résonne. Par contre, lorsque des filtres numériques surchargent, ils deviennent
instantanément rauques et rêches. Il établit un schéma de filtre numérique dans lequel la distorsion
est renvoyée à travers le filtre passe-bas afin qu’il ne surcharge jamais, ce qui produit une qualité
sonore plus lisse.
Une autre question dans l’émulation de filtres analogiques variants dans le temps concerne la nature
discrète de l’échantillonnage. Tandis que les signaux passent instantanément dans un filtre analo-
gique, les changements dans les filtres numériques sont limités par l’horloge d’échantillonnage.
Lorsque les coefficients du filtre changent, les états courants du filtre reflètent ce qui est arrivé avec
l’ensemble précédent de coefficients. Des taux d’échantillonnage plus élevés et une résolution numé-
rique plus grande à l’intérieur du filtre devraient considérablement aider à résoudre cela. Pour des
astuces supplémentaires sur la conception de filtres AV, voir Massie et Stonick (1992) et Stilson et
Smith (1996).
remuent à l’écran lorsqu’ils sont déplacés. D’autres synthétiseurs AV logiciels offrent un éditeur de
patch plus abstrait ou simplement une collection de patchs prédéfinis.
Bien sûr, un des avantages principaux des patchs numériques est qu’un acheminement donné
— peu importe sa complexité — peut être facilement mémorisé et rappelé, avec tous les réglages
de paramètres pour tous les modules. Par contre, dans le monde des synthétiseurs analogiques
modulaires, être capable de reproduire exactement un patch précédent était une exception, en raison
de toutes les connexions de patch et des réglages de paramètres qui devaient être notés et reproduits
© Dunod. Toute reproduction non autorisée est un délit.
précisément.
27.6 Conclusion
La synthèse AV et les amplificateurs par modelage analogique offrent un grand nombre des bénéfices
que l’on trouve dans le matériel vintage onéreux sous une forme plus compacte et moins chère.
Certaines conceptions sont impressionnantes de précision et représentent des investissements
sérieux dans de l’ingénierie ; pour d’autres ce n’est pas le cas. Comme avec les techniques de mode-
lage physique, on ne doit pas s’attendre à une émulation parfaite de la part de tous les synthétiseurs
analogiques virtuels.
Comme le son des saxophonistes Coleman Hawkins, Charlie Parker, John Coltrane et Kenny G,
chaque synthétiseur analogique vintage (Moog, Arp, EMS, Buchla, Serge, etc.) possède un son
distinctif et instantanément reconnaissable. Ces différences peuvent être dues à de nombreux
facteurs : topologies de circuit, parties des composants à l’intérieur d’un circuit, âge du circuit, et
interface de contrôle de ce circuit. Par contre, de nombreux synthétiseurs AV sont génériques ;
ils n’essaient pas de modeler un type spécifique de synthétiseur analogique. Quoi qu’il en soit, il y
aura toujours des bizarreries associées avec des circuits analogiques spécifiques qui ne seront pas
pleinement prises en compte dans une émulation numérique donnée.
Il est difficile de savoir jusqu’où la synthèse analogique virtuelle peut évoluer sans perdre contact
avec ses racines analogiques, qui n’évoluent plus. Il y a eu peu de nouveautés en synthèse analogique
réelle depuis de nombreuses années. Au cours de cette même période, il y a eu un développement
constant de nouvelles méthodes de synthèse et de traitement numériques.
Pourtant, le son classique des instruments et des machines analogiques est apprécié par de nom-
breux musiciens. Dans le futur, des techniques numériques plus élaborées seront développées, mais
il restera quelque chose de profondément évocateur dans les sons analogiques déployés avec art,
qu’ils soient réels ou virtuels.
© Dunod. Toute reproduction non autorisée est un délit.
Chapitre 28
La synthèse formantique
Un formant est un pic d’énergie dans le spectre (figure 28.1), qui peut contenir des composants
harmoniques, inharmoniques ou du bruit. Les pics formantiques sont caractéristiques des voyelles
parlées de la voix humaine et des sons émis par de nombreux instruments de musique.
Amp.
© Dunod. Toute reproduction non autorisée est un délit.
Figure 28.1 – Une région formantique apparaît dans le spectre sous forme de pic.
Ici, le formant est centré à 1 kHz.
Comme cela est montré à la figure 28.2, dans le domaine situé entre 0 et 5 000 Hz, le conduit vocal
est en général caractérisé par cinq régions formantiques, dont le fondamental. Voir Bennett et Rodet
(1989) pour des graphiques des formants de différents phonèmes émis par une soprano, une alto,
un contre-ténor, un ténor et un baryton.
Les régions formantiques servent de « signature spectrale » ou de clé timbrale pour la source de
nombreux sons. Voir Grey (1975) et Slawson (1985) pour une introduction et des références supplé-
mentaires sur les études de timbre. Mais cela ne signifie pas que les formants d’une voix ou d’un
560 SYNTHÈSE SONORE
–10
–20
–30
–40
–50
–60
1 2 3 4 5 kHz
–10
–20
–30
–40
–50
–60
1 2 3 4 5 kHz
Figure 28.2 – Régions formantiques vocales dans le domaine situé entre 0 Hz et 5 kHz.
(a) Soprano chantant la voyelle [a]. (b) Baryton chantant la voyelle [a]
(d’après Bennett et Rodet, 1989).
CHAPITRE 28 – LA SYNTHÈSE FORMANTIQUE 561
instrument soient fixes. Au contraire, ils changent en relation avec la fréquence du fondamental
(Luce, 1963 ; Bennett et Rodet, 1989). Quoi qu’il en soit, les formants ne sont qu’une clé parmi d’autres
que l’oreille utilise pour identifier la source d’un son.
Comprendre la nature formantique de la parole humaine a longtemps été un but de recherche scien-
tifique. Des méthodes ingénieuses pour la synthèse des formants des sons de voyelle ont été déve-
loppées à toutes les époques, y compris les « flammes chantantes », les « jets d’eau chantants » et les
dispositifs mécaniques conçus pour émuler les formants des chiens et des humains (Tyndall, 1875).
En empruntant littéralement l’approche par modèles physiques, le Dr René Marage de Paris cons-
truisit un émulateur de sons vocaux dans lequel chaque voyelle était voisée par une paire de lèvres
en caoutchouc attachée à une bouche artificielle. Le souffle d’air pour la parole était fourni par une
paire de poumons électromécaniques : un soufflet alimenté par un moteur électrique (Miller, 1916).
D’autres machines expérimentales utilisaient des combinaisons spéciales de tuyaux d’orgue pour
créer des sons ressemblants à des voyelles.
Il n’est donc pas surprenant que les recherches sur la parole aient servi de source d’inspiration pour
la synthèse formantique. Le reste de cette partie expose trois techniques de synthèse qui génèrent
des formants : la synthèse par fonction d’onde formantique ou FOF, VOSIM, et la synthèse par
fonction de fenêtrage (FF). FOF et VOSIM proviennent directement des tentatives pour simuler les
sons de parole humaine, tandis que FF fut développée pour émuler les formants des instruments
de musique traditionnels.
En fait de nombreuses techniques en dehors de celles présentées ici peuvent générer des formants.
Parmi celles-ci, il y a la synthèse additive (chapitre 19), la synthèse soustractive (chapitre 24), la
synthèse granulaire (chapitre 22), la modulation de fréquence (chapitre 25) et la synthèse par
modèles physiques (chapitre 26), pour n’en citer que quelques-unes. Nous faisons une distinction
pour FOF, VOSIM et FF pour deux raisons : premièrement, elles ne rentrent dans aucune des tech-
niques mentionnées précédemment, et deuxièmement, parce qu’elles ont été conçues dès le départ
pour la synthèse formantique.
Générateur
FOF
1
Paramètres
Générateur
FOF
2
Paramètres
Générateur
FOF
3
Paramètres
Générateur
FOF
4
Paramètres
Générateur
FOF
5
Σ
Signal de sortie
Figure 28.3 – Une banque de générateurs FOF pilotés par des impulsions d’entrée
qui déclenchent un « grain » FOF à chaque période de hauteur. La sortie de tous les générateurs FOF
est additionnée pour générer un signal de sortie composite.
CHAPITRE 28 – LA SYNTHÈSE FORMANTIQUE 563
d’instruments à cordes traditionnels, de bois, de cuivres et de percussions. Comme nous allons le voir,
CHANT peut également être utilisé comme processeur de banque de filtres pour les sons échantil-
lonnés, une utilisation appréciée par certains compositeurs.
28.1.1 Fondements de la synthèse FOF
FOF, le centre de CHANT, commence avec des méthodes de synthèse formantique basées sur une
approche soustractive traditionnelle telle que la prédiction linéaire (chapitre 24). Dans l’approche
soustractive traditionnelle, un signal source avec un large spectre — tel qu’un train d’impulsion ou
un signal bruiteux — passe à travers un filtre complexe. Le filtre sculpte la plupart des fréquences,
ne laissant que quelques fréquences pic résonantes ou formants dans le spectre.
Rodet a montré que les filtres complexes utilisés dans la synthèse soustractive peuvent être réduits
à un ensemble équivalent de filtres passe-bande parallèles excités par des impulsions. Les filtres
sont de sections de second ordre, comme cela est décrit dans le chapitre 4. Une FOF réalise l’un de ces
filtres passe-bande parallèles ; plusieurs FOF en parallèle peuvent modeler une enveloppe spectrale
complexe ayant plusieurs pics formantiques. L’enveloppe spectrale est un tracé dessinant les contours
des pics du spectre (Depalle, 1991), semblable à la courbe produite par l’analyse par codage prédictif
linéaire.
Cependant, les FOF ont une double nature. Une implémentation alternative remplace les filtres par
une banque de générateurs de sinusoïdes amorties. Le signal et le spectre de ces générateurs sont
équivalents à ceux produits par un filtre piloté par impulsion (figure 28.3). D’après Rodet, il y a
plusieurs avantages à remplacer les filtres par des générateurs de sinusoïdes. Ceux-ci sont efficaces et
demandent moins de précision numérique que les filtres. Également, un ou plusieurs formants
peuvent changer de façon continue en sinusoïde ayant une amplitude et une fréquence contrôlables,
ce qui permet une transition continue entre la synthèse formantique et la synthèse additive (Rodet,
1986).
Les méthodes de filtre et de générateur de sinusoïde amortie peuvent être combinées pour créer
un seul son, comme cela est montré à la figure 28.4.
FOFs Sortie
© Dunod. Toute reproduction non autorisée est un délit.
Son
externe
(a) +1
0
Amp
–1
0 3 6
Temps (millisecondes)
(b) 0
–10
–20
Amp
–30
–40
–50
0 4 kHz 8 kHz
Fréquence
au fait de la convolution de l’enveloppe avec la sinusoïde ; voir le chapitre 5 pour une explication de
la convolution. Le spectre du générateur de sinusoïde amortie est équivalent à la courbe de réponse
fréquentielle de l’un des filtres passe-bande (figure 28.5b).
Le résultat de l’addition de plusieurs générateurs FOF est un spectre ayant plusieurs pics forman-
tiques (figure 28.6).
0 dB
-25
-50
1 2 3 4 5 kHz
Fréquence
formantique, située environ à –40 dB en dessous du pic, semblable aux contreforts d’une mon-
tagne. Le paramètre de jupe est indépendant de la largeur de bande formantique, qui spécifie
la largeur au niveau du pic de la montagne.
Le lien inhérent entre les opérations dans le domaine temporel et les opérations dans le domaine
fréquentiel est exemplaire de la façon dont les paramètres FOF sont spécifiés. Bien que cela ne soit
pas intuitif pour le musicien non versé dans la théorie du traitement du signal, deux des principaux
paramètres du formant (domaine fréquentiel) sont spécifiés dans le domaine temporel — dont les
propriétés de l’enveloppe du grain FOF. Premièrement, la durée de l’attaque FOF contrôle le para-
mètre p4, la largeur de la jupe formantique (autour de –40 dB). C’est-à-dire que plus la durée de
l’attaque est longue, plus la largeur de jupe devient étroite. La figure 28.8 montre cette relation.
Deuxièmement, la durée de la chute FOF détermine p2, la largeur de bande formantique au point
–6 dB. Ainsi, une chute longue se traduit par un pic de résonance étroit, tandis qu’une chute courte
élargit la largeur de bande du signal. Ce lien entre la durée d’un son et sa largeur de bande est éga-
lement montré dans la synthèse granulaire, comme cela a été expliqué en détail au chapitre 22.
566 SYNTHÈSE SONORE
(a)
p4
p2, atten
tex
Amp.
Temps
(b) p3 p1
amplitude pic fréquence centrale
p2, largeur
de bande de atten
à -6 dB
p4, largeur
de jupe de tex
Amp.
Fréquence
Les applications typiques de la synthèse FOF configurent plusieurs générateurs FOF en parallèle.
En sus des six paramètres principaux de chaque générateur FOF, les implémentations de CHANT
offrent des paramètres supplémentaires pour un contrôle plus global. Le tableau 28.1 fait une liste
des paramètres principaux. Certaines implémentations possèdent plus de 60 paramètres. Les nom-
breux paramètres demandent impérativement une base de données structurée en règles pour le
contrôle de la machine de synthèse. Ceci est particulièrement nécessaire pour l’émulation des sons
vocaux ou instrumentaux, où les réglages de paramètres ont une influence critique sur le résultat.
Une partie du travail de CHANT et des langages de haut niveau associés comme FORMES (Rodet
et Cointe, 1984) et PatchWork (Barrière, Iovino et Laurson, 1991) est de procurer une base de données
de règles.
CHAPITRE 28 – LA SYNTHÈSE FORMANTIQUE 567
-25
Amp.
(dB)
-50
1 2 3 4 5 kHz
Fréquence
Amplitude
Fréquence fondamentale
Superposition de grains
Phase initiale
Paramètres de filtrage
Amplitude du formant
À la base, elle effectue une seule transformée de Fourier rapide d’un segment de son. La transformée
rapide de Fourier est expliquée au chapitre 11. Un algorithme d’extraction de pics isole les réso-
nances les plus importantes de son spectre, et élimine les autres composants. Puis une autre analyse
est essayée avec une fenêtre temporelle plus grande, et les pics spectraux sont mélangés dans un
fichier commun. La resynthèse à partir de ces pics peut être tentée pour voir si cela colle avec
l’original. L’utilisateur répète l’analyse avec des fenêtres de plus en plus larges jusqu’à ce qu’une
resynthèse satisfaisante soit obtenue. Pour les sons complexes, l’analyse peut être divisée en plu-
sieurs segments commençant à des moments différents, et le processus itératif appliqué séparément
à chaque segment. Les meilleurs résultats ont été obtenus pour des sons percussifs harmoniques
tels que les marimbas, les vibraphones et les cloches tubulaires (Baisnée, 1988).
La resynthèse MDR utilise jusqu’à plusieurs centaines de générateurs FOF standards, soit des oscil-
lateurs sinusoïdaux avec chute exponentielle, soit des filtres passe-bande excités par des impulsions
de bruit. Une implémentation employait un matériel spécial permettant un contrôle en temps réel
par protocole MIDI (Wessel et coll., 1989).
28.2.2 Transformations MDR
L’un des buts des MDR était de faire le lien entre les sons naturels et les sons synthétiques. La sépa-
ration des parties d’excitation et de résonance d’un son procure une zone fertile en expérimentations
de transformation des sons analysés. Pour créer des effets de synthèse croisée, par exemple, il est
possible de remplacer l’excitation usuelle (impulsions de bruit blanc) par un son instrumental
échantillonné.
Les développeurs ont implémenté une bibliothèque de modèles analysés et une bibliothèque de règles
pour la transformation d’un MDR en un autre. Ces règles peuvent allonger les MDR en temps ou
en fréquence, ou créer des hybrides en additionnant des modèles de résonance. D’autres règles
font une interpolation dans le temps entre les résonances d’un instrument et les résonances d’un
autre instrument.
L’approche MDR est efficace lorsque l’excitation est une simple impulsion ou une explosion de bruit,
mais elle peut être moins bien adaptée aux cas où l’excitation dépend d’un phénomène de couplage
entre les structures résonantes et excitatrices. Dans ces cas, il existe une interaction significative
entre l’excitation et la résonance, comme dans le cas d’un archet sur une corde de violon. En ce qui
concerne les phénomènes de couplage, la méthode la plus convenable semble être les techniques
de synthèse par modèles physiques décrites dans le chapitre 28.
© Dunod. Toute reproduction non autorisée est un délit.
28.3 VOSIM
La technique de synthèse VOSIM fut développée par Werner Kaegi et Stan Tempelaars à l’Institut de
Sonologie d’Utrecht au début des années 1970 (Kaegi, 1973, 1974 ; Tempelaars, 1976 ; Kaegi et Tem-
pelaars, 1978). L’idée clé est la génération d’un signal répété en explosion de son, produisant un
fort composant formantique. Dans ce sens, la technique a des liens avec la technique FOF expliquée
plus haut. Comme les FOF, VOSIM fut à l’origine utilisée pour modeler des sons de voyelles. Plus
tard, elle fut étendue pour modeler des fricatives vocales — consonnes du type [sh] — et des sons
quasi instrumentaux (Kaegi et Tempelaars, 1978).
A
Amp.
T
Temps
Deux perceptions fortes émergent du signal VOSIM usuel : un fondamental correspondant à la fré-
quence de répétition du signal entier, et un pic formantique dans le spectre correspondant à la largeur
d’impulsion des sin2 impulsions (figure 28.10). Un formant est produit par chaque oscillateur VOSIM.
Pour créer un son ayant plusieurs formants, il est nécessaire de mélanger les sorties de plusieurs
oscillateurs VOSIM (comme dans les générateurs FOF).
CHAPITRE 28 – LA SYNTHÈSE FORMANTIQUE 571
4
Amp.
0
0 0,5F 1F 1,5F 2F 2,5F
Fréquence
Figure 28.10 – Spectre produit par un oscillateur VOSIM ayant cinq impulsions
et une constante d’atténuation de 0,8 (d’après De Poli, 1983).
Nom Description
T Largeur d’impulsion
δT Incrément ou décrément de T
δM Incrément ou décrément de M
© Dunod. Toute reproduction non autorisée est un délit.
D Déviation maximale de M
δA Incrément ou décrément de A
NM Taux de modulation
NP Nombre de périodes
572 SYNTHÈSE SONORE
Un oscillateur VOSIM est contrôlé en variant un ensemble de paramètres qui influe sur le son
généré (tableau 28.2). T, M, N, A et b sont les paramètres premiers. Pour obtenir du vibrato, de la
modulation de fréquence et des sons bruiteux, on doit moduler la période de retard M. Cette con-
trainte a conduit Kaegi et Tempelaars à introduire trois nouvelles variables : S, D et NM, respective-
ment correspondantes au type de modulation (sinusoïdale ou aléatoire), à la déviation fréquentielle
maximum et au taux de modulation. Ils souhaitaient également être capables de fournir des sons
« transitionnels », ce qui entraîna l’introduction des variables NP, δT, δM et δA. Ce sont respecti-
vement les incréments positifs et négatifs de T, M et A, à l’intérieur du nombre de périodes NP.
En changeant la valeur de la largeur d’impulsion T, le formant peut changer dans le temps. L’effet est
un déplacement formantique, qui sonne différemment de l’enrichissement spectral progressif que
l’on trouve par exemple dans la synthèse par modulation de fréquence.
Le signal VOSIM non altéré n’est pas limité en bande. Ceci crée des problèmes de repliement dans les
systèmes ayant des taux d’échantillonnage peu élevés (voir le chapitre 1). Aux environs du double
de la fréquence formantique, les amplitudes des composants spectraux sont au moins à 30 dB en
dessous de la fondamentale. À six fois la fréquence formantique, les composants sont à 60 dB de
moins (Tempelaars, 1976).
Jo Scherpenisse à l’Institut de Sonologie d’Utrecht conçut et construisit un ensemble d’oscillateurs
VOSIM contrôlables par micro-ordinateur (Tempelaars, 1976 ; Roads, 1978a). Les oscillateurs VOSIM
furent également construits à l’intérieur du synthétiseur numérique SSSP à l’université de Toronto
(Buxton et coll., 1978b).
(a)
Amp.
Temps
(b)
Amp.
Fc Fréquence
de la figure correspond à la fréquence centrale de l’impulsion, et les lobes aux bandes latérales, qui
sont tous à au moins 70 dB en dessous du pic de la fréquence centrale (d’après Nuttall, 1981).
créer un spectre complexe et variant dans le temps. Par d’autres aspects, cependant, les techniques
ne sont pas similaires.
Dans la synthèse FF, le nombre des harmoniques s’accroît lorsque la fréquence fondamentale décroît.
Ceci en raison du fait que les harmoniques élevés sortent du lobe central du spectre de l’impulsion
FF. Les sons graves sont ainsi riches timbralement, tandis que les aigus le sont moins. Ceci est
caractéristique de certains instruments traditionnels comme les orgues et les pianos, que Bass et
Goeddel souhaitaient simuler. Notez que d’autres instruments, comme les clavecins, n’ont pas ce
comportement. De plus, certains instruments n’ont pas un spectre harmonique pur et ne sont donc
pas de bons modèles pour la synthèse FF.
Nous avons pour l’instant présenté un schéma dans lequel des sons fixes sont générés. Ces sons
peuvent occuper une large bande (fréquence fondamentale basse) ou une bande étroite (fréquence
574 SYNTHÈSE SONORE
fondamentale élevée). Afin de créer des régions formantiques dans le spectre, un traitement sup-
plémentaire appelé pondération de portion est nécessaire.
Une portion temporelle est définie comme la durée d’une seule impulsion FF plus une partie de son
temps mort. En pondérant les portions, c’est-à-dire en multipliant une portion par une valeur, grâce
à une séquence périodique de N pondérateurs de portion, le timbre du signal de sortie peut être mani-
pulé. Cette pondération est accomplie en injectant un flux d’impulsions FF comme signal d’entrée
à un multiplicateur accompagné d’un flux périodique de pondérateurs de portion. Le multiplicateur
calcule le produit de chaque impulsion d’entrée avec une pondération spécifique. Le résultat est un
flux de sortie contenant des impulsions FF à différentes amplitudes (figure 28.13). Le spectre d’un
tel flux comporte des pics et des creux à différentes fréquences. Pour les timbres variant dans le temps,
chaque pondérateur de portion peut être spécifié sous forme de fonction variant dans le temps.
La synthèse FF nécessite un schéma de compensation d’amplitude, car les fréquences basses con-
tiennent peu d’impulsions et beaucoup de temps mort d’amplitude nulle. Une fonction d’échelon-
nage quasi linéaire peut être appliquée pour échelonner l’amplitude inversement à la fréquence.
C’est-à-dire que les sons graves sont augmentés et les sons aigus atténués pour obtenir une balance
égale sur tout le domaine fréquentiel.
CHAPITRE 28 – LA SYNTHÈSE FORMANTIQUE 575
(a)
Amp.
Ha
rm
on
iqu
es
Temps
(b)
Amp.
Ha
rm
on
iqu
es
Temps
Figure 28.14 – Tracé des vingt premiers harmoniques du spectre variant dans le temps
d’un son de saxophone alto. Les harmoniques graves sont à l’arrière du tracé. (a) Son d’origine joué
sur un saxophone alto. (b) Son synthétique créé par synthèse FF (d’après Goeddel et Bass, 1984).
Chapitre 29
La synthèse
par segments de forme d’onde
Toutes les différences dans la perception acoustique peuvent être rapportées aux différences dans la struc-
ture temporelle des ondes sonores… Si toutes les propriétés empiriques du son pouvaient être rapportées
à un principe simple d’ordre — tel que des successions composées temporellement d’impulsions —,
la pensée compositionnelle devrait être radicalement réorientée… On ne démarrerait pas de propriétés
sonores déjà expérimentées et qui permettent ainsi à celles-ci de déterminer des variations temporelles ;
au contraire, on composerait directement les arrangements temporels d’impulsions, et l’on découvrirait
leurs propriétés résultantes de façon expérimentale. (Karlheinz Stockhausen, 1963)
Les techniques par segments de forme d’onde constituent une collection de méthodes pour la cons-
truction de sons à partir d’échantillons individuels et de fragments d’onde qui sont assemblés pour
créer des formes d’onde plus grandes, des sections et des pièces entières. En fait, les sons numériques
sont créés à partir de leurs constituants atomiques : les échantillons. Les techniques par segments
© Dunod. Toute reproduction non autorisée est un délit.
de forme d’onde représentent une approche temporelle de la synthèse, car ils construisent le son à
partir de points d’amplitude individuels. Des concepts tels que « fréquence » et « spectre » ne sont
pas explicitement représentés dans les paramètres de synthèse, mais interviennent comme résultat
des manipulations compositionnelles.
Ce chapitre décrit quatre techniques par segments de forme d’onde :
• L’interpolation de forme d’onde.
• SAWDUST.
• SSP.
• La synthèse par instruction.
L’interpolation de forme d’onde peut être directement liée au domaine fréquentiel, puisque les
méthodes d’interpolation ont des effets prévisibles sur le spectre du signal, comme nous le verrons
plus loin. Dans deux des techniques expliquées ici, SAWDUST et SSP, le compositeur travaille directe-
578 SYNTHÈSE SONORE
ment sur les points d’échantillonnage. Un spectre variant dans le temps résulte des opérations du
compositeur sur les formes d’onde. La synthèse par instruction est une approche abstraite de la
synthèse, puisque le compositeur spécifie des sons au moyen d’instructions logiques n’ayant pas de
connexions directes avec les paramètres acoustiques.
(a)
(b)
(c)
Les deux points d’inflexion (courbure) d’une interpolation demi-cosinus permettent d’avoir une
courbe lisse entre les points de rupture. La figure 29.2a montre une interpolation demi-cosinus entre
deux points, tandis que la figure 29.2b montre une interpolation demi-cosinus reliant plusieurs
points. Les techniques d’interpolation par polynôme (dont les rainures cubiques et les polynômes
de Chebychev) remplissent l’espace entre deux points avec des courbes arbitrairement lisses ou
variant énormément, selon le polynôme utilisé.
CHAPITRE 29 – LA SYNTHÈSE PAR SEGMENTS DE FORME D’ONDE 579
(a)
(b)
L’interpolation linéaire est simple et omniprésente. Elle tente de trouver un point i intermédiaire
entre deux points finals connus. L’équation pour accomplir cela est de la forme suivante :
f ( i ) = f ( début ) + { ( [ i – début ] ⁄ [ fin – début ] ) × [ f ( fin ) – f ( début ) ] }
où f(début) et f(fin) sont les points de rupture de commencement et de fin, et i un point intermé-
diaire sur l’abscisse entre début et fin. En effet, l’interpolation linéaire calcule à combien de distance
de début et de fin se trouve i, puis multiplie ce rapport par la différence entre f(fin) et f(début), pour
finalement l’ajouter à f (début).
29.1.2 Interpolation dans les oscillateurs et les générateurs d’enveloppe
Les systèmes de musique informatique utilisent fréquemment l’interpolation. Nous les trouvons
par exemple dans les oscillateurs (Moore, 1977) et dans les générateurs d’enveloppe. Le chapitre 17
explique comment un oscillateur interpolant génère une forme d’onde ayant un rapport signal/bruit
bien meilleur que celui d’un oscillateur non interpolant. Dans les générateurs d’enveloppe, l’interpo-
580 SYNTHÈSE SONORE
lation connecte des paires de points de rupture (coordonnées xy) qui décrivent le tracé de l’enveloppe.
Cette technique est beaucoup plus efficace du point de vue de la mémoire que le stockage de chaque
point d’une enveloppe, mais elle demande plus de calcul.
L’interpolation peut également être utilisée pour générer de nouvelles formes d’onde à partir de
formes d’onde déjà existantes. Certaines implémentations de langages Music N, par exemple, incluent
des générateurs élémentaires pour l’interpolation de formes d’onde (Leibig, 1974). Ces générateurs
prennent deux signaux en entrée et génèrent un signal qui est une interpolation pondérée des deux
(figure 29.3). En variant la pondération au cours du temps, on peut obtenir un mélange variant
dans le temps entre les deux formes d’onde d’entrée.
contenir n points de rupture espacés par des intervalles de temps égaux. Le principal défaut de
l’interpolation linéaire dans la synthèse par forme d’onde est que les angles aigus dans les formes
d’onde créent des partiels de haute fréquence incontrôlables et sonnants de façon dure. Mitsuhashi
(1982b) a présenté plusieurs alternatives à l’approche de l’interpolation linéaire, dont l’interpolation
constante, par demi-cosinus et par polynôme. Il a démontré que l’interpolation constante est similaire
à la synthèse par fonction de Walsh (voir chapitre 19) par rapport aux formes d’onde qu’ils génèrent
(avec des angles droits) et au nombre de paramètres nécessaires pour créer celles-ci. Contrairement
à la synthèse par fonction de Walsh, l’interpolation constante n’effectue pas les sommes dont la syn-
thèse Walsh a besoin pour l’addition des coefficients de pondération. Ainsi, elle est potentiellement
plus efficace. Malheureusement, comme l’interpolation linéaire, l’interpolation constante souffre
également de la génération de partiels élevés incontrôlables.
L’interpolation demi-cosinus n’a pas ce problème. En utilisant les fonctions d’interpolation demi-
cosinus, Mitsuhashi a pu déterminer le mélange d’harmoniques dans la forme d’onde, produisant
des résultats équivalents à ceux de la synthèse additive. L’avantage de l’interpolation demi-cosinus
est qu’elle utilise moins de ressources de calcul qu’un système de synthèse additive.
Mitsuhashi a également analysé le cas d’une interpolation par fonctions de polynôme arbitraire.
Lorsque des intervalles de points de rupture uniformément espacés sont utilisés, le polynôme peut
être évalué très efficacement en utilisant la méthode de différences à terme. Les détails mathématiques
de l’interpolation polynôme avec la méthode des différences à terme dépassent le cadre de ce livre.
Pour plus d’informations, voir Mitsuhashi (1982a, b), Cerruti et Rodeghiero (1983).
Le spectre d’un signal généré par interpolation est le résultat de deux termes : les ordonnées des
points de rupture f (i) et la fonction d’interpolation choisie. Lorsque l’on synthétise une forme d’onde
périodique dont une période incorpore n points de rupture, l’amplitude de n/2 harmoniques peut
être contrôlée en variant la hauteur (ordonnée) des points de rupture (Mitsuhashi, 1982b). Ainsi,
si le nombre de points de rupture est de 20, on peut contrôler les harmoniques 0 à 10.
Il s’ensuit qu’un spectre variant dans le temps peut être généré en changeant les ordonnées des points
de rupture à chaque période. Les changements linéaires des ordonnées des points de rupture créent
des changements linéaires d’amplitude des harmoniques.
Jusqu’à maintenant, nous avons considéré le cas d’intervalles de points de rupture espacés unifor-
mément. Des intervalles non uniformes peuvent également être utilisés. Lorsqu’ils sont choisis avec
soin, les intervalles non uniformes de points de rupture peuvent fournir une bien meilleure approxi-
mation d’une forme d’onde donnée que des points de rupture uniformes. La distorsion est moins
importante. La figure 29.4 montre comment des points de rupture répartis uniformément font une
© Dunod. Toute reproduction non autorisée est un délit.
approximation très lointaine de la forme d’onde, tandis que les points non uniformes, positionnés
aux endroits de plus grand changement, procurent une bien meilleure approximation. Bernstein et
Cooper (1976) donnent les coefficients de Fourier déterminant le spectre de formes d’onde approxi-
mées par des intervalles de points de rupture non uniformes. Une étude supplémentaire est néces-
saire pour déterminer tous les bénéfices et tous les risques de cette approche.
582 SYNTHÈSE SONORE
(a)
A B C D
(b)
A B C D E F G H I
29.2 SAWDUST
Le système SAWDUST, conçu par Herbert Brün et implémenté par une équipe de programmateurs
à l’Université de l’Illinois (Blum, 1979), représente une approche originale de la synthèse sonore.
Voir Grossman (1987) pour un commentaire de SAWDUST du point de vue de l’implémentation.
Le terme sawdust est composé de deux mots : saw, la scie, et dust, la poussière. Dans la conception
de Brün, la « scie » est l’ordinateur et la « poussière » les données, constituées de minuscules points
d’amplitude (les échantillons). Le système SAWDUST est un environnement interactif pour la
manipulation de points d’amplitude (que Brün appelle éléments), leur combinaison hiérarchique en
formes d’onde, en sections, et pour finir, en compositions complètes. Comme avec d’autres tech-
niques par segments de formes d’onde, les signaux produits par le système SAWDUST ont souvent
une qualité brute, avec des angles saillants.
Les opérations de base dans SAWDUST incluent la concaténation d’éléments, le cycle (bouclage),
le mixage, et la variation. Les opérations sont effectuées par les sous-programmes LINK, MINGLE,
MERGE et VARY. LINK est une fonction de mise en ordre qui transforme un ensemble d’éléments
non ordonnés A en un ensemble d’éléments ordonnés appelé un lien. De manière formelle, LINK
(A) → L, où A est une liste d’éléments ou de liens.
MINGLE est une opération de bouclage qui prend un ensemble de liens ordonnés et forme un nouvel
ensemble dans lequel l’ensemble originel est répété n fois. C’est un des mécanismes utilisés pour
CHAPITRE 29 – LA SYNTHÈSE PAR SEGMENTS DE FORME D’ONDE 583
créer des formes d’onde périodiques dans SAWDUST. Par exemple, MINGLE(2, L3, L4) = {L3, L4,
L3, L4}.
MERGE est une opération de mise en ordre qui sélectionne alternativement des éléments de deux
liens pour former un nouveau lien. Par exemple, pour deux liens donnés Lj et Lk, avec Lj = {e1, e2 … e10}
et Lk = {e21, e22 … e30}, alors MERGE(Lj, Lk) = {e1, e21, e2, e22 … e10, e30}.
VARY transforme un lien en un autre. Le compositeur spécifie un lien initial, une durée et un lien
final. De plus, le compositeur stipule le degré d’un polynôme. Dans le résultat de l’opération VARY,
chaque point du lien initial varie selon le polynôme généré par l’ordinateur et dont le degré a été
spécifié par le compositeur, jusqu’à ce qu’il ait atteint son point final correspondant dans le lien de
destination.
29.3 SSP
SSP est un système de synthèse par segments de formes d’onde conçu par le compositeur germano-
hollandais Gottfried Michael Koenig et implémenté par Paul Berg à l’Institut de Sonologie d’Utrecht
à la fin des années 1970 (Berg, 1978b). Comme dans SAWDUST, SSP est un système interactif pour la
manipulation d’éléments individuels en formes d’onde et en structures compositionnelles de large
échelle.
SSP fut conçu par un compositeur ayant un passé sériel et postsériel. Le système doit donc plus à
la théorie de la composition datant d’après la Seconde Guerre mondiale qu’à la théorie du traite-
ment du signal. En particulier, la bibliothèque d’opérations de SSP provient directement des prin-
cipes de sélection sériels et postsériels, utilisés dans les programmes de composition de Koenig,
Project 1 (Koenig, 1970a) et Project 2 (Koenig, 1970b). Ces opérations agissent comme éléments et
segments. Les éléments dans SSP sont des points de temps et d’amplitude, c’est-à-dire des échan-
tillons. Le système SSP connecte par interpolation linéaire les points d’échantillonnage entre les élé-
ments spécifiés par le compositeur. Les segments sont des formes d’onde construites à partir des
opérations sur les éléments.
En travaillant dans SSP, le compositeur prépare une base de données de points temporels et une
base de données de points d’amplitude. En associant un ensemble de points temporels et de points
d’amplitude, le compositeur peut spécifier des formes d’onde familières telles que la sinusoïde, l’onde
carrée, l’onde en dent-de-scie et l’onde triangulaire, ainsi que des ondes idiosyncrasiques, pouvant
être dérivées de procédures probabilistes. Les principes de sélection SSP créent ou extraient des
parties de la base de données d’éléments et les combinent en segments de formes d’onde. Le compo-
© Dunod. Toute reproduction non autorisée est un délit.
siteur détermine l’ordre temporel des segments en utilisant un autre tour de principes de sélection.
Le tableau 29.1 fait la liste de six principes de sélection dans SSP.
SAWDUST et SSP conviennent bien à la synthèse directe avec un convertisseur numérique-analo-
gique attaché à un petit ordinateur. Le matériau sonore généré par les deux méthodes tend à être
des formes d’onde brutes, ayant un spectre riche, qui ne sont pas tirées d’un modèle de traitement
du signal ou d’un modèle acoustique standard.
584 SYNTHÈSE SONORE
Principe
Arguments Explication
de sélection
Tendency N, M, A1, A2, Z1, Z2… N valeurs aléatoires choisies pour chaque masque de tendance
M. Les N valeurs apparaissent entre les limites initiales A1 et A2
et les limites finales Z1 et Z2.
Sequence Count, Chunks Spécifier directement une séquence d’éléments. Count est le nom-
bre d’éléments spécifiés ; Chunks est une liste de leurs valeurs.
Group A, Z, LA, LZ Une valeur aléatoire entre A et Z est choisie. Ceci est effectué une
ou plusieurs fois, pour former un groupe. La taille du groupe est
choisie aléatoirement entre LA et LZ
respond à une instruction matérielle. Une machine virtuelle est un programme qui simule les opé-
rations d’un ordinateur abstrait ayant son propre ensemble d’instructions, ses types de données,
et ainsi de suite. Ces systèmes obligent le compositeur à écrire de longs programmes qui génèrent
les échantillons individuels. Le programme est la spécification pour une composition, et donc il est
également la partition.
Le langage de Paul Berg PILE (Berg, 1978a, 1979) est un exemple canonique de synthèse par ins-
truction. L’origine du langage PILE provient d’une croyance esthétique dans le fait que « les ordi-
nateurs produisent et manipulent les nombres et les autres données symboliques très rapidement.
Ceci peut être considéré comme le dialecte de l’ordinateur » (Berg, 1979). Pour implémenter cette idée,
Berg conçut une machine virtuelle pour les opérations numériques et symboliques, émulée par un
programme écrit pour un petit ordinateur. Le langage PILE est l’ensemble d’instructions de la
machine virtuelle. L’exécution de ces programmes par la machine virtuelle génère des échantillons
et les envoie vers un convertisseur numérique-analogique (CNA).
L’ensemble d’instructions de PILE est constitué d’opérations telles que RANDOM (créer un nombre
aléatoire), INCR (ajouter un à un nombre), SELECT (assigner une valeur aléatoire à une variable)
et CONVERT (envoyer un échantillon au convertisseur numérique-analogique). D’autres opérations
modifient les caches et manipulent le flux de contrôle du programme en effectuant plusieurs opé-
rations aléatoires et en insérant des retards. Bien qu’un léger contrôle de la hauteur, de la durée et
de la sélection du timbre soit possible dans PILE (Berg a réalisé une chanson populaire pour prouver
cela), le programme tend plutôt vers une expérimentation interactive avec le son et vers une improvi-
sation d’essais et d’erreurs successifs. En raison de la présence de variables aléatoires, les résultats
sonores d’un ensemble particulier d’instructions PILE ne peuvent jamais être prévus. Ceci conserve
l’esthétique exploratoire de l’inventeur de ce langage.
Le système de Holtzman (1979) fut une tentative pour contrôler la synthèse par instruction à un
niveau plus élevé. Il développa un générateur de programme qui produisait de petits programmes
pour la synthèse du son. En utilisant une notation de haut niveau, le compositeur pouvait spécifier
l’ordre dans lequel ces programmes étaient exécutés.
C’est dans la nature même de la synthèse par instruction que réside l’impossibilité de prédiction
des qualités acoustiques des sons produits. Sachant cela, le compositeur s’appuyant sur la synthèse
par instruction travaille par essais et erreurs successifs. Puisqu’il est facile de produire rapidement
une grande variété de sons avec ces techniques, de nombreuses possibilités peuvent être essayées
au cours d’une séance de studio. Le compositeur sélectionne ensuite les sons les plus utiles.
© Dunod. Toute reproduction non autorisée est un délit.
Chapitre 30
La synthèse concaténative
Bob L. Sturm
qualité qui est extrêmement difficile à créer et à conserver avec d’autres approches. En effet, les sys-
tèmes texte-parole de pointe utilisent la synthèse concaténative pour assembler des mots et des
phrases en utilisant des composants (diphones), extraits d’enregistrements de la parole (Taylor,
2009). La synthèse concaténative peut créer des textures sonores réalistes, telles que des foules de
personnes et des averses de pluie (Schwarz, 2011), ou peut chorégraphier des effets sonores, comme
un chant d’oiseau et des expressions vocales de primates (Sturm, 2006b). Il peut générer des varia-
tions de « sons cibles » (Schwarz, 2004, 2006 ; Sturm, 2006a, b), ce qui constitue une forme de syn-
thèse croisée. De plus, on peut utiliser la synthèse concaténative pour naviguer dans des bibliothè-
ques d’enregistrements sonores (Schwarz, 2006, 2007 ; Schwarz et coll., 2006 ; Janer, 2009).
Des implémentations spécifiques de la synthèse concaténative pour la musique sont maintenant
brevetées (Basu et coll., 2010 ; Jehan, 2010) ; et d’autres ont trouvé un succès commercial sous la
forme d’outils pour la réalisation d’interprétation (Lindemann, 2007 ; Bonada et Serra, 2007). Des
logiciels gratuits et libres pour la synthèse concaténative sont également disponibles (Schwarz,
2004, 2006 ; Bernardes, 2014). Il est raisonnable de penser que la synthèse concaténative peut
588 SYNTHÈSE SONORE
devenir une méthode encore plus puissante de synthèse de musique puisque les chercheurs font
des progrès constants dans l’analyse, le modelage et la description automatique de contenu dans
les signaux audio (Casey, 2005 ; Casey et coll., 2008).
30.1 Fondamentaux
La figure 30.1 fournit une vue globale de l’algorithme de base de la synthèse concaténative. Son but
est de créer un nouveau son (résultat) qui ressemble d’une certaine façon à un son cible, mais en
utilisant de la matière sonore puisée dans un corpus. Cette approche est celle de Schwarz (2004,
2006) et Sturm (2006a, b). Cet algorithme de base analyse un son cible, puis le segmente en unités.
Une unité est un segment d’audio, par exemple un segment fenêtré de 100 ms ou une note musicale
entière. L’algorithme décrit ensuite chaque unité en utilisant une variété de valeurs quantitatives et
de libellés qualitatifs, nommés descripteurs ou caractéristiques, pouvant être par exemple le bary-
centre spectral ou le nom de la note. Ces derniers décrivent des aspects du contenu de l’unité.
L’algorithme cherche ensuite dans le corpus afin de trouver la « meilleure » unité permettant de
remplacer chaque unité cible. Le corpus est une collection d’enregistrements sonores fournissant
la matière sonore pour la synthèse, par exemple un album de musique en entier. Enfin, il combine
les unités sélectionnées pour synthétiser le résultat.
La cible ne doit pas nécessairement être un son, mais pourrait également être une partition, ou
une autre description comme du MIDI (Schwarz, 2004 ; Simon et coll., 2005 ; Lindemann, 2007 ;
Bonada et Serra, 2007 ; Maestre et coll., 2009), ou même un contrôle interactif (Aucouturier et
Pachet, 2006 ; Collins, 2006 ; Schwarz et coll., 2006 ; Comajuncosas et coll., 2011). Dans ce cas,
l’algorithme analyse la partition ou les gestes, et produit un ensemble de descriptions des unités
cibles pour guider la sélection d’unités dans le corpus.
CHAPITRE 30 – LA SYNTHÈSE CONCATÉNATIVE 589
niveau sont ceux que l’on utilise en général pour parler de la musique. Schwarz (2004, 2007) four-
nit une grande liste de descripteurs dédiés spécifiquement à la synthèse concaténative. Nous décri-
vons maintenant des descripteurs spécifiques de chacun de ces trois niveaux.
Un exemple d’un descripteur de bas niveau d’une unité est son énergie moyenne, qui est la somme
des valeurs d’échantillonnage au carré de l’unité divisé par le nombre d’échantillons. Un autre des-
cripteur de bas niveau est le taux de passages par zéro, qui n’est rien d’autre que le nombre d’échan-
tillons consécutifs dans une unité ayant des signes différents, divisé par sa durée. Nous pouvons
également créer des descripteurs de bas niveau à partir d’une transformée de Fourier d’une unité
(chapitre 11). Par exemple, le barycentre spectral d’une unité est la fréquence en dessous de
laquelle la moitié de son énergie existe. Nous pouvons diviser son spectre en quantiles spectraux
plus fins, par exemple la fréquence en dessous de laquelle se trouvent 10 %, 25 %… de sa puis-
sance. Par exemple, le point de pente spectrale d’une unité est la fréquence au-dessus de laquelle
590 SYNTHÈSE SONORE
existe 15 % de son énergie. De nombreux autres descripteurs de bas niveau sont spécifiés dans les
normes MPEG-7 (Manjunath et coll., 2002 ; Lindsay et coll., 2003).
✦ Descripteurs de niveau médian
Un descripteur de niveau médian est l’harmonicité, qui est une mesure de la force des relations par
nombres entiers entre les pics dans le spectre de magnitude d’une unité. Si une unité possède un
fort contenu harmonique, un autre descripteur de niveau médian est sa fréquence fondamentale.
Une unité pourrait également contenir plusieurs fréquences fondamentales. On peut également
utiliser un modèle perceptuel sur une unité pour mesurer ses propriétés de masquage de fré-
quence (Bosi et Goldberg, 2003). Parmi d’autres descripteurs de niveau médian, on trouve la forme
spectrale et l’emplacement des formants, provenant du modelage autorégressif des échantillons
dans l’unité.
✦ Descripteurs de haut niveau
Les descripteurs de haut niveau sont sémantiquement significatifs, car ils décrivent ce que nous
entendons, par exemple les hauteurs et les harmonies, les pulsations et les intonations, les instru-
ments, la sonie, etc. En raison des échelles temporelles des événements musicaux (Roads, 2002),
les descripteurs de haut niveau n’ont souvent de sens que s’ils sont appliqués à des unités de durée
substantielle. Par exemple, il existe une durée minimale qui est nécessaire pour que nous puissions
percevoir un son avec une hauteur basse. De même, nous ne pouvons dire d’une unité qu’elle a un
tempo lent si elle ne contient pas plus d’une pulsation.
La description de haut niveau automatique de l’audionumérique constitue actuellement un sujet
d’étude répandu, car elle s’appuie fortement sur la compréhension et le modelage de la perception
humaine du son et de la musique (SMC, 2012 ; Serra, 2013). Certains descripteurs de haut niveau
peuvent provenir de manière fiable de l’analyse de descripteurs de niveau médian. Les techniques
pour estimer des hauteurs simples sont relativement au point (chapitre 9) et celles pour estimer
des hauteurs multiples sont bien répandues (Christensen et Jakobsson, 2009). La détection de
tempo et la reconnaissance de rythme sont également en phase d’affinage (chapitre 10). Cepen-
dant, parmi les problèmes qu’il reste encore à résoudre de façon adéquate, on trouve l’identifica-
tion d’instrument dans des textures polyphoniques, la séparation de sources à partir de mélanges,
et la reconnaissance de genre et d’émotion (SMC, 2012 ; Serra, 2013 ; Sturm, 2014).
30.1.3 Sélection et séquençage d’unités
La méthode de base qu’utilise un algorithme de synthèse concaténative pour sélectionner une
unité de son dans le corpus est de trouver celle ayant les descripteurs les plus proches de ceux de la
cible. Par exemple, si la cible spécifie que l’unité sélectionnée devrait présenter la note Do4 jouée
par un hautbois, ou qu’une unité devrait avoir un barycentre spectral de 1 500 Hz, l’algorithme
cherchera dans le corpus une unité ayant une telle description. Si une telle unité n’existe pas, l’algo-
rithme peut trouver la meilleure unité suivante, peut-être la note Do4 jouée par un cor anglais, ou
une unité avec un barycentre spectral de 1 490 Hz. La figure 30.2 montre un exemple utilisant deux
descripteurs de bas niveau.
L’algorithme de synthèse concaténative peut également transformer une unité pour qu’elle corres-
ponde mieux à l’unité cible ou à ses unités sélectionnées auparavant (Schwarz, 2006 ; Sturm,
2006b; Coleman et coll., 2010). Ceci peut par exemple être effectué en utilisant du modelage
d’enveloppe, de l’étirement temporel ou du déplacement de hauteur (chapitre 6). Pour améliorer la
capacité à se transformer d’une unité, on peut la décomposer en sinusoïdes, transitoires et bruit
(chapitre 19) (Lindemann, 2007 ; Bonada et Serra, 2007).
CHAPITRE 30 – LA SYNTHÈSE CONCATÉNATIVE 591
Parce qu’associées elles peuvent faciliter la continuité entre les unités sélectionnées, une bonne
sélection et une bonne transformation d’unité sont cruciales pour synthétiser des performances
réalistes et de haute qualité (Simon et coll., 2005 ; Lindemann, 2007 ; Bonada et Serra, 2007 ;
Maestre et coll., 2009). La synthèse texte-parole de haute qualité adopte en fait la même approche
(Taylor, 2009). De tels algorithmes sélectionnent ensemble les unités afin qu’elles ne nécessitent
qu’une petite quantité de transformation.
Avec la description d’unités audio de niveau médian à haut, l’algorithme de synthèse concaténative
passe du travail avec des échantillons de signaux de pression acoustique au travail avec du contenu
(Amatriain et coll., 2003 ; Jehan, 2004), des objets (Schaeffer, 1966 ; Janer, 2009), ou des lexèmes
(Casey, 2005). Ceci permet à l’algorithme de comparer et de jauger la similitude et la compatibilité
d’unités à de multiples niveaux, ou spécificités. Lorsque l’algorithme effectue des comparaisons
entre les descripteurs de bas niveau, il travaille à une spécificité haute. Cela signifie que les descrip-
teurs sont assez spécifiques aux échantillons numériques d’une unité, et pas nécessairement à son
© Dunod. Toute reproduction non autorisée est un délit.
contenu. Par exemple, la différence entre les taux de passage à zéro de deux unités peut être extrê-
mement grande, mais cela peut ne pas se traduire en une différence perceptuelle aussi grande
entre les unités. En comparant les descripteurs de niveau médian, c’est-à-dire en comparant les
modèles des unités, ou en comparant les descripteurs de haut niveau, par exemple les notes, un
algorithme travaille à une spécificité basse. La similitude d’audio et de musique à toutes les spécifi-
cités fait encore le sujet de recherches actives (SMC, 2012 ; Serra, 2013).
coll., 2006 ; Janer, 2009). Nous pouvons améliorer cette approche de nombreuses façons, par exem-
ple en utilisant différentes durées d’unité pour l’analyse et la synthèse, en incorporant de l’aléa-
toire, ou en spécifiant des règles si la recherche ne trouve aucune correspondance convenable
(Sturm, 2006b). La figure 30.3 montre un exemple d’application de synthèse concaténative du son.
30.4 Conclusion
Composer quatre minutes de la pièce William’s Mix de John Cage a nécessité que six personnes tra-
vaillent pendant neuf mois pour couper et coller de la bande magnétique (Kostelanetz, 1970). La
© Dunod. Toute reproduction non autorisée est un délit.
synthèse concaténative cherche à faciliter automatiquement de telles pratiques avec une quantité
illimitée de matériau musical enregistré. Elle peut transformer de grandes bases de données
d’audio enregistré numériquement en moteurs de synthèse de musique, tout en préservant les
nuances de musiciens réels. Grâce aux améliorations de la segmentation et de la description auto-
matique du contenu de l’audio, les données avec lesquelles la synthèse concaténative travaille peu-
vent atteindre des tailles qui empêchent tout travail fait à la main.
Chapitre 31
La synthèse graphique
La synthèse sonore graphique caractérise des démarches ayant pour origine une approche visuelle
de la spécification du son. Ces systèmes traduisent les images en son. Ce chapitre examine l’histoire
de cette approche, puis s’attache à l’étude de récents travaux basés sur ce principe.
A. Schmalz développa un instrument de musique électronique ayant des générateurs de son photo-
électriques. En plaçant un nouveau phonogramme dans l’instrument (l’image d’une forme d’onde
gravée sur du verre), le timbre joué par le générateur de son changeait.
Ces premières expériences furent suivies d’instruments commerciaux basés sur des générateurs
de son photoélectriques rotatifs, tels que le Cellulophone, le Superpiano, le Welte Organ, le Syntronic
Organ, et le Photona. Les deux derniers furent développés par Ivan Eremeef, travaillant à la station
de radio WCAU à Philadelphie. Un consultant et défenseur des expériences de Eremeef fut le célèbre chef
d’orchestre Leopold Stokowski (qui créa également nombre d’œuvres de Varèse dans les années 1920).
Ceci représente l’une des rares collaborations entre ingénieurs et musiciens avant les années 1950.
Voir également Clark (1959) pour la description d’un instrument photoélectrique.
L’utilisation la plus imaginative et la plus élaborée des techniques optiques est sans doute celle du
réalisateur canadien Norman McLaren. Au prix d’efforts incroyables, celui-ci réalisait des films
dans lesquels il dessinait les formes d’onde sonore directement sur la piste son optique dentelée,
image après image (McLaren et Lewis, 1948).
596 SYNTHÈSE SONORE
Les techniques optiques ont également été utilisées pour contrôler la synthèse analogique. Dans le
système graphique Oramics, développé par Daphne Oram au Royaume-Uni (Douglas, 1973), le
compositeur dessinait des fonctions de contrôle sur un film transparent pour piloter un synthétiseur
analogique. Ces fonctions de contrôle déterminaient la hauteur, le vibrato, le trémolo, la qualité du
filtrage, et le niveau d’amplitude de plusieurs voix. Le film dentelé passait devant une tête de lecture
optique ; la tête transformait l’image en tension de contrôle électronique qui alimentait différents
modules d’un synthétiseur.
Un autre groupe d’instruments pouvaient lire la notation graphique. La sonothèque de L. Lavallée
lisait la musique codée graphiquement en utilisant une encre conductrice captée par une série de
brosses chargées électriquement (Rhea, 1972). La Free Music Machine de Cross-Grainger (première
version en 1944) lisait une notation graphique inscrite sur du papier (Bird, 1982), et synthétisait
un son avec huit oscillateurs à lampes.
Le Coded Music Apparatus (1952) de Hugh Le Caine permettait aux compositeurs de contrôler la
génération sonore grâce à cinq courbes continues : pour la hauteur, l’amplitude et pour trois contrôles
de timbre (Young, 1989). Son Oscillator Bank analogique (1959) était pilotée par un dispositif optique
pour lire une partition ressemblant à un sonagramme (Young, 1989). Voir le chapitre 11 pour une
explication des sonagrammes. Le Composer-Tron, développé par O. Kendall à la fin des années 1950,
lisait des enveloppes tracées à la main sur la surface d’un tube cathodique à rayons (un écran). Il uti-
lisait ensuite ces enveloppes pour contrôler un équipement de synthèse analogique.
Le contrôle graphique du son numérique commença avec les expériences de Mathews et Rosler
(1969). Plusieurs systèmes de synthèse orientés graphique ont été implémentés sur des ordinateurs
personnels ces dernières années (voir Oppenheim, 1987, par exemple). Le système UPIC, décrit ci-
dessous, est le plus élaboré.
vaient être déplacés, allongés ou rétrécis, coupés, copiés, ou collés. La figure 31.1 est un exemple
de Mycenae-Alpha de Iannis Xenakis (1980), créé sur le système UPIC.
Les musiciens avaient également la possibilité d’enregistrer, d’éditer, et de noter des sons échantillon-
nés. Les signaux échantillonnés pouvaient être utilisés comme formes d’onde ou comme enveloppes.
Lorsque les échantillons étaient utilisés comme enveloppes, des effets de modulation d’amplitude
importants apparaissaient. Les partitions graphiques pouvaient être orchestrées avec une combi-
naison de sons synthétiques et échantillonnés, si désiré.
Comme le montre la figure 31.2, l’interaction gestuelle et graphique permet au compositeur de créer
facilement des structures de notation qui seraient incommodes à spécifier par d’autres moyens. Au
© Dunod. Toute reproduction non autorisée est un délit.
niveau d’une page, l’UPIC capture simultanément des détails microstructurels et des évolutions
macrostructurelles.
31.2.2 UPIC en temps réel
La première version du système UPIC tournait sur un mini-ordinateur lent et volumineux. Bien que
la conception des graphiques était un processus interactif, le calcul des échantillons sonores à partir
de la partition graphique du compositeur impliquait un temps d’attente. Une évolution majeure
de l’UPIC fut le développement d’une version en temps réel, basée sur un moteur de synthèse à
64 oscillateurs (Raczinski et Marino, 1988). En 1991, ce moteur fut couplé à un ordinateur personnel
tournant sous système Windows, permettant une interface graphique sophistiquée (Marino,
Raczinski et Serra, 1990 ; Raczinski, Marino et Serra, 1991 ; Marino, Serra et Raczinski, 1992 ;
Pape, 1992).
La figure 31.3 est une page créée avec l’UPIC en temps réel. Une page peut contenir 64 arcs simul-
tanés, et 4 000 arcs par page. La durée de chaque page peut être de 6 ms à plus de 2 heures. Les opé-
598 SYNTHÈSE SONORE
Figure 31.3 – Page d’une partition de 1992 de Gérard Pape, réalisée sur système UPIC
en temps réel aux Ateliers UPIC, Paris. Les icônes de la partie inférieure de l’écran représentent un
ensemble de travail comportant des formes d’onde et des enveloppes.
CHAPITRE 31 – LA SYNTHÈSE GRAPHIQUE 599
rations d’édition telles que couper, copier, et coller réarrangent les arcs, qui peuvent également être
allongés ou compressés en temps et en fréquence. Ces opérations peuvent survenir lorsqu’une page
est jouée. Quatre échelles musicales différentes peuvent être assignées à la même page. Lorsqu’ils
sont joués avec une échelle discrète, les arcs suivent la progression de fréquences définie dans une
table d’accordage.
La synthèse en temps réel transforme l’UPIC en instrument d’interprétation. Normalement, les unités
de synthèse interprètent la partition de gauche à droite, se déplaçant à un taux constant défini par
la durée de la page établie par l’utilisateur. Quoi qu’il en soit, le taux et la direction de lecture de
partition peuvent également être contrôlés en temps réel par la souris. Ceci permet par exemple des
sauts discontinus d’une partie de la partition à une autre. La séquence de déplacement de contrôle
peut être enregistrée par le système lors de l’interprétation d’une partition. Cette interprétation
peut plus tard être rejouée ou éditée.
sur l’écran peuvent être traitées indifféremment comme enveloppes, comme formes d’onde, comme
partitions hauteur-temps, comme courbes de tempo, ou comme trajectoires d’interprétation. Dans ce
traitement uniforme des données de composition se trouve une généralité qui devrait être étendue à
un plus grand nombre de systèmes de musique informatique.
Chapitre 32
La synthèse
stochastique et chaotique
chaotiques intéressants, dont les modulations sinusoïdales (chapitre 25) et la synthèse granulaire
(chapitre 22).
En fait, le terme « bruit » sert de substitut linguistique à une description plus précise d’un signal
compliqué et mal compris, tel que les parties inharmoniques et chaotiques des sons de vents et de
cordes, ou les transitoires d’attaque des instruments à percussion. Le processus qui crée ces courbes
de pression d’air est constitué de turbulences compliquées que la science commence tout juste à
comprendre — celles-ci n’ayant pas nécessairement un comportement « aléatoire » (quel que soit
le sens que l’on donne à ce terme).
Aujourd’hui, l’un des défis principaux de l’acoustique musicale est de créer des modèles algorith-
miques plus sophistiqués du bruit. Les critères statistiques globaux qui définissent une séquence
numérique pseudo aléatoire, par exemple, ne sont pas complètement adaptés à la description de
nombreux sons bruiteux. Comme les premières boîtes à rythmes l’ont montré, le bruit blanc est un
pauvre substitut de la cymbale crash. Le paradigme de chaos non linéaire — algorithmes détermi-
nistes générant un comportement complexe — a remplacé les modèles stochastiques de certains
phénomènes observés par les scientifiques (Gleick, 1988).
(a)
(b)
Les techniques de modulation de bruit utilisent un générateur de signal pseudo aléatoire ou géné-
rateur de bruit pour contrôler la fréquence ou l’amplitude d’un oscillateur. Voir le chapitre 25 pour
une description de la MA et de la MF. Comme le montre la figure 32.1, lorsque le bruit est filtré pour
ne laisser passer que des fréquences du domaine infrasonore (en dessous de 20 Hz), l’effet est une
sorte de trémolo (dans la MA) ou de vibrato (dans la MF) aléatoire.
Lorsque le bruit a une largeur de bande plus grande, le résultat de la modulation est un type de
bruit coloré, c’est-à-dire une bande bruiteuse centrée autour de la fréquence porteuse de l’oscillateur.
La figure 32.2 montre les diagrammes de patch pour les instruments de MA et de MF modulés par
du bruit. Dans les deux cas, il est recommandé d’utiliser une source bruiteuse filtrée en passe-bas
pour que l’élément aléatoire introduit par le bruit soit lui-même proche de la fréquence porteuse.
Si le bruit n’est pas filtré, l’effet peut sonner comme un composant bruiteux de haute fréquence
simplement ajouté à la porteuse.
© Dunod. Toute reproduction non autorisée est un délit.
(a) (b)
(c) (d)
(a) (b)
(c) (d)
Figure 32.4 – Sinusoïde soumise aux quatre fonctions de transfert de la figure 32.3.
CHAPITRE 32 – LA SYNTHÈSE STOCHASTIQUE ET CHAOTIQUE 605
sivement bruiteuses, tandis que la figure 32.4 montre les effets de ces fonctions sur une sinusoïde
passée à travers la table de distorsion.
Une utilisation plus subtile de l’aléatoire dans la distorsion non linéaire emploie une fonction de
distorsion lisse aux amplitudes basses et introduit progressivement de l’aléatoire dans les amplitudes
plus fortes. Une autre possibilité est de lier la quantité d’aléatoire dans la fonction de distorsion à
la durée du son ou à un autre paramètre de l’événement.
La figure 32.5 montre deux formes d’onde générées grâce aux méthodes stochastiques. La figure 32.5a
montre le produit d’un cosinus hyperbolique avec des densités exponentielles utilisant des barrières
et un temps non aléatoire. La figure 32.5b montre le même algorithme, mais les intervalles de temps
sont cette fois déterminés aléatoirement.
(a)
(b)
Figure 32.5 – Deux formes d’onde générées par des méthodes stochastiques.
(a) Le produit d’une fonction cosinus hyperbolique avec des densités exponentielles utilisant des
barrières et des intervalles de temps non aléatoire. (b) Le même algorithme, avec des intervalles
de temps rendus aléatoires (d’après Xenakis, 1992).
3. Combinaison des fonctions de probabilité en mélanges grâce à l’addition, si possible dans le temps.
6. Utilisation de fonctions de probabilité pour générer les valeurs de paramètres d’autres fonctions de
probabilité servant quant à elles à produire les formes d’onde sonores.
7. Assigner des courbes de probabilité à des classes, et considérer ces classes comme éléments
d’ensembles ou de processus d’ordre supérieur (c’est-à-dire introduire un contrôle hiérarchique dans la
génération de forme d’onde).
32.2.2 GENDY
Le programme GENDY (GÉNération DYnamique) est une implémentation de synthèse dynamique
stochastique, ayant des liens conceptuels avec les techniques de synthèse par interpolation décrites
dans le chapitre 29. Cette partie décrit en particulier le programme GENDY3 (Xenakis, 1992 ; Serra,
1992).
CHAPITRE 32 – LA SYNTHÈSE STOCHASTIQUE ET CHAOTIQUE 607
GENDY crée du son en répétant une forme d’onde initiale et en la distordant en temps et en amplitude.
Ainsi, l’algorithme de synthèse calcule chaque nouvelle forme d’onde en appliquant des variations
stochastiques à la forme d’onde précédente.
Dans le programme, la forme d’onde est représentée sous forme de polygone, limité par des côtés sur
l’axe du temps et l’axe d’amplitude. Les segments du polygone sont définis par des sommets sur les
axes de temps et d’amplitude (figure 32.6). Le programme effectue une interpolation de segments
de droites entre ces sommets.
Sommets
Amp. 0
Temps
GENDY synthétise les points de sommet selon diverses distributions stochastiques. Si celles-ci ne
sont pas contenues à l’intérieur d’un intervalle fin, le signal devient rapidement du bruit blanc.
Pour cette raison, le programme contraint les variations de temps et d’amplitude pour rester à
l’intérieur des limites d’un miroir. Le miroir est constitué d’une barrière d’amplitude et d’une barrière
de temps. Les points qui tombent en dehors du miroir sont reflétés dans celui-ci (figure 32.7). En fait,
le miroir filtre les variations stochastiques. En augmentant ou diminuant la barrière d’amplitude,
© Dunod. Toute reproduction non autorisée est un délit.
I
↑ Miroir
P
↓R
∗
Amp. 0
Temps T
Figure 32.7 – Les barrières de temps et d’amplitude (P, N, T) définissant un miroir
contraignent le sommet généré par celui marqué d’un astérisque. Si le sommet tombe de façon
stochastique en dehors des barrières indiquées par la boîte (point initial I), la barrière P outrepasse
le choix, et reflète le sommet dans la boîte (reflet R).
CHAPITRE 32 – LA SYNTHÈSE STOCHASTIQUE ET CHAOTIQUE 609
© Dunod. Toute reproduction non autorisée est un délit.
Figure 32.8 – Évolution d’une forme d’onde générée par le programme GENDY.
L’évolution s’effectue de haut en bas, avec le temps tracé de gauche à droite sur chaque ligne.
Bibliographie
ADRIEN, J.-M. et RODET, X.. 1985. « Physical models of instruments, a modular approach, appli-
cations to strings. » Dans B. Truax, ed. Proceedings of the 1985 International Computer Music
Conference. San Francisco : International Computer Music Association. p. 85-89.
AHARON, M., ELAD, M. et BRUCKSTEIN, A. 2006. « K-SVD : An algorithm for designing of over-
complete dictionaries for sparse representation. » IEEE Transactions on Signal Processing
54(11) : 4311-4322.
ALLEN, J.B. et RABINER, L.R. 1977. « A unified approach to short-time Fourier analysis and
synthesis. » Proceedings of the IEEE 65 : 1558-1564.
ALLEN, P. et DANNENBERG, R.1990. « Tracking musical beats in real time. » Dans S. Arnold et
G. Hair, eds. Proceedings of the 1990 International Computer Music Conference. San Francisco :
International Computer Music Association. p. 140-143.
612 L’AUDIONUMÉRIQUE
ALLES, H. 1977a. « A portable digital sound synthesis system. » Computer Music Journal 1(4) : 5-6.
Version révisée dans C. Roads et J. Strawn, eds. 1985. Foundations of Computer Music. Cam-
bridge, MA : MIT Press. p. 244-249.
ALLOUIS, J.-F. 1979. « The use of high-speed microprocessors for sound synthesis. » Computer
Music Journal 3(1) : 14-16. Réimprimé dans C. Roads et J. Strawn, eds. 1985. Foundations of
Computer Music. Cambridge, MA : MIT Press. p. 281-288.
ALLOUIS, J.-F. et BERNIER, J.-Y. 1982. « The SYTER project: sound processor design and software
overview. » Dans J. Strawn et T. Blum, eds. Proceedings of the 1982 International Computer
Music Conference. San Francisco : International Computer Music Association. p. 232-240.
AMATRIAIN, X., BONADA, J., LOSCO, A., ARCOS, J. et VERFAILLE, V. 2003. « Content-based
transformations. » Journal of New Music Research 32(1) : 95-114.
AMERICAN CINEMATOGRAPHER. 1953. « CinemaScope: What it is; How it Works ». American
Cinematographer, mars 1953.
AMES, C. 1987a. « Automated composition in retrospect: 1956-1986. » Leonardo 20(2) : 169-186.
AMES, C. 1989a. « The Markov process as a compositional model: a survey and tutorial. » Leo-
nardo 22(2) : 175-188.
AMUEDO, J. 1984. « Estimation of musical pitch when F[0] is large. » Présenté à la « 1984 Interna-
tional Computer Music Conference », Paris, France.
ANDRLE, M., REBOLLO-NEIRA, L. et SAGIANOS, E. 2004. « Backward-optimized orthogonal
matching pursuit ap- proach. » IEEE Signal Processing Letters 11(9) : 705-708.
ANGUS, J. et FAULKNER, T. 1990. « Practical 20 bit. » Studio Sound 32(4) : 38-45.
APEL, W. 1972. Harvard Dictionary of Music. Cambridge, MA : Harvard University Press.
ARFIB, D. 1979. « Digital synthesis of complex spectra by means of multiplication of non-linear
distorted sine waves. » Journal of the Audio Engineering Society 27(10) : 757-779.
ARFIB, D. 1991. « Analysis, transformation, and resynthesis of musical sounds with the help of a
time-frequency representation. » Dans G. De Poli, A. Piccialli et C. Roads, eds. Representa-
tions of Musical Signals. Cambridge, MA : MIT Press. p. 87-118.
ASTA, V., CHAUVEAU, A., DI GIUGNO, G. et KOTT, J.. 1980. « The 4X: a real-time digital synthesis
system. » Automazione e Strumentazione 28(2) : 119-133.
ATAL, B. et HANAUER, S. 1971. « Speech analysis and synthesis by linear prediction of the speech
wave. » Journal of the Acoustical Society of America 50(2) : 637-655.
ATAL, B. et REMDE, J. 1982. « A new model of LPC excitation for producing natural sounding
speech at low bit rates. » Proceedings of the 1982 IEEE Conference on Speech and Acoustics.
New York. IEEE.
AUCOUTURIER, J.-J. et PACHET, F. 2006. « Jamming with Plunderphonics : Interactive Concate-
native Synthesis of Music. » Journal of New Music Research 32(1) : 35-50.
AUDIO ENGINEERING SOCIETY. 1992a. « AES recommended practice for digital audio enginee-
ring – serial transmission format for two-channel linearly represented digital audio data. »
Journal of the Audio Engineering Society 40(3) : 148-163.
AUDIO ENGINEERING SOCIETY. 1992b. « AES recommended practice for digital audio enginee-
ring – format for the user data channel of the AES digital audio interface. » Journal of the
Audio Engineering Society 40(3) : 167-183.
AUDIO ENGINEERING SOCIETY. 2005. « AES standard for digital audio engineering – High-reso-
lution multi-channel audio interconnection (HRMAI). »
BIBLIOGRAPHIE 613
BACKHAUS, J. 1932. « Über die Bedeutung der Ausgleichsvorgänge in der Akustik. » Zeitschrift für
technische Physik 13(1) : 31-46.
BACKUS, J. 1977. The Acoustical Foundations of Music. 2e édition. New York : Norton.
BAISNÉE, P.-F. 1985. Chant Manual. Paris : IRCAM.
BAISNÉE, P.-F., BARRIÈRE, J.-B., DALBAVIE, M.-A., DUTHEN, J., LINDBERG, M., POTARD, Y. et
SAARIAHO, K. 1988. « Esquisse: a compositional environment. » Dans C. Lischka et J.
Fritsch. Proceedings of the 1988 International Computer Music Conference. San Francisco :
International Computer Music Association et Cologne : Feedback Papers. p. 108-118.
BAMFORD, J.S. 1995. « An Analysis of Ambisonic Sound Systems of First and Second Order. »
Thèse de doctorat, université de Waterloo, Canada. Internet : http://audiolab.uwaterloo.ca/
~jeffb/thesis/thesis.html
BARBAUD, P. 1966. Initiation à la musique algorithmique. Paris : Dunod.
BARBOUR, E. 1998. « The cool sound of tubes. » IEEE Spectrum 35(8) : 24-35.
BARRIÈRE, J.-B. 1991. Le timbre, métaphore pour la composition. Paris : IRCAM et Christian Bour-
geois.
BARRIÈRE, J.-B., IOVINO, F. et LAURSON, M. 1991. « A new CHANT synthesizer in C and its control
environment in Patchwork. » Dans B. Alphonce et B. Pennycook, eds. Proceedings of the 1991
International Computer Music Conference. San Francisco : International Computer Music
Association. p. 11-14.
BARRIÈRE, J.-B., POTARD, Y. et BAISNÉE, P.-F.. 1985. « Models of continuity between synthesis
and processing for the elaboration and control of timbre structure. » Dans B. Truax, ed. Pro-
ceedings of the 1985 International Computer Music Conference. San Francisco : International
Computer Music Association. p. 193-198.
BASS, S. et GOEDDEL, T. 1981. « The efficient digital implementation of subtractive music
synthesis. » IEEE Micro 1(3) : 24-37.
BASTIAANS, M. 1980. « Gabor’s expansion of a signal into Gaussian elementary signals. » Procee-
dings of the IEEE 68 : 538-539.
BASTIAANS, M. 1985. « On the sliding-window representation of signals. » IEEE Transactions on
Acoustics, Speech, and Signal Processing ASSP-33(4) : 868-873.
BATE, J. 1990. « The effect of modulator phase on timbres in FM synthesis. » Computer Music Jour-
nal 14(3) : 38-45.
BASU, S., SIMON, I., SALESIN, D., AGRAWALA, M., SHERWANI, A. et GIBSON, C. 2006. « Creating
© Dunod. Toute reproduction non autorisée est un délit.
Music via Concatenative Synthesis. » Brevet US 7,737,354 Washington : U.S. Patent Office.
BAYLE, F. 1989. « La musique acousmatique ou l’art des sons projetés. » Paris : Encyclopedia Uni-
versalis.
BAYLE, F. 1993. Musique Acousmatique. Paris : Institut National de l’Audiovisuel/Groupe de
Recherches Musicales et Buchet/Chastel.
BEAUCHAMP, J. 1969. « A computer system for time-variant harmonic analysis and synthesis of
musical tones. » Dans H. von Foerster et J. Beauchamp, eds. Music by Computers. New York :
Wiley.
BEAUCHAMP, J. 1975. « Analysis and synthesis of cornet tones using nonlinear interharmonic
relationships. » Journal of the Audio Engineering Society 23(10) : 718-795.
BEAUCHAMP, J. 1979. « Brass-tone synthesis by spectrum evolution matching with nonlinear
functions. » Computer Music Journal 3(2) : 35-43. Version révisée et mise à jour dans
C. Roads et J. Strawn, eds. 1985. Foundations of Computer Music. Cambridge, MA : MIT
Press. p. 95-113.
614 L’AUDIONUMÉRIQUE
BEAUCHAMP, J. 1981. « Data reduction and resynthesis of connected solo passages using fre-
quency, amplitude, and ‘brightness’ detection and the nonlinear synthesis technique. » Dans
L. Austin et T. Clark, eds. Proceedings of the 1981 International Computer Music Conference.
San Francisco : International Computer Music Association. p. 316-323.
BEAUCHAMP, J. 1992a. « Will the real FM equation please stand up? » dans Letters section du
Computer Music Journal 16(4) : 6-7.
BEAUCHAMP, J. 1993. « Unix workstation software for analysis, graphics, modification, and syn-
thesis of musical sounds. » Manuscrit inédit.
BEAUCHAMP, J. et HORNER, A. 1992. « Extended nonlinear waveshaping analysis/synthesis
technique. » Dans A. Strange, ed. Proceedings of the 1992 International Computer Music Confe-
rence. San Francisco : International Computer Music Association. p. 2-5.
BEAUCHAMP, J., MAHER, R. et BROWN, R.. 1993. « Detection of musical pitch from recorded solo
performances. » Manuscrit inédit.
BEEKMAN, I. 1604-1634. Journal tenu par Isaac Beekman de 1604 à 1634. Quatre volumes. C. de
Waard, ed. 1953. La Hague.
BEGAULT, D. 1991. « Challenges to successful implementation of 3-D sound. » Journal of the
Audio Engineering Society 39(11) : 864-870.
BEIGEL, M. 1979. « A digital ‘phase shifter’ for musical applications using the Bell Labs (Alles-
Fischer) digital filter module. » Journal of the Audio Engineering Society 27(9) : 673-676
BENADE, A. 1960. « The physics of wood winds. » Réimprimé dans C.M. Hutchins, ed. 1978. The
Physics of Music. San Francisco : Freeman. p. 34-43.
BENADE, A. 1990. Fundamentals of Musical Acoustics. New York : Dover Publications. Première
publication en 1976.
BENEDICT, R. 1976. Electronics for Scientists and Engineers. Englewood Cliffs : Prentice-Hall.
BENNETT, G. 1981. « Singing synthesis in electronic music. » Dans J. Sundberg, ed. Research Aspects
of Singing. Publication 33. Stockholm : Royal Swedish Academy of Music. p. 34-50.
BENNETT, G. et RODET, X. 1989. « Synthesis of the singing voice. » Dans M. Mathews et J. Pierce,
eds. Current Directions in Computer Music Research. Cambridge, MA : MIT Press. p. 19-44.
BERANEK, L. 1949. Acoustic Measurements. New York : John Wiley and Sons.
BERG, P. 1975. « ASP – automated synthesis program. » Utrecht : Institut de Sonologie.
BERG, P. 1978a. « PILE2 – a description of the language. » Utrecht : Institut de Sonologie.
BERG, P. 1978b. « A user’s manual for SSP. » Utrecht : Institut de Sonologie.
BERG, P. 1979. « PILE – A language for sound synthesis. » Computer Music Journal 3(1) : 30-41.
Version révisée et mise à jour dans C. Roads et J. Strawn, eds. 1985. Foundations of Computer
Music. Cambridge, MA : MIT Press. p. 160-190.
BERNARDES, G. 2014. « Composing Music by Selection : Content-Based Algorithmic-Assisted
Audio Composition. » Thèse de doctorat. Faculté d’ingénieur, Université de Porto, Portugal.
BERNARDINI, N. et OTTO, P. 1989. « TRAILS : an interactive system for sound location. » Dans
T. Wells et D. Butler, eds. Proceedings of the 1989 International Computer Music Conference.
San Francisco : International Computer Music Association. p. 29-33.
BERNSTEIN, A. et COOPER, E.D. 1976. « The piecewise-linear technique of electronic music
synthesis. » Journal of the Audio Engineering Society 24(7/8) : 446-454.
BILSEN, F.A., 1977. « Pitch of noise signals: evidence for a ‘central’ spectrum. » Journal of the
Acoustical Society of America 61 : 150-161.
BIBLIOGRAPHIE 615
BILSEN, F. et RITSMA, R. 1969. « Repetition pitch and its implications for hearing theory. »
Acustica 22 : 205-213.
BIRD, J. 1982. Percy Grainger. South Melbourne : Sun Books.
BISCHOFF, J., GOLD, R. et HORTON, J. 1978. « A microcomputer-based network for live
performance. » Computer Music Journal 2(3) : 24-29. Version révisée et mise à jour dans
C. Roads et J. Strawn, eds. 1985. Foundations of Computer Music. Cambridge, MA : MIT Press.
p. 588-600.
BLACK, H. 1953. Modulation Theory. New York : Van Nostrand-Reinhold.
BLACKHAM, E.D. 1965. « The physics of the piano. » Scientific American 235(12). Réimprimé dans
C. Hutchins, ed. 1978. The Physics of Music. San Francisco : W. H. Freeman. p. 24-33.
BLACKMAN, R. et TUKEY, J. 1958. The Measurement of Power Spectra. New York : Dover.
BLAKE, W. 1986. Mechanics of Flow-induced Sound and Vibration. Deux volumes. New York :
Academic Press.
BLAUERT, J. 1983. Spatial Hearing. Cambridge, MA : MIT Press.
BLESSER, B. 1978. « Digitization of audio. » Journal of the Audio Engineering Society 26(10) : 739-
771.
BLESSER, B. 1983. « Advanced analog-to-digital conversion and filtering : data conversion. » Dans
B. Blesser, B. Locanthi, et T. Stockham, eds. Digital Audio. New York : Audio Engineering
Society. p. 37-53.
BLEVIS, E., JENKINS, M. et GLASGOW, J. 1988. « Motivations, sources, and initial design ideas for
CALM: a composition analysis/generation language for music. » Dans Workshop on Artificial
Intelligence and Music, AAAI-88 Conference. Menlo Park : American Association for Artificial
Intelligence.
BLOCH, G., et coll. 1992. « Spatializer: from room acoustics to virtual acoustics. » Dans A. Strange,
ed. Proceedings of the 1992 International Computer Music Conference. San Francisco : Interna-
tional Computer Music Association. p. 253-256.
BLOOM, P.J. 1977. « Determination of monaural sensitivity changes due to the pinna by use of
minimum audible field measurements in the lateral vertical plane. » Journal of the Acoustic
Society of America 61 : 1264-1269.
BLOOM, P.J. 1985. « High-quality digital audio in the entertainment industry: an overview of
achievements and challenges. » IEEE ASSP Magazine 2(4) : 2-25.
BLUM, T. 1979. « Review of Herbert Brün: SAWDUST. » Computer Music Journal 3(1) : 6-7.
© Dunod. Toute reproduction non autorisée est un délit.
BUXTON, W., et coll. 1978a. « The use of hierarchy and instance in a data structure for computer
music. » Computer Music Journal 2(4) : 10-20. Version révisée et mise à jour dans C. Roads et
J. Strawn, eds. 1985. Foundations of Computer Music Cambridge, MA : MIT Press. p. 443-466.
BUXTON, W., et coll. 1978b. « An introduction to the SSSP digital synthesizer. » Computer Music
Journal 2(4) : 28-38. Version révisée et mise à jour dans C. Roads et J. Strawn, eds. 1985.
Foundations of Computer Music Cambridge, MA : MIT Press. p. 206-224.
BUXTON, W., PATEL, S., REEVES, W. et BAECKER, R. 1982. « Objed and the design of timbral
resources. » Computer Music Journal 6(2) : 32-44. Réimprimé dans C. Roads, ed. 1989. The
Music Machine. Cambridge, MA : MIT Press. p. 263-275.
CADOZ, C., LUCIANI, M. et FLORENS, J.-L. 1984. « Responsive input devices and sound synthesis
by simulation of instrumental mechanisms. » Computer Music Journal 8(3) : 60-73.
CAGE, J. 1937. « The future of music : credo. » Dans J. Cage. 1961. Silence. Middletown : Wesleyan
University Press.
CAGE, J. 1952. « William’s Mix » (partition musicale), New York, NY.
CAHILL, T. 1897. Brevets américains n° 580 035 (1897), n° 1 107 261 (1914), n° 1 213 803 (1917)
et n° 1 295 691 (1919). (Telharmonium.)
CALVET, O., LAURENS, R. et ADRIEN, J.-M. 1990. « Modal synthesis : compilation of mechanical
sub-structures and acoustical sub-systems. » Dans S. Arnold et G. Hair, eds. Proceedings of
the 1990 International Computer Music Conference. San Francisco : International Computer
Music Association. p. 57-59.
CAMPBELL, M. et GREATED, C.. 1987. The Musician’s Guide to Acoustics. London : J.M. Dent and
Sons.
CANN, R. 1978. « Speech analysis/synthesis for electronic vocal music. » Ph.D dissertation.
Princeton : Princeton University Department of Music.
CANN, R. 1979-1980. « An analysis/synthesis tutorial. » Computer Music Journal 3(3) : 6-11 ; 3(4) :
9-13 ; 4(1) : 36-42. Réimprimé dans C. Roads et J. Strawn, eds. 1985. Foundations of Compu-
ter Music. Cambridge, MA : MIT Press. p. 114-144.
CARROUSO. 2001. « CARROUSO – System Specification and Functional Architecture. » Internet :
http://www.idmt.fraunhofer.de/projects/carrouso/Deliverables/CARROUSO_D1__Public_July
_10th_2001.pdf
CARSON, J. 1922. « Notes on the theory of modulation. » Proceedings of the Institute of Radio Engi-
neers 10 : 57-64.
© Dunod. Toute reproduction non autorisée est un délit.
CASEY, M.A. 2005. « Acoustic Lexemes for Organizing Internet Audio. » Contemporary Music
Review 24(6) : 489-508.
CASEY M., VELTKAMP, R., GOTO, M., LEMAN, M., RHODES, C. et SLANEY, M. 2008. « Content-
based music in- formation retrieval : Current directions and future challenges. » Proceedings
of the IEEE 96(4) : 668-696.
CASTINE, P. 1993. « Whatever happened to CMAP for Macintosh? A status report. » Dans S. Ohteru,
ed. Proceedings of the 1993 International Computer Music Conference. San Francisco : Interna-
tional Computer Music Association. p. 360-362.
CAVALIERE, S., ORTOSECCO, I., et PICCIALLI, A. 1986. « Synthesis by formants: a new approach. »
Dans Proceedings of the 1986 IEEE ASSP Workshop on Applications of Signal Processing to
Audio and Acoustics. New York : IEEE Acoustics, Speech, and Signal Processing Society.
CERRUTI, R. et RODEGHIERO, G. 1983. « Comments on ‘Musical sound synthesis by forward
differences’. » Journal of the Audio Engineering Society 31(6) : 446.
618 L’AUDIONUMÉRIQUE
CHOWNING, J., RUSH, L., MONT-REYNAUD, B., CHAFE, C., SCHLOSS, W.A, et SMITH, J. 1984.
« Intelligent systems for the analysis of digitized acoustic signals. » Department of Music
Report STAN-M-15. Stanford : Stanford University.
CHRISTENSEN, M.G. et JENSEN, S.H. 2007. « The cyclic matching pursuit and its application to
audio modeling and coding. » Proceedings of the Asilomar Conference on Signals, Systems, and
Computers. Pacific Grove, CA. pp. 550-554.
CHRISTENSEN, M. et JAKOBSSON, A. 2009. Multi-Pitch Estimation. Morgan & Claypool
Publishers.
CHRISTENSEN, M.G. et JENSEN, S.H. 2011. « A perceptually reweighted mixed-norm method for
sparse approximation of audio signals. » Proceedings of the Asilomar Conference on Signals,
Systems, and Computers. Pacific Grove, CA. pp. 575-579.
CHRISTENSEN, O. et CHRISTENSEN, K. L. Approximation Theory : From Taylor Polynomials to
Wavelets. Boston, MA : Birkhäuser.
CLARK, M. 1959. « A new musical instrument. » Gravenser Blätter 14 : 110-123.
CLARKE, E. 1987. « Levels of structure in the organization of musical time. » Contemporary Music
Review 2(1) : 211-238.
CLARKE, J. 1990. « An FOF synthesis tutorial. » Dans B. Vercoe, ed. Csound : A Manual for the
Audio Processing System. Cambridge, MA : MIT Media Laboratory.
CLOZIER, C. 1993. « Le Gmebaphone. » Bourges : Groupe de Musique Expérimentale de Bourges.
CLYNES, M. ed. 1982. Music, Mind, and Brain: The Neuropsychology of Music. New York : Plenum.
CLYNES, M. et NETTHEIM, N. 1982. « The living quality of music. » Dans M. Clynes, ed. Music,
Mind, and Brain : The Neuropsychology of Music. New York : Plenum. p. 47-82.
CLYNES, M. et WALKER, J. 1982. « Neurobiologic functions of rhythm, time, and pulse in music. »
Dans M. Clynes, ed. Music, Mind, and Brain : The Neuropsychology of Music. New York : Plenum.
p. 47-82.
COGAN, R. 1984. New Images of Musical Sound. Cambridge, MA : Harvard University Press.
COHEN, E. 1980. « The influence of nonharmonic partials on tone perception. » Ph.D dissertation.
Stanford : Stanford University.
COHEN, H. 1984. Quantifying Music. Dordrecht : Reidel.
© Dunod. Toute reproduction non autorisée est un délit.
DODGE, C. 1985. « In Celebration: the composition and its realization in synthetic speech. » Dans
C. Roads, ed. 1985. Composers and the Computer. Madison : A-R Éditions.
DODGE, C. 1989. « On Speech Songs. » Dans M. Mathews et J. Pierce, eds. Current Directions in
Computer Music Research. Cambridge, MA : MIT Press. p. 9-17.
DODGE, C. et JERSE, C. 1985. Computer Music. New York : Schirmer.
DOLBY. 2005. 5.1-Channel Music Production Guidelines. Dolby Laboratories Inc. Internet :
http://www.dolby.com/assets/pdf/tech_library/4_Multichannel_Music_Mixing.pdf
DOLSON, M. 1983. « A tracking phase vocoder and its use in the analysis of ensemble sounds. »
Ph.D dissertation. Pasadena : California Institute of Technology.
DOLSON, M. 1985. « Recent advances in musique concrète at CARL. » Dans B. Truax, ed. Proceedings
of the 1985 International Computer Music Conference. San Francisco : International Computer
Music Association. p. 55-60.
DOLSON, M. 1986. « The phase vocoder : a tutorial. » Computer Music Journal 10(4) :14-27.
622 L’AUDIONUMÉRIQUE
ELAD, M. 2010. Sparse and Redundant Representations : From Theory to Applications in Signal and
Image Processing. New York, NY : Springer.
ELEN, R. 1998. « Ambisonics for the New Millenium. » Internet : http://www.ambisonic.net/
gformat.html
ERBE, T. 1992. SoundHack User’s Manual. Oakland : Mills College.
ERNST, D. 1977. The Evolution of Electronic Music. New York : Schirmer.
EVANGELISTA, G. 1991. « Wavelet transforms that we can play. » Dans G. De Poli, A. Piccialli et
C. Roads, eds. Representations of Musical Signals. Cambridge, MA : MIT Press. p. 119-136.
EVANGELISTA, G. 1992. « Comb and multiplexed wavelet transforms and their applications to signal
processing. » Manuscrit inédit.
EWERT, S., PARDO, B., MULLER, M. et PLUMBLEY, M. 2014. « Score-informed source separation
for musical audio recordings : An overview. » IEEE Signal Processing Magazine 31(5) : 116-
124.
FACTOR, R. et KATZ, S. 1972. « The digital audio delay line. » db Magazine, mai : 18.
FAIRBANKS, G., EVERITT, W. et JAEGER, R. 1954. « Method for time or frequency compression-
expansion of speech. » Institute of Radio Engineers Transactions on Audio AV-2(1) : 7-12.
FEDERKOW, G., BUXTON, W. et SMITH, K. 1978. « A computer-controlled sound distribution
system for performance of electroacoustic music. » Computer Music Journal 2(3) : 33-42.
FELLGETT, P. 1975. « Ambisonics. Part One: General System Description. » Studio Sound 17(8),
août 1975 : p. 20-40.
FERRETTI, E. 1965. « The computer as a tool for the creative musician. » Dans Computers for the
Humanities. New Haven : Yale University Press. p. 107-112.
FERRETTI, E. 1966. « Exploration and organizationof sound with the computer. » Journal of the
Acoustical Society of America 39(6) : 1245.
FERRETTI, E. 1975. « Sound synthesis by rule. » Dans J. Beauchamp et J. Melby, eds. Proceedings
of the Second Annual Music Computation Conference. Urbana, IL : University of Illinois. p. 1-21.
FIGUEIREDO, M., NOWAK, R. et WRIGHT, S.J. 2007. « Gradient projection for sparse
reconstruction : Application to compressed sensing and other inverse problems. » IEEE Jour-
nal of Selected Topics in Signal Processing 1(4) : 586-597.
FINE, R. 1954. « Perspecta – the All-Purpose Recording and Reproducing Sound System. » Inter-
national Projectionist, juillet 1954.
© Dunod. Toute reproduction non autorisée est un délit.
FLANAGAN, J.L. 1972. Speech Analysis, Synthesis, and Perception. New York : Springer-Verlag.
FLANAGAN, J.L. et coll. 1970. « Synthetic voices for computers. » IEEE Spectrum 7(10) : 22-45.
FLANAGAN, J.L. et GOLDEN, R. 1966. « Phase vocoder. » Bell System Technical Journal 45 : 1493-
1509.
FLETCHER, H. 1940a. « Auditory patterns. » Review of Modern Physics 12 : 47-56.
FLETCHER, H. 1940b. « Stereophonic Reproduction from Film. » Bell Laboratories Record, mai 1940.
FLETCHER, H., BLACKHAM, E. et STRATTON, R. 1962. « Quality of piano tones. » Journal of the
Acoustical Society of America 34(6) : 749-761.
FLETCHER, H., BLACKHAM, E. et CHRISTENSEN, D. 1963. « Quality of organ tones. » Journal of
the Acoustical Society of America 35(3) : 314-325.
FLETCHER, H. et MUNSON, W., 1933. « Loudness, its definition, measurement, and calculation. »
Journal of the Acoustical Society of America 5 : 82-108.
FLETCHER, N. et ROSSING, T. 1991. The Physics of Musical Instruments. New York : Springer-Verlag.
624 L’AUDIONUMÉRIQUE
FLORENS, J. et CADOZ, C. 1991. « The physical model: modeling and simulating the instrumental
universe. » Dans G. De Poli, A. Piccialli et C. Roads, eds. Representations of Musical Signals.
Cambridge, MA : MIT Press. p. 227-268.
FOSTER, S., SCHLOSS, W.A. et ROCKMORE, A.J. 1982. « Toward an intelligent editor fordigital audio:
signal processing methods. » Computer Music Journal 6(1) : 42-51. Réimprimé dans C. Roads,
ed. 1989. The Music Machine. Cambridge, MA : MIT Press. p. 549-558.
FOURIER, L. 1994. « Jean-Jacques Perrey and the Ondioline. » Computer Music Journal 18(4) : 18-25.
FOURRÉ, R., SCHWARZENBACH, S. et POWERS, R. 1990. « 20 bit evolution. » Studio Sound 32(5) :
32-36.
FRAMJEE, P.F. 1958. Text Book of Indian Music. Hathras : Sakhi Prakashan.
FREED, A. et GOLDSTEIN, M. 1988. « MacMix: professional sound recording, editing, processing,
and mixing software for the DYAXIS digital audio system. » Menlo Park, CA : Studer Editech.
FREEDMAN, M.D. 1965. « A technique for analysis of musical instrument tones. » Ph.D disserta-
tion. Urbana, IL : University of Illinois.
FREEDMAN, M.D. 1967. « Analysis of musical instrument tones. » Journal of the Acoustical Society
of America 41 : 793-806.
FRIEDMAN, J.H. et TUKEY, J.W. 1974. « A projection pursuit algorithm for exploratory data
analysis. » IEEE Transactions on Computation C-23(9) : 881-890.
FRY, C. 1992. « MidiVox Voice-to-MIDI converter. » Computer Music Journal 16(1) : 94-95.
GABOR, D. 1946. « Theory of communication. » Journal of the Institute of Electrical Engineers,
Part 3, 93 : 429-457.
GABOR, D. 1947. « Acoustical quanta and the theory of hearing. » Nature 159(1044) : 591-594.
GABOR, D. 1947. « Acoustical quanta and the theory of hearing. » Nature 159(4044) : 591-594.
GABOR, D. 1952. « Lectures on communication theory. » Technical Report 238, Research Laboratory
of Electronics. Cambridge, Massachusetts : Massachusetts Institute of Technology.
GALAS, T. et RODET, X. 1990. « An improved cepstral method for deconvolution of source-filter
systems with discrete spectra : application to musical signals. » Dans S. Arnold et G. Hair, eds.
Proceedings of the 1990 International Computer Music Conference. San Francisco : International
Computer Music Association. p. 82-84.
GANDOLFI, A. 2002. Techniques audio appliquées au mixage cinéma. Paris : Dunod.
GARDNER, T.J. et M.O. 2006. « Sparse time-frequency representations. » Proceedings of the
National Academy of the Sciences 103(16) : 6094-6099.
GARNETT, G. 1987. « Modeling piano sound using waveguide digital filtering techniques. » Dans
J. Beauchamp, ed. Proceedings of the 1987 International Computer Music Conference. San
Francisco : International Computer Music Association. p. 89-95.
GARNETT, G. 1991. « Music, signals, and representations: a survey. » Dans G. De Poli, A. Piccialli
et C. Roads, eds. Representations of Musical Signals. Cambridge, MA : MIT Press. p. 325-369.
GARNETT, G. et MONT-REYNAUD, B. 1988. « Hierarchical waveguide networks. » Dans C. Lischka
et J. Fritsch, eds. Proceedings of the 1988 International Computer Music Conference. San
Francisco : International Computer Music Association. p. 297-312.
GARITY, W.E. et HAWKINS, J.N.A. 1941 « Fantasound. ». Journal of the Society of Motion Picture
Engineers. Août 1941.
GARITY, W.E. et JONES, W. 1942 « Experiences in Road-Showing Walt Disney’s Fantasia. ». Jour-
nal of the Society of Motion Picture Engineers. Juillet 1942.
BIBLIOGRAPHIE 625
GARTON, B. 1992. « Virtual performance modeling. » Dans A. Strange, ed. Proceedings of the 1992
International Computer Music Conference. San Francisco : International Computer Music
Association. p. 219-222.
GEORGE, E. et SMITH, M. 1992. « Analysis-by-synthesis/overlap-add sinusoidal modeling applied to
the analysis and synthesis of musical tones. » Journal of the Audio Engineering Society 40(6) :
497-516.
GERZON, M. 1973. « Periphony: with-height sound reproduction. » Journal of the Audio Engineering
Society 21(3).
GERZON, M. 1975. « Ambisonics. Part Two: Studio Techniques. » Studio Sound 17(8) août 1975 :
p. 24-30, et 17(10) octobre 1975 : p. 60.
GERZON, M. 1985. « Ambisonics in Multichannel Broadcasting and Video. » Journal of the Audio
Engineering Society 33(11), novembre 1985 : p. 859-871.
GERZON, M. 1990. « Why do equalisers sound different? » Studio Sound 32(7) : 58-65.
GERZON, M. 1991. « Super-resolving short-term spectral analyzers. » Preprint 3174 (T-5). Présenté
à la 91e Convention de l’Audio Engineering Society. New York : Audio Engineering Society.
GERZON, M. et BARTON, G. 1992 « Ambisonics Decoders for HDTV. » Article présenté lors de la
92e Convention de l’Audio Engineering Society, Vienne, Autriche. 24-27 mars 1992.
GISH, W. 1978. « Analysis and synthesis of musical instrument tones. » Preprint 1410. Présenté à
la 61e Convention de l’Audio Engineering Society. New York : Audio Engineering Society.
GISH, W. 1992. « Multistage signal analysis. » Dans A. Strange, ed. Proceedings of the 1992 Interna-
tional Computer Music Conference. San Francisco : International Computer Music Association.
p. 387-388.
GJERDINGEN, R. 1988. « Shape and motion in the microstructure of song. » Music Perception 6(1) :
35-64.
GLASER, E. et RUCHKIN, D. 1976. Principles of Neurobiological Signal Analysis. Orlando : Academic
Press.
GLEICK, J. 1988. Chaos. London : Cardinal.
GOEDDEL, T. et BASS, S. 1984. « High-quality synthesis of musical voices in discrete time. » IEEE
Transactions on Acoustics, Speech, and Signal Processing ASSP-32(3) : 623-633.
GOLD, B. 1962. « A computer program for pitch extraction. » Journal of the Acoustical Society of
America 34 : 916.
© Dunod. Toute reproduction non autorisée est un délit.
GOLDBERG, D. 1989. Genetic Algorithms in Search, Optimization, and Machine Learning. Reading,
MA : Addison-Wesley.
GOLDSTEIN, J. 1973. « An optimum processor theory for the central formation of the pitch of
complex tones. » Journal of the Acoustical Society of America 54(6) : 1496-1516.
GOODWIN, M.M. 1997. Adaptive Signal Models : Theory, Algorithms, and Audio Applications.
Thèse de doctorat. Berkeley, CA : University of California, Berkeley.
GOODWIN, M.M. et VETTERLI, M. 1999. « Matching pursuit and atomic signal models based on
recursive filter banks. » IEEE Transactions on Signal Processing vol. 47 (juillet 1999) : 1890-
1902.
GORDON, J.W. 1984. « Perception of attack transients in musical tones. » Department of Music
Report Number STAN-M-17. Stanford : Stanford University.
GORDON, J. et GREY, J. 1977. « Perception of spectral modifications on orchestral instrument
tones. » Computer Music Journal 2(1) : 24-31.
626 L’AUDIONUMÉRIQUE
GORDON, J. et STRAWN, J. 1985. « An introduction to the phase vocoder ». Dans J. Strawn, ed.
Digital Audio Signal Processing : An Anthology. Madison : A-R Éditions. p. 221-270.
GREENSPUN, P. 1984. « Audio analysis I: phase correction for digital systems. » Computer Music
Journal 8(4) : 13-19.
GREINER, R. et MELTON, D. 1991. « Observations on the audibility of acoustic polarity. » Preprint
3170-( K-4). Présenté à la 91e Convention de l’Audio Engineering Society, 4-8 octobre 1991,
New York. New York : Audio Engineering Society.
GREY, J. 1975. « An exploration of musical timbre. » Report STAN-M-2. Stanford University
Department of Music.
GREY, J. 1978. « Timbre discrimination in musical patterns. » Journal of the Acoustical Society of
America 64 : 467-472.
GREY, J. et GORDON, J. 1978. « Perceptual effects of spectral modifications on musical timbres. »
Journal of the Acoustical Society of America 63 : 1493-1500.
GRIBONVAL, R. 1999. Approximations non-linéaires pour l’analyse des signaux sonores. Thèse de
doctorat. Paris, France : Université de Paris IX Dauphine.
GRIBONVAL, R. 2001. « Fast matching pursuit with a multiscale dictionary of Gaussian chirps. »
IEEE Transactions on Signal Processing 49(5) : 994-1001.
GRIBONVAL, R. 2002. « Sparse decomposition of stereo signals with matching pursuit and appli-
cation to blind separation of more than two sources from a stereo mixture. » Proceedings of
the International Conference on Audio, Speech, and Signal Processing. Orlando, Fl. pp. 3057-
3060.
GRIBONVAL, R. et BACRY, E. 2003. « Harmonic decompositions of audio signals with matching
pursuit. » IEEE Transactions on Signal Processing 51(1) : 101-111.
GROGONO, P. 1984. « Brief history of EMS. » Manuscrit inédit.
GROSSMAN, G. 1987. « Instruments, cybernetics, and music. » Dans J. Beauchamp, ed. Proceedings
of the 1987 International Computer Music Conference. San Francisco : International Computer
Music Association. p. 212-219.
GUTTMAN, N. 1980. Communication personnelle.
HAIDANT, L. 2001. Guide pratique du son surround. Paris : Dunod.
HAIDANT, L. 2002. Prise de son et mixage en surround 5.1. Paris : Dunod.
HALL, H. 1937. « Sound analysis. » Journal of the Acoustical Society of America 8 : 257-262.
HALLER, H.P. 1980. « Live-Elektronik. » Dans Teilton Schriftenreihe der Heinrich-Strobel-Stiftung
des Südwestfunks. Kassel : Barenreiter-Verlag. p. 41-46.
HAMMING, R. 1987. Numerical Methods for Scientists and Engineers. Dover.
HANERT, J. 1944. Brevet américain n° 2 498 367. (Proposition d’un système produisant un effet
chorus.)
HANERT, J. 1945. « Electronic musical apparatus (L-C delay line with variable inductors for post
source vibrato processing). » Brevet américain n° 2 382 413.
HANERT, J. 1946. Brevet américain n° 2 509 923. (Système fabriqué pour produire un effet cho-
rus.)
HANSEN, E. 1975. A Table of Series and Products. Englewood Cliffs : Prentice-Hall.
HARADA, T., SATO, A., HASHIMOTO, S. et OHTERU, S. 1992. « Real-time control of 3D space by
gesture.» Dans A. Strange, ed. Proceedings of the 1992 International Computer Music Conference.
San Francisco : International Computer Music Association. p. 85-88.
BIBLIOGRAPHIE 627
HARRIS, F. 1978. « On the use of windows for harmonic analysis with the discrete Fourier
transform. » Proceedings of the IEEE 66(1) : 51-83.
HARTMAN, W.H. 1978. « Flanging and phasers. » Journal of the Audio Engineering Society 26(6) :
439-443.
HAUS, G. 1983. « EMPS: A system for graphic transcriptionof electronic music scores. » Computer
Music Journal 7(3) : 31-36.
HAUSER, M. 1991. « Principles of oversampling A/D conversion. » Journal of the Audio Engineering
Society 39(1-2) : 3-21.
HAWKINS, T., Jr. et STEVENS, S. 1950. « Masking of pure tones and speech by white noise. » Journal
of the Acoustical Society of America 22 : 6-13.
HEBEL, K. 1987. « Javelina: an environment for the development of software for digital signal
processing. » Dans J. Beauchamp, ed. Proceedings of the 1987 International Computer Music
Conference. San Francisco : International Computer Music Association. p. 104-107.
HEBEL, K. 1989. « Javelina: an environment for digital signal processing. » Computer Music Journal
13(2) : 39-47.
HELMHOLTZ, H. 1863. On the Sensations of Tone as a Physiological Basis for the Theory of Music.
Reprinted 1954, A. Ellis, trans. New York : Dover.
HELMHOLTZ, H. 1885. The Sensations of Tone. Translated by A. Ellis. Reprinted 1954. New York :
Dover.
HELSTROM, C. 1966. « An expansion of a signal in Gaussian elementary signals. » IEEE Transactions
on Information Theory IT-12 : 81-82.
HERMES, D. 1992. « Pitch analysis. » Dans M. Cooke et S. Beet, eds. Visual Representations of Speech
Signals. New York : John Wiley and Sons.
HESS, W. 1983. Pitch Determination of Speech Signals: Algorithms and Devices. Berlin : Springer-
Verlag.
HEUSDENS, R., VAFIN, R. et KLEIJN, W.B. 2002. « Sinusoidal modeling using psychoacoustic-
adaptive matching pursuits. » IEEE Signal Processing Letters 9(8) : 262-265.
HICKMAN, W. 1984. Time Code Handbook. Boston : Cipher Digital.
HILLER, L. et BEAUCHAMP, J. 1967. « Review of completed and proposed research on analysis
and synthesis of musical sounds by analog and digital techniques. » Technical Report 19.
Urbana, IL : University of Illinois Experimental Music Studio.
HILLER, L. et ISAACSON, L. 1959. Experimental Music. New York : McGraw-Hill.
© Dunod. Toute reproduction non autorisée est un délit.
HILLER, L. et RUIZ, P. 1971. « Synthesizing sounds by solving the wave equation for vibrating
objects. » Journal of the Audio Engineering Society 19 : 463-470, 542-551..
HIRSCHMAN, S. 1991. « Digital waveguide modeling and simulation of reed woodwind
instruments. » Engineer thesis. Stanford : Stanford University Department of Electrical Engi-
neering.
HIRSCHMAN, S., COOK, P. et SMITH, J. 1991. « Digital waveguide modelling of reed woodwinds:
an interactive development. Dans B. Alphonce et B. Pennycook, eds. Proceedings of the 1991
International Computer Music Conference. San Francisco : International Computer Music
Association. p. 300-303.
HOLLOWAY, B. et HAKEN, L. 1992. « A sinusoidal synthesis algorithm for generating transitions
between notes. » Dans A. Strange, ed. Proceedings of the 1992 International Computer Music
Conference. San Francisco : International Computer Music Association. p. 14-17.
HOLM, F. 1992. « Understanding FM implementations: a call for common standards. » Computer
Music Journal 16(1) : 34-42.
628 L’AUDIONUMÉRIQUE
INSAM, E. 1974. « Walsh functions in waveform synthesis. » Journal of the Audio Engineering Society
22 : 422-425.
IOVINO, F. 1993. Chant-PatchWork Manual. Paris : IRCAM.
IWAMURA, H., HAYASHI, H., MIYASHITA, A. et ANAZAWA, T. 1973. « Pulse-code-modulation
Recording System. » Journal of the Audio Engineering Society 21(7) : 535-541.
JAFFE, D. 1989. « From the classical software synthesis note-list to the NeXT scorefile. » Redwood
City, CA : NeXT Computer, Inc.
JAFFE, D. et BOYNTON, L. 1989. « An overview of the sound and music kits for the NeXT computer. »
Computer Music Journal 13(2) : 48-55.
JAFFE, D. et SMITH, J. 1983. « Extensions of the Karplus-Strong plucked string algorithm. »
Computer Music Journal 7(2) : 56-69.
JANER, J., HERE, M., ROMA, G., FUJISHIMA, T. et KOJIMA, N. 2009. « Sound Object Classifica-
tion for Symbolic Audio Mosaicing : A Proof-of-concept. » Proceedings of the Sound and
Music Computing Conference. Porto, Portugal. pp. 297-302.
JANSE, P. et KAIZER, A. 1983. « Time-frequency distributions of loudspeakers: the application of
the Wigner distribution. » Journal of the Audio Engineering Society 31-(4) : 198-223.
JANSE, P. et KAIZER, A. 1984. « The Wigner distribution: a valuable tool for investigating transient
distortion. » Journal of the Audio Engineering Society 32 : 868-882.
JANSEN, C. 1991. « Sine Circuitu: 10,000 high-quality sine waves without detours.» Dans B. Alphonce
et B. Pennycook, eds. Proceedings of the 1991 International Computer Music Conference. San
Francisco : International Computer Music Association. p. 222-225.
JEFFRESS, L. 1970. « Masking. » Dans J. Tobias, ed. Foundations of Modern Auditory Theory,
Vol. 1. Orlando : Academic Press. p. 85-114.
JEHAN, T. 2004. « Event-synchronous Music Analysis/Synthesis. » Proceedings of the COST-G6
Conference on Digital Audio Effects. Naples, Italie. pp. 1-6.
JEHAN, T. 2010. « Creating Music by Concatenative Synthesis. » Brevet US 7,842,874 Washington :
U. S. Patent Office.
JENNY, G. 1958. « L’Ondioline : conception et réalisation. » Paris : Toute la Radio.
JONES, D. et PARKS, T. 1988. « Generation and combination of grains for music synthesis. »
Computer Music Journal 12(2) : 27-34.
© Dunod. Toute reproduction non autorisée est un délit.
KNUTH, D., 1973a. The Art of Computer Programming, Vol. 1: Fundamental Algorithms. Seconde
édition. Reading, MA : Addison-Wesley.
KNUTH, D., 1974. « Structured programming with goto statements. » ACM Computing Surveys 6 :
260-301.
KOBRIN, E. 1977. Computer in performance. Berlin : DAAD.
KOENIG, G.M. 1957. Essay. Composition for electronic sounds. Score. Vienna : Universal Edition.
KOENIG, G.M. 1959. « Studium im Studio. » die Reihe 5.
KOENIG, G.M. 1962. « Commentary. » die Reihe 8.
KOENIG, G.M. 1970a. « Project 1: a programme for musical composition. » Electronic Music Reports
2 : 32-44. (Réimprimé en 1977, Amsterdam : Swets and Zeitlinger).
KOENIG, G.M. 1970b. « Project 2: a programme for musical composition. » Electronic Music Reports
3 : 1-16. (Réimprimé en 1977, Amsterdam : Swets and Zeitlinger).
KOENIG, R. 1899. Articles dans Annalen der Physik 69 : 626-660, 721-738. Cités dans Miller 1916,
1935.
KOENIG, W., et coll. 1946. « The sound spectrograph. » Journal of the Acoustical Society of America
18 : 19-49.
KOENIGSBERG, C. 1996. « Some Thoughts on Modular Analog Synthesis and Interface. » World
Wide Web.
KOSTELANETZ, R. (dir.). 1970. John Cage. New York, NY : Praeger.
KRONLAND-MARTINET, R. 1988. « The wavelet transform for the analysis, synthesis, and pro-
cessing of speech and music sounds. » Computer Music Journal 12(4) : 11-20.
KRONLAND-MARTINET, R. et GROSSMANN, A. 1991. « Application of time-frequency and time-
scale methods (wavelet transforms) to the analysis, synthesis and transformation of natural
sounds. » Dans G. De Poli, A. Piccialli et C. Roads, eds. Representations of Musical Signals.
Cambridge, MA : MIT Press. p. 45-85.
KRSTULOVIC, S. et GRIBONVAL, R. 2006. « MPTK : Matching pursuit made tractable. » Proceed-
ings of the International Conference on Audio, Speech, and Signal Processing. Toulouse, France.
pp. 496-499.
KUHN, W. 1990. « A real-time pitch recognition algorithm for music applications. » Computer Music
Journal 14(3) : 60-71.
KUNT, M. 1981. Traitement numérique des signaux. Paris : Dunod.
© Dunod. Toute reproduction non autorisée est un délit.
KUSSMAUL, C. 1991. « Applications of the wavelet transform at the level of pitch contour. » Dans
B. Alphonce et B. Pennycook, eds. Proceedings of the 1991 International Computer Music
Conference. San Francisco : International Computer Music Association. p. 483-486.
LAGADEC, R. 1983. « Digital sampling frequency conversion. » Dans B. Blesser, B. Locanthi et
T. Stockham, eds. Digital Audio. New York : Audio Engineering Society. p. 90-96.
LAGADEC, R. et PELLONI, D. 1983. « Signal enhancement via digital signal processing. » Preprint
2037 (G-6). Présenté à la 74e Convention de l’Audio Engineering Society. New York : Audio
Engineering Society.
LANE, J. 1990. « Pitch detection using a tunable IIR filter. » Computer Music Journal 14(3) : 46-59.
LANE, J., et coll. 1997. « Modeling analog synthesis with DSPs. » Computer Music Journal 21(4) :
23-41.
LANSKY, P. 1982. « Digital mixing and editing. » Princeton : Godfrey Winham Laboratory, Depart-
ment of Music, Princeton University.
632 L’AUDIONUMÉRIQUE
LANSKY, P. 1987. « Linear prediction: the hard but interesting way to do things. » Dans J. Strawn,
ed. Proceedings of the Fifth International Conference : Music and Digital Technology. New York :
Audio Engineering Society.
LANSKY, P. 1989. « Compositional applications of linear predictive coding. » Dans M. Mathews et
J. Pierce, eds. Current Directions in Computer Music Research. Cambridge, MA : MIT Press.
p. 5-8.
LANSKY, P. 1990a.»Cmix.» Princeton : Godfrey Winham Laboratory, Department of Music, Princeton
University.
LANSKY, P. 1990b. « It’s about time: some NeXT perspectives (part two). » Perspectives of New Music
28(1) : 170-179.
LANSKY, P. 1990c. « The architecture and musical logic of Cmix. » Dans S. Arnold et G. Hair, eds.
Proceedings of the 1990 International Computer Music Conference. San Francisco : International
Computer Music Association. p. 91-94.
LANSKY, P. et STEIGLITZ, K. 1981. « Synthesis of timbral families by warped linear prediction. »
Computer Music Journal 5(3) : 45-49. Réimprimé dans C. Roads, ed. 1989. The Music Machine.
Cambridge, MA : MIT Press. p. 531-536.
LAROCHE, J. 1989a. « Étude d’une système d’analyse et de synthèse utilisant la méthode de Prony :
application aux instrument de musique de type percussif. » Thèse de doctorat. Paris : École
Nationale Supérieure des Télécommunications.
LAROCHE, J. 1989b. « A new analysis/synthesis system based on the use of Prony’s method. Appli-
cation to heavily damped percussive sounds. » Proceedings of the International Conference on
Acoustics, Speech, and Signal Processing. New York : Institute of Electrical and Electronics
Engineers.
LAROCHE, J. et RODET, X. 1989. « The use of Prony’s method for the analysis of musical sounds:
applications to percussive sounds. » Dans T. Wells et D. Butler, eds. Proceedings of the 1989
International Computer Music Conference. San Francisco : International Computer Music Asso-
ciation. p. 168-171.
LASSFOLK, K. 1996. « Simulation of electron tube audio circuits. » Dans D. Rossiter, ed. 1996. Pro-
ceedings of the 1996 International Computer Music Conference. San Francisco : International
Computer Music Association. p. 222-223.
LAYZER, A. 1971. « Some idiosyncratic aspects of computer synthesized sound. » Proceedings of
the Sixth ASUC Conference. New York : American Society of University Composers. p. 27-39.
LEBRUN, M. 1977. « A derivation of the spectrum of FM with a complex modulating wave. » Com-
puter Music Journal 1(4) : 51-52. Réimprimé dans C. Roads et J. Strawn, eds. 1985. Foundations
of Computer Music. Cambridge, MA : MIT Press. p. 65-67.
LEBRUN, M. 1979. « Digital waveshaping synthesis. » Journal of the Audio Engineering Society
27(4) : 250-266.
LEE, F. 1972. « Time compression and expansion of speech by the sampling method. » Journal of
the Audio Engineering Society 20(9) : 738-742.
LEIBIG, B. 1974. Documentation on Music V for the Burroughs B6700 computer. La Jolla : Depart-
ment of Music, University of California, San Diego.
LEMOUTON, S. 1993. « CHANT-Macintosh. » Manuscrit inédit.
LERDAHL, F. et JACKENDOFF, R. 1983. A Generative Theory of Tonal Music. Cambridge, MA : MIT
Press.
LESBROS, V. 1993. Phonogramme. Logiciel informatique.
BIBLIOGRAPHIE 633
Dans J. Sundberg, ed. 1983. Studies in Musical Performance 39. Stockholm : Royal Swedish
Academy of Music. p. 7-26.
LORRAIN, D. 1980. « A panoply of stochastic ‘cannons’. » Computer Music Journal 4(1) : 53-81.
Réimprimé dans C. Roads. 1989. The Music Machine. Cambridge, MA : MIT Press. p. 351-379.
LOUGHLIN, P., ATLAS, L. et PITTON, J. 1992. « Advanced time-frequency representations for
speech processing. » Dans M. Cooke et S. Beet, eds. Visual Representations of Speech Signals.
New York : J. Wiley.
LOY, D.G. 1985b. « About AUDIUM: a conversation with Stanley Shaff. » Computer Music Journal
9(2) : 41-48.
LOY, D.G. 1989a. « Composing with computers – a survey of some compositional formalisms and
music programming languages. » Dans M. Mathews et J.R. Pierce, eds. Current Directions in
Computer Music Research. Cambridge, MA : MIT Press. p. 292-396.
LUCE, D. 1963. « Physical correlates of nonpercussive instrument tones. » Sc.D. dissertation.
Cambridge, MA : MIT Department of Physics.
634 L’AUDIONUMÉRIQUE
LUMINET, J.-P. 1996. « Musique avec pulsar obligé (À propos du Noir de l’Étoile, de Gérard Grisey). »
Internet : darc.obspm.fr/~luminet/Art/musique.html.
LUNDÉN, P. et UNGVARY, T. 1991. « MacSonogram: a programme to produce large scale sonograms
for musical purposes. » Dans B. Alphonce et B. Pennycook, eds. Proceedings of the 1991 Inter-
national Computer Music Conference. San Francisco : International Computer Music Associa-
tion. p. 554-554C.
LYON, R. et DYER, L. 1986. « Experiments with a computational model of the cochlea. » Proceedings
of the International Conference on Acoustics, Speech, and Signal Processing, Tokyo. New York :
IEEE. p. 1975-1978.
LYON, R. F., REHN, M., BENGIO, S., WALTERS, T.C. et CHECHIK, G. 2010. « Sound retrieval and
ranking using sparse auditory representations. » Neural Computation 22(9) : 2390-2416.
MAESTRE, E., RAMIREZ, R., KERSTEN, S. et SERRA, X. 2009. « Expressive Concatenative Syn-
thesis by Reusing Samples from Real Performance Recordings. » Computer Music Journal
33(4) : 23-42.
MAHER, R. 1990. « Evaluation of a method for separating digitized duet signals. » Journal of the
Audio Engineering Society 38(12) : 956-979.
MAHER, R. 1992. « On the nature of granulation noise in uniform quantization systems. » Journal
of the Audio Engineering Society 40(1/2) : 12-20.
MAHER, R. et BEAUCHAMP, J. 1990. « An investigation of vocal vibrato for synthesis. » Applied
Acoustics 30 : 219-245.
MAILLARD, B. 1976. « Sur la modulation de fréquence. » Cahiers recherche/musique 3 : 179-204.
MAKHOUL, J. 1975. « Linear prediction: a tutorial review. » Proceedings of the Institute for Electrical
and Electronic Engineers 63 : 561-580.
MALHAM, D. 1998. « Spatial Hearing Mechanisms and Sound Reproduction. » Internet :
http://www.york.ac.uk/inst/mustech/3d_audio/ambis2.htm
MALLAT, S. 1989. « A theory of multiresolution signal decomposition : the wavelet representation.
« IEEE Transactions on Pattern Analysis and Machine Intelligence 11(7) : 674-693.
MALLAT, S. 2009. A Wavelet Tour of Signal Processing : The Sparse Way. Amsterdam, Pays-Bas :
Academic Press, Elsevier.
MALLAT, S. et ZHANG, Z. 1993. « Matching pursuits with time-frequency dictionaries. » IEEE
Transactions on Signal Processing 41(12) : 3397-3415.
MALT, M. 1993. PatchWork Introduction Paris : IRCAM.
MANJUNATH, B.S., SALEMBIER, P. et SIKORA, T. (dir.). 2002. Multimedia Content Description
Interface. New York, NY : Wiley, John and Sons, Inc.
MANZAGOL, P.-A., BERTIN-MAHIEUX, T. et ECK, D. 2008. « On the use of sparse time-relative
auditory codes for music. » Proceedings of the International Society on Music Information
Retrieval. Philadelphia, PA. pp. 603-608.
MARINO, G., RACZINSKI, J.-M. et SERRA, M.-H. 1990. « The new UPIC system. » Dans S. Arnold
et G. Hair, eds. Proceedings of the 1990 International Computer Music Conference. San Francisco :
International Computer Music Association. p. 249-252.
MARINO, G., SERRA, M.-H. et RACZINSKI, J.-M. 1992. « The UPIC system, origins and innovations.»
Perspectives of New Music.
MARKEL, J. 1972. « Digital inverse filtering – a new tool for formant trajectory tracking. » IEEE
Transactions on Audio and Acoustics AU-20(5) : 367-377.
MARKEL, J. et GRAY, A., Jr. 1976. Linear Prediction of Speech. New York : Springer.
BIBLIOGRAPHIE 635
McADAMS, S. et BREGMAN, A. 1979. « Hearing musical streams. » Computer Music Journal 3(4) :
26-44. Réimprimé dans C. Roads et J. Strawn, eds. 1985. Foundations of Computer Music.
Cambridge, MA : MIT Press. p. 658-698.
McAULAY, R. et QUATIERI, T. 1986. « Speech analysis/synthesis based on a sinusoidal
representation. » IEEE Transactions on Acoustics, Speech, and Signal Processing ASSP-34 :
744-754.
McCARTNEY, J. 1990. Logiciel Synth-O-Matic version 0.06.
McCARTNEY, J. 1994. Logiciel Synth-O-Matic version 0.45.
McCARTNEY, J. 1995. Logiciel SuperCollider version 1.
McCARTNEY, J. 1998. Logiciel SuperCollider version 2.
McCLELLAN, J., PARKS, T. et RABINER, L. 1973. « A computer program for designing optimal
FIR linear phase digital filters. » IEEE Transactions on Audio and Electroacoustics AU-21 :
506-526.
636 L’AUDIONUMÉRIQUE
McGEE, D. 1990. « George Massenburg considers new development in automation. » Pro Sound News
(avril) : 13, 37.
McGILL, J.F. 1985. « Digital recording and reproduction: an introduction. » Dans John Strawn, ed.
Digital Audio Engineering : An Anthology. Madison : A-R Éditions. p. 1-28.
McGINN, R.E. 1983. « Stokowski and the Bell Telephone Laboratories: Collaboration in the Develop-
ment of High-Fidelity Sound Reproduction. » Technology and Culture, vol. 24, n° 1 (janvier) :
38-75
McINTYRE, M., SCHUMACHER, R. et WOODHOUSE, J. 1983. « On the oscillations of musical
instruments. » Journal of the Acoustical Society of America 74(5) : 1325-1345.
McLAREN, N. 1948. « Synthetic sound on film. » Journal of the Society of Motion Picture Engineers
(mars) : 233-247.
McMILLEN, K., WESSEL, D.L. et WRIGHT, M. 1994. « The ZIPI Music Parameter Description
Language ». Computer Music Journal 18(4).
McNALLY, G. 1984 « Dynamic range control of digital audio signals. » Journal of the Audio Enginee-
ring Society 32(5) : 316-327.
MEDDIS, R., HEWITT, M. et SCHACKLETON, T. 1990. « Implementation details of a computation
model of the inner hair-cell/auditory-nerve synapse. » Journal of the Acoustical Society of
America 87 : 1813-1816.
MELLINGER, S. 1991. » Event formation and separation in musical sound. » Ph. D. dissertation.
Stanford : Center for Computer Research in Music and Acoustics, Department of Music,
Stanford University.
MERSENNE, M. 1636. Harmonie Universelle. Réimprimé en 1957, traduit en anglais par Roger E.
Chapman. La Hague : Martinus Nijhoff.
MEYER, E. et BUCHMANN, G. 1931. « Die Klangspektren der Musikinstrumente. » Sïtzungsberichte
der Preussischen Akademie der Wissenschaften. Berlin : Verlag der Akademie der Wissenschaf-
ten/Walter de Gruyter. p. 735-778.
MEYER, J. 1984. « Time correction of anti-aliasing filters used in digital audio systems. » Journal
of the Audio Engineering Society 32(3) : 132-137.
MEYER-EPPLER, W. 1955. « Statistic and psychologic problems of sound. » die Reihe 1 : 55-61.
(English edition)
MIAN, A. et TISATO, G. 1984. « Sound structuring techniques using parameters derived from a
voice analysis/synthesis system. » Dans D. Wessel, ed. Proceedings of the 1984 International
Computer Music Conference. San Francisco : International Computer Music Association.
MILLER, B., SCARBOROUGH, D. et JONES, J. 1992. « On the perception of meter. » Dans M. Balaban,
K. Ebcioglu et O. Laske, eds. Understanding Music with AI. Cambridge, MA and Menlo Park,
CA : MIT Press and AAAI Press. p. 429-447.
MILLER, D.C. 1916. The Science of Musical Sounds. New York : MacMillan.
MILLER, D.C. 1935. Anecdotal History of the Science of Sound. New York : MacMillan.
MILLER, H. 1960. History of Music. New York : Barnes and Noble.
MINSKY, M. 1981. « Music, mind, and meaning. » Computer Music Journal 5(3) : 28-44. Réimprimé
dans C. Roads, ed. 1989. The Music Machine. Cambridge, MA : MIT Press. p. 639-658.
MITSUBISHI. 1986. « Preliminary specification sheet for X-86. » Osaka : The Mitsubishi PCM
Section, Communication Equipment Works.
MITSUHASHI, Y. 1980. « Waveshape parameter modulation in producing complex spectra. » Journal
of the Audio Engineering Society 28(12) : 879-895.
BIBLIOGRAPHIE 637
MITSUHASHI, Y. 1982a. « Musical sound synthesis by forward differences. » Journal of the Audio
Engineering Society 30(1/2) : 2-9.
MITSUHASHI, Y. 1982b. « Piecewise interpolation technique for audio signal synthesis. » Journal
of the Audio Engineering Society 30(4) : 192-202.
MITSUHASHI, Y. 1982c. « Audio signal synthesis by functions of two variables. » Journal of the
Audio Engineering Society 30(10) : 701-706.
MOLES, A. 1968. Information Theory and Esthetic Perception. Urbana, IL : University of Illinois Press.
MONT-REYNAUD, B. 1985a. « The bounded-Q approach to time-varying spectral analysis. » Tech-
nical Report STAN-M-28. Stanford : Stanford University Department of Music.
MONT-REYNAUD, B. 1985b. « Problem-solving strategies in a music transcription system. » Dans
Proceedings of the International Joint Conference on Artificial Intelligence, Los Angeles. Los
Altos : Morgan-Kaufmann. p. 915-918.
MONT-REYNAUD, B. et GOLDSTEIN, M. 1985. « On finding rhythmic patterns in musical lines. »
Dans B. Truax, ed. Proceedings of the 1985 International Computer Music Conference. San
Francisco : International Computer Music Association. p. 391-397.
MOOG, R. 1965. Voltage-controlled electronic music modules. » Journal of the Audio Engineering
Society 13(3) : 200-206.
MOORE, F.R. 1977. « Table lookup noise for sinusoidal digital oscillators. » Computer Music Journal
1(2) : 26-29. Réimprimé dans C. Roads et J. Strawn, eds. 1985. Foundations of Computer Music.
Cambridge, MA : MIT Press. p. 326-334.
MOORE, F.R. 1978a. « An introduction to the mathematics of digital signal processing. Part 1:
algebra, trigonometry, and the most beautiful formula in mathematics. » Computer Music
Journal 2(1) : 38-47. Réimprimé dans J. Strawn, ed. 1985. Digital Audio Signal Processing: An
Anthology. Madison : A-R Éditions.
MOORE, F.R. 1978b. « An introduction to the mathematics of digital signal processing. Part 2:
sampling, transforms, and digital filtering. » Computer Music Journal 2(2) : 38-60. Réimprimé
dans J. Strawn, ed. 1985. Digital Audio Signal Processing: An Anthology. Madison : A-R Éditions.
MOORE, F.R. 1983. « A general model for spatial processing of sounds. » Computer Music Journal
7(3) : 6-15. Réimprimé dans C. Roads, ed. 1989. The Music Machine. Cambridge, MA : MIT
Press. p. 559-568.
MOORE, F.R. 1990. Elements of Computer Music. Englewood Cliffs : Prentice-Hall.
© Dunod. Toute reproduction non autorisée est un délit.
MOORER, J.A. 1973. « The optimum comb method of pitch period analysis of continuous digitized
speech. » AIM-207. Stanford : Stanford Artificial Intelligence Laboratory.
MOORER, J.A. 1975. « On the segmentation and analysis of continuous musical sound. » STAN-M-3.
Stanford : Stanford University Department of Music.
MOORER, J.A. 1976. « The synthesis of complex audio spectra by means of discrete summation
formulas. » Journal of the Audio Engineering Society 24 : 717-724.
MOORER, J.A. 1977. « Signal processing aspects of computer music. » Proceeding of the IEEE 65(8) :
1108-1137. Réimprimé dans Computer Music Journal 1(1) : 4-37 et dans J. Strawn, ed. 1985.
Digital Audio Signal Processing: An Anthology. Madison : A-R Éditions.
MOORER, J.A. 1978. « The use of the phase vocoder in computer music applications. » Journal of
the Audio Engineering Society 26(1/2) : 42-45.
MOORER, J.A. 1979a. « The use of linear prediction of speech in computer music applications. »
Journal of the Audio Engineering Society 27(3) : 134-140.
638 L’AUDIONUMÉRIQUE
MOORER, J.A. 1979b. « The digital coding of high-quality musical sound. » Journal of the Audio
Engineering Society 27(9) : 657-666.
MOORER, J.A. 1979c. « About this reverberation business. » Computer Music Journal 3(2) : 13-28.
Réimprimé dans C. Roads et J. Strawn, eds. 1985. Foundations of Computer Music. Cambridge,
MA : MIT Press. p. 605-639.
MOORER, J.A. 1981b. « General spectral transformations for digital filters. » IEEE Transactions on
Acoustics, Speech, and Signal Processing ASSP-29(5) : 1092-1094.
MOORER, J.A. 1983a. « The manifold joys of conformal mapping : applications to digital filtering
in the studio. » Journal of the Audio Engineering Society 31(11) : 826-841.
MOORER, J.A. 1983b. « The audio signal processor: the next step in digital audio. » Dans B. Blesser,
B. Locanthi et T. Stockham, eds. 1983. Digital Audio. New York : Audio Engineering Society.
p. 205-215.
MOORER, J.A., GREY, J. et SNELL, J. 1977. « Lexicon of analyzed tones – Part 1: a violin tone. »
Computer Music Journal 1(2) : 39-45.
MOORER, J.A., GREY, J. et STRAWN, J. 1978. « Lexicon of analyzed tones – Part 3: trumpet. » Com-
puter Music Journal 2(2) : 23-31.
MORAWSKA-BÜNGLER, M. 1988. Schwingende Elektronen. Cologne : P.J. Tonger.
MORRILL, D. 1977. « Trumpet algorithms for computer composition.» Computer Music Journal 1(1) :
46-52. Réimprimé dans C. Roads et J. Strawn, eds. 1985. Foundations of Computer Music.
Cambridge, MA : MIT Press. p. 30-44.
MORRILL, D. 1981b. « Loudspeakers and performers : some problems and proposals. » Computer
Music Journal 5(4) : 25-29. Réimprimé dans C. Roads, ed, 1989. The Music Machine. Cambridge,
MA : MIT Press. p. 95-99.
MORRISON, J. et ADRIEN, J.-M. 1991. « Control mechanisms in the MOSAIC synthesis program. »
Dans B. Alphonce et B. Pennycook, eds. Proceedings of the 1991 International Computer Music
Conference. San Francisco : International Computer Music Association. p. 19-22.
MORRISON, J. et WAXMAN, D. 1991. MOSAIC 3.0. Paris : IRCAM.
MORSE, P. 1936. Vibration and Sound. Woodbury, New York : American Institute of Physics.
MURAIL, T. 1991. « Spectres et Lutins. » Dans D. Cohen-Levinas, ed. 1991. L’Itinéraire. Paris : La
Revue Musicale.
MUSICUS, B. 1984. « Optimal frequency-warped short time analysis/synthesis. » Manuscrit inédit.
MUSICUS, B., STAUTNER, J. et ANDERSON, J. 1984. « Optimal least squares short time
analysis/synthesis. » Technical report. Cambridge, MA : Research Laboratory of Electronics,
Massachusetts Institute of Technology.
NAKAJIMA, H, DOI, T., FUKUDA, J. et IGA, A. 1983. Digital Audio Technology. Blue Bell, PA : Tab
Books.
NAKAJIMA, H., DOI, T., TSUCHIYA, Y. et IGA, A. 1978. « A new PCM system as an adapter of digital
audio tape recorders. « Preprint 1352. Présenté à la 60e Convention de l’Audio Engineering
Society. New York : Audio Engineering Society.
NAWAB, S., QUATIERI, T. et LIM, J. 1983. « Signal reconstruction from short-time Fourier transform
magnitude. » IEEE Transactions on Acoustics, Speech, and Signal Processing ASSP-31(4) : 986-
998.
NEEDHAM, J., LING, W. et GIRDWOOD-ROBINSON, K.. 1962. Science and Civilisation in China.
Vol. 4 : Physics and Physical Technology. Cambridge : Cambridge University Press.
NII, H., FEIGENBAUM, E., ANTON, J. et ROCKMORE, A. 1982. « Signal-to-symbol transformation :
HASP/SIAM case study. » AI Magazine 3(2) : 25-35.
BIBLIOGRAPHIE 639
RISSET, J.-C. 1991. « Timbre analysis by synthesis: representations, imitations, and variants for
musical composition. » Dans G. De Poli, A. Piccialli et C. Roads, ed. 1991. Representations of
Musical Signals. Cambridge, MA : MIT Press. p. 7-43.
RISSET, J.-C. et MATHEWS, M. 1969. « Analysis of musical instrument tones. » Physics Today
22(2) : 23-40.
RISSET, J.-C. et WESSEL, D. 1982. « Exploration of timbre by analysis and synthesis. » Dans
D. Deutsch, ed. 1982. Psychology of Music. Orlando : Academic Press.
RISTOW, J. 1993. « Audiotechnology in Berlin to 1943: optical sound. » Preprint 3487 (H2-8). Pré-
senté à la 94e Convention de l’Audio Engineering Society, mars 1993, Berlin. New York : Audio
Engineering Society.
ROADS, C. 1978a. « An interview with Gottfried Michael Koenig. » Computer Music Journal 2(3) :
11-15. Réimprimé dans C. Roads et J. Strawn, eds. 1985. Foundations of Computer Music.
Cambridge, MA : MIT Press. p. 568-580.
ROADS, C. 1978c. « Automated granular synthesis of sound. » Computer Music Journal 2(2) : 61-62.
Version révisée et mise à jour imprimée sous le titre « Granular synthesis of sound » dans
C. Roads et J. Strawn, eds. 1985. Foundations of Computer Music. Cambridge, MA : MIT Press.
p. 145-159.
ROADS, C. 1980. « Interview with Max Mathews. » Computer Music Journal 4(4) : 15-22. Réimprimé
dans C. Roads, ed. 1989. The Music Machine. Cambridge, MA : MIT Press. p. 5-12.
ROADS, C. 1985b. « Improvisation with George Lewis. » Dans C. Roads, ed. Composers and the Com-
puter. Madison : A-R Éditions. p. 75-87.
ROADS, C. 1985c. « Interview with James Dashow. » Dans C. Roads, ed. Composers and the Computer.
Madison : A-R Éditions. p. 27-45.
ROADS, C. 1985d. « Research in music and artificial intelligence : a survey. » ACM Computing Surveys
17(2) : 163-190. Réimprimé sous le titre « Richerche sulla musica e l’intelligenza artificiale. »
dans A. Vidolin et R. Doati, eds. 1986. Nuova Atlantide. Venice : La Biennale di Venezia.
p. 121-147. Réimprimé dans le journal japonais d’informatique bit (Tokyo), 1987.
ROADS, C. 1985e. « Grammars as representations for music. » Dans C. Roads et J. Strawn, eds. 1985.
Foundations of Computer Music. Cambridge, MA : MIT Press. p. 403-442.
ROADS, C. 1985f. « The realization of nscor. » Dans C. Roads, ed. 1985. Composers and the Computer.
Madison : A-R Éditions. p. 140-168.
ROADS, C. 1985g. « Granular synthesis of sound. » Dans C. Roads et J. Strawn, eds. 1985. Foundations
© Dunod. Toute reproduction non autorisée est un délit.
RODGERS, C.A.P. 1981. « Pinna transformations and sound reproduction. » Journal of the Audio
Engineering Society 29(4) : 226-234.
ROEDERER, J. 1975. Introduction to the Physics and Psychophysics of Music. 2e édition. New York :
Springer-Verlag.
ROGERS, G. 1987. « Console design and MIDI. » Studio Sound 29(2) : 42-44.
ROMBLOM, D. 2004. Communication personnelle.
ROSENTHAL, D. 1988. « A model of the process of listening to simple rhythms. » Dans C. Lischka
et J. Fritsch. 1988. Proceedings of the 1988 International Computer Music Conference. San
Francisco : International Computer Music Association. p. 189-197.
ROSENTHAL, D. 1992. « Emulation of human rhythm perception. » Computer Music Journal 16(1) :
64-76.
ROSSUM, D. 1992. « Making digital filters sound ‘analog’. » Dans A. Strange, ed. Proceedings of the
1992 International Computer Music Conference. San Francisco : International Computer Music
Association. p. 30-33.
ROWE, N. 1975. « Machine perception of musical rhythm.» B.S. thesis. Cambridge, MA : MIT Depart-
ment of Electrical Engineering.
ROWE, R. 1992a. « Machine listening and composing with Cypher. » Computer Music Journal 16(1) :
43-63.
ROWE, R. 1992b. Interactive Music Systems. Cambridge, MA : MIT Press.
ROZENBERG, M. 1979. « Microcomputer-controlled sound processing using Walsh functions. »
Computer Music Journal 3(1) : 42-47.
RUIZ, P. 1970. « A technique for simulating the vibrations of strings with a digital computer. »
M.M. thesis. Urbana, IL : University of Illinois School of Music.
RUSSOLO, L. 1916. Publication 1986. The Art of Noises. Barclay Brown, traducteur. New York :
Pendragon.
SABINE, W. 1922. Collected Papers on Acoustics. Reprinted 1964. New York : Dover.
SALOMON, D. 1998. Data Compression: The Complete Reference. New York : Springer-Verlag.
SAMSON, P. 1980. « A general-purpose synthesizer. » Journal of the Audio Engineering Society 28(3) :
106-113.
SAMSON, P. 1985. « Architectural issues in the design of the Systems Concepts Digital Synthesizer. »
Dans J. Strawn, ed. Digital Audio Engineering : An Anthology. Madison : A-R Éditions. p. 61-94.
© Dunod. Toute reproduction non autorisée est un délit.
SCHAFER, R. et RABINER, L. 1970. « System for automatic formant analysis of voiced speech. »
Journal of the Acoustical Society of America 47(2) : 634.
SCHAFER, R. et RABINER, L. 1973a. « A digital signal processing approach to interpolation. » Pro-
ceedings of the IEEE 61(6) : 692-702.
SCHAFER, R. et RABINER, L. 1973b. « Design and simulation of a speech analysis-synthesis system
based on short-time Fourier analysis. » IEEE Transactions on Audio and Electroacoustics AU-
21 : 165-174.
SCHARF, B. 1961. « Complex sounds and critical bands. » Psychological Bulletin 58 : 205-217.
SCHARF, B. 1970. « Critical bands.» Dans J. Tobias, ed. 1970. Foundations of Modern Auditory Theory.
Orlando : Academic Press.
SCHARF, B. 1978. « Loudness. » Dans E. Carterette et M. Friedman, eds., Handbook of Perception,
vol. 4. New York : Academic Press. p. 187-242.
SCHEIBER, P. 1969. Brevet américain n° 888 440. « Quadrasonic Sound System ».
SCHINDLER, K. 1984. « Dynamic timbre control for real-time digital synthesis. » Computer Music
Journal 8(1) : 28-42.
SCHLOSS, W. 1985. « On the automatic transcription of percussive music – from acoustic signal to
high-level analysis. » Report STAN-M-27. Stanford : Stanford University Department of Music.
SCHOTTSTAEDT, W. 1977. « The simulation of natural instrument tones using frequency modulation
with a complex modulation wave. » Computer Music Journal 1(4) : 46-50. Réimprimé dans
C. Roads et J. Strawn, eds. 1985. Foundations of Computer Music. Cambridge, MA : MIT Press.
p. 54-64.
SCHOTTSTAEDT, W. 1983. « Pla – a composer’s idea of a language. » Computer Music Journal 7(1) :
11-20. Réimprimé dans C. Roads, ed. 1989. The Music Machine. Cambridge, MA : MIT Press.
p. 285-294.
SCHOTTSTAEDT, W. 1989a. « A computer music language. » Dans M. Mathews et J.R. Pierce, eds.
1989. Current Directions in Computer Music Research. Cambridge, MA : MIT Press. p. 215-224.
SCHROEDER, M. 1961. « Improved quasi-stereophony and colorless artificial reverberation.» Journal
of the Acoustical Society of America 33 : 1061.
SCHROEDER, M. 1962. « Natural sounding artificial reverberation.» Journal of the Audio Engineering
Society 10(3) : 219-223.
SCHROEDER, M. 1966. « Vocoders: analysis and synthesis of speech. » Proceedings of the IEEE 54 :
720-734.
SCHROEDER, M. 1970. « Digital simulation of sound transmission in reverberant spaces. » Journal of
the Acoustical Society of America 47(2) : 424-431.
SCHROEDER, M. et ATAL, B.S. 1962. « Generalized short-time power spectra and autocorrelation
functions. » Journal of the Acoustical Society of America 34 : 1679-1683.
SCHUBERT, E. 1979a. « Editor’s comments on papers 1 through 5. » Dans E. Schubert, ed., Psycho-
logical Acoustics. Stroudsburg : Dowden, Hutchinson et Ross. p. 8-16.
SCHUBERT, E. 1979b. « Editor’s comments on papers 25 through 31. » Dans E. Schubert, ed., Psycho-
logical Acoustics. Stroudsburg : Dowden, Hutchinson et Ross. p. 254-263.
SCHWARZ, D. 2004. « Data-driven Concatenative Sound Synthesis. » Thèse de doctorat. Paris,
France : Université Paris 6 (Pierre et Marie Curie).
SCHWARZ, D. 2006. « Concatenative Sound Synthesis : The Early Years. » Journal of New Music
Research 35(1) : 3-22.
BIBLIOGRAPHIE 647
SIMON, I., BASU, S., SALESIN, D. et AGRAWALA, M. 2005. « Audio Analogies : Creating New
Music from an Existing Performance by Concatenative Synthesis. » Proceedings of the Inter-
national Computer Music Conference. Barcelone, Espagne. pp. 65-72.
SINGLETON, R. 1967. « A method for computing the fast Fourier transform with auxiliary memory
and limited high-speed storage. » IEEE Transactions on Audio and Electroacoustics AU-15(2) :
91-98.
SLANEY, M. et LYON, R. 1991a. Apple Hearing Demo Reel. Apple Computer Technical Report 25.
Cupertino : Apple Corporate Library.
SLANEY, M. et LYON, R. 1991b. » Visualizing sound with auditory correlograms. » Submitted to
the Journal of the Acoustical Society of America.
SLANEY, M. et LYON, R. 1992. « On the importance of time–a temporal representation of sound. »
Dans M. Cooke et S. Beet, eds. 1992. Visual Representations of Speech Signals. New York : John
Wiley.
SLANEY, R., NAAR, D. et LYON, R. 1994. « Auditory model inversion for sound separation. » Procee-
dings of the ICASSP 94. New York : IEEE.
SLAWSON, A.W. 1985. Sound Color. Berkeley : University of California Press.
SLOBODA, J. 1985. The Musical Mind. Oxford : The Clarendon Press.
SMC. 2012. « Sound and Music Computing Roadmap : Challenges and Strategies. »
SMITH, D. 1984. Interviewé dans D. Milano. 1984. « Turmoil in MIDI Land. » Keyboard 10(6).
SMITH, E. et LEWICKI, M.S. 2005a. « Efficient auditory coding. » Nature 439(23) : 978-982.
SMITH, E. et LEWICKI, M.S. 2005b. « Efficient coding of time-relative structure using spikes. »
Neural Computation 17(1) : 19-45.
SMITH, J. 1981. « Digital signal processing committee, IEEE ASSP: Programs for digital signal
processing. » Computer Music Journal 5(2) : 62-65.
SMITH, J. 1982. « Synthesis of bowed strings. » Dans J. Strawn et T. Blum, eds. 1982. Proceedings of
the 1982 International Computer Music Conference. San Francisco : International Computer
Music Association. p. 308-340.
SMITH, J. 1983. « Techniques for digital filter design and system identification with application to
the violin. » Ph.D dissertation. Technical Report STAN-M-14. Stanford : Stanford University
Department of Music.
SMITH, J. 1985a. « Introduction to digital filter theory. » Dans J. Strawn, ed. 1985. Digital Audio
Signal Processing : An Anthology. Madison : A-R Éditions. p. 69-135.
SMITH, J. 1985b. « Fundamentals of digital filter theory. » Computer Music Journal 9(3) : 13-23.
Réimprimé dans C. Roads, ed. 1989. The Music Machine. Cambridge, MA : MIT Press. p. 509-
520.
SMITH, J. 1985c. « A new approach to reverberation using closed waveguide networks. » Dans
B. Truax, ed. Proceedings of the 1985 International Computer Music Conference. San Francisco :
International Computer Music Association. p. 47-53.
SMITH, J. 1986. « Efficient simulation of the reed-bore mechanism and bow-string interactions. »
Dans P. Berg, ed. Proceedings of the 1986 International Computer Music Conference. San
Francisco : International Computer Music Association. p. 275-279.
SMITH, J. 1987a. « Waveguide filter tutorial. » Dans J. Beauchamp, ed. Proceedings of the 1987 Inter-
national Computer Music Conference. San Francisco : International Computer Music Associa-
tion. p. 9-16.
BIBLIOGRAPHIE 649
traducteur, dans B. Boretz et E. Cone, eds. 1972. Perspectives on Contemporary Music Theory.
New York : Norton. p. 129-147.
STOCKHAUSEN, K. 1964. « Elektronische Studien I und II. » Dans Texte zu eigenen Werken zur
Kunst Anderer. Cologne : DuMont Schauberg.
STOCKHAUSEN, K. 1968. Kontakte. Score number UE 13678. London : Universal Edition.
STOCKHAUSEN, K. 1971a. « Osaka-Projekt. » Dans Texte zur Musik 1963-1970. Cologne : DuMont
Schauberg. p. 153-187.
STOCKHAUSEN, K. 1971b. Texte zur Musik 1963-1970. Band 3. Cologne : DuMont Schauberg.
STRANG, G. 1989. « Wavelets and dilation equations : a brief introduction. » SIAM Review 31(4) :
614-627.
STRANGE, A. 1983. Electronic Music : Systems, Techniques, Controls. Seconde édition. Dubuque :
W. C. Brown.
STRAUSS, L. 1960. Wave Generation and Shaping. New York : McGraw-Hill.
STRAWN, J. 1980. « Approximation and syntactic analysis of amplitude and frequency functions
for digital sound synthesis. » Computer Music Journal 4(3) : 3-24.
STRAWN, J. 1985a. « Modelling musical transitions. » Ph.D dissertation. Stanford : Stanford Uni-
versity Department of Music.
STRAWN, J. ed. 1985b. Digital Audio Signal Processing: An Anthology. Madison : A-R Éditions.
STRAWN, J. ed. 1985c. Digital Audio Engineering: An Anthology. Madison : A-R Éditions.
STRAWN, J. 1987a. « Analysis and synthesis of musical transitions using the discrete short-time
Fourier transform. » Journal of the Audio Engineering Society 35(1/2) : 3-14.
STREICHER, R. et DOOLEY, W. 1978. « Basic stereo microphone perspectives – a review. » Journal
of the Audio Engineering Society 33(7/8) : 548-556. Réimprimé dans Audio Engineering Society.
1986. Stereophonic Techniques : An Anthology. New York : Audio Engineering Society.
STURM, B.L. 2006a. « Concatenative sound synthesis and intellectual property : An analysis of the
legal issues surrounding the synthesis of novel sounds from copyright-protected work. »
Journal of New Music Research 35(1) : 23-33.
STURM, B.L. 2006b. « Adaptive concatenative sound synthesis and its application to micromon-
tage composition. » Computer Music Journal 30(4) : 44-66.
STURM, B.L. 2009. Sparse Approximation and Atomic Decomposition : Considering Atom Interac-
tions in Evaluating and Building Signal Representations. Thèse de doctorat, Santa Barbara,
CA : University of California.
STURM, B. L. 2014. « The state of the art ten years after a state of the art : Future research in music
information retrieval. » Journal of New Music Research 43(2) : 147-172.
STURM, B.L. et CHRISTENSEN, M. 2010. « Cyclic matching pursuit with multiscale time-fre-
quency dictionaries. » Proceedings of the Asilomar Conference on Signals, Systems, and Com-
puters. Pacific Grove, CA. pp. 581-585.
STURM, B.L. et SHYNK, J.J. 2010. « Sparse approximation and the pursuit of meaningful signal
models with interference adaptation. » IEEE Transactions on Audio, Speech and Language
Processing 18(3) : 461-472.
STURM, B.L., DAUDET, L. et ROADS, C. 2006. « Pitch-shifting audio signals using sparse atomic
approximations. » Proceedings of the ACM Workshop on Audio and Music Computation in
Multimedia. Santa Barbara, CA. pp. 45-52.
STURM, B.L., SHYNK, J.J., DAUDET, L. et ROADS, C. 2008. « Dark energy in sparse atomic
estimations. » IEEE Transactions on Audio, Speech and Language Processing 16(3) : 671-676.
BIBLIOGRAPHIE 651
STURM, B.L., ROADS, C., MCLERAN, A. et SHYNK, J.J. 2009. « Analysis, visualization, and trans-
formation of audio signals using dictionary-based methods. » Journal of New Music Research
38 (hiver) : 325-341.
SUEN, C. 1970. « Derivation of harmonic equations in nonlinear circuits. » Journal of the Audio
Engineering Society 18(6) : 675-676.
SULLIVAN, C. 1990. « Extending the Karplus-Strong plucked-string algorithm to synthesize electric
guitar timbres with disortion and feedback. » Computer Music Journal 14(3) : 26-37.
SUNDBERG, J. 1972. « A perceptual function of the ‘singing formant’. » Speech Transmission Lab
Quarterly Progress and Status Report 1972. Stockholm : K.T.H. p. 2-3, 61-63.
SUZUKI, H. 1987. « Modal analysis of a hammer-string interaction. » Journal of the Acoustical
Society of America 82(4) : 1145-1151.
SZILAS, N. et CADOZ, C. 1993. « Physical models that learn. » S. Ohteru, ed. Proceedings of the 1993
International Computer Music Conference. San Francisco : International Computer Music
Conference. p. 72-75.
TADOKORO, Y. et HIGISHI, T. 1978. « Discrete Fourier transform computation via the Walsh
transform. » IEEE Transactions on Acoustics, Speech and Signal Processing ASSP-26(3) : 236-
240.
TALAMBIRUS, R. 1985. « Limitations on the dynamic range of digitized audio. » Dans J. Strawn,
ed. Digital Audio Engineering : An Anthology. Madison : A-R Éditions. p. 29-60.
TAYLOR, P. 2009. Text-to-Speech Synthesis. Cambridge, MA : Cambridge University Press.
TEMPELAARS, S. 1976. « The VOSIM oscillator. » Présenté à l’International Computer Music
Conference 1976, MIT, Cambridge, MA, 28-31 octobre.
TEMPELAARS, S. 1977. Sound Signal Processing. Ruth Koenig, traducteur. Utrecht : Institut de
Sonologie.
TENNEY, J. 1963. « Sound generation by means of a digital computer. » Journal of Music Theory 7 :
24-70.
TENNEY, J. 1965. « The physical correlates of timbre. » Gravesaner Blätter 26 : 103-109.
TENNEY, J. 1969. « Computer music experiments : 1961-64. » Electronic Music Reports 1 : 23-60.
TERHARDT, E. 1982. « Algorithm for extraction of pitch and pitch salience from complex tonal
signals. » Journal of the Acoustical Society of America 71(3) : 679.
TIBSHIRANI, R. 1996. « Regression shrinkage and selection via the LASSO. » Journal of the Royal
Statistical Society. Series B 58(1) : 267-288.
© Dunod. Toute reproduction non autorisée est un délit.
TOMISAWA, N. 1981. « Tone production method for an electronic music instrument. » Brevet améri-
cain n° 4 249 447.
TOSIC, I. et FROSSARD, P. 2011. « Dictionary learning : What is the right representation for my
signal? » IEEE Signal Processing Magazine 28(2) : 27-38.
TROPP, J. 2004. « Greed is good : Algorithmic results for sparse approximation. » IEEE Transac-
tions on Information Theory 50(10) : 2231-2242.
TRUAX, B. 1977. « The POD system of interactive composition programs. » Computer Music Journal
1(3) : 30-39.
TRUAX, B. 1987. « Real-time granulation of sampled sound with the DMX-1000.» Dans J. Beauchamp,
ed. Proceedings of the 1987 International Computer Music Conference. San Francisco : Interna-
tional Computer Music Association. p. 138-145.
TRUAX, B. 1988. « Real-time granular synthesis with a digital signal processing computer. »
Computer Music Journal 12(2) : 14-26.
652 L’AUDIONUMÉRIQUE
TRUAX, B. 1990a. « Time-shifting of sampled sound with a real-time granulation technique. » Dans
S. Arnold et G. Hair, eds. Proceedings of the 1990 International Computer Music Conference.
San Francisco : International Computer Music Association. p. 104-107.
TRUAX, B. 1990b. « Composing with real-time granular sound. » Perspectives of New Music 28(2) :
120-134.
TYNDALL, J. 1875. Sound. Third ed. Akron : Werner.
UMAN, M. 1984. Lightning. New York : Dover.
UMBERT, M., BONADA, J., GOTO, M., NAKANO, T. et SUNDBERG, J. (à paraître). Expression
Control in Singing Voice Synthesis : Features, Approaches, Evaluation, and Challenges.
IEEE Signal Processing Magazine.
VAGGIONE, H. 1996. « Autour de l’approche électroacoustique : situations, perspectives. » Dans
Esthétique et Musique électroacoustique. Bourges : Éditions Mnémosyne.
VAIL, M. 1993. « The E-mu Emulator. » Keyboard 19(1) : 108-111.
VAIL, M. 2000. Vintage Synthesizers. 2e édition. San Francisco : Miller-Freeman Books.
VAN DE PLASSCHE, R. 1983. « Dynamic element matching puts trimless converters on chip. »
Electronics 16, juin 1983.
VAN DE PLASSCHE, R. et DIJKMANS, E. 1983. « A monolithic 16-bit d/a conversion system for
digital audio. » Dans B. Blesser, B. Locanthi et T. Stockham, eds. Digital Audio. New York :
Audio Engineering Society. p. 54-60.
VAN DER POL, B. 1930. « Frequency modulation. » Proceedings of the Institute of Radio Engineers
18 : 1194-1205.
VANDERKOOY, J. et LIPSCHITZ, S. 1984. « Resolution below the least significant bit in digital sys-
tems with dither. » Journal of the Audio Engineering Society 32(3) : 106-113.
VAN DUYNE, S. et SMITH, J. 1993. « Physical modeling with a 2-D digital waveguide mesh. » Dans
S. Ohteru, ed. Proceedings of the 1993 International Computer Music Conference. San
Francisco : International Computer Music Association. p. 40-47.
VETTERLI, M. 1992. « Wavelets and filter banks: theory and design. » IEEE Transactions on Signal
Processing 40(9) : 2207-2233.
VIDOLIN, A. 1993. Communication personnelle.
VOELKEL, A. 1985. « A cost-effective input processor pitch-detector for electronic violin. » Dans
B. Truax, ed. Proceedings of the 1985 International Computer Music Conference. San Francisco :
International Computer Music Association. p. 15-18.
VOLONNINO, B. 1984. « Programmi per la sintisi del suono tramite distortione non lineare dipen-
dente dalla frequenza. » Padua : Centro di Sonologià Computazionale, Università di Padova.
VON FOERSTER, H. et BEAUCHAMP, J., eds. 1969. Music by Computers. New York : Wiley.
WALKER, B. et FITZ, K. 1992. Lemur Manual. Urbana, IL : CERL Sound Group, University of Illinois.
WALSH, J. 1923. « A closed set of orthonormal functions. » American Journal of Mathematics 45 :
5-24.
WASCHKA, R. et KUREPA, A. 1989. « Using fractals in timbre construction : an exploratory study. »
Dans T. Wells et D. Butler, eds. Proceedings of the 1989 International Computer Music Conference.
San Francisco : International Computer Music Association. p. 332-335.
WAYNE, W.C., Jr. 1961. « Audio modulation system (choral tone modulator). » Brevet américain
n° 3 004 460.
WEGEL, R. et LANE, C. 1924. « The auditory masking of one pure tone by another and its probable
relation to the dynamics of the inner ear. » Physics Review 23 : 266-285.
BIBLIOGRAPHIE 653
WEINREICH, G. 1983. « Violin sound synthesis from first principles. » Journal of the Acoustical
Society of America 74 : 1S52.
WELLS, T. 1981. The Technique of Electronic Music. New York : Schirmer.
WESSEL, D. 1979. « Timbre space as a musical control structure. » Computer Music Journal 3(2) :
45-52. Réimprimé dans C. Roads et J. Strawn, eds. 1985. Foundations of Computer Music.
Cambridge, MA : MIT Press. p. 640-657.
WESSEL, D., FELCIANO, R., FREED, A. et WAWRYZNEK, J. 1989. « The Center for New Music and
Audio Technologies. » Dans T. Wells et D. Butler, eds. Proceedings of the 1989 International Com-
puter Music Conference. San Francisco : International Computer Music Association. p. 336-339.
WHITFIELD, I. 1978. « The neural code. » Dans E. Carterette et M. Friedman, eds. 1983. Handbook of
Perception, vol. 4. Orlando : Academic Press. p. 163-183.
WIENER, N. 1930. « Generalized harmonic analysis. » Acta Mathematica 55 : 117-258.
WIENER, N. 1964. « Spatial-temporal continuity, quantum theory, and music. » Dans M. Capek,
ed. 1975. The Concepts of Space and Time. Boston : D. Reidel.
WIGNER, E. 1932. « On the quantum correction for thermodynamic equilibrium. » Physical Review
40 : 749-759.
WINCKEL, F. 1967. Music, Sound, and Sensation. New York : Dover Publications.
WINHAM, G. 1966. The Reference Manual for Music 4B. Princeton : Princeton University Music
Department.
WISHART, T. 1988. « The composition of Vox-5. » Computer Music Journal 12(4) : 21-27.
WOLD, E. 1987. « Nonlinear parameter estimation of acoustic models. » Ph.D dissertation. Report
Number UCB/CSD 87/354. Berkeley : Department of Electrical Engineering and Computer
Science.
WOOD, A. 1940. Acoustics. London : Blackie and Sons.
WOOD, P. 1991. « Recollections with John Robinson Pierce. » Computer Music Journal 15(4) : 17-28.
WOODHOUSE, J. 1992. « Physical modeling of bowed strings.» Computer Music Journal 16(4) : 43-56.
WOSZCZYK, W. et TOOLE, F. 1983. « A subjective comparison of five analog and digital tape
recorders. » Preprint 2033 (H-8), présenté à la 74e Convention de l’Audio Engineering Society,
8-12 octobre 1983. New York : Audio Engineering Society.
WRIGHT, M. et FREED, A. 1997. « Open SoundControl : A New Protocol for Communicating with
Sound Synthesizers ». International Computer Music Conference. Thessalonique, Grèce, 1997.
WRIGHT; M. 1998. « Implementation and Performance Issues with Open Sound Control ». Inter-
© Dunod. Toute reproduction non autorisée est un délit.
Basilique Saint Marc (Venise), 122 Center for Computer Music and Music
BBC (British Broadcasting Company), 9 Technology, 55
Bell Telephone Laboratories, 6, 139, 154, 206, Chamberlin (instrument), 375
208, 270, 349, 502, 509, 521 Champ de paramètre, 361, 369
Bicycle Built for Two (John Kelly et Carol Changement temps/hauteur, 120
Lochbaum), 521 CHANT (application), 260, 561, 568
Binaural, 136 Chaos non linéaire, 602
Blackman-Harris (fenêtre), 572 Chorus, 114
Bouclage, 379 Cinéma (diffusion du son), 141
bidirectionnel, 379 CinemaScope, 141
Bruit Cinerama, 140
Analyse, 231 Circuits analogiques, 546
blanc, 602 Cirrus Logic, 330
chaotique, 601 Clang-tint (Curtis Roads), 422, 452
coloré, 603 Clang-tint (définition du terme), 205
de lecture de table, 355 Clavia Nord Lead III (instrument), 555
de quantification, 29 Clavier-Übung (Johann Sebastian Bach), 285
Générateur, 603 Clavioline (instrument), 76
Perception, 342 CMU MIDI Toolkit (langage), 304
Réduction du bruit et compresseurs- Cochlée, 261, 337
extenseurs, 71 Cochléagramme, 261
Buchla, 557 Modèles logiciels, 262
Bus Codage prédictif linéaire (CPL), 183, 477, 563,
Adresse de diffusion, 323 569
asynchrone, 323 Coded Music Apparatus (instrument), 596
esclave, 323 Commission Électrotechnique Internationale,
État d’attente, 324 316
logique d’arbitrage, 323 Composer-Tron (instrument), 596
maître, 323 Composition
Priorité, 323 algorithmique, 370
Protocole spectrale, 400
d’attente, 324 Compresseurs, 71
© Dunod. Toute reproduction non autorisée est un délit.
G rotatifs, 139
Hibiki Hana Ma (Iannis Xenakis), 123
Gain d’un filtre, 461 HMSL (langage), 304
Gamme dynamique, 45 Hohner Elektronium (instrument), 437
Audionumérique, 31 HRTF (Fonction de transfert relative à la tête),
GENDY (application), 607 135
Générateur Huygens (Principe), 144
de nombre pseudo aléatoire, 541, 601 HYBRID (instrument), 270
de son photoélectrique, 595 HYBRID IV (instrument), 124
élémentaire, 351, 451 Hymnen (Karlheinz Stockhausen), 137, 484
Gesang der Jünglinge (Karlheinz Stockhausen),
122
Gibson Guitar Corporation, 330
Gmebaphone, 123, 126
I
IBM 704 (ordinateur), 349
Granulation temporelle de sons échantillonnés,
IBM 7094 (ordinateur), 351
431
Idle Chatter (Paul Lansky), 474
Green (fonction), 148
IEC 958 (liaison audionumérique), 316
GRM, 465
Illusions
GROOVE (instrument), 270
auditives, 345
Groupe de Musique Expérimentale de Bourges
(GMEB), 123 sonores verticales, 136
Groupe de Recherches Musicales (GRM), 123, Impulsion élémentaire, 79
465 In a silver scale (Newman Guttman), 351
Guides d’onde, 536 Incrément dans un oscillateur numérique, 352
© Dunod. Toute reproduction non autorisée est un délit.
O P
Panoramisation
Oberheim Electronics, 271
à puissance constante, 128
Oberheim Four Voice (instrument), 550 définition, 122
Objet sonore, 364 linéaire, 127
Onde Paradigme masse-ressort
modulante, 479 pour l’excitation, 525
longitudinales, 525 pour les cordes vibrantes, 523
Martenot (instrument), 548 pour les surfaces et les volumes vibrants,
525
porteuse, 479
Parcimonie, 235–238, 241
transversales, 525 Parole visible, 200
Ondelettes dans l’analyse spectrale, 206 Partiels inharmoniques, 394
Ondioline (instrument), 76, 437, 548 Partita III (Johann Sebastian Bach), 181
Opcode Systems, 290 Pascal (langage), 304
Open Systems Interconnexion (OSI), 326 Patch, 357, 554
Optimisation, 219, 236, 238, 253, 301 analogique, 555
Oramics (instrument), 596 cordons, 554
Éditeur, 363, 555
Orbite en synthèse par terrain d’ondes, 415
numérique, 555
Ordinateurs Synthèse soustractive, 548
Apple Macintosh, 450 Patchbays, 312
Apple G4, 451 analogiques, 311
Quadra, 55 hybrides, 312
HAL, 521 MIDI, 315
IBM 704, 349 numériques, 312
PatchWork (application), 568
IBM 7094, 351
© Dunod. Toute reproduction non autorisée est un délit.
Phasing, 113
Phonogène (instrument), 374
R
Radiation sonore, 137
Phonogramme, 595
Rapport de compression, 71
application, 600 Rapport P/M, 490
Photona (instrument), 595 RCA Synthesizer (instrument), 76
Photophone (matériel audio), 318 Reconnaissance
Pictor Alpha (Curtis Roads), 239–241 d’élément dans l’analyse sonore, 264
PILE (langage), 585 de hauteur dans les systèmes MIDI, 172
Ping-pongs de pistes, 56 du rythme, 195
Pistage dans les systèmes MIDI, 172
de pic dans le vocodeur de phase pisteur, Estimation de la métrique et des
226 limites de mesure, 194
de tempo, 188 Récupération d’erreurs, 194
Pitch Variations (Newman Guttman), 351 Réduction de données
Pitch-shifting, 381 dans l’analyse/resynthèse additive, 402
Planète interdite (Louis et Bebe Barron), 518, dans les échantillonneurs, 382
556 Réduction du bruit, 71, 143
Poème électronique (Edgar Varèse), 122 Regroupements en éléments dans l’analyse de
Poly5 (Vincent Lesbros), 600 rythme, 193
Polytope de Cluny (Iannis Xenakis), 123 Rejet du mode commun, 309
Pondération de portion, 574 Remodeleurs d’enveloppes, 67
Postproduction audio/vidéo, 63 Remplissage par des zéros dans l'analyse
Potentiomètre d’espace, 142 spectrale, 223
Pourcentage de déviation du vibrato, 499 Repliement, 552
Problèmes de distorsion, 552
Poursuite adaptative, 236–237, 239–242
Répons (Pierre Boulez), 124
Prédiction linéaire faussée, 476
Réponse
Principes de sélection sériels et postsériels, 583
amplitude en fonction de la fréquence, 456
ProDigi (liaison audionumérique), 316
fréquentielle, 456
Programmes logiciels de synthèse, 360
impulsionnelle, 215
Project 1 (application), 583 avec vélocités des sources, 148
Project 2 (application), 583 d’une salle, 153
Prozession (Karlheinz Stockhausen), 484 Représentation du son
Psychophysique, 334 Domaine fréquentiel, 11
Publison (matériel audio), 117 Domaine temporel, 11
PulsarGenerator (application), 438, 451 Réseau, 331
étendu (WAN), 326
de Toronto, 572
W
de Waseda, 265 WABOT-2 (robot musical), 265
UPIC (instrument), 599 Warbo Formant Organ (instrument), 76
Upsampling, 380 Welte Organ (instrument), 595
Westdeutschen Rundfunks (WDR), 54, 76, 122,
139
V William’s Mix (John Cage), 593
Wivigramme, 237, 239–241
VCA, 50, 549
VCF, 549
VCO, 496, 549
Y
Yamaha Corporation, 317, 330, 489, 502, 531
VistaVision, 141 Yamaha Digital Cascade (liaison
Vocodeur, 466 audionumérique), 317
Vocodeur de phase, 117, 208, 231, 265, 401 Yamaha DX7 (instrument), 283, 489
Yamaha GS1 (instrument), 489
Remplissage par des zéros, 223
Yamaha VL1 (instrument), 521
Vocodeur de phase pisteur, 118, 226 Yamaha VP1 (instrument), 521
Efficacité, 228
Enveloppes d’analyse, 227
Pistage de pic, 226
Précision, 228
Synthèse croisée, 228
Voilements (Jean-Claude Risset), 465
Von Hann (fenêtre), 444
Vox-5 (Trevor Wishart), 398
© Dunod. Toute reproduction non autorisée est un délit.
Index des noms
C
Cage, John, 351, 601 F
Campo, Alberto (de), 450 Fellgett, Peter, 147
Carlos, Wendy, 400 Ferreti, Ercolino, 521
Cauchy, Augustin Louis, 6 Flanagan, James, 208
Chong, Xin, 516 Fletcher, Harvey, 139, 399
Chowning, John, 398, 488 Fourier, Joseph, 204
INDEX DES NOMS 673
J-K N
© Dunod. Toute reproduction non autorisée est un délit.
P
L Parker, Charlie, 557
Lansky, Paul, 120, 474 Pierce, George W., 170
Layzer, Arthur, 502 Pierce, John, 351
674 L’AUDIONUMÉRIQUE
R
Randall, J. K., 362 T
Rayleigh, John W.S. (Lord), 170, 520 Tempelaars, Stan, 570
Reeves, Alec, 6 Toch, Ernst, 373
Reeves, Hazard, 140 Truax, Barry, 422, 496
Risset, Jean-Claude, 200, 206, 398, 465, 502, Tyndall, John, 170, 205
509
Ruiz, Pierre, 521
Russolo, Luigi, 605 W
Wayne, W. C. Jr, 113
Welte, Edwin, 374
S Wiener, Norbert, 205, 422
Sabine, Wallace, 152 Willaert, Adrian, 122
Sammis, Frederick, 375 Wishart, Trevor, 398
Sauveur, Joseph, 169
Savart, Félix, 169
Schaeffer, Pierre, 142, 373 X
Scheiber, Peter, 143 Xenakis, Iannis, 351, 422, 596, 605
Scherchen, Hermann, 351
Scherpenisse, Jo, 572
Schroeder, Manfred, 154 Z
Shore, John, 169 Zinovieff, Peter, 207