Vous êtes sur la page 1sur 179

Table des Matières

Page de Titre

Table des Matières

Page de Copyright

Dédicace

Parmi nos publications en linguistique

Avant-propos

Chapitre 1 - Le son
1. La phonétique acoustique

2. Le son

3. À la recherche du son pur

4. Amplitude, fréquence et phase

5. Unités de son pur

6. Amplitude et intensité

7. Bels et décibels

8. Seuil d'audibilité et seuil de la douleur

9. Intensité et distance de la source sonore

10. Son pur et son musical : la gamme dans la musique occidentale

11. Audiométrie

12. L'effet de masque

13. Le son pur introuvable

14. Son pur, son complexe

Chapitre 2 - L’enregistrement des sons


1. Enregistrement de la parole

2. Le kymographe

3. Chaîne d'enregistrement

4. Microphones et prise de son

5. Lieux d'enregistrement

6. Monitoring

7. Format binaire et fréquence de Nyquist-Shannon

8. Capacité d'enregistrement

9. Les codages MP3, WMA, et les autres

Chapitre 3 - La production des sons de la parole


1. Modes de production

2. Vibration des cordes vocales


3. «Jitter» et «shimmer»

4. Bruits de friction

5. Bruits d'explosion

6. Nasales

7. Modes mixtes

8. Chuchotement

9. Modèle source-filtre

Chapitre 4 - La représentation harmonique


1. Analyse spectrale harmonique

2. Transformée de Fourier rapide (FFT)

3. Instantanés sonores

4. Une fenêtre sur le signal

5. Fenêtres célèbres

6. Filtres

Chapitre 5 - Analyse par modèle source-filtre


1. La méthode de Prony-LPC

2. Zéros et pôles

3. Quelle durée choisir?

4. Quel ordre choisir?

5. Prédiction linéaire et méthode de Prony

Chapitre 6 - Spectrogrammes
1. Lecture de spectrogrammes

2. Segmentation

3. Comment mesurer les fréquences des formants ?

Chapitre 7 - La fréquence fondamentale


1. Répétition des cycles laryngés

2. La fréquence fondamentale n'est pas une fréquence !

3. Fréquence laryngée et fréquence fondamentale

4. Méthodes temporelles

5. Méthodes fréquentielles

6. Lissage

7. La meilleure méthode d'analyse de Fo

8. Mesure de l'intensité

9. Morphing prosodique

Chapitre 8 - Modèles articulatoires


1. Premiers modèles

2. Modèle à un tube

3. Modèle à deux tubes

4. Modèle à trois tubes

5. Modèle à n tubes

Chapitre 9 - Pratiques d’analyse


1. Enregistrement

2. Fréquence fondamentale

3. Spectrogrammes

4. Méthode de Prony

Annexe

Bibliographie
© Armand Colin, 2008 pour la présente édition.
978-2-200-24573-3
Conception de couverture : Dominique Chapon et Emma Drieu.
Internet : http://www.armand-colin.com

Tous droits de traduction, d’adaptation et de reproduction par tous


procédés, réservés pour tous pays. • Toute reproduction ou représentation
intégrale ou partielle, par quelque procédé que ce soit, des pages publiées
dans le présent ouvrage, faite sans l’autorisation de l’éditeur, est illicite et
constitue une contrefaçon. Seules sont autorisées, d’une part, les
reproductions strictement réservées à l’usage privé du copiste et non
destinées à une utilisation collective et, d’autre part, les courtes citations
justifiées par le caractère scientifique ou d’information de l’œuvre dans
laquelle elles sont incorporées (art. L.-122-4, L.-122-5 et L.-335-2 du
Code de la propriété intellectuelle).
ARMAND COLIN ÉDITEUR • 21, RUE DU MONTPARNASSE •
75006 PARIS
À Pierre Léon, qui m’a fait tomber dans un
tonneau de fréquence fondamentale quand
j’étais petit…
Parmi nos publications en linguistique
COLLECTION 128
BANNIARD Du latin aux langues romanes
LÉON / LÉON La Prononciation du français
PERRET L’Énonciation en grammaire de texte
ROUQUIER Vocabulaire d’ancien français
SCHOTT-BOURGET Approches de la linguistique
THOMASSET / Pour lire l’ancien français
UELTSCHI
COLLECTION CURSUS
AUSCHLIN / Introduction à la linguistique contemporaine (2e édition)
MOESCHLER
BAYLON / FABRE Initiation à la linguistique
GARDES TAMINE La Grammaire. 1. Phonologie, morphologie, lexicologie (3e
édition)
GARDES TAMINE La Grammaire. 2. Syntaxe (4e édition)
GARDES TAMINE La Rhétorique
GARDES TAMINE La Stylistique (2e édition)
HUOT La Morphologie (2e édition)
LÉON Phonétisme et prononciations du français (5e édition)
LÉONARD Exercices de phonétique historique
MARTINET Éléments de linguistique générale (4e édition)
MORTUREUX La Lexicologie entre langue et discours
NIKLAS-SALMINEN La Lexicologie
PERRET Introduction à l’histoire de la langue française (3e édition)
COLLECTIONS FAC ET LETTRES SUP
BAYLON / MIGNOT Initiation à la sémantique du langage
LEHMANN / MARTIN- Introduction à la lexicologie. Sémantique et morphologie (2e
BERTHET édition)
COLLECTION U
ARGOD-DUTARD Éléments de phonétique appliquée
AUDISIO / RAMBAUD Lire le français d’hier. Manuel de paléographie moderne. 15e-18e
siècle (3e édition)
BERTRAND / Vocabulaire d’ancien français : fiches à l’usage des concours
MENEGALDO
GLESSGEN Linguistique romane. Domaines et méthodes en linguistique
française et romane
JOLY Fiches de phonétique
JOLY Précis d’ancien français. Morphologie et syntaxe
JOLY Précis de phonétique historique du français
PAVEAU / SARFATI Les Grandes Théories de la linguistique
QUEFFÉLEC / BELLON Linguistique médiévale : l’épreuve d’ancien français aux
concours
COLLECTION DICTIONNAIRES
NEVEU Dictionnaire des sciences du langage
COLLECTION CURSUS • LINGUISTIQUE
Avant-propos
Les cours de phonétique acoustique dispensés dans les universités
s’adressent en priorité aux étudiants de lettres, souvent dubitatifs à l’idée
de devoir assimiler les principes de physique qui sous-tendent les
méthodes d’analyse en phonétique. Aussi, pour n’effrayer personne,
nombre de manuels de phonétique et même de modes d’emploi de
logiciels d’analyse acoustique se gardent bien de trop détailler les
rouages internes et les limitations inhérents aux circuits électroniques ou
aux algorithmes utilisés.
En rédigeant cet ouvrage, je me suis efforcé de maintenir une position
différente. Je pense que les principes de base qui sous-tendent l’analyse
acoustique de la parole peuvent aisément être expliqués sans devoir
nécessairement s’encombrer d’un bagage mathématique qui ne passionne
que les ingénieurs d’études en télécommunication. Il me semble
extrêmement important de bien saisir les processus d’analyse pour être
capable de totalement en maîtriser les propriétés et les limitations et faire
face aux problèmes pratiques éventuels.
En réalité, pour ce qui est du bagage mathématique, il suffit le plus
souvent de se souvenir de ce que sont les fonctions trigonométriques
élémentaires, sinus, cosinus, tangente et cotangente, ainsi que du
logarithme (du reste un rappel de leurs définitions se trouvent en annexe).
J’espère qu’après avoir fourni un effort de compréhension raisonnable,
les lectrices et lecteurs éviteront les erreurs et contresens dans la mise en
œuvre et l’interprétation des mesures acoustiques, erreurs que l’on
retrouve aujourd’hui trop souvent (et trop tard) lors de soutenances de
thèse impliquant des mesures phonétiques.
Les illustrations impliquant des fonctions trigonométriques ont été
réalisées à l’aide du logiciel Graph. Celles présentant des résultats
d’analyse acoustique ont été obtenues à l’aide du logiciel WinPitch. Ces
logiciels peuvent être téléchargés librement sur les sites
www.padowan.dk et www.winpitch.com. WinPitch doit être activé (après
un mois) à l’aide d’un mot de passe obtenu gratuitement sur demande à
info@winpitch.com, en insérant dans le
message le numéro
d’identification de votre ordinateur (affiché au démarrage du programme
après installation et se terminant par « X ») ainsi que le numéro ISBN de
cet ouvrage.
Il me reste à remercier les étudiants de phonétique expérimentale
d’Aix-en-Provence, de Toronto et de Paris, ainsi que les excellents
collègues de ces universités, de m’avoir permis par leur soutien, leurs
critiques et leurs suggestions de progressivement mettre en place et
d’améliorer les cours de phonétique acoustique qui constituent la base de
cet ouvrage. Mais je n’oublie pas non plus G. B. (dont la voix a servi de
base à de nombreux exemples), ni S. M., ni C. L., ni la joyeuse bande de
doctorants du laboratoire de phonétique ARP de Paris-VII, ni bien
d’autres…
Le Monastier, Lozère, août 2008.
Chapitre 1

Le son

1. La phonétique acoustique

La phonétique est la science qui se propose de décrire les sons du


langage. À la différence de la phonologie qui s’intéresse aux mêmes
objets, cette description est indépendante de la fonction des sons dans le
système linguistique. Alors que la phonétique articulatoire est très
ancienne (voir la scène bien connue du Bourgeois gentilhomme, dans
laquelle Monsieur Jourdain se fait expliquer très précisément les détails
de l’articulation des consonnes et des voyelles, que tout locuteur réalise
sans avoir conscience des mécanismes impliqués), la phonétique
acoustique n’a pu se développer qu’avec l’apparition des premiers
instruments d’enregistrement de la parole et des outils mathématiques
permettant de décrire leurs propriétés physiques.
Au cours du xxe siècle, les techniques d’enregistrement sur disque
vinyle puis sur bande magnétique ont permis de conserver le son et d’en
rendre l’analyse possible même en l’absence des locuteurs. Grâce au
développement de l’électronique et à l’invention du spectrographe, on a
pu réaliser rapidement des analyses harmoniques autrefois péniblement
exécutées à la main. Plus tard, l’émergence dans les années 1980 de
l’informatique personnelle mettant en œuvre des processeurs de plus en
plus rapides et des mémoires de grande capacité a entraîné le
développement d’outils d’analyse acoustique informatiques, mis à la
portée de tous, au point que les phonologues autrefois rétifs aux
investigations phonétiques ont fini par les utiliser (sans toujours maîtriser
totalement leur fonctionnement…).
La phonétique acoustique se propose de décrire les sons de la parole
d’un point de vue physique en explicitant les caractéristiques qui rendent
compte de leur usage dans le système linguistique. Elle parvient
également à décrire les liens qui existent entre les sons de la parole et le
mécanisme phonatoire, faisant ainsi le pont avec la phonétique
articulatoire traditionnelle. Dans le domaine prosodique enfin, elle se
révèle comme outil essentiel dans l’acquisition des données, difficile à
maîtriser de manière fiable par la seule investigation auditive.

2. Le son

La parole constitue une grande invention humaine car elle permet de


communiquer par le son sans avoir nécessairement de contact visuel
entre les actants de la communication. En phonétique acoustique, dont
l’objet est le son de la parole, le terme «son» implique la perception par
l’oreille (ou les deux oreilles) des variations de pression dans un milieu
dans lequel ces oreilles sont plongées, c’est-à-dire l’air, mais ce peut être
aussi, exceptionnellement, l’eau pour les plongeurs sous-marins. Les
variations de pression sont créées par une source sonore constituée par
tout élément matériel en contact avec le milieu qui parvient à en modifier
la pression. Dans le vide, il ne peut y avoir de pression ni de variation de
pression et le son ne s’y propage pas. Le vide est donc un excellent
isolant sonore.
La variation de pression se propage a priori dans toutes les directions
autour de la source, à une vitesse qui dépend de la nature du milieu, de sa
température, de la pression moyenne, etc. Dans l’air à 15 °C, la vitesse de
propagation est de 340 m/s (1 224 km/h) au niveau de la mer, alors que
dans l’eau de mer elle est de 1 500 m/s (5 400 km/h). La Table 1.1donne
quelques valeurs de vitesse de propagation dans différents milieux. On
voit que c’est dans l’acier que la vitesse du son est une des plus élevées
(5 200 m/s soit 18 720 km/h), ce qui pourrait expliquer pourquoi dans les
films de notre enfance les outlaws de l’Ouest américain pouvaient sans
trop de danger coller une oreille sur un rail de train pour en estimer
l’approche avant de l’attaquer.
La possibilité que le son puisse être perçu par l’humain dépend de sa
fréquence et de son intensité. Si la fréquence est trop basse, inférieure à
20 Hz environ, le son ne sera pas perçu (on parle d’infrasons). Si elle est
trop haute (supérieure à 16 000 Hz, mais
cette valeur dépend de l’âge des
oreilles), le son ne sera pas perçu non plus (on parle alors d’ultrasons).
Beaucoup de mammifères comme les chiens, les chauves-souris ou les
dauphins n’ont pas les mêmes plages de perception de fréquence que les
humains et peuvent entendre des ultrasons jusqu’à 100 000 Hz. Cette
valeur dépend aussi de l’âge. On a interdit récemment l’usage de
générateurs de sons à fréquence élevée très désagréables pour les
adolescents pour empêcher qu’ils ne se regroupent dans certains endroits
publics, alors que ces sons ne constituaient aucune gêne pour les adultes
puisqu’ils ne peuvent pas les percevoir.
Table 1.1
. – Quelques exemples de vitesse de propagation du son
dans différents matériaux à une température de 20 °C et
sous une pression d'une atmosphère

Célérité du son

Matériaux (en m/s)

Air 343

Eau 1 480

Glace 3 200

Verre 5 300

Acier 5 200

Plomb 1 200

Titane 4 950

PVC (mou) 80

PVC (dur) 1 700


Béton 3 100

Hêtre 3 300

Granit 6 200

Péridotite 7 700

Sable sec 10 à 300

(Source : Wikipédia.)

3. À la recherche du son pur

En 1790, en France, l’Assemblée nationale constituante envisage la


création d’un système de mesure qui soit stable, simple et universel.
Ainsi le mètre, reprenant une longueur universelle définie d’abord par
l’Anglais John Wilkins en 1668 puis reprise par l’Italien Burattini en
1675, est redéfini en 1793 comme la dix-millionième partie
d’un demi-
méridien (un méridien est un demi-grand cercle imaginaire tracé sur le
globe terrestre reliant les pôles, la circonférence de la terre atteignant 40
000 km). Parallèlement, le gramme est choisi comme correspondant au
poids d’un centimètre cube d’eau pure à zéro degré. Les multiples et
sous-multiples de ces unités de base, mètre et gramme, seront toujours
obtenus par multiplication ou division par dix. Quant à l’unité de mesure
du temps, la seconde, ce ne sont que ses sous-multiples qui seront définis
par division par dix (la milliseconde pour un millième de seconde, la
microseconde pour un millionième de seconde, etc.), alors que les
multiples minutes, heures et jours restent inchangés, multiples de
soixante et de vingt-quatre. Les autres unités de grandeur physiques sont
dérivées des unités de base mètre, gramme (ou kilogramme) et seconde,
auxquelles s’ajouteront plus tard l’Ampère, unité d’intensité, et le Kelvin,
unité de température. Ainsi l’unité de vitesse est le mètre par seconde
(m/s) et l’unité de puissance le watt, défini par la formule kg m2/s3, ces
grandeurs étant toutes deux dérivées des unités de base kilogramme,
mètre et seconde.
Il fallait cependant définir une unité de son. Au XVIIIe siècle, les
musiciens sont les principaux «producteurs de sons » et il semble naturel
de se tourner vers eux pour définir une unité. La référence des musiciens
étant la note musicale la (plus exactement le la3, appartenant à la 3e
octave), et ce la3 étant produit par un diapason servant à accorder les
autres instruments, il restait à décrire physiquement ce son de référence
musicale et à lui conférer le titre «son pur », qui fera référence par sa
nature (son timbre) et par sa fréquence.
Lorsque pendant la deuxième moitié du XIXe siècle les vibrations
sonores produites par le diapason ont pu être visualisées (invention du
kymographe et du phonautographe), on constata que leur forme
ressemblait fort à une fonction mathématique bien connue, la sinusoïde.
Adoptant la sinusoïde comme modèle mathématique du son pur, dont
l’équation générale, si l’on rend la vibration sinusoïdale dépendante du
temps, est f(t) = A sin(ωt), il ne restait plus qu’à préciser la signification
des paramètres A et ω.
Au lieu d’adopter le la3 des musiciens dont la définition restait encore
fluctuante à l’époque (de l’ordre de 400 à 440 vibrations par seconde,
voir Table 1.2), on reprit tout naturellement l’unité de temps, la seconde,
pour définir l’unité de son pur  : une vibration sinusoïdale par seconde,
correspondant à un cycle de variation de
pression sinusoïdale par seconde
(unité que l’on appellera plus tard le hertz).
Table 1.2
. – Évolution de la fréquence du la de référence au cours
des siècles

Année Fréquence (Hz) Lieu

1495 506 Orgue de la cathédrale de Halberstadt

1511 377 Schlick organiste à Heidelberg

1543 481 Sainte-Catherine, Hambourg

1636 504 Mersenne, ton de chapelle

1636 563 Mersenne, ton de chambre


1640 458 Orgues des franciscains à Vienne

1648 403 Épinette Mersenne

1688 489 Saint-Jacques, Hambourg

1700 404 Paris, ton moyen

1750 390 Orgue Dallery de l’abbaye de Valloires

1751 423 Diapason Haendel

1780 422 Diapason Mozart

1810 423 Paris, diapason moyen

1819 434 Cagniard de La Tour

1823 428 Opéra-Comique, Paris

1834 440 Scheibler, congrès de Stuttgart

1856 449 Opéra de Paris, Berlioz

1857 445 San Carlos, Naples

1859 435 Diapason francais, arrêtés ministériels

1859 456 Vienne

1863 440 Tonempfindungen Helmholtz

1879 457 Pianos Steinway, USA

1885 435 Conférence de Vienne

1899 440 Covent Garden

1939 440 Diapason international normal

1953 440 Conférence de Londres

(Source : Wikipédia.)
4. Amplitude, fréquence et phase

Amplitude

Un son pur est donc décrit mathématiquement par une fonction


sinusoïdale  : sin(θ), θ étant l’angle argument du sinus en posant θ = ωt
(voir Figure 1.1). Pour caractériser l’amplitude de la vibration sonore, on
multiplie la fonction sinus par un coefficient multiplicateur A (A pour
amplitude)  : A sin(θ). Donc plus le paramètre A est grand, plus la
vibration est ample.

Figure 1.1
. – Définition de la sinusoïde

Figure 1.2
. – Représentation d'un son pur

Fréquence
Une vibration unique d’un son pur effectué en une seconde, c’est-à-
dire un cycle complet de la sinusoïde par seconde, correspond à un tour
complet dans le cercle trigonométrique qui définit la sinusoïde, c’est-à-
dire à un angle de 360 degrés ou, si l’on utilise l’unité radian (préférée
des mathématiciens), 2π radian (donc 2 fois π = 3,14159… = 6,28318).
Un son pur d’une vibration par seconde aura alors pour représentation
mathématique A sin(2πt). Si le son pur présente deux vibrations par
seconde, les variations sinusoïdales s’effectueront deux fois plus vite et
l’angle qui définit le sinus variera deux
fois plus vite dans le cercle
trigonométrique : A sin(4πt). Si la variation sinusoïdale est de dix fois par
seconde, la formule devient A sin(20πt). Cette vitesse de variation est
bien évidemment appelée fréquence et est représentée par le symbole f :
A sin(2πft).
Par définition, un événement périodique comme un son pur est
reproduit de manière identique après une durée appelée période (symbole
T). Fréquence f et période T sont inverses l’une de l’autre  : un son pur
(donc périodique) dont le cycle est reproduit 10 fois par seconde a une
période 10 fois plus petite qu’une seconde, c’est-à-dire un dixième de
seconde, ou 0,1 seconde ou encore 100 millièmes de secondes (100
millisecondes ou, en notation scientifique, 100 ms). Si la période d’un
son (un infra-son) pur est de cinq secondes, sa fréquence est de un
cinquième de cycle par seconde. La formule liant fréquence et période est
f = 1/T, ou T = 1/f : la fréquence est égale à un divisé par la période, et
inversement, la période est égale à un divisé par la fréquence.

Phase

Le son pur tel que défini par une fonction sinusoïdale est une
idéalisation mathématique décrivant l’évolution d’un événement dans le
temps, événement dont on n’a pas déterminé l’origine, qui ne peut être
qu’arbitraire. Le décalage entre cette origine arbitraire et le point de
départ d’une sinusoïde reproduite à chaque cycle du son pur constitue la
phase (symbole φ). On peut aussi considérer les différences des points de
départ des cycles temporels des différents sons purs. Ces différences sont
appelées décalages de phase (symbole Δφ).
Figure 1.3
. – Phase
Un son pur unique n’aura donc de phase que par rapport à une
référence temporelle et sera exprimé en angle ou en temps. La phase φ
correspondant à une fraction de la période T, le décalage temporel Δt
dépend de la fréquence f selon la formule Δt = Δφ/f = ΔφT. Quand il
s’agira de décrire plusieurs sons purs de différentes amplitudes et de
différentes fréquences on utilisera le paramètre de phase pour caractériser
le décalage entre ces sons purs dans le temps.
La représentation mathématique générale du son pur s’enrichit du
symbole φ qui vient s’ajouter à l’argument de la sinusoïde : A sin (2πft +
φ) si on explicite le paramètre de fréquence, et A sin ((2πt/T) + φ) si on
explicite la période.
Figure 1.4
. – Décalage temporel dû au déphasage

5. Unités de son pur

Le son pur, être purement mathématique choisi pour définir une unité
de son, est donc caractérisé par trois paramètres  : l’amplitude de
vibration, symbole A, la fréquence de vibration, symbole f, et la phase φ
de la vibration décrivant le décalage de la vibration par rapport à un
instant de référence arbitraire.
L’unité de période est dérivée de l’unité de temps, la seconde. En
pratique, on utilise les sous-multiples de la seconde, et particulièrement
en phonétique acoustique la milliseconde ou millième de seconde
(symbole ms). Ce sous-multiple correspond assez bien aux événements
quasi périodiques liés à la production de la parole comme la vibration des
cordes vocales, qui typiquement s’ouvrent et se ferment de 70 à 300 fois
par seconde (parfois beaucoup plus
souvent dans le chant lyrique). Au
début de la phonétique instrumentale, on utilisait plutôt le centième de
seconde comme unité (symbole cs). On avait alors des valeurs des durées
de cycle laryngien de l’ordre de 0,3 à 1,5 cs notées aujourd’hui 3 à 15
ms.
Pour la fréquence, inverse de la période, les phonéticiens ont utilisé
longtemps le cycle par seconde (cps) comme unité, mais l’influence de la
physique des événements périodiques a fini par imposer le hertz
(symbole Hz), en l’honneur du physicien allemand Heinrich Rudolf
Hertz (1857-1894).
Pour la phase, comme il s’agit de préciser le décalage avec une origine
temporelle de référence, l’unité d’angle (degré, grade ou radian) convient
parfaitement. On pourra convertir le décalage de phase en valeur
temporelle si besoin est, en obtenant le décalage temporel comme
fraction de la période (ou comme un multiple de la période additionné
d’une fraction de période). Ainsi un décalage de phase positif de 45
degrés d’un son pur à 100 Hz, donc de période égale à 10 ms, correspond
à un décalage temporel par rapport à la référence de (45/360) x 10 ms =
(1/8) x 10 ms = 0,125 x 10 ms = 1,25 ms.

6. Amplitude et intensité

Si l’unité de fréquence directement dérivée de l’unité de temps ne fait


pas problème, que faire à propos de l’amplitude ? Autrement dit, à quoi
correspond une amplitude de valeur unitaire ? La réponse se réfère à ce
que représente l’équation sinusoïdale du son pur, c’est-à-dire à une
variation de pression sonore. En physique, l’unité de pression est définie
comme une unité de force appliquée perpendiculairement sur une unité
de surface. En mécanique, et donc aussi en acoustique, l’unité de force
est le newton (en l’honneur d’Isaac Newton et de sa pomme, 1643-
1727), et 1 newton (symbole N) est défini comme égal à la force capable
de communiquer à une masse de 1 kilogramme une augmentation de
vitesse de 1 mètre par seconde chaque seconde (donc une accélération de
1 m/s2).
En rapprochant toutes ces définitions on obtient pour l’unité de
pression le pascal (symbole Pa, en souvenir de Blaise Pascal, 1623-
1662) : 1 Pa = 1 N/m2 ou, en remplaçant le newton par sa définition en
unité de base MKS, mètre, kilogramme, seconde, 1 Pa = 1 kg/s2m3 par
rapport à la pression atmosphérique, qui est en moyenne de 100 000 Pa
(1 000 hectopascals ou 1 000 hPa). Les
pressions sonores sont très petites
mais varient dans une gamme très étendue de l’ordre de 20 µPa (10
micropascals, donc 20 millionièmes de pascal) à 20 Pa, soit un facteur de
1 à 1 000 000 ! Pour un niveau de conversation normale, la variation de
pression sonore maximale parvenant à notre oreille est d’environ 1 Pa.
Voilà donc pour l’amplitude de variation de pression du son pur, qui
s’exprime en pascal. Mais qu’en est-il de l’intensité ? La physique nous
apprend que l’intensité est définie par la puissance de la vibration divisée
par la surface sur laquelle elle s’applique. Dans le cas d’un son pur, cela
nous amène au calcul de la puissance délivrée par une variation de
pression sinusoïdale, c’est-à-dire la quantité d’énergie fournie (ou reçue)
par unité de temps.
L’unité d’énergie est le joule (symbole J, en l’honneur du physicien
anglais James Prescott Joule, 1818-1889), égal au travail d’une force de
un newton dont le point d’application se déplace de un mètre dans la
direction de la force, donc 1 J = 1Nm = 1 kg m2/s2 puisque 1 newton =
1m/s2.
Pour nous rapprocher de l’intensité, il reste à définir l’unité de
puissance, le watt (symbole W, du nom de l’ingénieur anglais inventeur
de la machine à vapeur James Watt, 1736-1809). Un watt correspond à la
puissance d’un joule dépensé pendant une seconde : 1 W = 1 J/s, c’est-à-
dire = 1 N m/s, ou encore 1 kg m2/s3.
La pression d’un son pur, exprimée en pascal, varie donc autour de la
pression moyenne à l’endroit de la mesure (par exemple la pression
atmosphérique au tympan de l’oreille) au cours d’une période du son de
+ A Pa à – A Pa (d’une amplitude positive + A à une amplitude négative
– A). Puisque l’on sait que cette variation est sinusoïdale pour un son pur,
on peut calculer l’énergie moyenne dépensée au cours d’un cycle
complet, soit, pour une période d’une seconde, A/√2 (formule résultant
de l’intégration des deux demi-périodes de la sinusoïde). Comme la
puissance est égale à la pression (en Pa) multipliée par le déplacement de
la vibration (donc l’amplitude A) et divisée par le temps (W = NA/s) et
que l’intensité est égale à la puissance divisée par la surface (I = W/m2),
nous en déduisons par substitution de W par N A/s que l’intensité sonore
est proportionnelle au carré de l’amplitude  : I ÷ A2/s. Cette formule est
très importante pour bien saisir la différence entre amplitude et intensité
d’un son.

7. Bels et décibels

Alors que l’étendue de la variation de pression d’un son pur est de


l’ordre de 20 µPa à 20 Pa, soit un rapport de 1 à 1 000 000, celui de la
variation d’intensité correspond au carré de la variation d’amplitude, soit
un rapport de 1 à 1 000 000 000 000, ou encore approximativement de
10–12 W/m2 à 1 W/m2. En utilisant une mesure de surface mieux adaptée au
tympan de l’oreille, le cm2, la gamme de variation s’étend alors de 10–16
W/cm2 à 10–4 W/ cm2. Élaboré à l’époque où les machines à calculer
mécaniques peinaient à fournir toutes les décimales nécessaires (mais
étaient-elles vraiment nécessaires…  ?), on a préféré utiliser une
conversion qui permettrait d’utiliser des valeurs moins encombrantes, et
aussi (voir plus loin) qui rendaient compte un tant soit peu des
caractéristiques de la perception des sons purs par les humains. Cette
conversion est le logarithme.
Le logarithme le plus courant (il en existe de plusieurs sortes…),
utilisé en acoustique, est le logarithme à base 10 (notation log10 ou log),
égal à la puissance à laquelle il faut élever le nombre 10 pour retrouver le
nombre dont on désire le logarithme.
On a donc :
- log(1) = 0 puisque 100 = 1 (10 à la puissance zéro égale 1) ;
- log(10) = 1 puisque 101 = 10 (10 à la puissance un égale 10) ;
- log(100) = 2 puisque 102 = 100 (10 à la puissance 2 égale 10 fois
10, c’est-à-dire 100) ;
- log(1 000) = 3 puisque 103 = 1 000 (10 à la puissance 3 égale 10
fois 10 fois 10, c’est-à-dire 1 000).
Et, pour des valeurs plus petites que 1 :
-  log(0,1) = – 1 puisque 10–1 = 1/10 (les exposants négatifs
correspondent à 1 divisé par la valeur avec un exposant positif) ;
- log(0,01) = – 2 puisque 10–2 = 1/100.
Reste que la valeur du logarithme d’autres nombres que des puissances
entières de 10 demande un calcul approché. Le calcul de log(2) par
exemple peut se faire sans calculatrice, en remarquant que 210 = 1024,
donc 10 log(2) = à peu près 3 (en réalité 3,01029…), donc log(2) = 0,3
approximativement.
Un autre avantage du passage aux logarithmes est le fait que le
logarithme de la multiplication de deux nombres se transforme en
addition de leur logarithme : log(x y) = log(x) + log(y). Cette propriété
est à la base de l’invention des règles à calcul permettant
la
multiplication et la division rapide de deux nombres en faisant coulisser
deux règles graduées en logarithme. Ces règles qui ont fait les beaux
jours de générations d’ingénieurs sont évidemment abandonnées
aujourd’hui au profit des calculateurs électroniques de poche.

8. Seuil d'audibilité et seuil de la douleur

L’écart d’intensité entre le son le plus faible et le plus fort que l’on
puisse percevoir, c’est-à-dire entre le seuil d’audibilité et le seuil dit de la
douleur (au-delà duquel le système auditif peut être endommagé de
manière irréversible) est donc de 1 à 1 000 000 000 000. Pour utiliser une
échelle logarithmique représentant cette gamme de variation il nous faut
définir une référence puisque le logarithme d’une intensité n’a pas de
sens physique direct. La première valeur de référence qui vient à l’esprit
est le seuil d’audibilité (correspondant à la plus faible intensité de son
que l’on puisse percevoir), mais choisi à la fréquence de 1 000 Hz (on ne
savait pas à l’époque, dans les années 1930, que ce seuil était encore plus
bas, donc que l’audition humaine était encore plus sensible dans la région
de 2 000 Hz à 5 000 Hz). On décida donc arbitrairement que ce seuil
définit une valeur de référence de 20 µPa, à laquelle on attribue la valeur
en logarithme de 0 (puisque log(1) = 0).
Comme les chercheurs de la compagnie américaine Bell Telephone
Laboratories Harvey Fletcher et W. A. Munson étaient fortement
impliqués dans les recherches sur la perception des sons purs, on a choisi
le bel comme unité (symbole B), en donnant au seuil de perception à 1
000 Hz la valeur de 0 bel. Le seuil de la douleur étant en intensité 1 000
000 000 000 fois plus fort, on exprime sa valeur en bel par le rapport de
cette valeur avec la référence du seuil de perception dont on calcule le
logarithme, soit log(1 000 000 000 000/1) = 12 B Utiliser le rapport des
pressions donne le même résultat (rappelons que l’intensité est
proportionnelle au carré de l’amplitude) : pour le rapport d’amplitude, et
2 fois 6 B = 12 B pour le rapport d’intensité, puisque le logarithme du
carré de l’amplitude est égal à 2 fois le logarithme de l’amplitude. L’unité
bel paraissant un peu trop grande en pratique, on préfère utiliser des
dixièmes de bel ou décibels, symbole dB. Cette fois le rapport de
variation son le plus
fort-son le plus faible est de 60 dB, en amplitude, et
de 120 dB en intensité.
log(20 Pa/20 µPa) = log(20 000 000 µPa/20 µPa) = log(1 000 000) = 6 B

Une valeur remarquable à retenir est l’augmentation en décibels


résultant du doublement de l’amplitude du son pur  : 10 log(2) = 3 dB
pour l’amplitude et 20 log(2) = 6 dB pour l’intensité. La diminution de
moitié de l’amplitude provoque une chute d’amplitude de – 3 dB et
d’intensité de – 6 dB. La multiplication de l’amplitude par un facteur 10
correspond à une augmentation d’intensité de 20 log(10) = 20 dB, par un
facteur 100 de 40 dB, etc.
L’unité dB est toujours une valeur relative. Pour éviter toute ambiguïté,
lorsque la référence implicite est le seuil de l’audition, on parle de
décibels absolus (en anglais notés dB SPL pour Sound Pressure Level) et
de décibels relatifs. Les dB absolus sont donc des dB relatifs par rapport
au seuil d’audibilité à 1 000 Hz.

9. Intensité et distance de la source sonore

La décroissance de l’intensité d’un son pur décroît avec le carré de la


distance r. Cela s’explique aisément dans le cas d’une propagation radiale
du son dans toutes les directions autour de la source. Si l’on néglige les
pertes d’énergie lors de la propagation du son dans l’air, l’intensité totale
tout autour de la source est constante. Comme la propagation est
sphérique, la surface de la sphère augmente et est proportionnelle au
carré de son rayon r, c’est-à-dire au carré de la distance à la source, selon
la formule (bien connue…) 4 π r2. L’intensité de la source (dans un
modèle physique sans pertes) est donc répartie sur toute la surface et sa
décroissance est proportionnelle au carré de la distance de la source
sonore  : I α 1/r2. L’amplitude d’un son pur décroît selon l’inverse de la
distance, puisque l’intensité I est proportionnelle au carré de l’amplitude
A : A2 α 1/r2 et A α donc A 13 α 1/r.
Le lien de l’amplitude avec la distance de la source sonore est d’une
grande importance pour l’enregistrement du son. Doubler la distance
entre un locuteur et le microphone d’enregistrement par exemple revient
à diminuer l’amplitude d’un facteur de 2 et d’une intensité de 4. Alors
que la distance optimale d’enregistrement est d’environ 30 cm, placer un
micro à 1 m entraîne une chute d’amplitude d’un facteur 3,33 (5,2 dB) et
d’intensité d’un facteur 10 (20 dB).

10. Son pur et son musical : la gamme dans la musique occidentale

Dans la gamme tempérée, les fréquences des notes sont données par la
formule : f = ref 2 ((octave–3) + (ton–10)/12) où octave et ton sont des nombres entiers,
et ref la fréquence de référence de 440 Hz. La Table 1.3 donne les
fréquences des notes dans l’octave du la de référence (octave 3). Il faut
multiplier les fréquences par 2 pour une octave au-dessus, et les diviser
par 2 pour une octave en dessous.
Table 1.3
. – Fréquences des notes musicales

Notes Fréquence

si# / do 261,6 Hz

do# / réb 277,2 Hz

ré 293,7 Hz

ré# / mib 311,1 Hz

mi / fab 329,7 Hz

mi# / fa 349,2 Hz

fa# / solb 370,0 Hz

sol 392,0 Hz

sol# / lab 415,3 Hz

la 440 Hz

la# / sib 466,2 Hz


si / dob 493,9 Hz

11. Audiométrie

Les courbes de Fletcher-Munson, établies dans les années 1930 à partir


de tests perceptifs effectués sur une population relativement large,
donnent les valeurs d’égale intensité perçue en fonction de la fréquence.
On s’est rendu compte alors que la valeur de 1 000 Hz utilisée comme
référence pour la définition du dB n’était peut-être pas optimale puisque
la sensibilité moyenne de l’oreille est meilleure dans la région 2 000 Hz à
5 000 Hz. On a des seuils d’audition à 4 000 Hz négatifs en dB (environ
– 5 dB) et donc inférieurs à la référence 0 dB  ! Les courbes d’égale
intensité perçue impliquent des mesures délicates (il faut demander aux
auditeurs de juger de l’égalité d’intensité de deux sons purs de fréquences
différentes…). Elles ont été revues en 1956 par Robinson et Dadson et
sont devenues le standard ISO 226 : 2003 (Figure 1.5).
Figure 1.5
. – Courbes d'égale intensité perçue en fonction de la
fréquence de Fletcher-Munson (en noir) revues par
Robinson et Dadson (en gris)
Ces courbes font apparaître une nouvelle unité, le phone (Phon),
attaché à chacune des courbes d’égale perception et correspondant aux
valeurs en dB SPL à 1 000 Hz. À partir du graphe on peut par exemple
constater qu’il faut une intensité 10 fois plus forte à 100 Hz (20 dB) qu’à
1 000 Hz pour obtenir la même sensation d’intensité pour un son pur à 40
dB SPL. On voit aussi que la zone de sensibilité maximale est entre 2 000
Hz et 5 000 Hz et que le seuil de la douleur est beaucoup plus élevé pour
les basses fréquences, qui permettent d’autre part une plus faible
dynamique (environ 60 dB) par rapport aux fréquences hautes (de l’ordre
de 120 dB).
Une autre unité, la sonie, a été proposée par S. Smith Stevens en 1936
de manière à ce que la multiplication par deux de la valeur en sonie
corresponde à un doublement de l’intensité perçue. La correspondance
entre sones et phones se fait à 1 000 Hz et à
40 phones, soit 40 dB SPL,
équivalant à 1 sonie. La Table 1.4donne d’autres valeurs de
correspondances. Les sonies sont rarement utilisées en phonétique
acoustique.
Table 1.4
. – Correspondance entre sones et phones

12. L'effet de masque

Deux sons purs perçus simultanément peuvent se masquer


mutuellement, c’est-à-dire que seul l’un d’eux sera perçu. L’effet de
masque dépend de la différence de fréquence et de la différence
d’intensité des sons impliqués. On peut aussi dire que l’effet de masque
modifie localement le seuil d’audibilité, comme le montre la Figure 1.6.
Figure 1.6
. – Modification du seuil d'audibilité par l'effet de masque
simultané en fonction d'un son masquant à 1 000 Hz
Il existe également un masquage temporel dans lequel un son est
masqué soit par un autre son qui le précède (masquage de précédence, ou
effet de Haas, d’après Helmut Haas, 1949), soit par un autre son qui le
suit (masquage de postériorité). Ce type de
masquage n’intervient que
pour des sons très brefs, de l’ordre de 50 à 100 ms (voir Figure 1.7).
Figure 1.7
. – Effet de masque temporel
L’effet de masque, simultané et temporel, est utilisé intensivement
dans les algorithmes de compression de la parole et de la musique
(standards MP3, WMA, etc.). Curieusement, peu de travaux en
phonétique acoustique n’en font explicitement usage, pas plus d’ailleurs
que des courbes d’égale perception de Fletcher-Munson.

13. Le son pur introuvable

Comme on l’a vu, la recherche d’une unité de son a été basée sur la
référence utilisée par les musiciens et générée par le diapason. Le son pur
consiste donc en une généralisation du son produit par le diapason à
d’autres fréquences que le la3 de référence (aujourd’hui 440 Hz) et à une
idéalisation en ce que le son pur est infini dans le temps, à la fois dans le
passé et dans l’avenir. Au contraire, le son du diapason commence à un
instant déterminé lorsque la source est heurtée de manière à produire une
vibration du tube de métal, vibration qui se propage ensuite aux
molécules d’air environnantes. Ensuite, du fait des différentes pertes
d’énergie, l’amplitude de vibration décroît lentement pour s’évanouir tout
à fait après une durée relativement longue (plus d’une minute), mais
certainement pas infinie. On parle alors de vibration amortie (Figure 1.8).
Figure 1.8
. – Le diapason produit une variation sonore sinusoïdale
amortie
On conclut de tout cela que le son pur n’existe pas puisqu’il n’a pas de
durée (ou une durée infinie), et pourtant, peut-être sous le poids de la
tradition, et malgré les tentatives récurrentes de certains acousticiens,
cette construction mathématique continue à servir de base en tant
qu’unité de son à la description et à la mesure acoustique des sons réels,
et en particulier des sons de la parole.

14. Son pur, son complexe

Nous voici donc pourvus d’une unité physique de son, le son pur, de
fréquence de 1 Hz, et d’une amplitude égale à 1 PA (1 Pa =

).
Outre son caractère infini (il a toujours existé, et il existera toujours…
mathématiquement), de par sa valeur de 1 Hz en fréquence et de par son
échelle linéaire en Pascal pour l’amplitude, le son pur ne semble pas
réellement bien adapté pour décrire les sons utilisés par les humains.
Que se passe-t-il lorsque nous additionnons deux sons purs de
fréquences différentes  ? Deux cas se présentent d’emblée  : a) soit la
fréquence d’un des sons purs est un multiple entier de la fréquence du
premier, et on dira alors que ce son pur est un harmonique du premier (ou
qu’il a une fréquence harmonique de la fréquence du premier), soit b)
cette fréquence n’est pas un multiple entier de la fréquence du premier
son.
Dans le premier cas, l’addition des deux sons purs donne un son appelé
« complexe » dont la fréquence du premier son correspond à la fréquence
fondamentale du son complexe. Dans le deuxième cas (quoique l’on
puisse toujours dire que les deux sons sont toujours dans un rapport
harmonique car il est toujours possible de trouver un plus petit
dénominateur commun qui correspondra à leur fréquence fondamentale),
on dira que les deux sons ne sont pas dans un rapport harmonique et ne
constituent pas un son complexe. Nous verrons plus loin que ces deux
possibilités de rapport de fréquence entre sons purs caractérisent les deux
principales méthodes d’analyse acoustique de la parole  : l’analyse de
Fourier et la méthode de Prony.
Il est naturel de généraliser les deux cas d’assemblage de sons purs à
une infinité de sons purs (après tout, nous voguons dans le monde
idéalisé des modèles de la physique), dont les fréquences sont soit dans
un rapport harmonique (donc des multiples entiers de la fréquence
fondamentale), soit ne sont pas dans un rapport harmonique.
Dans le cas harmonique, cet assemblage est décrit par une formule
mathématique utilisant le symbole Σ de la somme :

avec ω = 2πf (la pulsation) et φ = la phase, donc une somme de N sons


purs de fréquences harmoniques multiples du paramètre n, qui varie dans
la formule de 0 à N, et déphasés les uns par rapport aux autres. Selon
cette formulation, la fondamentale a une amplitude A1, une fréquence
ω/2π et une phase φ1. La valeur nulle de n correspond à la composante
dite continue d’amplitude A0 et de fréquence nulle. Un harmonique
d’ordre n a une amplitude An, une fréquence nω/2π et une phase φn. Cette
somme de sons harmoniques est appelée série harmonique ou série de
Fourier. La Figure 1.9 montre un exemple d’une série harmonique à trois
composantes, ainsi que le son complexe obtenu par l’addition des
composantes. Un son complexe résulte donc de la somme de sons
harmoniques, de fréquences multiples entiers de la fréquence
fondamentale.

Figure 1.9
. – Exemple de son complexe constitué par la somme de 3
sons purs de fréquences harmoniques
La représentation des amplitudes des harmoniques sur un graphique
amplitude-fréquence est appelée spectre d’amplitude.

Figure 1.10
. – Spectre d'amplitude
Chapitre 2

L’enregistrement des sons

1. Enregistrement de la parole

Au contraire de l’analyse directe de la génération de parole par examen


des caractéristiques physiologiques du locuteur, l’analyse acoustique
présente le grand avantage d’une part de ne pas être intrusive (du moins
du point de vue physique, alors qu’elle peut l’être du point de vue
psychologique), et d’autre part de permettre la conservation aisée des
données et leur traitement ultérieur sans nécessiter la présence du sujet
parlant.
L’enregistrement des données acoustiques est réalisé par une chaîne de
traitement, dont la première étape consiste à transformer les variations de
pression de l’air constituant le son en variations d’une autre nature,
mécanique, électrique, magnétique ou numérique. Celles-ci pourront
éventuellement être converties à nouveau en variations de pression au
moyen d’un casque ou d’un haut-parleur de manière à reconstituer plus
ou moins fidèlement le signal acoustique de départ.
Les premières conversions de ce type datent du début du XIXe siècle,
siècle qui a connu un développement considérable de la mécanique, alors
que le XXe siècle a été celui de l’électronique. Le tout premier système de
conversion du son (connu) a été imaginé par Thomas Young (1773-
1829), mais la réalisation la plus célèbre de cette époque est celle de
Édouard-Léon Scott de Martinville (1817-1879) qui, en 1853, réussit par
l’emploi d’un cornet acoustique à transformer les vibrations sonores en
vibrations d’une aiguille inscriptrice traçant un sillon sur un support
déplacé en fonction du temps (du papier enduit de noir de fumée enroulé
sur un cylindre). Scott de Martinville a appelé son appareil
phonautographe (Figure 2.1).
Ce tracé ne pouvait reproduire les sons mais, en 2007, des passionnés
d’enregistrements anciens ont réussi par traitement informatique à
reconstituer numériquement les oscillations enregistrées sur papier et à en
permettre ainsi l’écoute (Figure 2.2) (www.firstsounds.org). C’est
Thomas Edison (1847-1931) qui, en 1877, parvient à réaliser un
enregistrement non plus sur papier mais sur un cylindre recouvert d’une
feuille d’étain, ce qui a permis l’opération inverse, transformer les
vibrations mécaniques d’un stylet parcourant le sillon enregistré en
vibrations sonores. Charles Cros (1842-1888) avait déposé un brevet
décrivant un appareil semblable en 1877 mais ne l’avait pas réalisé.
Plus tard, la feuille d’étain est remplacée par de la cire, puis par de la
bakélite, beaucoup plus résistante et permettant d’effectuer de
nombreuses reproductions sans détruire le sillon enregistreur. En 1898,
Valdemar Poulsen (1869-1942) utilise une corde de piano magnétisée
passant à grande vitesse devant un électroaimant dont le bobinage vibre
avec le son. Plus tard, en 1935, le fil sera remplacé par une bande
magnétique sur support synthétique (le magnétophone), ce qui donnera
naissance aux systèmes contemporains avec bande magnétique.
Figure 2.1
. – Le phonautographe de Scott de Martinville
(Source : Century Dictionary, 1891.)
Figure 2.2
. – Spectrogramme du premier enregistrement connu  : Au
clair de la lune
Le phonautographe a reçu de nombreux perfectionnement dans les
années suivantes. En 1878, Heinrich Schneebeli réalisa d’excellents
tracés de voyelles qui permirent pour la première fois d’en effectuer une
analyse harmonique de Fourier (Teston, 2006).

2. Le kymographe

Le kymographe avait déjà ouvert la voie (Carlo Matteucci, 1846, Carl


Ludwig, 1847). Comme son nom l’indique (en grec), le kymographe est
un instrument utilisé pour enregistrer les variations temporelles de la
pression artérielle, des mouvements musculaires et d’autres phénomènes
physiologiques. Il est constitué d’un cylindre rotatif tournant à vitesse
constante en fonction du temps. Les variations de la grandeur étudiée,
variations de pression dans le cas du son de la parole, sont traduites en
variation linéaire d’un stylet qui laisse une trace sur le noir de fumée
enroulant le cylindre. La nouveauté apportée par le phonautograph de
Scott de Martinville a trait au tube capteur de pression sonore qui permet
de réaliser un tracé des variations dues à la voix.

Figure 2.3
. – Kymographes à cylindres verticaux et horizontaux
Ces premiers tracés kymographiques, examinés à la loupe, ont permis
de constater que le son du diapason se laissait décrire par une fonction
sinusoïdale, en faisant abstraction des imperfections du système
mécanique d’enregistrement (Figure 2.4).

Figure 2.4
. – Forme d'onde et spectrogramme du premier
enregistrement connu d'un diapason (1860, Scott de
Martinville)
Dans ses travaux, Scott de Martinville avait aussi remarqué que la
forme d’onde complexe des voyelles comme le [a] de la Figure
2.5pouvait résulter de l’addition de sons purs de fréquences harmoniques,
ouvrant la voie à l’analyse spectrale des voyelles (Figure 2.6).

Figure 2.5
. – Forme d'onde d'un [α] dans l'enregistrement de 1860
de Scott de Martinville

Figure 2.6
. – Calcul graphique de forme d'onde résultant de
l'addition de sons purs de Scott de Martinville
Les perfectionnements du kymographe se multiplièrent et son usage
pour l’étude des sons de la parole sera surtout connu par les travaux de
l’abbé Rousselot (1846-1924) relatés principalement dans son ouvrage
Principes de phonétique expérimentale publié de 1897 à 1901 (Figure
2.7).
Figure 2.7
. – L'inscription de la parole, l'abbé Rousselot
Depuis, les progrès technologiques ont été nombreux, ainsi que le
résume la Table 2.1.
Tableau 2.1
. – Étapes marquantes des procédés d'enregistrement de la
parole
3. Chaîne d'enregistrement

Enregistrements analogiques

Les chaînes d’enregistrement analogiques du son de la parole utilisent


un codage magnétique des vibrations sonores  : une tête magnétique
constitue un électroaimant qui vient modifier la polarisation des
microcristaux aimantés insérés sur une bande magnétique. La
reproduction du son est assurée par une tête magnétique semblable (la
même tête sert pour l’enregistrement et la lecture dans beaucoup
d’appareils). La courbe de réponse en fréquence de ce système dépend de
la vitesse de défilement de la bande et aussi de la finesse de l’interstice
entre les deux extrémités de l’électroaimant en contact avec la bande
magnétique (un interstice plus fin permet d’aimanter des particules plus
fines et donc d’atteindre des fréquences d’enregistrement plus élevées).
De même une grande vitesse de défilement permet aux particules
aimantées de rester moins longtemps entre les interstices de la tête
magnétique, augmentant également la réponse en fréquence.
Malgré les progrès énormes tant du point de vue des oxydes
magnétiques collés sur les bandes que relativement aux compensations de
fréquence par des amplificateurs et des filtres spécialisés,
l’enregistrement magnétique reste entaché de limites inhérentes au
système. Aujourd’hui, les professionnels utilisent encore ce type
d’enregistreurs (par exemple le Nagra), à vitesse de défilement de 38
cm/s (le standard est en fait de 15 pouces par seconde, soit 2,54 x 15 =
38,1 cm/s). Les systèmes amateurs ont longtemps utilisé des vitesses
sous-multiples de 15 pouces, soit 19,05 cm/s, 9,52 cm/s et, dans la
version cassette, 4,75 cm/s.
Figure 2.8
. – Chaîne d'enregistrement analogique magnétique
La largeur de la bande magnétique est liée au rapport signal / bruit de
l’enregistrement. Les premières réalisations utilisaient des bandes de 1
pouce (2,54 cm), puis sont apparues les ½ pouce et ¼ de pouce pour les
cassettes, sur lesquelles on a installé deux pistes distinctes pour
l’enregistrement stéréophonique. Des enregistreurs professionnels de
studio ont utilisé des bandes de 2 et 4 pouces permettant 8 ou 16 pistes
simultanées. Aux limitations physiques s’ajoutent les distorsions dues au
pleurage et au scintillement causées par les imperfections du système
mécanique d’entraînement de la bande  : le pleurage pour les variations
lentes de la vitesse d’entraînement (la bande est pincée entre un cylindre
et un cabestan), le scintillement pour les variations instantanées de
vitesse.

Distorsion des enregistrements sur bande magnétique

Tous les systèmes d’enregistrement magnétiques constituent des


chaînes qui présentent diverses distorsions, parmi les quelles les plus
gênantes sont :
- distorsion de la réponse en fréquence : le spectre des fréquences
de départ n’est pas reproduit correctement, il y a atténuation le
plus souvent pour les basses et les hautes fréquences, par
exemple en dessous de 300 Hz et au-dessus de 8 000 Hz pour les
bandes magnétiques à faible vitesse de défilement (cas des
systèmes à cassette, défilant à 4,75 cm/s) ;
- distorsion de la réponse en phase : pour compenser la mauvaise
réponse en fréquence des bandes magnétiques (pourtant
améliorées sans cesse par l’emploi de nouveaux mélanges
d’oxydes magnétiques), on utilise des filtres et des
amplificateurs qui permettent d’obtenir une meilleure réponse en
fréquence globale. Malheureusement, ces dispositifs introduisent
une détérioration du rapport signal / bruit et également une
distorsion de phase importante pour les gammes de fréquence
compensées ;
-  amplitude  : malgré l’introduction de divers systèmes correctifs
basés sur l’effet de masque (type Dolby) qui compriment la
dynamique du signal à l’enregistrement et la restituent à la
lecture, le rapport signal-bruit des enregistrements sur bande
magnétique est de l’ordre de 48 dB pour les systèmes à cassette.
Ce rapport est meilleur et atteint 70 dB pour des vitesses de
bande magnétique plus rapide, par exemple 38 cm/s pour des
enregistreurs magnétiques professionnels et par l’emploi de
bandes magnétiques plus larges (½ pouce au lieu de ¼ de
pouce) ;
-  harmoniques  : la qualité imparfaite des amplificateurs
électroniques présents dans la chaîne peut introduire des
distorsions harmoniques,
c’est-à-dire des composantes du spectre
qui n’étaient pas présentes dans les sons originaux;
-  défilement  : les mécanismes assurant le défilement de la bande
magnétique peuvent présenter des imperfections dans leur
régularité, à la fois à l’enregistrement et à la reproduction, ce qui
se traduit par des variations des fréquences reproduites aléatoires
(l’expression technique désignant ce défaut est « wow and flutter
», mots anglais qui suggèrent un ralentissement et une
accélération dans la reproduction d’un son pur). Des effets
d’étirement de la bande magnétique pour cause de rembobinage
rapide peuvent également produire des effets semblables ;
-  bande magnétique : la finesse des bandes magnétiques peut être
telle qu’une section de la bande peut magnétiser les parties
enroulées immédiatement ou dessus ou au-dessous (le terme
technique est « crosstalk »). Un même effet peut se produire
entre deux pistes trop proches dans une même section, par
exemple en enregistrement stéréo.
Toutes ces limitations qui demandent des corrections mécaniques et
électroniques coûteuses militent pour l’abandon pur et simple des
systèmes d’enregistrement analogiques. L’apparition des mémoires
d’ordinateur flash à rétention d’information de prix modique, ou
l’utilisation de disques durs ou de bande magnétiques numériques
permettent aujourd’hui d’enregistrer de très grandes durées de parole
avec un excellent rapport signal-bruit et une très bonne réponse en
fréquence, les seuls maillons faibles qui subsistent dans la chaîne
d’enregistrement étant le microphone et le haut-parleur (ou les
écouteurs).

Enregistrement numérique

Le développement des mémoires d’ordinateur de type flash, sur bande


magnétique DAT ou sur disque dur, a complètement modifié les procédés
d’enregistrement du son. En minimisant l’utilisation d’éléments
analogiques dans la chaîne d’enregistrement, on contrôle beaucoup plus
facilement les distorsions diverses qui pourraient s’y introduire. En effet,
il ne reste plus que deux éléments analogiques dans la chaîne  : le
microphone, transformant les variations de pression en variations
électriques, et le convertisseur analogique digital, qui convertit les
variations électriques en tableau de nombres. Pour la reproduction du
son, un convertisseur analogique digital, qui convertit des séquences de
nombres en signal analogique électrique alimentant un haut-parleur ou un
écouteur.
La chaîne d’enregistrement numérique (Figure 2.9) comprend un
microphone, alimentant un préamplificateur analogique, suivi d’un filtre
également analogique. Ce filtre antirepliement (voir p. 41) délivre un
signal numérisé par un convertisseur analogique numérique un certain
nombre de fois par seconde, appelé fréquence d’échantillonnage. Le
signal est ainsi converti en une séquence de nombres mémorisés dans une
mémoire digitale de type quelconque, flash, disque ou bande magnétique
DAT. La reproduction du son numérisé se fait par la présentation
séquentielle des nombres mis en mémoire à un convertisseur numérique
analogique qui reconstruit le signal et, après amplification, le délivre à un
écouteur ou un haut-parleur. La qualité du système tient aux faibles
nombres d’éléments mécaniques, qui se limitent à la première et à la
dernière étape de la chaîne.

Figure 2.9
. – Chaîne d'enregistrement numérique

4. Microphones et prise de son

Il existe de nombreux types de microphones, carbones, laser,


dynamiques, électrodynamiques, piézoélectriques, etc., dont certains de
conception ancienne sont toujours utilisés dans les studios
d’enregistrement professionnels. Le principe est toujours le même  :
convertir les variations de pression acoustiques en variations électriques.
Les microphones dynamiques sont constitués d’un électroaimant dont la
bobine, attachée à une petite membrane, vibre avec le son et produit une
faible tension électrique qu’il faut ensuite amplifier. Les microphones à
condensateur (incluant les microphones électrets) utilisent la variation de
capacitance liée à la vibration sonore. Les microphones piézoélectriques
font
appel à des cristaux céramiques produisant une tension électrique
lorsqu’ils sont soumis à une pression sonore.
Tous ces transducteurs de pression sonore sont caractérisés par une
courbe de réponse en fréquence et en phase, et aussi par une courbe de
sensibilité polaire qui décrit leur efficacité de conversion dans toutes les
directions autour du microphone. Par un choix judicieux du type de
courbe de réponse, omnidirectionnel (égal dans toutes les directions),
bidirectionnel (meilleure sensibilité vers l’avant et vers l’arrière) ou
unidirectionnel (plus efficace lorsque la source est située vers l’avant), il
est possible d’améliorer la qualité de prise de son, c’est-à-dire
essentiellement le rapport signal-bruit de l’enregistrement, le bruit
correspondant à tout son qui ne relève pas de la parole enregistrée.

Figure 2.10
. – Courbes de réponse polaires de microphones
omnidirectionnel, bidirectionnel et unidirectionnel
Il existe aussi des microphones «canon» («shotgun» en anglais) qui
offrent une très grande directivité et permettent des enregistrements à
haut rapport signal-bruit à relativement grande distance (5 à 10 mètres).
Évidemment, cette caractéristique oblige à prévoir un opérateur qui
dirige constamment le micro canon vers la source de son, par exemple un
locuteur, ce qui peut poser problème en pratique si le locuteur bouge,
même de quelques centimètres. Étant donné leur coût, ces micros sont en
principe réservés aux applications professionnelles du cinéma et de la
télévision.
Aujourd’hui la plupart des enregistrements en recherche phonétique
utilisent des micros dits micros-cravates (en anglais « Lavalier »)
piézoélectriques peu coûteux et efficaces si le locuteur enregistré est
coopératif, des micros unidirectionnels ou des micros canons dans le cas
contraire. Les micros électrets demandent l’utilisation d’une petite
batterie de polarisation que l’on a tendance
en pratique à ne pas
déconnecter, batterie qui se révèle presque toujours plate au moment
critique…

5. Lieux d'enregistrement

Pour obtenir une bonne qualité, à la fois en ce qui concerne le spectre


des fréquences et le rapport signal-bruit (tout ce qui n’est pas son de la
parole est nécessairement du bruit), l’enregistrement doit satisfaire à des
recommandations frappées au coin du bon sens, mais malheureusement
bien souvent absentes en pratique. L’enregistrement est le premier
élément de la chaîne d’analyse et celui dont les faiblesses ne peuvent pas
être corrigées après coup. La qualité de la prise de son est donc un
élément essentiel dans la chaîne.
Le lieu de prise de son est déterminant. Une chambre sourde, isolant
des bruits extérieurs et dont les parois absorbent les réverbérations et
préviennent les échos, est idéale. Cependant, une telle installation n’est
évidente ni à trouver ni à acquérir, et bien des locuteurs pourront s’y
sentir mal à l’aise, rendant illusoire une spontanéité désirée.
À défaut d’une chambre sourde, un local suffisamment isolé des
sources de bruits extérieurs peut convenir pourvu qu’il présente une
faible réverbération (fenêtres, carrelages…) et qu’aucun bruit de
vaisselle, couverts, réfrigérateur, chaises déplacées, papiers que l’on
froisse ne perturbe l’enregistrement. L’enregistrement en extérieur
n’offre pas de problème de réverbération et d’écho, mais cette fois le
bruit du vent dans le microphone peut se révéler fort gênant. On peut
toutefois s’en protéger (un peu) par une bonnette antivent. Il faudra
également prévenir tout bruit de circulation automobile ou autre, ce qui
n’est pas toujours évident.
Le positionnement du micro est également important : il faut éviter les
effets de symétrie du local qui peuvent produire des échos indésirables,
placer le micro près des lèvres du locuteur (30 cm est une distance
optimale) et prévoir une isolation mécanique entre le support du micro et
la table ou le sol qui le porte (mouchoir, tissus…) de manière à éviter que
le micro capte le bruit de moteur de l’enregistreur ou du ventilateur de
refroidissement de l’ordinateur. Il faut également s’assurer de la stabilité
de la table si le micro y est posé et prévoir assez de distance entre les
pieds de la table et ceux d’un locuteur nerveux....
Il existe des systèmes professionnels ou semi-professionnels tels que
les micros suspendus à une perche (utilisés en cinéma), des micros-
cravates liés au système d’enregistrement par une liaison sans fil
(attention à la courbe de réponse de cette liaison). Ces derniers sont
souvent utilisés en télévision  : l’indépendance par rapport à une liaison
par câble permet une mobilité plus grande du locuteur, qui doit
évidemment être coopératif.

6. Monitoring

Le monitoring de l’enregistrement est indispensable. Il faut notamment


s’assurer d’un réglage du niveau d’entrée convenable, ni trop faible
(mauvais rapport signal-bruit), ni trop fort (saturation). Quasiment tous
les systèmes d’enregistrement sont pourvus d’un vumètre (de l’anglais «
Volume Meter ») gradué normalement en dB, qui permet de visualiser les
niveaux extrêmes lors de l’enregistrement.
Dans tous les cas il faut absolument s’abstenir d’utiliser le réglage
automatique de volume (réglage AVC en anglais, pour « Automatic
Volume Control », CAV en français) qui, s’il est pratique pour des
applications bureautiques, introduisent des déformations considérables
dans la courbe d’intensité de l’enregistrement : le volume des sons trop
faibles est automatiquement augmenté mais avec un certain retard, ce qui
renforce également le bruit de fond qui peut alors être enregistré avec un
niveau comparable à celui des voyelles les plus intenses.
L’idéal est de pouvoir effectuer un monitoring spectrographique en
temps réel, qui permet à un utilisateur familiarisé avec la lecture de
spectrogrammes d’identifier instantanément les problèmes éventuels de
saturation, de niveau trop faible, d’écho, de courbe de réponse inadéquate
du système, ou de repérer les bruits qui passeraient inaperçus à l’oreille.
Les corrections nécessaires peuvent alors être faites de manière rapide et
efficace car après l’enregistrement, il sera trop tard  ! Le monitoring
spectrographique demande l’affichage d’un spectrogramme
(normalement en bande étroite de manière à visualiser les harmoniques
des sources de bruit) sur un écran d’ordinateur, portable ou non.
Aujourd’hui, quelques rares logiciels permettent ce type d’analyse en
temps réel sur ordinateur de Type PC ou Mac (par exemple WinPitch).

Une session d'enregistrement (du chef Parkatêjê


Krohôkrenhum, État du Pará, Brésil) sur le terrain avec
monitoring en temps réel du spectrogramme et de la courbe
de fréquence fondamentale

7. Format binaire et fréquence de Nyquist-Shannon

Le signal électrique délivré par le microphone doit être converti, après


amplification adéquate, en un tableau de nombres  : c’est l’étape de
numérisation. Deux paramètres caractérisent cette conversion dite
analogique-numérique (le sigle anglais est ADC, pour « Analog to
Digital Converter ») : le format de conversion de l’amplitude du signal et
la fréquence de conversion.

Conversion de l’amplitude

Les ordinateurs contemporains opèrent avec des chiffres binaires : tout


nombre décimal, toute valeur physique convertie en nombre est mise en
mémoire et traitée sous la forme de nombres binaires,
utilisant seulement
les chiffres 0 et 1. D’autre part, les mémoires d’ordinateur sont
organisées par regroupement en 8 chiffres binaires, appelés octets,
permettant d’encoder 255 états ou 255 nombres décimaux.
Un signal analogique tel qu’issu d’un microphone présente des valeurs
positives et négatives. Sa conversion utilisant un seul octet permet donc
d’encoder 127 niveaux ou valeurs positives (de 0 à 127) et 128 valeurs
négatives (de – 1 à – 128). Des valeurs intermédiaires entre deux niveaux
successifs seront arrondies à la valeur immédiatement inférieure ou
supérieure, ce qui introduit une erreur de conversion (on dit aussi erreur
de quantification) maximale de 1/127, ce qui en dB équivaut à 20 x
log(1/127) = 20 x 2,10 = – 42 dB. Autrement dit, la conversion utilisant
un seul octet introduit un bruit de quantification de – 42 dB, ce qui n’est
pas nécessairement souhaitable.
Aussi la plupart de convertisseur ADC offrent (au moins) une
conversion à 10 ou 12 chiffres binaires (bits), ce qui correspond à des
bruits de conversion de 20 x log(1/511) = – 54 dB et 20 x log(1/1023) = –
60 dB respectivement. Le prix des mémoires étant devenu relativement
faible, on ne prend même plus la peine en pratique d’encoder chaque
valeur de 12 bits dans 1 1/2 octets (deux valeurs de 12 bits dans 3 octets),
et on n’hésite plus à utiliser le format de 2 octets ou 16 bits pour la
conversion analogique numérique du son de la parole, même si la
conversion analogique numérique se fait en réalité au format 12 bits.

Fréquence d’échantillonnage
Combien de fois par seconde faut-il convertir les variations
analogiques ? Si l’on adopte une valeur trop grande, on va consommer de
la mémoire et forcer le processeur à traiter beaucoup de donnés
inutilement, ce qui peut ralentir indûment leur traitement. Si l’on adopte
une valeur trop faible, le phénomène d’aliasing se produira, comme
illustré Figure 2.11, dans lequel la sinusoïde à échantillonner présente
environ 10,25 périodes, mais les échantillons successifs (représentés par
un carré) ne sont qu’au nombre de 9. Il en résulte une représentation
erronée illustrée par la courbe en bleu, joignant les échantillons retenus
dans le processus d’échantillonnage.

Figure 2.11
. – Aliasing. Une fréquence d'échantillonnage
insuffisante donne une représentation erronée du signal
Le théorème de Nyquist-Shannon fournit la solution : pour qu’il n’y ait
pas d’aliasing, il faut et il suffit que la fréquence d’échantillonnage soit
supérieure ou égale à la plus haute fréquence (au sens de l’analyse
harmonique de Fourier) du signal échantillonné. Cette valeur s’explique
aisément en constatant qu’il faut au moins deux points pour définir la
fréquence d’une sinusoïde, et que pour représenter par échantillonnage
une sinusoïde de fréquence f il faut donc au moins un échantillonnage de
fréquence double.
Le problème pratique suscité par le théorème de Nyquist-Shannon est
que l’on ne sait pas nécessairement à l’avance qu’elle est la fréquence
supérieure contenue dans le signal à numériser, et que l’on réalise cette
conversion précisément pour analyser le signal et connaître sa
composition spectrale (et donc la fréquence supérieure). Pour sortir de ce
cercle vicieux, on utilise un filtre analogique passe-bas, qui ne laisse
passer entre le microphone et le convertisseur que les fréquences
inférieures à la moitié de la fréquence d’échantillonnage sélectionnée.
Les composantes du signal de fréquence supérieure ne seront donc pas
prises en compte dans la conversion.

Quelle fréquence choisir?

La fréquence supérieure du signal de parole est produite par la


consonne fricative [s] en français et est d’environ 8 000 Hz. En
appliquant le théorème de Nyquist-Shannon on est amené à choisir une
fréquence d’échantillonnage double, soit 2 x 8 000 Hz = 16 000 Hz, en
ne se préoccupant pas de l’enregistrement des occlusives telles que [p],
[t] ou [k], qui sont de toute façon malmenées dans la chaîne
d’enregistrement, ne fût-ce que par le microphone qui traduit
difficilement de manière satisfaisante
les brusques variations de pression
dues aux détentes des occlusives.
Une autre valeur standard possible pour la fréquence d’échantillonnage
est 22 050 Hz, qui est comme 16 000 Hz une valeur standard des
systèmes couramment disponibles. Le choix de ces fréquences met
automatiquement en œuvre un filtre antirepliement adéquat, éliminant les
fréquences supérieures à la moitié de la fréquence d’échantillonnage.
Il est inutile en tout cas de sélectionner les valeurs de 44 100 Hz ou 48
000 Hz (utilisées pour la numérisation de la musique) et encore moins
l’enregistrement stéréo lorsqu’il n’y a qu’un seul microphone, donc un
seul canal, dans la chaîne d’enregistrement.

8. Capacité d'enregistrement

En utilisant 2 octets par échantillon numérique et une fréquence


d’échantillonnage de 22 050 Hz, on consomme 2x 22 050 octets par
seconde, c’est-à-dire 2 x 22 050 x 60 = 2 646 000 octets par minute, ou
encore 2 x 22 050 x 60 x 60 = 156 760 000 octets à l’heure, soit un peu
plus de 151 Mo (1 mégaoctet = 1 024 x 1 024 octets). La plupart des
dispositifs d’enregistrement sonore sur ordinateur permettant le stockage
en temps réel sur disque dur, un disque dur avec 60 gigaoctets de libre
peut donc enregistrer plus de 151 x 60 = 9 060 heures de parole !
9. Les codages MP3, WMA, et les autres

Beaucoup de méthodes de compression de fichiers numériques existent


et permettent en général de retrouver exactement après décodage le
fichier qui avait été comprimé au départ. Pour le signal de parole
numérisé en revanche, la transmission (par Internet ou par téléphonie
cellulaire) et la mémorisation de fichiers de parole ou de musique
importants a suscité le développement d’algorithmes de compression qui
ne restituent pas nécessairement le signal original après décompression.
L’algorithme de codage appartient à cette catégorie et fait appel, pour
réduire au maximum la taille des fichiers sonores codés, aux propriétés
perceptives du son par les humains.
La compression MP3 utilise essentiellement deux processus  : 1) une
compression basée sur l’effet de masque de l’oreille (ce qui
produit une
perte d’information) et 2) une compression par l’algorithme de Huffman
(qui ne produit pas de perte d’information).
D’autres processus de compression existent, tels WMA, RealAudio ou
Atrac pour l’enregistrement sur minidisque. Tous ces systèmes utilisent
les propriétés de l’effet de masque fréquentiel (sons simultanés) ou
temporel (sons séquentiels) et produisent une distorsion irrécupérable du
signal de parole quel que soit le paramétrage utilisé (ces méthodes
possèdent des paramètres qui permettent une compression plus ou moins
efficace, au prix de distorsions accrues pour une compression maximale).
Alors que les standards de compression résultent de (longues)
discussions entre les membres de consortiums de chercheurs spécialisés
(compression d’image MP2 et MP4, de son MP1, etc.), le standard MP3
a été breveté par les laboratoires Frauhofer. En réalité, il s’agit du
standard MPEG-1 Layer 3 (les « layers » sont classés par niveau de
complexité), à la définition duquel ont travaillé un grand nombre de
chercheurs de l’institut Frauhofer, ce qui peut justifier dans une certaine
mesure le brevet décliné dans la plupart des pays du monde du standard
MP3 obtenu par cet institut (MPEG est le nom d’un groupe de travail
établi sous la direction conjointe de la International Standards
Organisation et de l’International Electrotechnical Commission
(ISO/IEC), qui a pour but la création de standards pour la vidéo
numérique et la compression audio).
Il existe des algorithmes optimisés pour des signaux sonores et qui
réalisent des compressions sans perte avec des taux très supérieurs aux
programmes très répandus comme WinZip, dont l’efficacité pour ce type
de fichier est faible. Ainsi, avec le programme WavPack, contrairement
aux codages MP3, le signal audio comprimé se retrouve à l’identique
après décompression (www.wavpack.com). D’autres processus de
compression de ce type existent, tels que ATRAC Advanced Lossless,
Dolby TrueHD, DTS-HD Master Audio, Apple Lossless, Shorten,
Monkey’s Audio, FLAC, etc. Le taux de compression est de l’ordre de 50
% à 60 %, inférieur à ceux obtenus avec MP3 ou WMA par exemple,
mais le taux obtenu est sans aucune perte d’information. Il y a donc lieu
de préférer ce type de compression aux autres algorithmes, la perte
d’information étant dans ce dernier cas irrécupérable.

Le code MP3 sur les T-shirts


Le brevet de l’Institut Fraunhofer-Thomson multimédia a été strictement appliqué
dans le monde entier et le prix des licences était tel que beaucoup de compagnies ont
préféré développer leur propre système, également breveté mais généralement
implémenté dans des programmes peu coûteux ou gratuits. C’est le cas des
compressions WMA (Microsoft), Ogg Vorbis (Xiph.org), etc. Aujourd’hui le brevet
MP3 va tomber dans le domaine public et d’autre part d’autres standards améliorés
par rapport à MP3 sont apparus (par exemple MP2-AAC, MP4-AAC, etc. [AAC = «
Advance Audio Coding »]).
Avant l’expiration des brevets MP3, des développeurs américains ont trouvé un
procédé original pour transmettre les éléments de codage MP3 tout en échappant aux
foudres des avocats mandatés par l’Institut Fraunhofer  : les lignes de code étaient
imprimées sur des T-shirt, support d’information qui n’était pas compris dans la liste
des médias de transmission couverts par les brevets. Les développeurs amateurs
pouvaient alors pour quelques dollars acquérir ces informations précieuses sans avoir
à débourser les sommes énormes réclamées par l’Institut pour l’utilisation du procédé
de codage MP3.
On trouvera des informations de détails et l’historique du standard MP3 sur le site
http://www.mp3-tech.org/.
Chapitre 3

La production des sons de la parole

1. Modes de production

Il y a quatre façons de produire les sons de la parole, donc quatre


sources possibles :
1  par vibration des cordes vocales, produisant un grand nombre
d’harmoniques ;
2  par création de turbulences dans le flux expiratoire grâce à un
resserrement (une constriction) quelque part dans le conduit
vocal ;
3  en créant une (petite) explosion en fermant le passage de l’air
expiratoire quelque part dans le conduit vocal de manière à
constituer une surpression en amont et en relâchant brusquement
cette fermeture ;
4  en créant une (petite) implosion en fermant le passage de l’air
expiratoire quelque part dans le conduit vocal, en réduisant le
volume de la cavité en amont de la fermeture de manière à créer
une dépression, puis en relâchant brusquement la fermeture.
Ces différents procédés sont appelés modes de production. Les trois
premiers modes nécessitent un flux d’air qui, expulsé des poumons,
traverse la glotte et passe ensuite dans le conduit vocal et éventuellement
dans le conduit nasal pour ressortir par les lèvres et éventuellement par
les narines. Le quatrième mode à l’inverse bloque temporairement le flux
d’air expiratoire. Ce mode est utilisé pour produire des « clics »,
consonnes implosives présentes dans le système phonologique de langues
comme le xhosa parlé en Afrique du Sud. Mais les clics sont présents
également dans la production non langagière quotidienne sous forme de
sons isolés, avec diverses articulations, bilabiale, alvéo-dentale,
prépalatale,
palatale. Ces sons sont corrélés à des significations diverses
selon les cultures (bises, refus, appel, etc.).
Les trois premiers modes impliquent un flux d’air des poumons aux
lèvres et ne peuvent donc avoir lieu que lors de la phase d’expiration du
cycle de respiration. Alors que, lorsque nous ne parlons pas, les durées
des phases inspiratoires et expiratoires sont sensiblement les mêmes, la
production de parole nous oblige à modifier considérablement le rapport
inspiration-expiration de manière à avoir la durée d’inspiration la plus
courte possible et la durée d’expiration la plus longue possible pour que
la totalité des mots que nous avons prévu de prononcer dans la phase
suivante puisse être prononcée.
Il y a là un mécanisme d’adaptation complexe qui se met en place lors
de l’apprentissage du langage par le jeune enfant et qui vise à optimiser
la durée de la phase d’inspiration pour accumuler un volume d’air dans
les poumons suffisant pour assurer la génération d’une séquence de sons
dans la suite de la production de parole. Cette planification implique
également la syntaxe en ce que la phase inspiratoire qui termine une
séquence prononcée doit être placée dans une position acceptable du
point de vue syntaxique, puisque l’inspiration entraîne nécessairement un
silence, donc une pause. Le code linguistique interdit par exemple de
placer une pause respiratoire entre un article et un nom (mais y admet en
revanche une pause dite «remplie» sous la forme d’un «euh» d’hésitation,
qui ne peut se réaliser qu’en phase d’expiration).
Figure 3.1
. – Cycle de respiration normal et pendant la phonation
La caractéristique remarquable de la production de parole réside dans
la modification de la structure acoustique des différentes sources par le
jeu des changements de configuration du conduit vocal. Non seulement la
forme du conduit peut être modifiée par le degré d’ouverture de la
bouche, le positionnement du dos de la langue et l’écartement ou
l’arrondissement des lèvres, mais il est aussi possible d’y associer la
cavité nasale par le jeu de l’uvule qui agit comme interrupteur.
Les sons produits par chacun des modes phonatoires vont pouvoir être
« sculptés » de manière à permettre la production de sons vocaliques et
consonantiques suffisamment différenciés les uns des autres par leur
timbre pour constituer un système phonologique tout en en combinant les
modes de production. À ces riches possibilités s’ajoute encore la faculté
de moduler la fréquence de vibration laryngée.

2. Vibration des cordes vocales

Une description très simplifiée du mécanisme de vibration des cordes


vocales pourrait être celle-ci (il subsiste encore des débats passionnés sur
cette question, mais nous donnerons ici les explications les mieux
acceptées, voir N. Henrich, 2001)  : les «cordes vocales», en fait deux
replis des membranes muqueuses du larynx, sont contrôlées par une
vingtaine de muscles qui, pour simplifier, peuvent être regroupés selon
leur action pour positionner les cordes vocales l’une contre l’autre
(muscles adducteurs) et selon la tension appliquée sur les cordes vocales
(tension qui en modifie la masse et la raideur).
Si les cordes vocales sont suffisamment écartées, l’air inspiratoire
remplit les poumons et l’air expiratoire passe librement au travers du
conduit nasal, et éventuellement du conduit vocal. Lorsqu’elles sont
rapprochées et presque en contact, le resserrement produit des
turbulences lors du passage de l’air (inspiratoire ou expiratoire), ce qui
permet en phase d’expiration de générer un bruit de friction (consonnes
pharyngales). Si elles sont totalement en contact, le flux d’air expiratoire
est arrêté et une surpression se produit en amont des cordes vocales si le
locuteur continue à comprimer les poumons (augmentation de la pression
sous-glottique). À partir d’une différence suffisante de pression entre
l’aval et l’amont des cordes vocales en contact et donc fermées, et selon
la force d’adduction, la fermeture cède, les cordes vocales s’ouvrent
(Figure 3.2), le flux d’air expiratoire peut à nouveau s’écouler. Il se
produit alors un phénomène aérodynamique (phénomène de Bernoulli)
qui produit une dépression lorsque la section s’élargit dans le mouvement
du fluide, ce qui est le cas pour l’air lors du passage des cordes vocales
pour atteindre la cavité pharyngale. Cette dépression va agir sur les
cordes vocales ouvertes et provoquer leur fermeture brutale, jusqu’à ce
que le cycle recommence.
Figure 3.2
. – Schéma simplifié du système de contrôle des cordes
vocales
Le mécanisme de vibration est donc contrôlé par les muscles
adducteurs réalisant la mise en contact des cordes vocales avec plus ou
moins de force, et par les muscles tenseurs contrôlant leur raideur et leur
tension. La force avec laquelle les cordes vocales sont mises en contact
va jouer un rôle important dans la réalisation des cycles d’ouverture-
fermeture. Lorsque cette tension est grande, il faudra plus de pression en
dessous de la glotte pour provoquer l’ouverture des cordes vocales. La
durée de fermeture sera plus grande à l’intérieur d’un cycle. Dans des cas
de tension extrême, on aura une voix dite «creaky» (craquée) avec des
durées de cycle laryngien irrégulières. Au contraire, si cette tension est
trop faible et si les muscles adducteurs ne les rapprochent pas
complètement, les cordes vocales ne se fermeront pas entièrement et l’air
continuera à passer bien que la vibration se produise quand même (cas
d’une fermeture incomplète). On parle alors de voix « soufflée ».
Le mode le plus efficace du point de vue du rapport de l’énergie
acoustique produite et de la consommation d’air pulmonaire se
produit
lorsque la durée de fermeture est minimale. Ce mode est également plus
efficace lorsque la fermeture est brusque, produisant des harmoniques de
grande amplitude.
Figure 3.3
. – Estimation des formes d'onde glottique, locuteur
masculin, voyelle [a]
Le contrôle des muscles adducteurs et tenseurs des cordes vocales
permet d’en maîtriser la fréquence de vibration ainsi que la quantité d’air
libérée au cours de chaque cycle. Ce contrôle n’est pas continu tout au
long de la gamme de variation et fait passer les mécanismes d’ouvertures
et de fermetures successives d’un mode à l’autre de manière brutale. Il
est donc difficile dans ces passages de contrôler la fréquence laryngée de
manière continue dans une grande gamme de fréquences qui passerait
d’un mode à l’autre, à moins d’avoir subi l’entraînement spécifique des
chanteurs classiques.
Les fréquences de vibrations les plus basses sont obtenues en mode
creaky, ou « voix de fry » : les cordes vocales sont courtes, très épaisses
et peu tendues (Hollien et al., 1973), et sont maintenues en début de
cycle fortement en contact par les muscles adducteurs. Il peut se produire
des irrégularités importantes de durée d’un cycle au suivant. Dans le
deuxième mode, dit « normal », les cordes vocales vibrent sur toute leur
longueur et avec une grande amplitude. Lorsque la fréquence est plus
haute, les vibrations ne se font que sur une partie de la longueur des
cordes vocales de manière à diminuer la masse vibrante et à atteindre
ainsi des durées de cycle pour courtes. Enfin, dans le troisième mode,
appelé falsetto ou «voix de sifflet», les cordes vocales sont très tendues et
donc très fines et vibrent avec une faible amplitude, produisant beaucoup
moins d’harmoniques que dans les deux premiers modes.
Dans les deux premiers modes, creaky et normal, la vibration des
cordes vocales produit un spectre dont l’amplitude des harmoniques
diminue d’environ 6 dB à 12 dB par octave. Ce qui est remarquable dans
ce mécanisme, c’est précisément la production d’harmoniques grâce à la
forme d’onde glottique permettant la génération d’un grand nombre de
timbres de voyelles et de consonnes par modification par le conduit vocal
des amplitudes relatives des harmoniques. Un mode de vibration plus
proche de la sinusoïde (cas du mode falsetto) ne produit que peu ou pas
d’harmoniques et rendrait l’établissement d’un système phonologique,
constitué de sons suffisamment différenciés, impossible s’il était basé sur
ce seul type de vibration.

Figure 3.4
. – Spectre d'onde glottique

3. «Jitter» et «shimmer»
La distribution statistique des durées de cycle laryngien est
caractérisée par une moyenne et un écart type rendant compte de la
dispersion de ces valeurs autour de la moyenne. En orthophonie, l’écart
type a reçu le nom anglais «jitter» et est indicateur, tout comme la
symétrie ou l’asymétrie de la distribution, de certaines affections
physiologiques touchant les cordes vocales. De même,
pour l’écart type
de la distribution des valeurs d’intensité échantillonnées à chaque cycle
laryngien autour de la moyenne (en unités linéaires), on a adopté le nom
anglais «shimmer».

4. Bruits de friction

Lorsque les molécules d’air expulsées des poumons lors de la phase


d’expiration passent par une constriction, c’est-à-dire une section
suffisamment étroite du conduit vocal, le mouvement laminaire existant
lorsque la section de passage est large se trouve perturbé : les molécules
d’air s’entrechoquent de manière désordonnée et produisent bruit et
chaleur en plus de l’accélération de leur déplacement. C’est cette
production de bruit, comprenant a priori toutes les composantes du
spectre (« bruit blanc»), qui est utilisée pour produire les consonnes
fricatives. La configuration du conduit vocal en amont et en aval de la
constriction ainsi que la position de la constriction dans le conduit vocal
permettent en plus de modifier la distribution de l’amplitude des
composantes du bruit de friction, distribution normalement plate de 1 000
à 10 000 Hz.
En français, une constriction au niveau de la lèvre inférieure en contact
avec les dents permet de générer la consonne [f], entre la pointe de la
langue et le palais dur la consonne [s], entre le dos de la langue et
l’arrière du palais la consonne [ʃ]. En anglais, on utilise aussi une
constriction produite par le rapprochement des incisives supérieures avec
la pointe de la langue pour la consonne [θ].

5. Bruits d'explosion
Les bruits d’explosion sont produits par les consonnes occlusives,
appelées ainsi parce que leur génération nécessite la fermeture
(occlusion) du conduit vocal de manière à pouvoir créer une surpression
en amont de la fermeture, surpression qui provoque un bruit d’explosion
lorsque la fermeture est rapidement relâchée et que les molécules d’air se
déplacent rapidement de part et d’autre de la constriction pour égaliser la
pression en amont et en aval. On appelait du reste ces consonnes «
explosives » aux débuts de la phonétique articulatoire. L’endroit de la
fermeture du conduit vocal, appelé «lieu d’articulation», détermine les
caractéristiques acoustiques du signal produit qui servent à différencier à
l’audition les différentes consonnes d’un système phonologique.
En réalité, ces différences acoustiques sont relativement minimes et ce
sont plus les transitions articulatoires nécessaires pour la production
d’une voyelle éventuelle succédant à l’occlusive qui sont utilisées par les
auditeurs. Dans ce cas en effet, les vibrations des cordes vocales peu
après la détente de l’occlusive (durée appelée VOT, pour l’anglais «
Voice Onset Time », temps d’établissement du voisement, étudié
spécifiquement dans de nombreuses langues) provoquent la génération
d’une voyelle de caractéristiques spectrales transitoires qui se stabilise au
cours de la mise en place de l’articulation finale de la voyelle. Il se
produit une transition de formants (voir chapitre 4), c’est-à-dire des
fréquences de résonance déterminées par la configuration du conduit
vocal, qui sont utilisées par l’auditeur pour identifier la consonne
occlusive, bien plus que les caractéristiques du bruit d’explosion.
Néanmoins, il est possible de reconnaître des consonnes occlusives
prononcées isolément dans un contexte expérimental. Les consonnes
occlusives du français sont [p], [t] et [k], réalisées respectivement par
fermeture à l’endroit des lèvres (occlusive bilabiale), alvéolaire (pointe
de la langue contre les alvéoles des dents de la mâchoire supérieure) et
dos de la langue contre le palais dur.

6. Nasales

Les voyelles et consonnes nasales sont caractérisées par la mise en


communication du conduit nasal avec le conduit vocal au moyen de
l’uvule, qui agit comme un commutateur. Cette cavité supplémentaire
insérée dans le premier tiers du parcours de l’air expiré et modulé par les
cordes vocales (ou de l’air turbulent en parole chuchotée) provoque un
bouleversement dans le système de résonance des harmoniques de la
source, dont on peut rendre compte par un modèle mathématique (voir
chapitre 8). L’apparition de formants de bande passante de voyelles
nasales plus large que pour les voyelles orales correspondantes, difficile à
expliquer par l’observation de leurs caractéristiques spectrales,
s’explique alors aisément par ce modèle. En français, les voyelles nasales
utilisées dans le système phonologique sont [ã], [õ] et [ε] et les
consonnes nasales [m], [n], [ɲ] comme dans « agneau » et [ŋ] comme
dans «parking».

7. Modes mixtes

L’appareil phonatoire peut mettre en œuvre plusieurs sources


simultanément pour produire les consonnes et voyelles dites voisées, par
opposition à leur correspondant articulatoire, les voyelles sourdes. Ainsi
[v] est généré avec un bruit de friction et vibration des cordes vocales
mais avec une configuration articulatoire proche de [f]. Il en est de même
entre [s] et [z], [∫] et [3] (comme dans «chant» et «Jean»). Dans ce mode
mixte, les cordes vocales doivent en même temps vibrer et laisser passer
assez d’air pour permettre un bruit de friction et produisent des
harmoniques de beaucoup moins d’amplitude que pour les voyelles.

8. Chuchotement

Il est toujours possible de générer voyelles et consonnes sans vibration


des cordes vocales, avec le seul bruit de friction. Dans le cas des
voyelles, la source de friction est placée au niveau de la glotte et est
produite par un resserrement des cordes vocales suffisant pour produire
assez de turbulence dans le flux d’air. L’intensité finale produite est très
inférieure au mode voisé de production des voyelles, ce que le locuteur
peut compenser par exemple pour la réalisation des voyelles accentuées
en exagérant leur durée.
9. Modèle source-filtre

Figure 3.5
. – Modèle de production de la parole
Pour représenter l’ensemble de ces mécanismes de manière simplifiée,
on utilise un modèle de production de la parole (Figure 3.5)  : la source
est constituée soit d’un train d’impulsions (une séquence) de fréquence
Fo (inverse de l’intervalle de temps entre chaque impulsion) soit d’une
source de bruit, dont les amplitudes sont contrôlées par un paramètre A.
Un modèle mathématique du conduit vocal incorpore les caractéristiques
spectrales de la source glottique et du conduit nasal. Ce modèle incorpore
également un filtre supplémentaire qui rend compte des caractéristiques
de rayonnement aux lèvres. Ce type de modèle est appelé « source-
filtre», et rend assez bien compte de l’indépendance de la source (en
première approximation) par rapport au conduit vocal.
Les descriptions acoustiques des sons de la parole se servent
abondamment de ce modèle qui sépare si bien (peut-être de manière un
peu abusive) la source du son et son modelage par le conduit vocal et le
conduit nasal. Il aide à bien s’imprégner du fait que les caractéristiques
de la parole telles que l’intonation, dues aux variations de fréquence
laryngée au cours du temps, sont indépendantes du timbre des sons émis.
Chapitre 4

La représentation harmonique

1. Analyse spectrale harmonique

Déjà, en 1853, Scott de Martinville avait examiné à la loupe les détails


des vibrations inscrites par son phonautographe sur un papier enduit de
noir de fumée et correspondant à certaines voyelles. Il avait noté que la
classification des sons de la parole, et en particulier de voyelles, ne
semblait pas pouvoir se faire à partir de leur représentation sous forme
d’onde à cause des grandes variations dans les motifs observés. La Figure
4.1illustre ce problème pour quatre réalisations de [a] dans la même
phrase et prononcées par le même locuteur.
En additionnant des sons purs harmoniques, c’est-à-dire de fréquences
multiples entiers d’une fréquence de base appelée fréquence
fondamentale, on obtient par représentation graphique une forme d’onde
qui ressemble assez à certains tracés des voyelles observées. En décalant
les harmoniques les uns par rapport aux autres, on observe des
changements importants dans la forme de l’onde de parole reproduite à
chaque quasi-période.
L’analyse harmonique de Fourier, connue depuis 1822, fournit une
méthode d’analyse qui va servir à décrire les sons de la parole d’une
manière plus efficace en effectuant l’opération inverse, c’est-à-dire en
décomposant la forme d’onde en une série de sons purs harmoniques,
dont la somme restitue la forme d’onde originale (l’idée des
décompositions en série trigonométrique semble être apparue déjà au
XVe siècle en Inde, et sera reprise au XVIIe et au XVIIIe siècle en
Angleterre et en France pour l’analyse des cordes vibrantes). En réalité,
l’analyse de Fourier s’applique à des fonctions périodiques complexes,
donc infinies dans le temps, et il faudra de plus adapter à cette contrainte
la (dure)

Figure 4.1
. – Quatre réalisations de [α] dans une même phrase
montrant la diversité des formes d'onde. La phrase est
«Mais Natacha ne gagna pas» [mεnαtα∫αnəgαNαpα] (voix
de G.B.)
réalité du signal, qui change continuellement avec la parole du locuteur.
Pour résoudre ces deux problèmes en même temps, l’idée est de
prélever des segments du signal sonore à intervalles réguliers et d’en
faire l’analyse comme si chacun de ces segments se répétait à l’infini de
manière à constituer un phénomène périodique, dont la période est égale
à la durée du segment. On peut alors bénéficier de l’intérêt primordial de
l’analyse de Fourier qui est de séparer l’amplitude des composantes
harmoniques de leur phase pour obtenir ce qui peut apparaître comme un
invariant caractéristique du son, alors que la phase n’est pas utilisée sauf
pour différencier les deux canaux d’un son stéréophonique.
Le principe de l’analyse harmonique est basé sur le calcul de la
corrélation existant entre le signal analysé et deux fonctions sinusoïdales
décalées entre elles de 90 degrés (π/2), c’est-à-dire une corrélation avec
un sinus et un cosinus. Le module (la racine
carrée de la somme des
carrés) des deux résultats donnera la réponse attendue, indépendamment
de la phase qui s’obtient par l’arc du rapport des deux composantes.
Mathématiquement, les deux composantes A et B de la décomposition du
signal prélevé d’une durée T s’obtiennent par les équations

c’est-à-dire la somme des valeurs prises depuis le début jusqu’à la fin du


segment de parole prélevé pour l’analyse multipliées par les valeurs
correspondantes du cosinus et du sinus à cette fréquence f. L’amplitude
de la sinusoïde résultant de ce calcul est égale à 2√(A2-B2) pour cette
fréquence, et sa phase l’arc dont la tangente égale B/A : arctg(B/A).
En réalité,sous cette formule apparemment compliquée se cache une
méthode mathématique d’analyse fort simple  : la corrélation. La
corrélation consiste en la multiplication du signal ou d’une partie du
signal par une fonction de caractéristiques connues. S’il y a une forte
similitude entre la fonction analysée et la fonction de corrélation, la
somme des produits terme à terme (l’intégrale dans le cas de fonctions
continues, la somme des produits dans le cas de fonctions numérisées)
sera élevée et cette somme sera faible en cas de corrélation faible.
L’analyse en série de Fourier procède de cette façon, mais un problème se
pose à cause des phases erratiques des composantes harmoniques. Pour le
résoudre, on procède en fait à deux corrélations séparées, avec des
fonctions sinusoïdales décalées de 90 degrés (π/2). En recomposant les
deux résultats de ces corrélations, on obtient la séparation, le module et la
phase.
Figure 4.2
. – Schéma de principe de l'analyse harmonique en série
de Fourier
Déjà au début du XXe siècle on procédait par échantillonnage des
tracés expérimentaux pour obtenir les coefficients de Fourier, qui étaient
ensuite portés en graphique avec l’amplitude en ordonnée et la fréquence
en abscisse de manière à faciliter l’interprétation des résultats. Ce
graphique est appelé un spectre d’amplitude, Figure 4.3. Un graphique
portant la phase en fonction de la fréquence s’appelle alors un spectre de
phase.
Figure 4.3
. – Correspondance entre la représentation temporelle (à
gauche) et fréquentielle (à droite) d'un son pur de période T
et d'amplitude A
Il y a un prix à payer (il y en a toujours un…) pour opérer sur des
segments de signal de durée limitée T. Puisque l’analyse revient à
décomposer un signal (faussement) périodique et de période T, les
harmoniques résultant de cette décomposition auront des fréquences
multiples de la fréquence de base, c’est-à-dire 1/T. La résolution
fréquentielle, donc l’espacement des composantes sur l’axe des
fréquences, est donc inversement proportionnelle à la durée des segments
prélevés dans le signal.
Pour obtenir un spectre plus détaillé il faut donc une durée plus grande
du segment prélevé. Par conséquent, le spectre obtenu va décrire la
structure harmonique valable pour l’ensemble des événements temporels
du segment, et en particulier tout changement de fréquence laryngée qui
pourrait s’y produire. On obtient donc par une durée plus grande un
spectre mieux détaillé en fréquence mais qui ne nous informera que sur la
structure fréquentielle « moyenne » du segment temporel prélevé mais
pas du tout sur son évolution possible à l’intérieur du segment. Tout se
passe comme si le son analysé était figé le temps du prélèvement, tout à
fait comme un instantané photographique est une représentation figée de
la réalité.
Figure 4.4
. – Transformation d'un segment prélevé en signal
périodique
La fréquence fondamentale de ce signal périodique est égale à
l’inverse de sa période, donc de la durée du segment prélevé. Plus la
durée du segment sera grande, plus petite sera la fréquence fondamentale
(la fréquence étant l’inverse de la période F = 1/T), et donc plus grand
sera le nombre de détails du spectre obtenu. À l’inverse, à un
prélèvement de durée plus petite correspondra une fréquence
fondamentale plus grande, et donc un spectre moins détaillé en
fréquence. On parle alors de spectre de Fourier discret, car constitué de
valeurs d’amplitude à des positionnées à des fréquences multiples de la
fréquence fondamentale. Le spectre discret correspond en fait à
l’échantillonnage du spectre de Fourier continu à intervalles égaux à 1/T
(Figure 4.5).
Figure 4.5
. – Augmentation de la résolution fréquentielle avec la
durée de la fenêtre temporelle
La Figure 4.5illustre l’interdépendance de la résolution fréquentielle
avec la durée de la fenêtre temporelle. Lorsque cette durée vaut T, la
résolution fréquentielle, c’est-à-dire l’espacement entre deux valeurs
consécutives de la fréquence dans le spectre, vaut 1/T (cas 1). Lorsque la
durée de prélèvement est de 2T, on obtient un espacement de fréquence
dans le spectre de 1/2T, donc le double de résolution fréquentielle (cas 2).
Enfin, lorsque la durée est de 4T, la résolution fréquentielle atteint 1/4T
(cas 3), ce qui réduit d’autant l’erreur faite sur l’estimation de la
fréquence du son analysé (ici un son pur de fréquence égale à 7/8T).
On retrouve ainsi le principe d’incertitude qui apparaît souvent en
physique théorique, voulant que l’on ne peut gagner à la fois sur les deux
tableaux, durée et fréquence, qui sont d’ailleurs l’inverse l’une de l’autre.
Une grande précision dans l’axe temporel se paye par une faible
résolution fréquentielle, et une grande précision fréquentielle se paye par
une faible résolution temporelle. Ceci est à l’origine des réglages dits
«bande large » et «bande étroite » des premiers spectrographes
analogiques (le terme «bande» se réfère à la largeur de bande des filtres
analogiques passe-bande utilisés dans ces appareils pour lesquels une
approximation de l’analyse harmonique est réalisée par filtrage
analogique du signal). Le réglage bande large permet de mieux visualiser
les événements temporels brefs, comme la détente des occlusives, et
aussi de brouiller volontairement les harmoniques des vibrations
laryngées pour les voyelles afin de mieux observer les formants, zone
d’harmoniques de plus grande amplitude. Le réglage bande étroite résulte
en une bonne résolution fréquentielle et donc un affichage convenable
des harmoniques des sons voisés, au prix de flou dans la représentation
des changements rapides dans le signal comme les détentes d’occlusives
ou l’onset (départ) de voisement.
On ne pourra pas non plus par l’analyse de Fourier mesurer les
variations fines de cycle à cycle (jitter) puisque l’on n’obtient qu’une
seule valeur de période, donc de fréquence, pour chaque segment de
durée T.
La «bonne» durée de prélèvement temporel va dépendre du signal
analysé, et en particulier de la durée du cycle laryngé au cours du
prélèvement. Ainsi, pour des locuteurs masculins adultes, donc la
fréquence laryngée varie typiquement à l’intérieur d’une gamme de 70 à
300 Hz, donc la durée de cycle de 14,8 ms à 3,3 ms, on adopte une durée
d’au moins 15 ms pour qu’au moins un cycle soit contenu dans le
segment prélevé. Pour une voix de femme
adulte, variant de 150 à 400
Hz par exemple, donc de 6,6 ms à 2,5 ms, on pourra adopter une valeur
de 7 ms.
On peut penser que l’idéal consiste à adopter, pour l’analyse de Fourier
des sons voisés, une valeur correspondant à la durée d’un cycle laryngé.
Les harmoniques de la série de Fourier correspondent alors exactement à
ceux produits par la vibration des cordes vocales. La difficulté réside
dans la mesure de cette valeur avant d’avoir réalisé l’analyse acoustique,
mais on peut y arriver au prix de calculs de spectre supplémentaires, par
approximations successives convergeant vers cette configuration (pourvu
que le niveau de bruit soit suffisamment faible).
Un prélèvement de 30 ms couramment utilisé correspond à une
fréquence fondamentale de Fourier (à ne pas confondre avec la fréquence
fondamentale, estimation de la fréquence laryngée) de 1/30 ms = 33,3
Hz, à peine suffisante pour estimer, justement, la fréquence laryngée du
segment de parole. Mais sur 30 ms, cette fréquence laryngée, par
exemple de 100 Hz, soit de durée de cycle laryngé de 10 ms, a le temps
d’effectuer 3 cycles, et donc de varier plus ou moins de cycle à cycle (ce
qui s’appelle le jitter en mesure physiologique de la phonation), par
exemple de 2 % – donc de 98 à 102 Hz. La série de Fourier nous cachera
cette information et fournira (par interpolation des sommets d’amplitude
des composantes harmoniques du spectre) une valeur de 100 Hz.
Inversement, une durée de segment prélevé correspondant mieux à la
durée d’un cycle laryngien de notre exemple, soit 10 ms, donnera un
espacement des harmoniques du spectre de Fourier de 1/10 ms = 100 Hz,
évidemment très insuffisant pour mesurer la fréquence laryngée.
L’analyse harmonique de Fourier consiste donc à multiplier terme à
terme les échantillons du signal par des valeurs échantillonnées aux
mêmes instants d’un sinus et d’un cosinus et à additionner les résultats
pour tous les échantillons se trouvant à l’intérieur de la fenêtre temporelle
(Figure 4.2.)
Cette analyse demande une longue série de multiplications et
d’additions qui est aujourd’hui réalisée rapidement par ordinateur. À
l’époque de l'abbé Rousselot, chaque valeur échantillonnée et mesurée à
la main devait être multipliée par des valeurs de sinus et de cosinus
obtenues dans une table. Il fallait ensuite pour chaque fréquence
additionner les résultats de ces multiplications et calculer le module des
séries en sinus et en cosinus. Travail fastidieux qui demandait des
semaines de calcul, et qui a parfois été sous-traité dans des monastères…

2. Transformée de Fourier rapide (FFT)

En fait, lorsqu’on a la curiosité d’effectuer une analyse harmonique de


Fourier manuellement, on s’aperçoit rapidement que l’on effectue sans
cesse des multiplications aux deux facteurs identiques, au signe près (du
reste, les moines sous-traitant ces analyses au début du XXe siècle
l’avaient aussi remarqué). En organisant les calculs de manière à se servir
plusieurs fois des résultats de multiplications déjà effectuées, on peut
gagner beaucoup de temps, surtout si l’on ne dispose pas, comme au
début du XXe siècle, de machine à calculer. Mais pour obtenir une
organisation optimale des données il faut que le nombre de valeurs des
échantillons du signal à analyser soit une puissance de 2, c’est-à-dire 2, 4,
8, 16, 32, 64, 128, 256, 512, 1024, 2048, 4096, etc.
Ces observations ont été mises à profit par Cooley et Tuckey en 1965
pour présenter un algorithme dit de transformée de Fourier rapide (en
anglais FFT, pour « Fast Fourier Transform »), qui tire avantage de la
symétrie récurrente des calculs de l’analyse harmonique. Au lieu des 2N2
multiplications nécessaires, il ne faut plus que N log2(N) multiplications.
Ainsi un prélèvement temporel de 1 024 points, correspondant à une
durée de 64 ms avec une fréquence d’échantillonnage de 16 000 Hz,
demande 2 x 1 024 x 1 024 = 2 097 152 opérations de multiplication pour
une transformée discrète, alors que la transformée rapide n’en requiert
que 1 024 x 10 = 10 240 !
Le nombre de valeurs fréquentielles obtenues par FFT pour le spectre
est optimal et égal à la moitié du nombre d’échantillons. L’inconvénient
réside dans l’obligation de traiter un nombre d’échantillons puissance de
2, mais si le nombre d’échantillons est compris entre deux puissances de
2, on ajoute des valeurs nulles pour obtenir le nombre total voulu. En
revanche, le calcul de la transformée discrète de Fourier (en anglais DFT,
« Discrete Fourier Transform ») permet de calculer l’amplitude et la
phase de n’importe quelle fréquence (inférieure bien sûr à la fréquence de
Nyquist, égale à la moitié de la fréquence d’échantillonnage, et de
n’importe quel nombre d’échantillons successifs).

3. Instantanés sonores

La phonation résulte de gestes articulatoires continus de la part du


locuteur. Comment faire alors pour réaliser une analyse acoustique
de ces
mouvements continus ? Le principe est le même que celui utilisé pour le
cinéma : si la vitesse de mouvement n’est pas trop élevée, un instantané
photographique est pris 24 fois par seconde (en télévision 25 ou 30 fois
par seconde). Pour des événements se modifiant plus rapidement (par
exemple pour filmer un athlète courant un 100 mètres), on augmente le
nombre d’instantanés par seconde. Filmer les cycles de vibration des
cordes vocales demande encore un plus grand nombre d’images par
seconde (2 000 images par seconde est une valeur communément
adoptée), puisque la durée d’un cycle de vibration est au plus de l’ordre
de 10 ms (100 vibrations par seconde).
Chacun des instantanés n’est en fait pas instantané… Il faut, en
photographie, une certaine durée d’exposition pour impressionner la
pellicule photosensible, ou la matrice de diodes photosensibles en
photographie numérique. L’analyse acoustique de la parole et
l’enregistrement de films présentent des aspects semblables  : les
mouvements articulatoires lors de la production de parole constituent des
gestes dont la vitesse d’établissement n’est pas très différente de celle
d’autres gestes humains, comme la marche par exemple. Pour pouvoir
utiliser les techniques d’analyse acoustique basées sur des événements
périodiques donc par hypothèse stationnaires, on va donc effectuer des «
instantanés » sonores en prélevant un certain nombre de fois par seconde,
par exemple 30 fois – chiffre comparable aux 24 images par seconde du
cinéma – un segment du signal sonore, puis en faire une analyse
acoustique.
Évidemment, l’hypothèse de périodicité et de stationnarité n’est pas du
tout valide, il s’agit d’une approximation de la réalité pour pouvoir se
servir de méthodes mathématiques abouties et qui ont bénéficié de
nombreuses recherches et améliorations dans leurs implémentations
pratiques. Cependant, devant la relative lenteur des développements
mathématiques qui conviendraient à la description des événements
essentiellement non stationnaires comme la phonation, la tradition se
maintient et les méthodes de Fourier et de Prony (chap. 5) sont
aujourd’hui à la base de l’analyse acoustique moderne de la parole.

4. Une fenêtre sur le signal

Mais il y a plus grave  ! Pour le constater, considérons l’analyse


acoustique d’un son pur. On le sait, le son pur est décrit
mathématiquement
par une sinusoïde infinie dans le temps. Très
logiquement, l’analyse de Fourier en une somme de sons purs
harmoniques devrait donner une seule composante spectrale, de
fréquence égale à celle du son pur analysé, et de phase correspondant à
l’origine du temps éventuellement définie.

Figure 4.6
. – Prélèvement temporel d'un son pur par une fenêtre
rectangulaire
Que se passe-t-il lorsque l’on effectue un prélèvement temporel à
l’intérieur du son pur? À moins d’avoir beaucoup de chance, c’est-à-dire
de connaître à l’avance la période du son pur analysé, la durée du
prélèvement ne lui correspondra pas et on aura transformé par
prélèvement et reproduction du segment à l’infini un autre son, plus du
tout décrit par une sinusoïde, mais plutôt par une sinusoïde tronquée au
début et à la fin (Figure 4.6).
L’analyse de Fourier de ce nouveau signal ainsi fabriqué donnera
quantité de composantes harmoniques parasites étrangères à la fréquence
du son pur de départ. Ce n’est que lorsque la durée de la fenêtre
temporelle correspondra à la durée d’une période du son pur que le
spectre de Fourier ne présentera qu’une seule composante.
Alors, comment faire? L’exemple du prélèvement par une fenêtre
rectangulaire illustre bien le problème  : on comprend intuitivement que
ce sont les limites de la fenêtre qui provoquent ces perturbations non
désirées dans le spectre en introduisant des artefacts dans le son analysé.
Pourquoi alors ne pas les rendre moins importantes, c’est-à-dire en
réduire l’amplitude de manière à ce que les débuts et fins de signal
prélevé comptent moins dans
le calcul du spectre de Fourier, car ayant
moins d’amplitude? L’« adoucissement » des extrémités de la fenêtre est
un art en soi, et a fait l’objet de bien des études mathématiques. En fait,
on peut montrer que l’effet de la fenêtre temporelle peut s’estimer en en
calculant tout simplement la transformée de Fourier.

5. Fenêtres célèbres

Pour atténuer dans la mesure du possible l’effet de troncation provoqué


par le fenêtrage, un grand nombre de fenêtres « adoucissantes» ont été
proposées. Les plus utilisées sont :
- fenêtre rectangulaire : la plus simple, qui donne le sommet le plus
sélectif, mais aussi les rebonds les plus importants en amplitude.
C’est la seule fenêtre qui tient compte de toute l’information
contenue dans le signal ;
- fenêtre en cosinus définie par la formule mathématique) ;

- fenêtre triangulaire définie par ///w(n) =

- fenêtre de Blackmann-Harris dont l’équation est ;

- fenêtre de Hann(ing) : la plus utilisée, mais pas nécessairement la


meilleure pour l’analyse phonétique, définie par .

La Figure 4.7permet de comparer le comportement de plusieurs


fenêtres de durée égale sur un son pur à 1 500 Hz, avec une durée de 46
ms.
Figure 4.7
. – Spectre d'un son pur à 1 500 Hz, 512 points, 46 ms vu
à travers différentes fenêtres
La Figure 4.8montre le résultat de la multiplication d’une voyelle de
type [a] par une fenêtre de Hanning (en réalité l’inventeur de cette fenêtre
s’appelait Hann, mais par analogie avec la fenêtre de Hamming, on a
ajouté le suffixe –ing à son nom !).
Figure 4.8
. – Prélèvement temporel du signal de parole par une
fenêtre de Hann(ing). Le signal prélevé (3) résulte de la
multiplication du signal (1) par la fenêtre (2)

6. Filtres

Un filtre est un dispositif qui permet d’atténuer ou de supprimer


certaines fréquences composantes du signal. Il existe des filtres passe-bas
qui, comme leur nom l’indique, laissent passer les fréquences inférieures
à une valeur dite «fréquence de coupure», et atténuent et éliminent les
fréquences supérieures; des filtres passe-haut qui éliminent les basses
fréquences et laissent passer les fréquences supérieures à leur fréquence
de coupure  ; des filtres passe-bande qui ne laissent passer que les
fréquences comprises entre deux limites.
Les filtres sont réalisés soit par des composants électroniques opérant
dans le domaine du traitement du signal analogique, soit par des
algorithmes opérant sur les valeurs numérisées du signal. Dans leur
implémentation réelle, ils introduisent non seulement une modification
dans le spectre d’amplitude du signal filtré, mais aussi dans le spectre de
phase. Ainsi dans un filtre passe-bas, les composantes du signal de
fréquences proches de la fréquence de coupure pourront être fortement
déphasées, ce qui peut poser
problème dans le cas du filtrage de la parole,
par exemple dans le cas d’une attaque vocalique : par un filtrage passe-
bas à 1 000 Hz, les composantes dans la gamme de 100-200 Hz sortiront
du filtre avant celles de l’intervalle 900-1 000 Hz  ! Les spectrographes
analogiques de type Kay Elemetrics ou Voice Id ont évité ce problème en
utilisant toujours les mêmes filtres, un filtre dit à bande étroite (45 Hz)
pour obtenir une bonne résolution temporelle et pouvoir observer les
harmoniques, et un filtre dit à bande large (300 Hz) pour mieux identifier
les formants par coalescence des harmoniques, et en analysant
l’enregistrement (limité à 2,4 s  !) modifié par un système hétérodyne
similaire à celui utilisé pour les récepteurs radios de l’époque.

Figure 4.9
. – Réponse en fréquence de différents types de filtres,
Butterworth (2e ordre), Bessel et Chebychev (à – 3 dB)
Chapitre 5

Analyse par modèle source-filtre

1. La méthode de Prony-LPC

En analyse de parole, la méthode de Prony, aussi appelée méthode des


coefficients de prédiction linéaire (LPC, pour « Linear Prediction
Coefficients »), est un terme générique pour désigner la résolution des
équations décrivant un modèle de la phonation à partir d’un segment de
signal. Elle est donc très différente dans son principe de l’analyse en série
de Fourier. Au lieu de proposer une séquence temporelle de spectres
d’amplitude sous la forme du spectrogramme, l’analyse de Prony
implique un modèle source-filtre, dont les paramètres caractérisant le
filtre sont ajustés de manière à ce que, excité par un train d’impulsion
dont la période correspond à l’estimation de la fréquence laryngée pour
une fenêtre temporelle donnée ou par un bruit blanc simulant une source
de friction, le filtre ainsi sollicité produise en sortie un signal aussi
proche que possible du signal original éventuellement fenêtré.

Figure 5.1
. – Modèle sous-jacent à l'analyse LPC
Il s’agit donc d’un modèle, c’est-à-dire d’une construction
mathématique simulant plus ou moins bien la réalité du mécanisme
phonatoire. En particulier, les cycles asymétriques laryngés sont
remplacés par un train d’impulsions qui produit également un grand
nombre d’harmoniques, mais d’amplitude constante et non comme dans
la réalité décroissant de 6 db à 12 dB par octave. D’autre part, la source
bruit de friction est positionnée au même endroit que la source
d’impulsion dans le modèle, ce qui ne correspond jamais à la réalité, sauf
pour la consonne laryngale [h]. Ainsi, pour les fricatives du français, la
position de la source dans le conduit vocal pour les consonnes [f], [s] et
[ʃ] se situe respectivement aux lèvres, aux alvéoles des dents de la
mâchoire supérieure et au sommet du palais dur.
L’intérêt d’un tel modèle réside essentiellement dans le fait qu’il est
possible d’obtenir directement les fréquences de résonances du filtre à
partir de ses caractéristiques, et donc d’estimer les formants sans devoir
faire une interprétation pas toujours évidente d’un spectre ou d’un
spectrogramme. Cela tient à ce que l’on force dans cette méthode les
données – c’est-à-dire les fenêtres extraites du signal – à correspondre au
modèle source-filtre. Les formants obtenus seront en réalité ceux du filtre
et l’adéquation avec ceux du conduit vocal ayant produit le signal analysé
n’est pas garantie.

2. Zéros et pôles

Toute une classe de filtres électriques est définie par une équation
mathématique appelée «fonction de transfert » qui rend compte de la
réponse du filtre à une excitation (une entrée donnée). Ces fonctions de
transfert peuvent souvent s’exprimer sous forme de fraction, dont le
numérateur et le dénominateur sont des fonctions polynomiales de la
fréquence (une fonction polynomiale d’une variable est une somme de
termes de type coefficient multiplié par une puissance de la variable). Il
est donc possible de calculer à partir d’une fonction de transfert la
réponse en fréquence et en phase du filtre. Les fonctions polynomiales du
numérateur et du dénominateur ont des valeurs de fréquence particulières
qui les annulent, rendant la fonction de transfert nulle pour le numérateur
et infinie pour le dénominateur (à moins que la même fréquence rende
simultanément nuls numérateur et dénominateur). Lorsqu’une fréquence
annule le numérateur, on parle de zéro de la fonction de transfert, et
lorsqu’elle annule le dénominateur, on parle de pôle.
La courbe de
réponse en amplitude caractérisant le filtre présente donc des valeurs
nulles pour des zéros de la fonction de transfert, et des valeurs infinies
pour des pôles.
L’intérêt des fonctions de transfert pour l’analyse de la parole vient du
rapprochement qu’il est possible de faire entre le mécanisme de
génération des sons de la parole (en particulier la génération de voyelles)
et le modèle source-filtre : les cycles laryngés successifs sont représentés
par un train d’impulsions (une séquence d’impulsions de période égale à
la période laryngée), et le bruit de friction des fricatives par un bruit
blanc (un bruit blanc comprend toutes les fréquences d’égale intensité
dans le spectre).
Le modèle source-filtre est donc une approximation de la réalité dans
la mesure où l’excitation glottale n’est pas un train d’impulsion et où la
source des sons fricatifs n’est pas positionnée au même lieu du conduit
vocal. Néanmoins, on peut par exemple tenir compte du spectre de la
source de vibration laryngée caractérisée par une chute de 6 dB à 12 dB
en intégrant le filtre très simple et à un seul pôle qui le modélise dans le
filtre représentant l’ensemble du conduit vocal. Pour le reste, les pôles
représentent les formants, qui sont effectivement des valeurs de la
fréquence laryngée qui correspondent à un renforcement des amplitudes
des harmoniques de la fréquence laryngée.
Le principe de l’analyse de Prony, donc du calcul des coefficients de
prédiction linéaire, est de déterminer les coefficients d’un filtre
modélisant les caractéristiques du conduit vocal (en y intégrant les
caractéristiques de la source). Comme la formulation mathématique du
problème implique la stationnarité, il faudra, comme dans l’analyse
harmonique de Fourier, prélever dans le signal des fenêtres d’une durée
minimale suffisante pour pouvoir résoudre le système d’équation, et
d’une durée maximale acceptable quant à la stationnarité du conduit
vocal. La durée minimale est fonction du nombre d’échantillons du signal
nécessaire, donc aussi de la fréquence d’échantillonnage.
On pose alors l’équation suivante : ,

qui signifie tout simplement que la valeur du signal à l’instant n (il s’agit
de valeurs échantillonnées et indicées 0, 1, …, n) résulte de la somme des
produits des valeurs du signal aux instants n – 1, n
– 2, …, n – p. On peut
montrer (mais pas ici… !) en calculant la transformée en z (équivalente à
la transformée de Laplace pour les systèmes discrets, c’est-à-dire aux
valeurs échantillonnées) que cette équation décrit un filtre de type
autorégressif (avec un numérateur égal à 1), qui pour nous devrait
correspondre à un modèle du conduit vocal valable pour une petite
section du signal, donc pendant la durée de la fenêtre temporelle utilisée.
La description mathématique de ce filtre sera obtenue lorsque nous
saurons quelles sont les valeurs des m coefficients. La fonction de
transfert du modèle tout pôle correspondant est .

C’est l’équation d’un modèle autorégressif, en abrégé modèle AR.


Pour obtenir les valeurs de ces coefficients, on compare la prédiction que
donne cette équation, donc la sortie du filtre, avec la réalité, c’est-à-dire
un certain nombre d’échantillons successifs du signal, en minimisant par
exemple la différence entre la prédiction et la réalité du signal par la
méthode des moindres carrés. Mathématiquement, il s’agira donc de
minimiser l’erreur ε définie par ε =

, avec Xn = échantillons prédits du signal et Sn = échantillons du signal.


On conçoit que le filtre obtenu sera d’autant plus satisfaisant que les
coefficients de prédiction minimiseront l’erreur sur une durée suffisante.
Cette erreur trouvera cependant un maximum lorsque le modèle sous-
jacent ne sera plus valable, c’est-à-dire surtout au moment des impulsions
laryngées. Ces maxima d’erreur de prédiction pour les sons voisés sont
appelés résidus de la prédiction.
3. Quelle durée choisir?

Minimiser l’erreur de prédiction revient à résoudre un système


d’équations linéaires à p inconnues, p étant le nombre de coefficients et
correspondant à l’ordre du filtre. Le nombre minimal d’échantillons
nécessaires k est égal à p, donc pour une fréquence d’échantillonnage à
16 000 Hz, et un filtre LPC d’ordre 12, il nous faut une durée de fenêtre
de prélèvement temporel de 12/16 000 = 0,75 ms, valeur bien moindre
que celle nécessaire à la mesure des formants par analyse harmonique de
Fourier  ! La figure 5.2montre que, si les fenêtres à 16 ms et 46 ms
donnent des spectres quasiment identiques, le spectre à 2 ms reste malgré
tout exploitable.
L’intérêt d’une fenêtre temporelle relativement large
réside dans le calcul de l’erreur de prédiction qui, effectuée sur un
nombre plus grand d’échantillons du signal, donne une approximation
plus satisfaisante.

Figure 5.2
. – Comparaison de spectres de Prony d'ordre 12 avec une
fenêtre de 2 ms, 16 ms et 46 ms
Différents procédés existent pour résoudre ce système d’équations,
connus entre autres sous les noms «méthode de corrélation », «méthode
de covariance» et «méthode de Burg ». Cette dernière méthode est
aujourd’hui la plus utilisée car elle garantit des résultats stables avec un
temps de calcul raisonnable.

4. Quel ordre choisir?

Une règle pratique spécifie qu’il y a en général 1 formant (donc 1 pôle)


par kHz de bande passante. À cette valeur s’ajoutent 2 pôles pour rendre
compte des caractéristiques spectrales de la source glottique. Pour la
valeur standard de 16 000 Hz de fréquence d’échantillonnage, on obtient
donc un ordre p = 18 soit 9 pôles. À 22 050 Hz, p = 24 soit 12 pôles.

5. Prédiction linéaire et méthode de Prony

Le calcul des fréquences de résonance du filtre d’un modèle source-


filtre (dont la source est un train d’impulsion) revient à représenter le
signal prélevé par une somme de sinusoïdes amorties (répondant à
chacune des impulsions d’entrée du filtre) dont les fréquences sont égales
aux fréquences de résonance du filtre, ce qui correspond à la définition de
la méthode de Prony.
Le modèle source-filtre pour les voyelles nasales doit présenter un
élément supplémentaire qui tienne compte de la mise en communication
des cavités nasales avec le conduit vocal au niveau
de l’uvule. On peut
montrer que le modèle tout pôle (ARMA) n’est plus valable et qu’il faut
considérer une équation pour la fonction de transfert dont le numérateur
n’est pas nul.

Les valeurs de z qui annulent le numérateur sont appelées les zéros du


filtre. Celles qui annulent le dénominateur, les pôles. Ce modèle est un
modèle ARMA, pour l’anglais «Auto Regressive Moving Average ».
La résolution de cette équation utilise une variation de la méthode de
covariance pour résoudre l’équation «tout pôle» pour déterminer les
coefficients du dénominateur de la fonction de transfert, et calcule
ensuite les coefficients du numérateur pour que la réponse impulsionnelle
du filtre du modèle corresponde exactement aux premiers nb + 1
échantillons du signal (Calliope, 1989).

La redécouverte de Prony. « East coast » vs « West coast »


La méthode LPC, qui a été découverte par des chercheurs des laboratoires Bell à
Murray Hill, concernait l’analyse géodésique en vue de la prédiction des
tremblements de terre. En 1975 paraît l’adaptation de l’analyse LPC pour la parole,
mais ce sont surtout les applications en synthèse qui sont mises en valeur  : dans le
numéro de JASA, la revue américaine d’acoustique, les auteurs ont même fait insérer
un disque souple qui permettait d’écouter les exemples de synthèse et d’apprécier leur
qualité. Ils démontraient ainsi les avantages extraordinaires d’une synthèse dont on
pouvait très facilement manipuler les paramètres de source (source de bruit pour les
fricatives, source d’impulsion de période variable pour les voyelles et les consonnes
voisées), en s’assurant par analyse de fenêtres successives du signal de l’adéquation
du filtre représentant le conduit vocal (et incorporant également les paramètres
spectraux de la source). Les auteurs avaient également bien pris soin d’éviter la
présence d’occlusives dans leurs exemples, qui étaient du type « all lions are roaring
», dont les occlusives ne sont pas directement prises en compte par le modèle source-
filtre.
Sans doute vexés par le retentissement de la méthode LPC et la promotion assurée
par les services de communication de la Bell (installée sur la côte Est des États-Unis),
les chercheurs de la côte Ouest se sont ingéniés à démontrer que la méthode de
résolution du filtre modélisant le conduit vocal ne faisait que reprendre la méthode de
résolution d’un système d’équation proposé par Prony en… 1792, et s’amusèrent à
chaque fois à citer en français le Journal de l’École polytechnique de l’an II de la
République dans les références aux implémentations diverses qu’ils publiaient.
Aujourd’hui, les experts de l’analyse du signal de parole héritiers des premières
recherches se réfèrent toujours à la méthode LPC. Il s’agit en majorité d’ingénieurs en
traitement du signal qui se préoccupent plus du codage de la parole pour la
transmission téléphonique ou par Internet. En revanche, les chercheurs qui
s’intéressent plutôt à la recherche phonétique et la caractérisation de la voix
mentionnent eux la méthode de Prony…
Chapitre 6

Spectrogrammes

1. Lecture de spectrogrammes

Le spectrogramme est, avec l’analyseur de mélodie (chapitre 7), l’outil


privilégié des phonéticiens pour l’analyse acoustique de la parole. On a
vu que cette représentation graphique du son est réalisée à la manière des
films de cinéma, en prélevant dans le continuum sonore des
«instantanés» analysés par transformée (ou série) de Fourier.
Théoriquement, considérant la vitesse de modification des organes
articulatoires, le nombre nécessaire de prélèvements temporels par
seconde est de l’ordre de 25 à 30. Une pratique courante consiste à lier le
nombre d’instantanés temporels à la durée de la fenêtre de prélèvement,
qui elle-même conditionne la résolution fréquentielle des spectres
successifs obtenus. Ainsi une durée de 11 ms correspond à une résolution
fréquentielle de 300 Hz et à un prélèvement du signal toutes les 5,5 ms.
Une bande étroite est obtenue par une fenêtre de 46 ms, donc un spectre
toutes les 23 ms.
La résolution fréquentielle est théoriquement égale à l’inverse de la
durée de la fenêtre. Pour pouvoir observer des harmoniques d’une voix
masculine à 100 Hz par exemple, il faut donc une résolution fréquentielle
de l’ordre de 25 Hz, donc une fenêtre de 40 ms (les spectrogrammes
implantés dans des programmes tels que WinPitch réalisent
l’interpolation graphique des pics d’intensité du spectre de manière à
avoir une représentation graphique qui ne dépende pas du choix de la
fenêtre).
L’interpolation graphique intervient également dans l’axe temporel.
Avec les processeurs actuels, le plus simple est de faire glisser la fenêtre
de prélèvement temporel de manière à faire correspondre le nombre de
spectres au nombre de pixels de
l’écran graphique (ou éventuellement de
l’imprimante), quelle que soit la durée du signal affiché sur l’écran. On
obtient ainsi une image spectrographique qui paraît très détaillée à la fois
dans l’axe temporel et dans celui des fréquences. En réalité, l’information
disponible sur l’axe des fréquences résulte des propriétés de l’analyse de
Fourier vues dans le chapitre 5, et qui donnent n/2 valeurs de fréquence
pour un segment de parole représenté par n échantillons. L’apparence
d’un spectre continu sur l’axe des fréquences résulte d’une interpolation
(qui peut être une sous-interpolation si le nombre de pixels de l’affichage
est inférieur au nombre de fréquences).
Un spectrogramme réalise en fait une représentation en trois
dimensions : le temps sur l’axe horizontal, la fréquence des composantes
harmoniques (pour Fourier) ou non harmoniques (pour Prony) sur l’axe
vertical et l’intensité des différentes composantes sur un axe
perpendiculaire à la feuille, qui est encodée par le niveau de noir (il
existe des codages couleur, mais ceux-ci n’ont pas beaucoup de succès
auprès de phonéticiens…). Sur écran d’ordinateur ou sur papier, temps,
fréquence et intensité de chaque composante sont interpolés de manière à
apparaître sous l’aspect traditionnel des spectrogrammes analogiques des
années 1960.
On a vu plus haut que la durée de la fenêtre temporelle définissant le
segment de parole à analyser à un instant donné détermine la résolution
fréquentielle des spectres successifs représentés sur le spectrogramme.
La première observation à faire sur un spectrogramme est de constater
qu’un son de fréquence constante est représenté par une ligne
horizontale, dont l’épaisseur dépend du type et de la durée de la fenêtre
utilisée (la plupart des logiciels de spectrographie de la parole utilisent
une fenêtre de Hanning par défaut). La Figure 6.1donne quelques
exemples d’analyse de son «pur» à 1 000 Hz.
Figure 6.1
. – Son pur à 1 000 Hz analysé avec une fenêtre de 25 ms
rectangulaire, de Hann(ing), de Harris (à gauche), avec une
fenêtre de Harris de 6 ms et de 51 ms (à droite)
On constate que la fenêtre de Harris (pourtant peu utilisée en
phonétique acoustique) donne les meilleurs résultats à durée de fenêtre
égale.
La Figure 6.2illustre par deux exemples l’interpolation en fréquence :
alors que les spectres en un instant donné (à droite de la figure) montrent
des variations en escalier (à bande étroite en haut de la figure et à bande
large en bas), les spectrogrammes correspondants (à gauche de la figure)
présentent un aspect continu à la fois sur les axes du temps et des
fréquences. On observe également que le réglage à bande large brouille
les harmoniques de manière à mieux faire apparaître les zones
formantiques.
Figure 6.2
. – Spectrogrammes à bande étroite (en haut à gauche) et
à bande large (en bas à gauche). À droite de la figure les
spectres correspondant à un instant donné du signal
En fait, le réglage à bande large ne correspond pas à une valeur
absolue de durée de fenêtre et de résolution fréquentielle. Comme il
s’agit de ne plus distinguer les harmoniques dans le spectrogramme, le
bon réglage de la bande large dépend de l’espacement des harmoniques,
et donc de la fondamentale. Une valeur de durée de fenêtre de 16 ms sera
adéquate pour une voix masculine mais ne le sera pas nécessairement
pour une voix féminine, qui requiert une fenêtre de 8 ms ou 4 ms pour
obtenir un spectrogramme à bande large.
2. Segmentation

Connaissant l’énoncé analysé, après avoir obtenu un spectrogramme à


bande large plus approprié à la segmentation visuelle, la première
opération consiste à en faire une transcription phonétique utilisant les
caractères définis dans l’API (alphabet phonétique international). La
Table 6.1donne la liste des symboles utilisés pour le français, avec des
exemples correspondants.
Table 6.1
. – Symboles phonétiques pour le français

Pour illustrer les différentes étapes pratiques de segmentation sur un


spectrogramme, nous utiliserons un court enregistrement dont la
transcription orthographique est «et Fafa ne visa jamais le barracuda »
(exemple prononcé par G.B.).
Transcription phonétique

La première chose à faire est une transcription phonétique (étroite, i.e.


détaillée) de la réalisation sonore :

[efafanəvizaZamεləbarakyda]

Silences

La deuxième opération consiste à repérer les silences éventuels (pour


lesquels n’apparaissent sur le spectrogramme que les spectres de bruits
de fond, le plus souvent sous la forme d’une barre horizontale aux
environs de 100 Hz).

Figure 6.3
. – Repérage des silences [efafanəvizaZamεləbarakyda]

Fricatives

Après avoir repéré les consonnes fricatives dans la transcription


phonétique, il faut ensuite les identifier dans le spectrogramme. Voisées
ou non voisées, les fricatives apparaissent de manière caractéristique sous
la forme de nuages de points plus ou moins foncés, sans structure
harmonique (Figure 6.4). Les fricatives voisées ne présentent
d’harmoniques que pour les basses fréquences du spectre, aux environs
de 120 Hz pour les voix masculines et 200 Hz à 250 Hz pour les voix
féminines.

Figure 6.4
. – Repérage des fricatives non voisées
[efafanəvizaZamεləbarakyda]

Figure 6.5
– Repérage des fricatives voisées
[efafanəViZaZamεləbarakyda]
Occlusives

L’étape suivante a trait aux occlusives. Les occlusives voisées et non


voisées sont caractérisées par la tenue, fermeture du conduit vocal
apparaissant comme un silence, suivi d’une détente représentée sur le
spectrogramme par une barre verticale d’explosion (de détente de
l’occlusion du conduit vocal) relativement nette (théoriquement, une
impulsion présente toutes les composantes
fréquentielles dans l’analyse
harmonique de Fourier). Comme dans le cas des fricatives, les occlusives
voisées se différencient des non voisées par la présence d’une barre
horizontale, parfois difficile à distinguer de la barre de bruit de fond pour
les voix masculines.

Figure 6.6
.– Repérage des occlusives non voisées
[efafanəviza3amεləbarakyda]
Figure 6.7
. – Repérage des occlusives voisées
[efafanəvizaʒamεləbarakyda]

Voyelles

On réalise ensuite la segmentation des voyelles. Les voyelles


présentent une structure harmonique spécifique, mais qu’il est malaisé de
différencier au départ sans recourir à une mesure même approximative
des fréquences de formants. En pratique, la segmentation préalable des
consonnes fricatives et occlusives rend souvent cette identification inutile
puisque l’on connaît la séquence des sons dans la transcription
phonétique, pourvu qu’il n’y ait pas de voyelles contiguës ou en contact
avec une consonne nasale ou avec une consonne latérale [l] ou encore [r].
Figure 6.8
. – Repérage des voyelles [efafanəvizaʒamεləbarakyda]
Dans ce dernier cas, il faut se fier à la stabilité relative des formants
que sont censées présenter les voyelles (en français). La Figure
6.8montre un exemple de séquence de voyelles. D’une manière générale,
les voyelles se caractérisent également par une amplitude plus grande que
les consonnes sur les oscillogrammes.

Nasales

Les consonnes nasales sont souvent les plus difficiles à identifier. Elles
présentent en général une amplitude plus faible que les voyelles
adjacentes, qui se traduit par des formants de moindre
intensité.
Heureusement, on peut souvent les repérer par défaut en ayant
préalablement identifié les voyelles adjacentes. Il en va de même pour les
liquides [l] et les variantes de [r], [R] (qui se reconnaissent aussi aux
battements visibles à bande large avec un niveau suffisant de zoom
temporel).
Figure 6.9
. – Repérage des consonnes nasales
[efafanəvizaʒamεləbarakyda]

Le R

Le phonème |r|, unité du système phonologique du français, connaît


plusieurs réalisations liées à l’âge des locuteurs, à la région, aux variables
socio-économiques, etc. Ces différentes réalisations impliquent des
processus phonatoires différents qui se refléteront différemment sur un
spectrogramme.
Figure 6.10
. – Battements d'un [r] uvulaire

Lecture de spectrogramme à l’aide d’un logiciel d’analyse phonétique

La segmentation d’un spectrogramme allie connaissance des


caractéristiques articulatoires et leur traduction sur les spectres
successifs. Elle fait aussi appel à l’expérience et à l’apport d’informations
extérieures (par exemple la courbe oscillographique). Si l’on dispose
d’un logiciel d’analyse acoustique (WinPitch, Praat, etc.), on peut s’aider
des fonctions de réécoute d’un segment du signal pour repérer les limites
d’un son particulier. La fonction ralentisseur de parole de certains de ces
logiciels apporte également une aide précieuse. Il ne faut pas perdre de
vue non plus que la segmentation ne peut être qu’approchée, puisqu’il
n’y a pas de frontière physique précise dans le signal qui corresponde aux
sons de la parole tels que perçus par l’auditeur ni bien sûr aux phonèmes
(entités formelles abstraites) puisque la parole résulte d’un geste
articulatoire continu.

3. Comment mesurer les fréquences des formants ?


Les formants sont des zones d’harmoniques renforcées. Mais comment
déterminer ces zones sur un spectrogramme par exemple et ensuite
comment mesurer la fréquence centrale qui va caractériser le formant?
De plus, à cette fréquence s’ajoute la largeur de bande, c’est-à-dire la
largeur en Hz que prend la zone de formant avec une amplitude
supérieure à l’amplitude maximale censée être au centre du formant
diminuée de 6 dB.
Si cette définition semble limpide, sa mise en application en revanche
pose plusieurs questions. Puisqu’en fait les formants n’existent que par
les harmoniques, l’estimation de leur fréquence ne pourra se faire qu’à
travers l’estimation des sommets des spectres (par l’analyse de Fourier)
ou des pics des spectres de Prony.

Figure 6.11
. – Voyelle [α] : Spectre de Fourier bande large, bande
étroite et spectre de Prony
On conçoit que l’analyse de Fourier demande d’une part une
estimation visuelle pas toujours évidente des sommets du spectre, et
d’autre part introduise une erreur (au moins par inspection visuelle) égale
à la moitié de l’écart entre deux harmoniques proches du sommet. Il est
cependant possible de réduire cette erreur par interpolation parabolique
par exemple. Lorsque le spectre de Fourier est à bande étroite de manière
à mieux distinguer les harmoniques, au prix, rappelons-le, d’une faible
résolution temporelle, donc de l’obtention d’une moyenne relevant de
toute la durée de la fenêtre temporelle nécessaire à l’analyse, l’estimation
visuelle n’est pas nécessairement plus facile. Du reste, la mise au point
d’algorithmes implémentés sur ordinateur pour automatiser cette mesure
se révèle très difficile et les réalisations existantes sont peu
convaincantes.
Un cas extrême de la mesure de formant est celui posé par le
«problème de la cantatrice». Imaginons qu’une soprano doive chanter
dans sa partition la voyelle [ə], dont les formants sont respectivement F1
500 Hz, F2 1 500 Hz, F3 2 500 Hz, F4 3 500 Hz, etc. Dès que la
fréquence laryngée de la chanteuse dépassera la fréquence du premier
formant, pour atteindre par exemple 800 Hz, ce premier formant ne
pourra plus être réalisé puisque aucun harmonique ne correspondra à 500
Hz, fréquence du premier formant de la voyelle à réaliser. Cela illustre
bien la séparation qu’il y a lieu de faire entre source laryngée,
responsable de la fréquence des harmoniques, et configuration du conduit
vocal, responsable de la fréquence des formants (en réalité une
interaction entre les deux processus existe, mais on peut la négliger en
première approximation).
L’analyse de Prony semble bien plus satisfaisante pour mesurer les
formants en ce qu’elle présente des pics correspondant aux formants
faciles à identifier visuellement et par algorithme. Les Figures 6.12 et
6.13 illustrent l’effet de l’ordre du filtre sur le spectre résultant. Les
Tables 6.2et 6.3 donnent les fréquences de formants correspondant aux
pics de chaque spectre.

Figure 6.12
. – Spectre de Prony d'ordre 12, 10 et 8
Table 6.2
. – Valeurs des pics du spectre
Figure 6.13
. – Spectre de Prony d'ordre 6, 4 et 2
Table 6.3
. – Valeurs des pics du spectre

Ces exemples montrent l’influence de l’ordre du filtre, qui est un


paramètre d’analyse généralement accessible par l’opérateur, sur les
valeurs des formants obtenues.
Il semble donc y avoir stabilisation des valeurs des pics censés
représenter les formants à partir d’un ordre de calcul suffisant. Qu’est ce
que cela reflète? Pour répondre à cette question, augmentons fortement
l’ordre de Prony, par exemple jusqu’à 100. Nous voyons alors apparaître
des pics qui correspondent non plus
aux formants, mais aux fréquences
harmoniques. Les sommets locaux de ces pics sont semblables à ceux de
l’analyse de Fourier et correspondent effectivement aux fréquences de
formants de la voyelle analysée.

Figure 6.14
. – Spectre de Prony d'ordre 100 montrant des pics
correspondant aux harmoniques du signal
En résumé, dans l’hypothèse d’un signal (relativement) stationnaire, le
nombre de formants étant égal au nombre de coefficients/2, on adopte la
règle heuristique : Nbre coeff = 2 + (Fréquence d’échantionnage/1 000).
Il faut noter de plus que la position des formants dépend de la méthode
de résolution (autocorrélation, covariance, Burg…), et bien sûr que la
méthode n’est pas valable pour les occlusives ou les nasales (à moins de
recourir au modèle ARMA dont la résolution n’est en général pas
disponible sur les logiciels d’analyse phonétique).
Pour terminer ce chapitre, la Figure 6.15montre une comparaison de
spectrogrammes de Fourier (à bande moyenne) et de Prony qui permet
d’apprécier les avantages et les désavantages des deux méthodes pour la
mesure des formants.
Figure 6.15
. – Comparaison des spectrogrammes de Fourier et de
Prony

Le mythe de l'empreinte vocale


Lorsque les premiers spectrographes destinés à l’analyse acoustique de la parole
sont apparus, les services de police de divers pays (surtout des USA et de l’URSS de
l’époque) se sont intéressés aux applications possibles dans le domaine de
l’identification des suspects, au point que des compagnies américaines produisant des
spectrographes ont pris des noms tels que Voice Identification pour mieux assurer leur
visibilité pour ces nouveaux clients. La plupart du temps, les procédures mises en
place portaient sur l’analyse d’une seule voyelle ou d’une seule syllabe, ce qui rendait
évidemment la fiabilité de ces analyses de voix bien aléatoire. En effet, si nous
pouvons identifier les voix d’environ une cinquantaine ou au maximum une centaine
de proches, il nous est difficile de le faire avant d’en avoir entendu un certain nombre
de syllabes. De plus, contrairement aux empreintes digitales ou aux spectres ADN, le
spectre et la structure formantique d’un locuteur donné sont liés à un grand nombre de
facteurs tels que la condition physique, le taux de fatigue des cordes vocales, le taux
d’humidité, etc. D’autre part, l’identification par empreinte vocale suppose que
certaines caractéristiques physiques des organes vocaux, qui influencent la qualité du
son de la parole, ne sont pas exactement identiques d’une personne à une autre. Ces
caractéristiques sont la taille des cavités vocales, la gorge, le nez et la bouche, et la
forme des muscles d’articulation de la langue, la mâchoire, les lèvres et le voile du
palais.
On sait de plus que la mesure des fréquences de formants n’est pas une opération
triviale. Dans le cas de l’analyse de Fourier, elle dépend de l’expertise de
l’observateur pour sélectionner la bonne largeur de bande, repérer les formants de
manière appropriée et estimer leur fréquence quelle que soit la fréquence laryngée.
Cette dernière condition donne lieu à de nombreuses erreurs dans le calcul des
formants puisque leur fréquence doit être estimée à partir de l’identification d’une
zone d’harmoniques de plus forte amplitude. En fait, les ressemblances qui peuvent
exister pour les sonagrammes correspondant à un mot donné prononcé par deux
locuteurs peuvent être dues au fait qu’il s’agit justement du même mot. Et,
inversement, un même mot prononcé dans des phrases différentes par un même
locuteur peut présenter des tracés différents. Sur le spectrogramme, les répétitions
présentent de très nettes différences. Actuellement, en France, la police scientifique
continue malgré tout à identifier les suspects en se basant, pour l’essentiel, sur ce type
de comparaison, qui a pourtant fait la preuve de son inefficacité. L’identification
d’une voix sur une seule durée restreinte, d’une seule voyelle par exemple, est plus
qu’hasardeuse. En réalité les caractéristiques de variations de rythme et de débit, les
réalisations de contours mélodiques sur les voyelles accentuées (et non accentuées)
sont bien plus porteuses d’informations sur le locuteur qu’une seule tranche réduite de
parole.
Il s’est ensuivi un grand nombre de controverses légales qui ont eu plus d’écho en
Europe qu’au États-Unis. Dans ce dernier pays en effet (comme dans d’autres), il est
parfois difficile pour un scientifique spécialiste de l’analyse acoustique de la parole de
résister aux avocats prêts à compenser financièrement de façon très large le labeur de
l’expert, pourvu que ses conclusions aillent dans le sens souhaité. À la suite
d’expertises judiciaires controversées, un rapport de l’Acoustical Society of America
(JASA) a conclu dès 1970 que l’identification fondée sur ce type de représentation
entraînait un taux d’erreur important et difficilement prévisible (Boë, 2000).
Chapitre 7

La fréquence fondamentale

1. Répétition des cycles laryngés

Un des premiers liens qui ont pu être établis entre la production de


parole et les courbes de vibrations sonores est celui qui, dans la
génération de voyelles, lie la hauteur de la voix et les vibrations de
cordes vocales. En effet, sur un tracé oscillographique, la répétition plus
ou moins approximative d’un motif parfois complexe semble
relativement facile à observer. Sur la Figure 7.1, on reconnaît facilement
les répétitions d’un motif graphique traduisant les oscillations
caractéristiques de vibration laryngée.

Figure 7.1
. – Motifs caractéristiques répétés de vibration laryngée
En examinant la Figure 7.1plus en détail (il s’agit d’une voyelle [a], et
l’échelle horizontale est graduée en secondes), on remarque 16
répétitions d’un motif allant de 1,403 à 1,510 seconde. On en déduit que
la durée moyenne d’un cycle de vibration est d’environ (1,510 –
1,403)/16 = 6,68 ms.
Dans une autre occurrence de la voyelle [a], prononcée par le même
locuteur dans la même phrase, on observe un motif comparable mais les
vibrations succédant à la vibration principale sont plus importantes dans
le premier exemple que dans le second, et surtout les crêtes présentent
plusieurs rebonds d’égale amplitude (Figure 7.2).

Figure 7.2
. – Motifs d'une autre occurrence de la voyelle [α]
Dans la voyelle [i] de la Figure 7.3on observe 16 répétitions d’un motif
d’oscillation d’environ (0,774 – 0,670)/16 = 6,50 de période moyenne.

Figure 7.3
. – Motifs d'une occurrence de la voyelle [i]
On sait que les motifs répétés à chaque période d’une part ne sont pas
exactement reproduits à l’identique, et d’autre part sont différents pour
les deux exemples de [a] et de [i]. On pourrait penser que la description
du motif pourrait suffire à caractériser ces deux voyelles. Or
(malheureusement) il n’en est rien! Si, comme on l’a vu dans le chapitre
consacré à l’analyse spectrale des voyelles, les composantes harmoniques
créées par les vibrations laryngiennes présentent des amplitudes
relativement grandes dans certaines gammes de fréquences (les
formants), zones résultant de la configuration articulatoire dont ces
voyelles, les phases relatives des différents harmoniques ne sont pas
nécessairement stables et peuvent non seulement varier de locuteur à
locuteur, mais aussi au cours de l’émission d’une même voyelle par un
seul locuteur.

2. La fréquence fondamentale n'est pas une fréquence !


La fréquence fondamentale n’est pas une fréquence et les périodes
observables sur le signal (la courbe oscillographique) ne sont pas des
périodes puisque les motifs répétés ne sont pas identiques de cycle à
cycle. Or la définition et le concept de période se rapportent
nécessairement à des événements périodiques. On parle alors
d’événements quasi périodiques, mais cette idéalisation – ou ce
compromis avec la réalité – est plus ou moins acceptable
en pratique.
Elle peut mener à des interprétations erronées des résultats de l’analyse
acoustique basée sur l’hypothèse de périodicité, hypothèse qui en tout
état de cause n’est jamais totalement vérifiée.
Le concept de quasi-périodicité étant posé,la fréquence laryngée est
définie comme l’inverse de la durée d’un cycle laryngé, donc un cycle de
vibration des cordes vocales appelé «période laryngée». Pour qu’une
valeur de mesure de cette période laryngée puisse être affichée par un
instrument de mesure (« un analyseur de mélodie »),il faut évidemment
que la vibration soit achevée comme le montre la Figure 7.4. Une mesure
en temps réel ne pourra donc qu’être décalée d’une durée égale à la
période laryngée avant son affichage.
Figure 7.4
. – Définition de la fréquence (d'impulsion) laryngée

3. Fréquence laryngée et fréquence fondamentale

Les sons de la parole dits «voisés» (voyelles, consonnes telles que [b],
[d], [g]) sont produits avec vibration des cordes vocales ou vibration
laryngienne. La fréquence laryngée, symbole F1, se mesure directement à
partir des propriétés physiologiques liées aux vibrations des cordes
vocales, comme par exemple les variations d’impédance électrique au
voisinage de la glotte. La mesure acoustique de la fréquence
fondamentale Fo du signal de parole est en réalité une estimation de la
fréquence laryngée. Fo est donc une estimation de F1 faite à partir du
signal acoustique.
La fréquence laryngienne peut être également estimée directement par
l’observation des données physiologiques liées à la vibration des cordes
vocales (laryngographe). Ces mesures physiologiques tendent à repérer
dans le temps les différentes phases du cycle de vibration glottique
(laryngoscopie, variation d’impédance électrique au niveau de la glotte,
etc.). Dans ce cas, si t1 et t2 désignent les débuts de deux cycles de
vibration consécutifs, la période laryngienne est égale à T1 = t2 – t1 et la
fréquence laryngienne est définie par (Figure 7.4) F1= 1/(t2 - t1) pour t1
< t ≤ t2.
La fréquence laryngienne peut varier considérablement au cours de la
phonation et peut s’étendre sur plusieurs octaves. Dans les cas extrêmes,
il est possible d’observer des transitions allant de 100 Hz à 300 Hz
(passage du mode de phonation normal au mode falsetto) pendant un
intervalle de deux ou trois cycles.
D’autre part, les cycles successifs présentent des variations de
plusieurs pour-cent autour d’une valeur moyenne, selon entre autres l’état
physiologique des muscles impliqués dans le mécanisme de vibration.
Même l’observation directe (par cinématographie rapide par exemple) ne
permet pas toujours le repérage précis des débuts de cycle (voix creaky,
soufflée, etc.). Il en résulte une erreur difficile à réduire.
La mesure de Fo peut se faire à partir du signal de parole dans le
domaine temporel, par exemple après filtrage du signal, ou dans le
domaine fréquentiel, à partir de la fréquence fondamentale (au sens de
Fourier) d’un son voisé. Les variations successives des valeurs de Fo au
cours du temps portées en graphique constituent la courbe mélodique
produite lors de la phonation.
On peut dire que la difficulté de la mesure de la fréquence
fondamentale provient en grande partie de ce qu’il n’y a pas de cycles de
vibration glottique à proprement parler, mais plutôt récurrence d’un
mouvement contrôlé par de nombreux paramètres (muscles adducteurs et
de tension contrôlant les cordes vocales, pression sous-glottique, etc.). Le
signal de parole à partir duquel s’effectue la mesure résulte de
l’interaction complexe de l’excitation glottique et des variations
temporelles de la forme du conduit vocal.
Les outils mathématiques habituellement utilisés en traitement de
signal et conçus pour l’étude de phénomènes périodiques se révéleront
souvent mal adaptés à ce genre d’analyse, pour lequel rien n’est vraiment
stationnaire. C’est pourquoi il existe littéralement des centaines de
procédés et d’algorithmes de mesure de la fréquence fondamentale (Hess,
1983), qui peuvent se classer en méthodes temporelles et méthodes
fréquentielles. La difficulté de la mesure tient à plusieurs raisons :
-  la composante fondamentale est parfois absente dans le signal,
soit parce qu’elle a été filtrée (cas des liaisons téléphoniques
analogiques), soit du fait de la nature de certaines voyelles (cas
du [u] par exemple) ;
- la présence de bruits divers dans le signal (est considéré comme
bruit tout ce qui ne résulte pas de la production du signal de
parole) rend difficile l’identification des composantes
harmoniques pertinentes pour le calcul de Fo, et en particulier
celle de la première composante censée correspondre à la
fondamentale ;
-  le codage et la compression du signal selon divers procédés tels
que MP3, WMA, OGG, etc. introduit en général après
décompression des perturbations dans les valeurs fréquentielles
des différents harmoniques, ce qui peut perturber la mesure de
Fo qui est faite à partir de ces informations.

4. Méthodes temporelles

Les méthodes temporelles s’efforcent de mesurer les périodes


laryngées successives à partir de l’évolution du signal dans le temps, sans
passer par une analyse spectrale quelconque. Elles évitent donc en
principe un fenêtrage qui réduirait la résolution temporelle de la courbe
mélodique obtenue. L’approche qui paraît la plus naturelle lorsque l’on
considère des motifs de variation laryngée telle que la Figure 7.5est
d’identifier les sommets successifs et d’en mesurer les distances
temporelles, ce qui devrait correspondre aux (pseudos-)périodes
laryngées.

Figure 7.5
. – Forme d'onde (courbe oscillographique) d'une voyelle
[α]
Si visuellement cette tâche semble pouvoir aisément être menée à bien,
c’est loin d’être le cas pour un processus électronique ou algorithmique.
La difficulté consiste à repérer les «bons» pics, ce qui visuellement se fait
en réalité par une identification des motifs répétés qui constituent un
cycle laryngien. Le cas de la Figure 7.6montre une autre difficulté liée
aux changements de phase de certains harmoniques de cycle en cycle : le
«bon» pic semble alors se déplacer d’un motif à l’autre.

Figure 7.6
. – Courbe oscillographique d'une voyelle [i]
Lors des débuts de l’analyse acoustique de la parole, on ne disposait
pas de spectrographes (l’analyse harmonique de Fourier était exécutée à
la main…), et le calcul (approché) de la fréquence laryngée se faisait à
partir des tracés de vibration laryngée obtenus grâce au kymographe.
Après avoir identifié visuellement la répétition des motifs
caractéristiques de chaque cycle, on pouvait soit faire une mesure directe
de la période en mesurant la distance entre deux instants apparemment
semblables de la vibration (haut de la Figure 7.7), soit mesurer la durée
prise par un certain nombre de périodes (10 par exemple). Cette dernière
méthode a l’avantage de diviser l’erreur de mesure (inévitable et due à
l’épaisseur du tracé, à la faible longueur de l’intervalle graphique entre
autres) par le nombre de motifs considérés.

Figure 7.7
. – Mesures manuelles de la fréquence laryngée
Devant les configurations difficiles de la mesure aux motifs changeant
de cycle à cycle, on aimerait se rapprocher du cas idéal de la sinusoïde,
par exemple en utilisant un filtre passe-bas tel qu’il ne laisse passer à la
sortie qu’une seule composante harmonique, de manière à ce que le
signal de sortie ne présente qu’un seul pic ou que deux passages par zéro
par période laryngée de l’entrée.
Deux nouveaux problèmes apparaissent alors. D’une part, il faudra
ajuster la fréquence de coupure du filtre passe-bas pour que la condition
soit toujours remplie quelle que soit la fréquence fondamentale du signal.
Or c’est en général une donnée inconnue puisque la fondamentale est
précisément ce que l’on cherche à mesurer. Il faudra manuellement ou
automatiquement ajuster le filtre ou commuter un banc de filtres passe-
bas de manière à remplir la condition de mesure (une sinusoïde à la
sortie, ou au moins seulement deux passages par zéro du signal de sortie
par période laryngée). Cette technique a longtemps été utilisée par des
analyseurs de mélodie commerciaux.
D’autre part, la mesure du signal de sortie est lui-même sujet à erreur.
Si la mesure des périodes se fait par détection des sommets successifs,
l’erreur peut être due à la présence d’harmoniques non filtrés dans le
signal de sortie et au déphasage ainsi produit dans les sommets
successifs. S’il se fait par détection de passages par zéro du signal de
sortie, la présence inévitable de bruit impose
une valeur pratique non
nulle de cette valeur «zéro», et donc un déphasage dû cette fois à des
changements d’amplitude du signal de sortie (Figure 7.8). Pour
minimiser ce type d’erreur, des techniques de compensation par détection
des passages par «zéro» positif et négatif ont été réalisées (Pitch
Computer de Frøkjaer-Jensen, 1975).

Figure 7.8
. – Effet de variations d'amplitude sur la mesure de
périodes par passage par zéro biaisé
Aujourd’hui, les méthodes temporelles sont peu utilisées, sauf si elles
sont pilotées par une méthode fréquentielle plus robuste qui encadre les
valeurs de période possibles. On peut alors conjuguer les avantages des
méthodes fréquentielles et temporelles en réalisant des mesures période
par période, nécessaires pour la mesure du jitter et du shimmer par
exemple.
Un dispositif simple appartenant à la catégorie des méthodes
temporelles consiste à recouvrer la fréquence fondamentale par un filtre
passe-bas, de fréquence de coupure ajustable manuellement ou
automatiquement selon les variations de la fondamentale. Le filtre est
suivi d’un fréquencemètre opérant (par exemple) à partir des passages
par zéro du signal filtré.
Les caractéristiques du filtre sont choisies de manière à éliminer les
composantes harmoniques indésirables afin que le nombre de passages
par zéro du signal filtré corresponde à celui de la source.
On peut montrer (McKinney, 1965) que cette condition est satisfaite si
la somme des amplitudes des différents harmoniques supérieurs à un
multipliés par leur rang harmonique est inférieure à l’amplitude de la
fondamentale.
Un filtre passe-bas de fréquence de coupure fixe convient donc pour
des sons de parole dont le modèle de production prévoit une amplitude
suffisante de la fondamentale, l’absence d’occlusives, etc. Des voyelles
telles que [u] (comme dans « mou »), qui souvent présentent une
amplitude de la fondamentale de 10 dB à 12 dB inférieure à celle du
deuxième harmonique, ne pourront être traitées correctement avec ce
système et il faudra prévoir une atténuation du filtre plus forte, entraînant
une réduction de la bande de fréquence d’analyse utile du filtre (Boë et
Rakotofiringa, 1971).
D’autre part,le filtrage provoque inévitablement des déphasages des
harmoniques en sortie, ce qui peut provoquer des erreurs dans la
sélection automatique de filtres configurés dans un banc de filtres. Il est
toutefois possible de compenser ces déphasages par l’emploi de lignes à
retard par exemple (Léon et Martin, 1970).
La mesure de Fo par autocorrélation d’une fenêtre temporelle (de 10
ms à 50 ms de durée) est une méthode qui peut être aujourd’hui
implémentée en temps réel et donne des résultats satisfaisants lorsque le
signal ne varie pas trop d’une période à l’autre (quasi-périodicité). Le
maximum de la fonction d’autocorrélation est obtenu en principe lorsque
le décalage entre le signal original et le signal décalé est égal à une
période fondamentale.
Malheureusement, pour des signaux où le deuxième harmonique est
renforcé par le premier formant, le maximum de la fonction
d’autocorrélation correspond au deuxième harmonique donnant une
mesure erronée de Fo (frequency doubling).
La formule mathématique de l’autocorrélation est ,

ce qui signifie simplement que la valeur de cette fonction pour un


décalage τ donné est obtenue par la somme des valeurs d’une fenêtre de
durée T multipliée par les valeurs prises au même endroit dans une autre
fenêtre du signal décalée d’une durée τ.

Figure 7.9
. – Principe du calcul de Fo par autocorrélation
C’est donc la durée de la fenêtre temporelle qui constitue le paramètre
du calcul de Fo (en fait To, la période fondamentale) par autocorrélation.
Cette durée doit être supérieure à la période fondamentale cherchée.
Un prétraitement non linéaire plus ou moins heuristique, comme
l’écrêtage du signal (peak clipping), la rétention du «centre» du signal
après écrêtage (center clipping), l’élévation au carré ou au cube, le
simple ou double redressement améliore parfois la situation en renforçant
l’amplitude de la fondamentale avant le calcul de l’autocorrélation, ou
même la mesure des passages par zéro. La Figure 7.10 en donne deux
exemples.

Figure 7.10
. – Prétraitement non linéaire du signal center clipping et
peak clipping (écrêtage)
La méthode temporelle AMDF (pour l’anglais «Average Magnitude
Difference Function») était naguère fort répandue. Il s’agit cette fois de
trouver le minimum d’une fonction

qui établit pour quel décalage τ la somme des différences absolues prises
terme à terme des échantillons de deux fenêtres de durée T donne la
meilleure correspondance (la correspondance parfaite donne une valeur
de l’AMDF nulle).

5. Méthodes fréquentielles

L’examen visuel d’un spectrogramme d’une voyelle, ou simplement


d’un seul spectre révélant clairement ses harmoniques, suggère que
l’utilisation de méthodes fréquentielles devrait être plus efficace que les
méthodes temporelles. En effet, puisque la fréquence fondamentale est
égale à l’intervalle de fréquence existant entre deux harmoniques
consécutifs, il suffit en théorie d’identifier deux harmoniques consécutifs
quelconques.
L’accélération des fréquences d’horloge de microprocesseurs ces vingt
dernières années a permis l’utilisation des procédés d’analyse de Fo dans
le domaine fréquentiel qui suppose une analyse harmonique de Fourier
comme prétraitement. Au lieu d’opérer sur une fenêtre temporelle du
signal et d’en déterminer la (pseudo-)régularité, on utilise tout ou partie
des informations harmoniques contenues dans le spectre.

Figure 7.11
. – Mesure de Fo à partir d'un spectrogramme à bande
étroite. Pour réduire l'erreur, on mesure la fréquence du 10e
harmonique que l'on divise ensuite par 10
On pourrait penser que la méthode la plus simple consiste à retenir le
premier harmonique du spectre comme fréquence fondamentale. Hélas,
la présence de bruits de diverse nature et surtout l’absence possible de ce
premier harmonique dans le spectre rendent cette méthode peu fiable. Le
signal délivré par les téléphones (analogiques et numériques) est
dépourvu la plupart de temps de composantes inférieures à 300 Hz (la
bande passante d’un signal téléphonique analogique est de 300 Hz à 3
400 Hz par design). Toutefois, la méthode par repérage visuel de la
fondamentale à partir d’un spectrogramme à bande étroite a longtemps
été utilisée. Pour réduire l’erreur sur la valeur de Fo, difficile à estimer vu
l’épaisseur des courbes représentant les harmoniques, on mesurait la
fréquence du dixième harmonique qui, divisée ensuite par 10, permet de
réduire d’autant l’erreur sur la valeur de la fréquence (Figure 7.11).
Si seules les fréquences harmoniques du segment de parole sont
disponibles dans un spectre, à l’exclusion d’autres composantes de bruit,
la fréquence fondamentale est obtenue par l’évaluation du plus grand
commun diviseur des maxima du spectre d’amplitude. Cela implique en
pratique que ces maxima peuvent être identifiés de manière fiable, même
en présence de bruit, et qu’une structure harmonique existe effectivement
dans le spectre. Un spectre ne présentant qu’une seule composante
harmonique, même correspondant à la fondamentale, ne pourra donc pas
convenir.
Un procédé ancien, devenu classique, de ce type d’analyse, est le
cepstre qui procède par l’analyse harmonique du spectre du signal (plus
exactement du logarithme du spectre du signal). On reconnaît ainsi la
périodicité dans le spectre censée correspondre à la fréquence
fondamentale recherchée.
L’importance du maximum du cepstre constitue une indication du
degré d’harmonicité des composantes du spectre du signal, donc aussi
une indication du degré de voisement. Une voyelle présentera une
structure harmonique bien définie par rapport aux composantes de bruit,
et un maximum de cepstre important. Au contraire, une consonne sourde,
donc dépourvue de voisement et dépourvue de pics harmoniques
régulièrement espacés sur l’échelle des fréquences, donnera un cepstre
correspondant au bruit sans pic remarquable.
Diverses méthodes ont été proposées pour évaluer la périodicité des
harmoniques d’un spectre voisé, sans passer par le double calcul d’une
transformée de Fourier nécessaire pour le cepstre.
Ainsi, l’intercorrélation avec une fonction spectrale de type peigne
dont les dents sont d’amplitude décroissante et l’espacement entre les
pics variable, donne de bons résultats (Martin, 1982). Un maximum de
cette fonction d’intercorrélation est obtenu lorsque l’espacement entre les
dents du peigne correspond à un maximum d’harmoniques du spectre
analysé. Une extension de cette méthode, opérant sur l’ensemble des
harmoniques du segment voisé avant le calcul proprement dit de la
fondamentale de manière à utiliser l’ensemble des informations
spectrales du segment voisé (et non plus d’un seul prélèvement temporel)
a été proposée par Martin (2000).
La présence d’une structure harmonique et la valeur de l’intervalle
harmonique correspondant à la fréquence fondamentale sont détectées
lorsque l’intercorrélation atteint un certain seuil dont la valeur peut
également être utilisée comme critère de voisement.
D’une manière générale, les méthodes spectrales supposent moins de
contraintes pour le modèle source-filtre sous-jacent et sont donc plus
résistantes au bruit (au sens défini plus haut) que l’analyse temporelle.
Il reste que l’analyse par une méthode spectrale implique un fenêtrage
du signal qui entraîne une résolution fréquentielle appropriée. Pour des
basses valeurs de Fo, par exemple 70 Hz, il faut une résolution
fréquentielle de l’ordre de 30 Hz, ce qui entraîne une durée de
prélèvement temporel d’environ 40 ms. La valeur calculée de Fo étant
relative à l’entièreté de cette fenêtre, les variations fines ou rapides de Fo
ne pourront pas être mesurées correctement. Une durée d’analyse de 32
ms par exemple donnera une seule mesure de Fo, alors qu’à 300 Hz plus
de 9 valeurs d’estimation de fréquence laryngée pourraient
théoriquement être obtenues. Il faut donc à chaque fois utiliser une durée
de fenêtre temporelle appropriée aux valeurs de Fo attendues mais cela
n’est pas toujours possible en cas de variation de registre rapide.
Les méthodes spectrales, plus résistantes au bruit, conviennent pour
l’étude des macrovariations de Fo (évolution de la courbe mélodique au
regard de la structure syntaxique par exemple). Les dispositifs opérant
dans le domaine temporel sont en revanche souhaitables pour l’étude de
la micromélodie (variations cycle à cycle en physiologie de la
phonation).
Malgré leur complexité et l’ingéniosité des algorithmes, tous les
dispositifs élaborés à ce jour présentent des défaillances dans des
conditions spécifiques. Ces conditions peuvent être déterminées
dans une
certaine mesure à l’avance par le biais du modèle implicite dans le
principe d’analyse. Les erreurs se répartissent en deux groupes :
a  les erreurs dites «grossières» pour lesquelles la valeur obtenue
s’écarte considérablement (de plus de 50 % par exemple) de la
fondamentale « théorique ». C’est le cas des erreurs
d’identification d’harmonique, où l’analyseur propose une valeur
correspondant au deuxième ou au troisième harmonique, et des
«ratés» (le terme anglais est «misses») dus à une baisse
temporaire de l’amplitude de la fondamentale filtrée (cas du
domaine temporel) ;
b  les erreurs dites « fines », pour lesquelles la différence de Fo
mesurée par rapport à la fréquence laryngée mesurée cycle à
cycle n’atteint que quelques pour-cent. Les erreurs fines sont
principalement dues à l’interaction des composantes de bruit
lorsque l’amplitude de la fondamentale est faible.
En pratique, malgré l’apparition de processus de plus en plus élaborés,
la détection fiable de la fréquence fondamentale requiert un signal de
parole de bonne qualité (réponse en fréquence de l’enregistrement et
absence de bruit) et, le plus souvent, la présence effective de la
composante fondamentale dans le signal. En pratique, il est prudent de
toujours afficher un spectrogramme à bande étroite permettant de vérifier
visuellement la pertinence de l’affichage de la courbe de Fo, et de
corriger les paramètres d’analyse si nécessaire.

6. Lissage

Les mesures successives de Fo, par méthodes temporelles ou


fréquentielles, présentent des aspects parfois déconcertants lorsqu’elles
apparaissent sous la forme d’une courbe mélodique. Ces courbes peuvent
présenter de nombreuses irrégularités et erreurs, particulièrement lors des
transitions d’un mode voisé au non voisé et inversement. La plupart des
logiciels utilisent alors un procédé de lissage destiné à obtenir une courbe
qui paraisse plus régulière et plus « agréable » à l’œil de l’observateur.
Les méthodes mathématiques de lissage utilisent en général un
algorithme de lissage par programmation dynamique  : la courbe
mélodique résulte du calcul d’un chemin optimum trouvé à partir des
valeurs « brutes » successives de Fo, en remplaçant si nécessaire des
valeurs atypiques – donc classées comme erronées par l’algorithme –
relativement aux valeurs voisines dans le temps par des valeurs qui
semblent plus vraisemblables selon un certain critère.
À ce type de correction s’ajoute un lissage par filtre médian, qui
remplace une valeur donnée par la médiane d’une table d’un certain
nombre de valeurs consécutives de Fo (on utilise en général un filtre
médian de degré 3 ou 4 utilisant un tableau de 7 ou 9 valeurs de Fo
consécutives). La valeur retenue de Fo peut donc résulter par l’emploi
d’un tel filtre d’un bouleversement dans l’ordre temporel des valeurs
brutes de Fo…
Enfin, un lissage gaussien complète souvent ces deux premières
opérations en donnant comme valeur finale de Fo la moyenne pondérée
par une courbe gaussienne d’un certain nombre de valeurs successives
délivrées par l’opération précédente.
Si le résultat final de ces opérations de lissage peut s’avérer plus
satisfaisant du point de vue d’un critère implicite de régularité graphique
de la courbe mélodique, il ne faut pas perdre de vue que ces
«corrections» introduisent une composante artificielle dans la courbe
mélodique finale, dont l’effet le plus remarquable est de masquer les
variations fines dans la courbe mélodique. La Figure 7.12donne un
exemple de courbe mélodique avec et sans lissage (lissage par
programmation dynamique, filtre médian d’ordre 3 et moyenne
gaussienne).
Figure 7.12
. – Effet du lissage sur la courbe mélodique finale

7. La meilleure méthode d'analyse de Fo

La grande variété des méthodes et de leurs conditions d’utilisation fait


qu’il est difficile de sélectionner la meilleure. Quasi toutes les méthodes,
temporelles ou fréquentielles, ont leurs avantages et leurs inconvénients
et leur usage doit se faire selon la nature du signal de parole analysé. On
peut toutefois énumérer quelques critères de sélection :
1  résolution temporelle  : liée à la longueur de la fenêtre de
prélèvement et à son taux de recouvrement avec les fenêtres
adjacentes;
2  résolution fréquentielle  : liée à l’inverse de la longueur de la
fenêtre de prélèvement ; choix d’une bande plus ou moins large
pour l’analyse harmonique de Fourier selon la gamme de
fréquence fondamentale à mesurer;
3  déphasage dans le cas d’utilisation de filtres passe-bas pour le
recouvrement de la fondamentale dans le domaine temporel.
Il ne faut pas perdre de vue non plus l’importance du prétraitement
(préaccentuation, filtrage) qui aurait eu lieu lors de la prise de son et de
l’enregistrement, et qui influe notablement sur la qualité de la détection
de la fondamentale. Dans tous les cas, le mieux est d’afficher en même
temps que la courbe mélodique un spectrogramme à bande étroite qui
permet par l’inspection visuelle des harmoniques de vérifier la validité de
la courbe mélodique. Des

Figure 7.13
. – Affichage simultané de la courbe mélodique et d'un
spectrogramme à bande étroite, permettant par inspection
visuelle de repérer les erreurs de mesure éventuelles de Fo
modifications des paramètres d’analyse, voire des changements de
méthode permettent alors de corriger des erreurs qui seraient
difficilement détectables sans cet affichage d’informations spectrales
complémentaires.
8. Mesure de l'intensité

On a vu que l’intensité est proportionnelle au carré de l’amplitude d’un


son pur, et qu’elle se mesurait habituellement en décibels par rapport à
une amplitude ou une intensité de référence égale à 0 dB par définition.
La mesure de l’intensité absolue (SPL) d’une voyelle par exemple ne
peut donc se faire que par rapport à cette référence à 0 dB. Or, à moins de
disposer d’un générateur de son pur calibré et placé au même endroit que
le locuteur pendant l’enregistrement, il est très difficile, voire impossible,
de réaliser une telle calibration, d’autant que la référence sonore doit
toujours être présente dans l’enregistrement et varier en fonction du gain
dans la chaîne de reproduction (le réglage de volume) en même temps
que l’enregistrement de parole.
Devant toutes ces complications, on préfère en pratique lors des
mesures en parole mesurer les différences d’intensité entre voyelles
proches (par exemple dans une même phrase) de manière à minimiser les
variations dues par exemple à des changements de position du locuteur,
même faibles, entraînant un changement de distance par rapport au
microphone (rappelons que l’intensité varie avec le carré de la distance).
Ainsi les effets de modifications éventuelles de gain dans la reproduction
de la parole enregistrée seront également minimisés.
Les mesures effectuées sur le signal par les logiciels d’analyse de
parole sont en général affichées en dB. Il est tentant par exemple dans
une étude sur l’intensité des voyelles de mesurer la moyenne des
intensités des voyelles accentuées et de la comparer à la moyenne des
intensités des voyelles inaccentuées. Or, effectuer une moyenne
d’intensité (ou d’amplitude) en dB introduit une erreur, le logarithme
d’une somme n’étant pas égal à la somme des logarithmes des éléments
sommés. De plus on ne peut pas non plus faire la moyenne d’intensité,
car ce sont les amplitudes qui s’additionnent et non les carrés des
amplitudes. Supposons qu’on ait deux valeurs d’intensité, 20 dB et 60
dB. La moyenne en dB est donc 40 dB. Mais 20 dB correspond à une
intensité I1 de 20 log(I1) = 20, donc I1 = 101 = 10, alors que si I2 a une
intensité de 60 dB,
I2 = 103/2 = 103 =1 000. Les amplitudes
correspondantes sont A1 = √10 = 3,16 et A2 = √1000 = 31,6. La moyenne
des amplitudes est donc (3,16 + 31,6)/2 = 17,38, ce qui correspond à 24,4
dB de moyenne d’intensité, ce qui est fort différent de la moyenne des
intensités annoncée au départ.
Qu’en est-il si l’on désire effectuer des mesures d’intensité perçues en
se servant des courbes audiométriques moyennes? On peut, et cela a été
implémenté dans des appareils de mesure spécialisés, décomposer le
signal correspondant par exemple à une section de voyelle par une
analyse de Fourier. Chaque composante résultant de cette analyse est un
son pur (dans les conditions de l’analyse décrites plus haut), et on peut
donc théoriquement utiliser les courbes de réponse de l’oreille pour
obtenir des valeurs en dB perçus à partir des dB absolus de chaque
composante. Le problème est qu’en pratique on ne connaît que des
valeurs relatives et non des valeurs absolues des intensités. Il faudra donc
faire une approximation portant sur une sorte de moyenne de la
compression de dynamique existant pour les basses fréquences
inférieures à 500 Hz, et les hautes fréquences supérieures à 7 000 Hz
environ.
Si l’on se limite à une plage de fréquence de 500 Hz à 4 000 Hz, qui
recouvre la plupart des fréquences des sons de la parole, à l’exception de
la fondamentale et des premières harmoniques, une approximation
raisonnable semble pouvoir être faite, l’erreur maximale étant d’environ
5 dB qui peuvent être compensés par le rehaussement des fréquences
supérieures à 1 000 Hz effectué par défaut par la plupart des logiciels de
spectrographie.
Par l’emploi d’une fenêtre de prélèvement type Hamming, Hanning,
ou autre, on minimise aussi les effets d’écho dus au recouvrement et à
l’addition de composantes harmoniques déphasées.

9. Morphing prosodique

Le morphing prosodique consiste en la modification des paramètres de


source, sans altérer les propriétés du filtre constitué par le conduit vocal.
Sur le plan phonétique, on modifie donc les paramètres de fréquence
fondamentale, d’intensité et de durée en s’efforçant de perturber le moins
possible les caractéristiques segmentales des voyelles et des consonnes.
Dans ce but, deux procédés sont souvent utilisés, Psola opérant dans le
domaine temporel et le vocodeur de phase opérant dans le domaine
fréquentiel.

Modification de l’intensité

La modification de l’intensité est triviale : il suffit de multiplier chaque


échantillon du signal par un facteur adéquat. La seule difficulté est
d’éviter la saturation numérique du système, conditionnée par le format
de conversion (8 bits, 16 bits, etc.).

Modification de la durée par la méthode Psola

La modification de la durée a déjà été réalisée par des moyens


analogiques dans les années 1970. Un magnétophone à plusieurs têtes de
lecture rotatives permettait de lire à vitesse normale des segments
temporels du signal reproduit pendant le déroulement ralenti de la bande
magnétique et ainsi donnait un effet de ralentissement du débit de parole
avec des distorsions acceptables. Ce système procède donc par copie de
segments de parole (ou de musique) insérés à vitesse régulière dans le
temps.
Ce principe a été repris dans la méthode Psola (acronyme anglais de «
Pitch Synchronous Overlap and Add », Moulines et al., 1989), mais cette
fois en extrayant des segments prélevés avec une fenêtre appropriée
(Hanning par exemple) synchronisés avec les périodes de pitch.
Figure 7.14
. – Ralentissement et accélération de la parole par
décomposition-recomposition Psola

Ralentissement-accélération

Pour ralentir le signal, on insère une copie de chaque segment prélevé


à un rythme régulier  : une insertion toutes les 3 périodes de pitch
produira un ralentissement de ¼, c’est-à-dire 25 %. Pour accélérer le
signal de 25 % par exemple, on supprime un prélèvement sur 4 et on
raccorde les segments restants par superposition. L’inconvénient de la
méthode est de requérir un marquage de pitch pour les parties voisées
pour déterminer la largeur de la fenêtre de prélèvement utilisée et pour
réaliser l’assemblage des segments. Si la durée des segments prélevés est
trop grande, il y aura recouvrement plus important des segments
assemblés et possibilité d’écho, puisque des harmoniques de phases
différentes vont se retrouver le plus souvent additionnées. Si la durée des
segments est trop courte, il pourra se produire une perte du côté des
fréquences basses et en particulier de la fondamentale. Pour les parties
non voisées, on utilise une fenêtre de durée fixe, par exemple de 30 ms.
Les transitoires dues aux occlusives doivent être détectées pour éviter
leur duplication en cas de ralentissement, ou leur suppression en cas
d’accélération, mais en pratique cette opération n’est pas vraiment
nécessaire, les distorsions éventuelles étant en général acceptables dans
le cadre des recherches sur la perception de la parole.

Figure 7.15
. – Modification de la fréquence fondamentale de la
parole par décomposition-recomposition Psola

Modification de Fo

Pour modifier la fréquence fondamentale du signal par la méthode


Psola, on assemble les segments prélevés à chaque période laryngée en
les rapprochant pour diminuer la période, et donc obtenir une fréquence
fondamentale plus haute, ou en les écartant l’un de l’autre sur l’axe
temporel pour réaliser une période plus longue et donc une fréquence
plus basse (Figure 7.15). Une limite est toutefois atteinte pour augmenter
la fréquence lorsque le recouvrement des segments contigus est trop
important, produisant l’addition d’harmoniques déphasés les uns par
rapport aux autres ce qui se traduit par un écho plus ou moins important.

Modification de Fo et de la durée par vocodeur de phase

Le vocodeur de phase (Flanagan et Golden, 1965) est un procédé plus


ancien dans son principe, mais qui requiert un beaucoup plus grand
nombre de calculs que la méthode Psola, puisque le calcul de deux
transformées de Fourier est nécessaire, une directe et une inverse.

Figure 7.16
. – Analyse de Fourier directe et inverse du vocodeur de
phase
Le vocodeur de phase procède par analyse de Fourier en un certain
nombre de composantes sinusoïdales harmoniques dont le nombre est
égal à la moitié du nombre d’échantillons de chaque fenêtre temporelle.
Ces composantes sont ensuite traitées une à une, soit pour en modifier
l’amplitude, soit pour en étendre la
validité temporelle de manière à
modifier la durée. La transformée inverse du spectre modifié reconstitue
le segment du signal prélevé, et il suffit ensuite d’additionner les
segments successifs pour reconstituer le signal modifié. Le vocodeur de
phase, grâce à la décomposition en sinusoïdes de fréquence inverse à la
durée de la fenêtre temporelle utilisée dans les calculs, permet donc de
sculpter le spectre entre les étapes d’analyse et de recomposition additive
des segments.
Le problème lié à ces opérations réside dans les modifications de phase
introduites par l’allongement (obtenu par recopie de segments) ou le
raccourcissement (obtenu par suppression de segments) des durées du
signal (ce qu’évite la méthode Psola). Si l’on veut par exemple
augmenter le débit de parole, on supprime un certain nombre de
segments prélevés, mais lors de l’addition des segments survivants leurs
différentes composantes harmoniques ne seront plus en phase et
produiront de l’écho par leur addition. Il en va de même lors de la
répétition de segments dans la reconstitution du signal pour en allonger la
durée. Il faut donc corriger la phase de chaque composante de chaque
segment pour réaliser une reconstruction du signal correcte et dépourvue
d’écho, d’où le nom «vocodeur de phase» du processus (le terme
«vocodeur» vient de l’anglais «Voice Coding», utilisé dans la recherche
sur la compression du signal téléphonique).
La Figure 7.17( page ci-contre) montre un spectre original dont on
modifie d’abord Fo, puis les amplitudes des harmoniques avant
reconstruction par transformée de Fourier inverse.
En doublage cinéma, un procédé beaucoup plus simple est utilisé pour
ajuster les durées des tours de paroles doublés sur les durées de la version
originale. Lors de la reproduction du son numérisé, la fréquence
d’échantillonnage est simplement accélérée ou ralentie. Le son résultant
est acceptable pour des modifications très limitées de l’ordre de 5 %. Au-
delà, on obtient des distorsions analogues à celles d’un disque vinyle
tournant trop vite ou trop lentement.
Figure 7.17
. – Modification de Fo et du spectre par vocodeur de
phase
Chapitre 8

Modèles articulatoires

1. Premiers modèles

Pour mieux comprendre les phénomènes étudiés, les physiciens


s’emploient à construire des modèles, fabrications plus ou moins
cohérentes simulant le réel dans son fonctionnement. Ainsi dans le
domaine de la production de la parole, des modèles plus ou moins
complexes ont été élaborés, utilisant au mieux les outils mathématiques
disponibles.
Pendant longtemps, le principe d’explication rendant compte des
caractéristiques acoustiques des voyelles était basé sur les résonateurs de
Helmholtz (physicien allemand, 1821-1894), dont la fréquence de
résonance dépend directement de leurs dimensions. Ces résonateurs
étaient construits en une série de volumes différents (tuyaux, sphères…)
dont les fréquences de résonances correspondaient aux diverses notes de
l’échelle musicale. En détectant la résonance de l’un d’eux, on pouvait
réaliser une mesure approchée de la fréquence du son.
Plus tard, Rudolph Koening (1832-1901), génial fabricant
d’instruments acoustiques installé à Paris, utilise ce principe et parvient à
réaliser une mesure spectrale primitive de la parole, donc d’un son non
stationnaire, la résonance de chaque sphère étant détectée par la vibration
d’un bec de gaz, vibration changeante qui pouvait être capturée par un
système de miroirs tournants. Avec la persistance rétinienne, il était
possible d’observer l’évolution du spectre ainsi mesuré.
Dès lors, au sein de la communauté des premiers chercheurs en
phonétique acoustique, s’installe l’idée que la résonance est directement
liée au volume de la cavité résonante. Malgré les travaux des précurseurs
Chiba et Kajiyama (1942) sur les voyelles, puis de

Figure 8.1
. Résonateurs de Helmholtz
Figure 8.2
. Analyseur spectral manométrique de Koening
Fant (1960), il aura fallu de longues années pour que cette idée
disparaisse (Martin, 2007), au profit d’une conception plus exacte
montrant que les fréquences des formants, donc des résonances,
résultaient non pas chacune d’une cavité spécifique du conduit vocal
définie par chaque articulation de voyelle, mais plutôt de leur interaction.
Les modèles articulatoires s’efforcent de simuler mathématiquement
les conditions de résonance à partir d’une représentation simplifiée du
conduit vocal. Les approximations nécessaires sont guidées par les outils
mathématiques disponibles, qui ne sont utilisables que pour des volumes
cylindriques ou à section rectangulaires rectilignes. Ainsi, les sections de
forme très variables du conduit vocal (Figure 8.3, sections de 1 à 10),
obtenues par moulage, par scanner ou par résonance magnétique
nucléaire sur des locuteurs réels seront approchées par des sections
circulaires.

Figure 8.3
. – Sections du conduit vocal obtenues par moulage
De même la forme semi-circulaire du conduit vocal devra être
représentée par des cylindres rectilignes d’aire variable de section à
section. Le modèle le plus simple n’a qu’un seul cylindre (un seul tube)
et ne convient qu’à la voyelle centrale [ə]. Les modèles à deux tubes
permettent malgré leur simplicité relative de rendre compte de la
répartition formantique des voyelles orales. Les voyelles nasales
nécessitent un tube supplémentaire tenant compte de la cavité nasale. Le
modèle à n tubes (avec n = 12, par exemple) constitue la généralisation
de cette technique, qui a été décisive
pour la compréhension des
répartitions de formants des voyelles et consonnes nasales. Elle a aussi
permis de comprendre pourquoi les sons de la parole prononcés par de
jeunes enfants, ayant un conduit vocal de plus petite dimension,
présentent des timbres similaires à ceux prononcés par des adultes.

2. Modèle à un tube
La forme du conduit vocal correspondant à l’articulation de la voyelle
[ə] est celle qui se rapproche le plus d’un tube sans perte acoustique à
section constante (en réalité le conduit vocal est évidemment de forme
courbée, et sa section n’est pas vraiment cylindrique).

Figure 8.4
. – Coupe montrant la configuration articulatoire pour la
voyelle [ə]
Figure 8.5
. – Modèle à un tube pour la voyelle [ə]
La fonction de transfert de ce tube, rendant compte de la transmission
des harmoniques produites par la source (le piston situé à l’extrémité du
tube) est donnée par T(f)= 1/cos (2πfl/c), avec f = fréquence, l = longueur
du tube et c = vitesse du son dans l’air (chaud). On a donc une résonance
pour toutes les valeurs de la fréquence f qui rend la valeur du cosinus
nulle, c’est-à-dire lorsque 2πfl/c2πfl/c = (2n - 1)π/2 avec n = 0,1, 2, ..., n,
donc pour f = (2n + 1) c/4l.
En adoptant les valeurs de c = 350 m/s (vitesse du son dans l’air à 35
degrés), et l = 0,175 m comme longueur d’un conduit vocal masculin
moyen, on trouve donc une série de valeurs de résonance, donc de
formants : 500 Hz, 1 500 Hz, 2 500 Hz, 3 500 Hz, etc. Il n’y a donc pas
un seul formant pour ce modèle à un tube correspondant à l’articulation
du schwa, mais une infinité. Il s’agit bien sûr d’une approximation
puisque l’on a négligé les pertes acoustiques et l’amortissement dus à la
viscosité des parois du conduit vocal, à la forme et à la section non
cylindrique du conduit, etc. De plus, la source n’étant pas impulsionnelle
mais glottique avec une décroissance des amplitudes d’harmoniques de
l’ordre de 6 dB à 12 dB par octave, l’amplitude et donc l’intensité des
harmoniques décroît rapidement et n’est plus observable en pratique au-
dessus d’une atténuation de 60 dB à 80 dB.
La Figure 8.6montre la réponse en fréquence du modèle à un tube. Les
formants théoriques correspondent de manière satisfaisante à ceux
observés sur un spectre harmonique de Fourier ou sur un spectre de
Prony. On peut noter que ce modèle produit une infinité de formants, qui
sont dans la réalité limités par la décroissance de leurs amplitudes due
aux caractéristiques de la
source glottale. Il n’y a donc pas une seule
fréquence de résonance pour une cavité, comme on l’a cru (et écrit)
longtemps dans les ouvrages de phonétique, et cette fréquence ne dépend
pas de l’aire du conduit vocal pour la voyelle [ə].
Figure 8.6
. – Réponse en fréquence pour un modèle à 1 tube de 17,5
cm de longueur, spectrogramme, spectre de Fourier et de
Prony pour une voyelle [ə]
3. Modèle à deux tubes

Traditionnellement, on décrit les voyelles orales en phonétique


articulatoire par l’arrondissement ou l’écartement des lèvres (qui modifie
la longueur du conduit vocal), l’ouverture de la bouche (modifiant le
volume de la cavité d’avant) et le lieu d’articulation réalisé par le
rapprochement du dos de la langue avec le palais dur (qui définit une
division du tractus vocal en deux parties, cavité d’avant et cavité
d’arrière). Un modèle à deux tubes cylindriques et d’axe rectiligne
semble approprié pour rendre compte de cette configuration, d’autant que
l’on dispose d’outils mathématiques pour en étudier les propriétés (Fant,
1960).
Le modèle articulatoire à deux tubes est caractérisé par les paramètres
suivants : Ap et lp aire et longueur de la cavité postérieure (en amont du
lieu d’articulation), Aa et la aire et longueur de la cavité antérieure (en
aval du lieu d’articulation) (Figure 8.7). On peut montrer (Fant, 1960)
qu’il y a résonance, donc formant, si Aptg(2πfla/c) = Aacotg(2πflp/c) avec c
= 350 m/s (vitesse du son dans l’air à 35°C), c’est-à-dire chaque fois
qu’une valeur de la fréquence f rend le membre de gauche égal au
membre de droite. Ce type d’équation, appelée transcendantale (parce
qu’il n’y a pas moyen d’en extraire l’inconnue f), peut se résoudre par
une méthode graphique pour déterminer les points de rencontre des
fonctions trigonométriques tangente et cotangente.
Prenons par exemple pour modéliser la voyelle [a] les valeurs
suivantes : Ap = 1 cm2, Aa = 7 cm2, lp = 9 cm, la = 8 cm.
Figure 8.7
. – Modèle à 2 tubes pour les voyelles orales
et portons en graphique en fonction de la fréquence les fonctions
1tg(2πf8/c) et 7cotg(2πf9/c).

Figure 8.8
. – Résolution graphique du modèle à 2 tubes donnant les
fréquences de formant
Les points d’intersection correspondent aux valeurs de formants F1 =
789 HZ F2 = 1276 HZ, F3 = 2809 HZ, F4 = 3387 HZ, F5 = 4800 HZ,
valeurs qui se comparent favorablement aux observations expérimentales
de la Figure 8.10.

Figure 8.9
. – Réponse en fréquence pour un modèle à 2 tubes,
spectrogramme, spectre de Fourier et de Prony pour une
voyelle [α]
On voit clairement que les fréquences des formants ne dépendent pas
de chacune des cavités antérieure et postérieure considérées isolément,
comme on l’a longtemps écrit dans les ouvrages de phonétique, où l’on
expliquait que la fréquence du premier formant était liée au volume de la
cavité antérieure, et celle du second format au volume de la cavité
postérieure. Que se passe-t-il en réalité lorsque l’on modifie le volume
des cavités antérieure et postérieure  ? La Figure 8.10montre que des
variations des aires (donc des volumes) des cavités ne modifient pas
considérablement les points d’intersection des fonctions tangente et
cotangente, correspondant aux fréquences des formants.

Figure 8.10
. – Variations des aires des cavités antérieures (de 5 à 7
cm2) et postérieures (de 0,5 à 3 cm2) montrant la relative
stabilité des fréquences de formants
De même, les variations du lieu d’articulation décrites dans le modèle
par le rapport entre les longueurs des cavités la et lp entraîne peu de
changements de fréquence de formants, comme le montre la Figure 8.11.
Figure 8.11
. – Variations du rapport des longueurs des cavités
antérieures (de 10 à 8 cm) et postérieures (de 7 à 9 cm)
montrant la relative stabilité des fréquences de formants
Figure 8.12
. – Modèles à 2 tubes pour différentes voyelles orales et
formants correspondants
4. Modèle à trois tubes

L’articulation d’une voyelle ou d’une consonne nasale met en


communication le conduit nasal avec le conduit vocal à peu près à 1/3 de
sa longueur en partant des cordes vocales. Cette cavité supplémentaire
mise en parallèle sur les deux tubes modélisant le conduit vocal introduit
un terme supplémentaire dans l’équation
permettant de calculer les
formants, et aussi un numérateur dans la fonction de transfert de
l’ensemble. Certaines valeurs de fréquence donneront donc des pôles
(valeurs nulles de la fonction du dénominateur de la fonction de
transfert), mais aussi des zéros (qui annulent le numérateur de la fonction
de transfert). Ayant l’effet inverse des formants, ces valeurs sont appelées
antiformants.
Les antiformants donnant une valeur nulle pour une fréquence du
spectre, il sera difficile de les distinguer d’une simple vallée dans un
spectre. C’est donc la compréhension du fonctionnement du modèle qui
permet de faire la différence et qui donnera une interprétation
satisfaisante aux spectres de voyelles nasales longtemps décrites dans la
littérature comme étant caractérisées par des formants plus larges.
L’équation donnant les pôles (formants) est :

L’équation donnant les zéros (antiformants) est : f = (2n - 1)


Figure 8.13
. – Modèle à 3 tubes de [m]
On a donc un antiformant pour A1 = 1 300 Hz, A 2 = 3 900 Hz, A3 = 6
500 Hz…
Les fréquences de formants correspondent à l’intersection de la
cotangente avec la somme des deux tangentes de l’équation des pôles : F1
= 250 Hz, F2 = 1 150 Hz, F3 = 1 350 Hz, F4 = 2 200 Hz.
Les formants (pôles) et antiformants (zéros) sont souvent représentés
sur un axe des fréquences par une croix x et un zéro o. Pour le modèle de
[m] on a donc

ce qui permet de constater que le premier zéro à 1 346 Hz est placé entre
deux pôles très proches en fréquence, 1 150 Hz et 1 350 Hz. Observés sur
un spectrogramme, les deuxième et troisième formants apparaîtront
confondus du fait de la résolution fréquentielle insuffisante de l’analyse
harmonique de Fourier, et l’antiformant ne pourra pas être détecté. Cela
rend compte des mesures anciennes des formants des voyelles nasales
avec un deuxième formant plus large que le deuxième formant des
voyelles orales correspondantes.

Figure 8.14
. – Résolution graphique du modèle à 3 tubes de la
consonne nasale [m]

Figure 8.15
. – Spectrogramme et spectres de Fourier et de Prony voyelle
nasale [α] à gauche, voyelle orale [ã] à droite
Figure 8.16
. – Résolution graphique du modèle à 3 tubes de la voyelle
nasale [ã]
Les formants sont F1 = 350 Hz, F2 = 1 000 Hz, F3 = 1 250 Hz, F4 = 2
150 Hz, F1 = 3 000 Hz.
Les antiformants sont A1 = 1 100 Hz, A2 = 3 300 Hz, A3 = 5 500 Hz
Le premier antiformant apparaît donc entre le deuxième et le troisième
formant, donnant l’impression d’un deuxième formant plus large que
pour la voyelle orale correspondante.

Figure 8.17
. – Répartition des formants et antiformants pour la
voyelle nasale [α]

5. Modèle à n tubes

Le modèle à deux tubes des voyelles orales peut être généralisé à n


tubes (Maeda, 1979). L’approximation à partir de coupes sagittales de
schémas articulatoires obtenus par rayons X ou par résonance
magnétique (IRM), on peut définir un système de n tubes coaxiaux
proches de la réalité physique.
Figure 8.18
. – Modèle à n tubes obtenus par segmentation de coupes
sagittales
Chapitre 9

Pratiques d’analyse

1. Enregistrement

Un logiciel tel que WinPitch (www.winpitch.com) permet le


monitoring de l’enregistrement en temps réel en affichant non seulement
la courbe oscillographique (forme d’onde représentant les variations de
pression sonore telles que perçues par un microphone), mais également
un spectrogramme bande large ou bande étroite, ainsi que la courbe
mélodique correspondante. Ces informations permettent à l’opérateur de
corriger si nécessaire les paramètres d’enregistrement, et en particulier la
position du microphone par rapport au locuteur. L’identification visuelle
des sources de bruit est facilitée par leurs empreintes caractéristiques sur
les spectrogrammes à bande étroite. En effet, contrairement à la source
vocale, les harmoniques des sources de bruit sont pour la plupart
constantes en fréquence. Il est donc facile de les reconnaître et de les
éliminer ou les réduire soit en neutralisant la source (coupure électrique
d’un moteur par exemple), soit en déplaçant ou en réorientant le
microphone d’enregistrement.
De même un réglage intempestif d’un filtre passe haut pour certains
microphones peut être détecté à temps avant l’enregistrement définitif par
l’observation des harmoniques de basse fréquence, et en particulier de la
fondamentale pour les voix masculines (ce filtre est généralement
commuté par un interrupteur placé sur le corps du microphone).
Rappelons également que le réglage «AVC » de contrôle automatique de
volume est à proscrire absolument pour l’enregistrement de données
phonétiques. Ce réglage présent sur des préamplificateurs (également mis
en service par un interrupteur) tend à égaliser le niveau d’enregistrement
et donc à modifier l’intensité des sons de la parole de manière peu
prévisible. Il faut donc effectuer le réglage de niveau manuellement, en
veillant à ce que la distance entre le micro et le(s) locuteur(s) varie peu.
Les Figures 9.1et 9.2 donnent des exemples de niveau trop bas et de
niveau d’enregistrement trop haut.

Figure 9.1
. – Exemple de niveau d'enregistrement trop faible : les
harmoniques de la voix enregistrée sont à peine visibles

Figure 9.2
. – Exemple de niveau d'enregistrement trop fort : on
observe sur le spectrogramme à bande étroite la saturation
des harmoniques qui ne peuvent plus être visuellement
différenciés à certains endroits

Figure 9.3
. – Présence d'harmoniques de bruit à fréquence
constante superposés aux harmoniques de la voix
enregistrée
L’effet du codage type MP3 sur le spectrogramme est montré dans
l’exemple de la Figure 9.4. L’intensité et la largeur de bande des
harmoniques paraissent instables au cours du temps. Ce type de codage
est donc à déconseiller pour l’analyse spectrographique.
Figure 9.4
. – Effet du codage-décodage MP3 sur la représentation
des harmoniques en bande étroite

2. Fréquence fondamentale

La mesure de la fréquence fondamentale à partir du signal de parole


est une opération complexe, qui ne donne pas nécessairement des
résultats fiables dans toutes les conditions d’enregistrement ni du reste
avec toutes les méthodes d’analyse. Il est courant qu’une méthode
déterminée donne de bons résultats pour une section particulière et de
très mauvais tracés pour une autre, alors qu’une autre méthode donne des
résultats inverses. Dans tous les cas, il est prudent de toujours afficher en
même temps que la courbe mélodique un spectrogramme à bande étroite
permettant de distinguer les harmoniques. On s’assure ainsi de la fiabilité
du tracé mélodique, et on peut si nécessaire modifier les paramètres
d’analyse ou même la méthode d’estimation de la fréquence laryngienne.
En effet, la courbe mélodique doit suivre l’essentiel du tracé de la
fondamentale, ou d’un des harmoniques qui suivent nécessairement les
mêmes évolutions dans le temps.
Figure 9.5
. – Courbe mélodique et spectrogramme à bande étroite
montrant l'accord dans l'évolution de Fo et du premier
harmonique (spectrogramme à bande étroite, durée de
fenêtre de 23 ms, résolution fréquentielle de 43 Hz)
La Figure 9.6illustre l’amélioration de la fiabilité de la courbe
mélodique par l’emploi de la méthode de la brosse spectrale comparée à
l’analyse par autocorrélation (méthode standard
du logiciel Praat) dans le
cas de chevauchement de parole. Les sections cerclées correspondent à
des chevauchements de locuteurs masculin et féminin (corpus Speech
Separation Challenge, Cooke et Lee, 2006). Cette méthode d’analyse
utilise en effet le suivi des harmoniques d’un même locuteur pour
déterminer la fréquence fondamentale.
Figure 9.6
. – Courbes comparées obtenues avec la méthode
d'autocorrélation et la brosse spectrale, pour un signal
incluant un chevauchement de parole
Les méthodes spectrales d’analyse de la fréquence fondamentale se
basent sur les informations présentées par les harmoniques des sections
voisées du signal de parole. Cela implique que ces harmoniques puissent
effectivement être identifiés et leur fréquence mesurée, donc que la
résolution fréquentielle soit suffisante. Cela implique une durée de
fenêtre temporelle adéquate.
La Figure 9.7montre un exemple de résolution fréquentielle
insuffisante (de l’ordre de 86 Hz, avec une durée de fenêtre de 11 ms),
qui ne permet pas de distinguer les harmoniques dans le spectre et donc
qui rend le calcul de la fréquence fondamentale
à partir des informations
spectrales inopérant. Pour des voix féminines avec une valeur de Fo
élevée, en revanche, ce réglage peut se révéler approprié.

Figure 9.7
. – Courbe de fréquence fondamentale erronée obtenue
par une fenêtre temporelle trop courte et une résolution
fréquentielle insuffisante
La Figure 9.8montre qu’une durée de fenêtre de 23 ms, correspondant
à une résolution fréquentielle de 43 Hz, convient parfaitement pour la
mesure de la fréquence fondamentale du même exemple (Figure 9.10).
Figure 9.8
. – Courbe de fréquence fondamentale erronée obtenue
par une fenêtre temporelle adéquate et une résolution
fréquentielle suffisante

3. Spectrogrammes

Les spectres à bande large sont utilisés pour mieux repérer les
formants en rendant la séparation visuelle des harmoniques impossible.
Le réglage de la résolution fréquentielle nécessaire dépend donc de la
fréquence fondamentale, qui correspond à la différence de fréquence
entre deux harmoniques consécutifs. Il en résulte qu’un réglage à bande
large approprié pour une voix masculine ne conviendra pas
nécessairement à la représentation des formants d’une voix féminine,
pour laquelle il faudra réduire encore la durée de la fenêtre temporelle et
par conséquent la résolution fréquentielle (Figure 9.9).
Figure 9.9
. – Spectrogramme à même largeur de bande pour une
voix masculine et féminine
Le spectrogramme à bande large présente une bonne résolution
temporelle, qui permet d’observer avec un niveau de zoom adéquat le
spectre des instants d’impulsion laryngienne (Figure 9.10).

Figure 9.10
. – Visualisation des instants d'impulsion laryngienne sur
un spectrogramme à large bande
La résolution fréquentielle et la résolution temporelle sont liées par la
relation d’incertitude de l’analyse spectrale : l’augmentation de la durée
de la fenêtre de prélèvement temporel s’accompagne nécessairement de
la résolution fréquentielle. La Figure 9.11 montre à gauche un exemple
de réglage de spectrogramme à bande large, avec une très bonne
résolution temporelle, alors qu’à droite la résolution fréquentielle est très
bonne au prix d’une mauvaise résolution temporelle (flou des
harmoniques dans l’axe temporel).
Figure 9.11
. - Spectrogrammes illustrant la relation d'incertitude
entre la fréquence et le temps À gauche, spectrogramme à
très bonne résolution temporelle, et mauvaise résolution
fréquentielle (bande très large); à droite, très bonne
résolution fréquentielle au prix d'une mauvaise résolution
temporelle
L’effet des diverses fenêtres de prélèvement est illustré Figures 9.12,
9.13 et 9.14 pour des spectrogrammes à bande étroite (46 ms de durée de
fenêtre). La fenêtre rectangulaire (Figure 9.12) utilise un maximum
d’information dans le signal, produisant des pics harmoniques les plus
étroits mais provoquant également des traces latérales indésirables.
Figure 9.12
. – Spectrogramme à bande étroite utilisant une fenêtre
rectangulaire de prélèvement temporel
Ces traces latérales disparaissent en utilisant une fenêtre de Hanning
ou de Harris, cette dernière présentant des harmoniques un peu plus
satisfaisants visuellement.

Figure 9.13
. – Spectrogramme à bande étroite utilisant une fenêtre de
prélèvement temporel de Hann(ing)
Figure 9.14
. – Spectrogramme à bande étroite utilisant une fenêtre de
prélèvement temporel de Harris

4. Méthode de Prony

La relative similitude des spectres de Fourier et de Prony est illustrée


Figure 9.15. On peut y observer les zones de formant équivalentes
obtenues par les deux types d’analyse.
Figure 9.15
. – Correspondance des pics d'un spectre de Prony et des
zones renforcées d'un spectrogramme à bande large pour
une même phrase
Annexe

1. Fonctions trigonométriques

Définition des sinus, cosinus, tangente et cotangente d’un angle α

Pour définir les fonctions trigonométriques sinus, cosinus, tangente et


cotangente, on se réfère à un cercle de rayon unité (c’est-à-dire dont le
rayon vaut 1), et à deux axes perpendiculaires passant par le centre du
cercle, l’un horizontal, l’autre vertical. On définit ensuite une droite qui
part du centre du cercle et qui forme un angle α avec l’axe horizontal du
cercle.
Le sinus de l’angle α est alors égal à la distance de l’axe horizontal au
point d’intersection de cette droite avec le cercle.
Le cosinus de l’angle α est égal à la distance de l’axe vertical au point
d’intersection de cette droite avec le cercle.
La tangente est égale à la distance du point d’intersection de cette
droite avec une autre droite perpendiculaire à l’axe horizontal au point
d’intersection de l’axe horizontal et du cercle.
La cotangente est égale à la distance du point d’intersection de cette
droite avec une autre droite perpendiculaire à l’axe vertical au point
d’intersection de l’axe vertical et du cercle.

Variations des sinus, cosinus, tangente et cotangente en fonction d’un


angle α

sin (α)
La valeur du sinus part de zéro avec l’angle α égal à zéro. Elle atteint 1
lorsque α vaut 90 degrés (c’est-à-dire π/2), puis à nouveau zéro pour α =
180 degrés (π), – 1 pour α = 270 degrés (3π/2), et finalement zéro après
un tour complet, c’est-à-dire lorsque α = 360 degrés (2π). Ensuite le cycle
recommence.
cos (α)
La valeur du cosinus part de 1 avec l’angle α égal à zéro. Elle atteint 0
lorsque α vaut 90 degrés (c’est-à-dire π/2), puis – 1 pour α = 180 degrés
(π), 0 pour α = 270 degrés (3π/2), et finalement à nouveau 1 après un tour
complet, c’est-à-dire lorsque α = 360 degrés (2π).

La valeur de la tangente part de zéro avec l’angle α égal à zéro. Elle


atteint 1 lorsque α vaut 45 degrés (c’est-à-dire π/4), puis l’infini (∞) pour
90 degrés (π/2). Ensuite elle passe brusquement à l’infini négatif (– ∞)
pour remonter à – 1 pour α = 135 degrés (3π/4) puis à nouveau à zéro
pour α = 180 degrés (π), l’infini négatif (– ∞) pour α = 270 degrés (3π/2),
et finalement zéro après un tour complet, c’est-à-dire lorsque α = 360
degrés (2π). Ensuite le cycle recommence. La tangente est donc toujours
croissante
La valeur de la cotangente part de ∞ avec l’angle α égal à zéro. Elle
descend vers zéro pour 90 degrés (π/2). Ensuite elle continue à descendre
vers l’infini négatif (– ∞), passe brutalement à l’infini positif (∞) lorsque
α vaut 180 degrés (π) pour redescendre vers zéro pour α = 270 degrés
(3π/2), et finalement – ∞ après un tour complet, c’est-à-dire lorsque α =
360 degrés (2π). La cotangente est donc toujours décroissante.

2. Symboles phonétiques
Bibliographie
BOË L. J. et RAKOTOFIRINGA H., 1971, «Exigences, réalisation et
limite d’un appareillage destiné à l’étude de l’intensité et de la hauteur
d’un signal acoustique », Revue d’Acoustique, n° 4, p. 104-113.
BOË L. J., 2000, «Forensic Voice Identification in France», Speech
Communication, n° 31 (2-3), p. 205-224.
CALLIOPE, 1989, La Parole et son traitement automatique, Paris,
Masson.
CARRÉ R., 2004, « From an Acoustic Tube to Speech Production »,
Speech Communication, n° 42 (2), p. 227-240.
CHIBA T. et KAJIYAMA M., 1942, The Vowel. Its Nature and
Structure, Tokyo-Kaiseikan.
COOKE M. P. et LEE T. W., 2006, «Speech Separation Challenge»,
http:// www.dcs.shef.ac.uk/~martin/SpeechSeparationChallenge.htm.
COOLEY J. W. et TUKEY O. W., 1965, «An Algorithm for the
Machine Calculation of Complex Fourier Series», Mathematical
Computing, n° 19, p. 297-301.
DUTOIT T., 2000, « Introduction au traitement automatique de la
parole », Notes de cours, Faculté polytechnique de Mons.
FANT G., 1960, Acoustic Theory of Speech Production, La Haye,
Mouton.
FLANAGAN J. L., 1965, Speech Analysis : Synthesis and Perception,
Heidelberg, Springer.
FLANAGAN J. L. et GOLDEN R. M., 1965, «Phase Vocoder », Bell
System Technical Journal, vol. 45, p. 1493-1509.
FLETCHER H. et MUNSON W. A., 1933, Loudness, Its Definition,
Measurement and Calculation, Journal of the Acoustical Society of
America, n° 5, octobre, p. 82-108.
FOURIER Jean-Baptiste Joseph, 1822, Théorie analytique de la
chaleur, Paris, Firmin-Didot.
HAAS H., 1949, «Über den Einfluss eines Einfachechos auf die
Hörsamkeit von Sprache», thèse de doctorat, Université de Gottingen.
Traduit sous le titre «The Influence of a Single Echo on the Audibility of
Speech », Audio Engineering Society, vol. 20, mars 1972, p. 145-159.
HENRICH N., 2001, Étude de la source glottique en voix parlée et
chantée  : modélisation et estimation, mesures acoustiques et
électroglottographiques, perception, thèse de doctorat, Université Paris -
VI.
HENRICH N., D’ALESSANDRO C., CASTELLENGO M. et
DOVAL B., 2005, « Glottal Open Quotient in Singing  : Measurements
and Correlation with Laryngeal Mechanisms, Vocal Intensity, and
Fundamental Frequency », Journal of the Acoustical Society of America,
n° 117 (3), p. 1417-1430.
HESS W., 1983, Pitch Determination of Speech Signals, New York,
Springer-Verlag.
HOLLIEN H., MICHEL J. et DOHERTY E. T., 1973, «A Method for
Analyzing Vocal Jitter in Sustained Phonation », Journal of Phonetics, 1,
p. 85-91.
LÉON P. R. et MARTIN PH., 1970, Prolégomènes à l’étude des
structures intonatives, Montréal, Didier.
MAEDA S., 1979, «Un modèle articulatoire de la langue avec des
composantes linéaires », Actes des 10e Journées d’études sur la parole,
Grenoble, mai 1979, p. 152-162.
MARTIN PH., 1982, « Comparison of Pitch Detection by Cepstrum
and Spectral Comb Analysis », Proceedings of the 1982 IEEE
International Conference on Acoustics, Speech, and Signal Processing, p.
180-183.
–, 2000, « Peigne et brosse pour Fo  : mesure de la fréquence
fondamentale par alignement de spectres séquentiels», Actes des 23e
Journées d’études sur la parole, Aussois, France, juin 2000, p. 245-248.
–, 2007, «Les formants vocaliques et le barrissement de l’éléphant»,
Histoire des théories linguistiques, n° X, p. 9-27.
MCKINNEY Norris P., 1965, Laryngeal Frequency Analysis for
Linguistic Research, Ann Arbor, University of Michigan Communication
Sciences Laboratory, Vii.
MOULINES E., CHARPENTIER F. et HAMON C. 1989, « A
Diphone Synthesis System Based on Time-Domain Prosodic
Modifications of Speech», Proceedings of the 1989 IEEE International
Conference on Acoustics, Speech, and Signal Processing, p. 238-241.
PAAVO A., 1992, « Glottal Wave Analysis with Pitch Synchronous
Iterative Adaptive Inverse Filtering », Speech Communication, vol. 11, n°
2-3, p. 109-118.
PRONY, Baron Gaspard Riche DE, 1795, « Essai expérimental et
analytique : sur les lois de la dilatabilité de fluides élastiques et sur celles
de la force expansive de la vapeur de l’alkool, à différentes températures
», Journal de l’École polytechnique, vol. 1, cahier 22, p. 24-76.
ROBINSON D. W. et DADSON R. S., 1956, «Plots of Equal
Loudness as a Function of Frequency », British Journal of Applied
Physics, (7), 166.
STANLEY S. Stevens, 1957, «On the Psychophysical Law»,
Psychological Review, 64 (3), p. 153-181.
STURMEL N., D’ALESSANDRO Ch., DOVAL B., 2007, «A
Comparative Evaluation of the Zeros of z Transform Representation for
Voice Source Estimation », Proceedings Interspeech, p. 558-561
SUNDBERG J., 1977, «The Acoustics of the Singing Voice»,
Scientific American, n° 236, 3.
TESTON B., 2006, «À la poursuite du signal de parole », Actes des 26e
Journées d’études sur la parole, Aussois, France, juin 2006, p. 7-10.

Vous aimerez peut-être aussi