Académique Documents
Professionnel Documents
Culture Documents
Page de Titre
Page de Copyright
Dédicace
Avant-propos
Chapitre 1 - Le son
1. La phonétique acoustique
2. Le son
6. Amplitude et intensité
7. Bels et décibels
11. Audiométrie
2. Le kymographe
3. Chaîne d'enregistrement
5. Lieux d'enregistrement
6. Monitoring
8. Capacité d'enregistrement
4. Bruits de friction
5. Bruits d'explosion
6. Nasales
7. Modes mixtes
8. Chuchotement
9. Modèle source-filtre
3. Instantanés sonores
5. Fenêtres célèbres
6. Filtres
2. Zéros et pôles
Chapitre 6 - Spectrogrammes
1. Lecture de spectrogrammes
2. Segmentation
4. Méthodes temporelles
5. Méthodes fréquentielles
6. Lissage
8. Mesure de l'intensité
9. Morphing prosodique
2. Modèle à un tube
5. Modèle à n tubes
2. Fréquence fondamentale
3. Spectrogrammes
4. Méthode de Prony
Annexe
Bibliographie
© Armand Colin, 2008 pour la présente édition.
978-2-200-24573-3
Conception de couverture : Dominique Chapon et Emma Drieu.
Internet : http://www.armand-colin.com
Le son
1. La phonétique acoustique
2. Le son
Célérité du son
Air 343
Eau 1 480
Glace 3 200
Verre 5 300
Acier 5 200
Plomb 1 200
Titane 4 950
PVC (mou) 80
Hêtre 3 300
Granit 6 200
Péridotite 7 700
(Source : Wikipédia.)
(Source : Wikipédia.)
4. Amplitude, fréquence et phase
Amplitude
Figure 1.1
. – Définition de la sinusoïde
Figure 1.2
. – Représentation d'un son pur
Fréquence
Une vibration unique d’un son pur effectué en une seconde, c’est-à-
dire un cycle complet de la sinusoïde par seconde, correspond à un tour
complet dans le cercle trigonométrique qui définit la sinusoïde, c’est-à-
dire à un angle de 360 degrés ou, si l’on utilise l’unité radian (préférée
des mathématiciens), 2π radian (donc 2 fois π = 3,14159… = 6,28318).
Un son pur d’une vibration par seconde aura alors pour représentation
mathématique A sin(2πt). Si le son pur présente deux vibrations par
seconde, les variations sinusoïdales s’effectueront deux fois plus vite et
l’angle qui définit le sinus variera deux
fois plus vite dans le cercle
trigonométrique : A sin(4πt). Si la variation sinusoïdale est de dix fois par
seconde, la formule devient A sin(20πt). Cette vitesse de variation est
bien évidemment appelée fréquence et est représentée par le symbole f :
A sin(2πft).
Par définition, un événement périodique comme un son pur est
reproduit de manière identique après une durée appelée période (symbole
T). Fréquence f et période T sont inverses l’une de l’autre : un son pur
(donc périodique) dont le cycle est reproduit 10 fois par seconde a une
période 10 fois plus petite qu’une seconde, c’est-à-dire un dixième de
seconde, ou 0,1 seconde ou encore 100 millièmes de secondes (100
millisecondes ou, en notation scientifique, 100 ms). Si la période d’un
son (un infra-son) pur est de cinq secondes, sa fréquence est de un
cinquième de cycle par seconde. La formule liant fréquence et période est
f = 1/T, ou T = 1/f : la fréquence est égale à un divisé par la période, et
inversement, la période est égale à un divisé par la fréquence.
Phase
Le son pur tel que défini par une fonction sinusoïdale est une
idéalisation mathématique décrivant l’évolution d’un événement dans le
temps, événement dont on n’a pas déterminé l’origine, qui ne peut être
qu’arbitraire. Le décalage entre cette origine arbitraire et le point de
départ d’une sinusoïde reproduite à chaque cycle du son pur constitue la
phase (symbole φ). On peut aussi considérer les différences des points de
départ des cycles temporels des différents sons purs. Ces différences sont
appelées décalages de phase (symbole Δφ).
Figure 1.3
. – Phase
Un son pur unique n’aura donc de phase que par rapport à une
référence temporelle et sera exprimé en angle ou en temps. La phase φ
correspondant à une fraction de la période T, le décalage temporel Δt
dépend de la fréquence f selon la formule Δt = Δφ/f = ΔφT. Quand il
s’agira de décrire plusieurs sons purs de différentes amplitudes et de
différentes fréquences on utilisera le paramètre de phase pour caractériser
le décalage entre ces sons purs dans le temps.
La représentation mathématique générale du son pur s’enrichit du
symbole φ qui vient s’ajouter à l’argument de la sinusoïde : A sin (2πft +
φ) si on explicite le paramètre de fréquence, et A sin ((2πt/T) + φ) si on
explicite la période.
Figure 1.4
. – Décalage temporel dû au déphasage
Le son pur, être purement mathématique choisi pour définir une unité
de son, est donc caractérisé par trois paramètres : l’amplitude de
vibration, symbole A, la fréquence de vibration, symbole f, et la phase φ
de la vibration décrivant le décalage de la vibration par rapport à un
instant de référence arbitraire.
L’unité de période est dérivée de l’unité de temps, la seconde. En
pratique, on utilise les sous-multiples de la seconde, et particulièrement
en phonétique acoustique la milliseconde ou millième de seconde
(symbole ms). Ce sous-multiple correspond assez bien aux événements
quasi périodiques liés à la production de la parole comme la vibration des
cordes vocales, qui typiquement s’ouvrent et se ferment de 70 à 300 fois
par seconde (parfois beaucoup plus
souvent dans le chant lyrique). Au
début de la phonétique instrumentale, on utilisait plutôt le centième de
seconde comme unité (symbole cs). On avait alors des valeurs des durées
de cycle laryngien de l’ordre de 0,3 à 1,5 cs notées aujourd’hui 3 à 15
ms.
Pour la fréquence, inverse de la période, les phonéticiens ont utilisé
longtemps le cycle par seconde (cps) comme unité, mais l’influence de la
physique des événements périodiques a fini par imposer le hertz
(symbole Hz), en l’honneur du physicien allemand Heinrich Rudolf
Hertz (1857-1894).
Pour la phase, comme il s’agit de préciser le décalage avec une origine
temporelle de référence, l’unité d’angle (degré, grade ou radian) convient
parfaitement. On pourra convertir le décalage de phase en valeur
temporelle si besoin est, en obtenant le décalage temporel comme
fraction de la période (ou comme un multiple de la période additionné
d’une fraction de période). Ainsi un décalage de phase positif de 45
degrés d’un son pur à 100 Hz, donc de période égale à 10 ms, correspond
à un décalage temporel par rapport à la référence de (45/360) x 10 ms =
(1/8) x 10 ms = 0,125 x 10 ms = 1,25 ms.
6. Amplitude et intensité
7. Bels et décibels
L’écart d’intensité entre le son le plus faible et le plus fort que l’on
puisse percevoir, c’est-à-dire entre le seuil d’audibilité et le seuil dit de la
douleur (au-delà duquel le système auditif peut être endommagé de
manière irréversible) est donc de 1 à 1 000 000 000 000. Pour utiliser une
échelle logarithmique représentant cette gamme de variation il nous faut
définir une référence puisque le logarithme d’une intensité n’a pas de
sens physique direct. La première valeur de référence qui vient à l’esprit
est le seuil d’audibilité (correspondant à la plus faible intensité de son
que l’on puisse percevoir), mais choisi à la fréquence de 1 000 Hz (on ne
savait pas à l’époque, dans les années 1930, que ce seuil était encore plus
bas, donc que l’audition humaine était encore plus sensible dans la région
de 2 000 Hz à 5 000 Hz). On décida donc arbitrairement que ce seuil
définit une valeur de référence de 20 µPa, à laquelle on attribue la valeur
en logarithme de 0 (puisque log(1) = 0).
Comme les chercheurs de la compagnie américaine Bell Telephone
Laboratories Harvey Fletcher et W. A. Munson étaient fortement
impliqués dans les recherches sur la perception des sons purs, on a choisi
le bel comme unité (symbole B), en donnant au seuil de perception à 1
000 Hz la valeur de 0 bel. Le seuil de la douleur étant en intensité 1 000
000 000 000 fois plus fort, on exprime sa valeur en bel par le rapport de
cette valeur avec la référence du seuil de perception dont on calcule le
logarithme, soit log(1 000 000 000 000/1) = 12 B Utiliser le rapport des
pressions donne le même résultat (rappelons que l’intensité est
proportionnelle au carré de l’amplitude) : pour le rapport d’amplitude, et
2 fois 6 B = 12 B pour le rapport d’intensité, puisque le logarithme du
carré de l’amplitude est égal à 2 fois le logarithme de l’amplitude. L’unité
bel paraissant un peu trop grande en pratique, on préfère utiliser des
dixièmes de bel ou décibels, symbole dB. Cette fois le rapport de
variation son le plus
fort-son le plus faible est de 60 dB, en amplitude, et
de 120 dB en intensité.
log(20 Pa/20 µPa) = log(20 000 000 µPa/20 µPa) = log(1 000 000) = 6 B
Dans la gamme tempérée, les fréquences des notes sont données par la
formule : f = ref 2 ((octave–3) + (ton–10)/12) où octave et ton sont des nombres entiers,
et ref la fréquence de référence de 440 Hz. La Table 1.3 donne les
fréquences des notes dans l’octave du la de référence (octave 3). Il faut
multiplier les fréquences par 2 pour une octave au-dessus, et les diviser
par 2 pour une octave en dessous.
Table 1.3
. – Fréquences des notes musicales
Notes Fréquence
si# / do 261,6 Hz
ré 293,7 Hz
mi / fab 329,7 Hz
mi# / fa 349,2 Hz
sol 392,0 Hz
la 440 Hz
11. Audiométrie
Comme on l’a vu, la recherche d’une unité de son a été basée sur la
référence utilisée par les musiciens et générée par le diapason. Le son pur
consiste donc en une généralisation du son produit par le diapason à
d’autres fréquences que le la3 de référence (aujourd’hui 440 Hz) et à une
idéalisation en ce que le son pur est infini dans le temps, à la fois dans le
passé et dans l’avenir. Au contraire, le son du diapason commence à un
instant déterminé lorsque la source est heurtée de manière à produire une
vibration du tube de métal, vibration qui se propage ensuite aux
molécules d’air environnantes. Ensuite, du fait des différentes pertes
d’énergie, l’amplitude de vibration décroît lentement pour s’évanouir tout
à fait après une durée relativement longue (plus d’une minute), mais
certainement pas infinie. On parle alors de vibration amortie (Figure 1.8).
Figure 1.8
. – Le diapason produit une variation sonore sinusoïdale
amortie
On conclut de tout cela que le son pur n’existe pas puisqu’il n’a pas de
durée (ou une durée infinie), et pourtant, peut-être sous le poids de la
tradition, et malgré les tentatives récurrentes de certains acousticiens,
cette construction mathématique continue à servir de base en tant
qu’unité de son à la description et à la mesure acoustique des sons réels,
et en particulier des sons de la parole.
Nous voici donc pourvus d’une unité physique de son, le son pur, de
fréquence de 1 Hz, et d’une amplitude égale à 1 PA (1 Pa =
).
Outre son caractère infini (il a toujours existé, et il existera toujours…
mathématiquement), de par sa valeur de 1 Hz en fréquence et de par son
échelle linéaire en Pascal pour l’amplitude, le son pur ne semble pas
réellement bien adapté pour décrire les sons utilisés par les humains.
Que se passe-t-il lorsque nous additionnons deux sons purs de
fréquences différentes ? Deux cas se présentent d’emblée : a) soit la
fréquence d’un des sons purs est un multiple entier de la fréquence du
premier, et on dira alors que ce son pur est un harmonique du premier (ou
qu’il a une fréquence harmonique de la fréquence du premier), soit b)
cette fréquence n’est pas un multiple entier de la fréquence du premier
son.
Dans le premier cas, l’addition des deux sons purs donne un son appelé
« complexe » dont la fréquence du premier son correspond à la fréquence
fondamentale du son complexe. Dans le deuxième cas (quoique l’on
puisse toujours dire que les deux sons sont toujours dans un rapport
harmonique car il est toujours possible de trouver un plus petit
dénominateur commun qui correspondra à leur fréquence fondamentale),
on dira que les deux sons ne sont pas dans un rapport harmonique et ne
constituent pas un son complexe. Nous verrons plus loin que ces deux
possibilités de rapport de fréquence entre sons purs caractérisent les deux
principales méthodes d’analyse acoustique de la parole : l’analyse de
Fourier et la méthode de Prony.
Il est naturel de généraliser les deux cas d’assemblage de sons purs à
une infinité de sons purs (après tout, nous voguons dans le monde
idéalisé des modèles de la physique), dont les fréquences sont soit dans
un rapport harmonique (donc des multiples entiers de la fréquence
fondamentale), soit ne sont pas dans un rapport harmonique.
Dans le cas harmonique, cet assemblage est décrit par une formule
mathématique utilisant le symbole Σ de la somme :
Figure 1.9
. – Exemple de son complexe constitué par la somme de 3
sons purs de fréquences harmoniques
La représentation des amplitudes des harmoniques sur un graphique
amplitude-fréquence est appelée spectre d’amplitude.
Figure 1.10
. – Spectre d'amplitude
Chapitre 2
1. Enregistrement de la parole
2. Le kymographe
Figure 2.3
. – Kymographes à cylindres verticaux et horizontaux
Ces premiers tracés kymographiques, examinés à la loupe, ont permis
de constater que le son du diapason se laissait décrire par une fonction
sinusoïdale, en faisant abstraction des imperfections du système
mécanique d’enregistrement (Figure 2.4).
Figure 2.4
. – Forme d'onde et spectrogramme du premier
enregistrement connu d'un diapason (1860, Scott de
Martinville)
Dans ses travaux, Scott de Martinville avait aussi remarqué que la
forme d’onde complexe des voyelles comme le [a] de la Figure
2.5pouvait résulter de l’addition de sons purs de fréquences harmoniques,
ouvrant la voie à l’analyse spectrale des voyelles (Figure 2.6).
Figure 2.5
. – Forme d'onde d'un [α] dans l'enregistrement de 1860
de Scott de Martinville
Figure 2.6
. – Calcul graphique de forme d'onde résultant de
l'addition de sons purs de Scott de Martinville
Les perfectionnements du kymographe se multiplièrent et son usage
pour l’étude des sons de la parole sera surtout connu par les travaux de
l’abbé Rousselot (1846-1924) relatés principalement dans son ouvrage
Principes de phonétique expérimentale publié de 1897 à 1901 (Figure
2.7).
Figure 2.7
. – L'inscription de la parole, l'abbé Rousselot
Depuis, les progrès technologiques ont été nombreux, ainsi que le
résume la Table 2.1.
Tableau 2.1
. – Étapes marquantes des procédés d'enregistrement de la
parole
3. Chaîne d'enregistrement
Enregistrements analogiques
Enregistrement numérique
Figure 2.9
. – Chaîne d'enregistrement numérique
Figure 2.10
. – Courbes de réponse polaires de microphones
omnidirectionnel, bidirectionnel et unidirectionnel
Il existe aussi des microphones «canon» («shotgun» en anglais) qui
offrent une très grande directivité et permettent des enregistrements à
haut rapport signal-bruit à relativement grande distance (5 à 10 mètres).
Évidemment, cette caractéristique oblige à prévoir un opérateur qui
dirige constamment le micro canon vers la source de son, par exemple un
locuteur, ce qui peut poser problème en pratique si le locuteur bouge,
même de quelques centimètres. Étant donné leur coût, ces micros sont en
principe réservés aux applications professionnelles du cinéma et de la
télévision.
Aujourd’hui la plupart des enregistrements en recherche phonétique
utilisent des micros dits micros-cravates (en anglais « Lavalier »)
piézoélectriques peu coûteux et efficaces si le locuteur enregistré est
coopératif, des micros unidirectionnels ou des micros canons dans le cas
contraire. Les micros électrets demandent l’utilisation d’une petite
batterie de polarisation que l’on a tendance
en pratique à ne pas
déconnecter, batterie qui se révèle presque toujours plate au moment
critique…
5. Lieux d'enregistrement
6. Monitoring
Conversion de l’amplitude
Fréquence d’échantillonnage
Combien de fois par seconde faut-il convertir les variations
analogiques ? Si l’on adopte une valeur trop grande, on va consommer de
la mémoire et forcer le processeur à traiter beaucoup de donnés
inutilement, ce qui peut ralentir indûment leur traitement. Si l’on adopte
une valeur trop faible, le phénomène d’aliasing se produira, comme
illustré Figure 2.11, dans lequel la sinusoïde à échantillonner présente
environ 10,25 périodes, mais les échantillons successifs (représentés par
un carré) ne sont qu’au nombre de 9. Il en résulte une représentation
erronée illustrée par la courbe en bleu, joignant les échantillons retenus
dans le processus d’échantillonnage.
Figure 2.11
. – Aliasing. Une fréquence d'échantillonnage
insuffisante donne une représentation erronée du signal
Le théorème de Nyquist-Shannon fournit la solution : pour qu’il n’y ait
pas d’aliasing, il faut et il suffit que la fréquence d’échantillonnage soit
supérieure ou égale à la plus haute fréquence (au sens de l’analyse
harmonique de Fourier) du signal échantillonné. Cette valeur s’explique
aisément en constatant qu’il faut au moins deux points pour définir la
fréquence d’une sinusoïde, et que pour représenter par échantillonnage
une sinusoïde de fréquence f il faut donc au moins un échantillonnage de
fréquence double.
Le problème pratique suscité par le théorème de Nyquist-Shannon est
que l’on ne sait pas nécessairement à l’avance qu’elle est la fréquence
supérieure contenue dans le signal à numériser, et que l’on réalise cette
conversion précisément pour analyser le signal et connaître sa
composition spectrale (et donc la fréquence supérieure). Pour sortir de ce
cercle vicieux, on utilise un filtre analogique passe-bas, qui ne laisse
passer entre le microphone et le convertisseur que les fréquences
inférieures à la moitié de la fréquence d’échantillonnage sélectionnée.
Les composantes du signal de fréquence supérieure ne seront donc pas
prises en compte dans la conversion.
8. Capacité d'enregistrement
1. Modes de production
Figure 3.4
. – Spectre d'onde glottique
3. «Jitter» et «shimmer»
La distribution statistique des durées de cycle laryngien est
caractérisée par une moyenne et un écart type rendant compte de la
dispersion de ces valeurs autour de la moyenne. En orthophonie, l’écart
type a reçu le nom anglais «jitter» et est indicateur, tout comme la
symétrie ou l’asymétrie de la distribution, de certaines affections
physiologiques touchant les cordes vocales. De même,
pour l’écart type
de la distribution des valeurs d’intensité échantillonnées à chaque cycle
laryngien autour de la moyenne (en unités linéaires), on a adopté le nom
anglais «shimmer».
4. Bruits de friction
5. Bruits d'explosion
Les bruits d’explosion sont produits par les consonnes occlusives,
appelées ainsi parce que leur génération nécessite la fermeture
(occlusion) du conduit vocal de manière à pouvoir créer une surpression
en amont de la fermeture, surpression qui provoque un bruit d’explosion
lorsque la fermeture est rapidement relâchée et que les molécules d’air se
déplacent rapidement de part et d’autre de la constriction pour égaliser la
pression en amont et en aval. On appelait du reste ces consonnes «
explosives » aux débuts de la phonétique articulatoire. L’endroit de la
fermeture du conduit vocal, appelé «lieu d’articulation», détermine les
caractéristiques acoustiques du signal produit qui servent à différencier à
l’audition les différentes consonnes d’un système phonologique.
En réalité, ces différences acoustiques sont relativement minimes et ce
sont plus les transitions articulatoires nécessaires pour la production
d’une voyelle éventuelle succédant à l’occlusive qui sont utilisées par les
auditeurs. Dans ce cas en effet, les vibrations des cordes vocales peu
après la détente de l’occlusive (durée appelée VOT, pour l’anglais «
Voice Onset Time », temps d’établissement du voisement, étudié
spécifiquement dans de nombreuses langues) provoquent la génération
d’une voyelle de caractéristiques spectrales transitoires qui se stabilise au
cours de la mise en place de l’articulation finale de la voyelle. Il se
produit une transition de formants (voir chapitre 4), c’est-à-dire des
fréquences de résonance déterminées par la configuration du conduit
vocal, qui sont utilisées par l’auditeur pour identifier la consonne
occlusive, bien plus que les caractéristiques du bruit d’explosion.
Néanmoins, il est possible de reconnaître des consonnes occlusives
prononcées isolément dans un contexte expérimental. Les consonnes
occlusives du français sont [p], [t] et [k], réalisées respectivement par
fermeture à l’endroit des lèvres (occlusive bilabiale), alvéolaire (pointe
de la langue contre les alvéoles des dents de la mâchoire supérieure) et
dos de la langue contre le palais dur.
6. Nasales
7. Modes mixtes
8. Chuchotement
Figure 3.5
. – Modèle de production de la parole
Pour représenter l’ensemble de ces mécanismes de manière simplifiée,
on utilise un modèle de production de la parole (Figure 3.5) : la source
est constituée soit d’un train d’impulsions (une séquence) de fréquence
Fo (inverse de l’intervalle de temps entre chaque impulsion) soit d’une
source de bruit, dont les amplitudes sont contrôlées par un paramètre A.
Un modèle mathématique du conduit vocal incorpore les caractéristiques
spectrales de la source glottique et du conduit nasal. Ce modèle incorpore
également un filtre supplémentaire qui rend compte des caractéristiques
de rayonnement aux lèvres. Ce type de modèle est appelé « source-
filtre», et rend assez bien compte de l’indépendance de la source (en
première approximation) par rapport au conduit vocal.
Les descriptions acoustiques des sons de la parole se servent
abondamment de ce modèle qui sépare si bien (peut-être de manière un
peu abusive) la source du son et son modelage par le conduit vocal et le
conduit nasal. Il aide à bien s’imprégner du fait que les caractéristiques
de la parole telles que l’intonation, dues aux variations de fréquence
laryngée au cours du temps, sont indépendantes du timbre des sons émis.
Chapitre 4
La représentation harmonique
Figure 4.1
. – Quatre réalisations de [α] dans une même phrase
montrant la diversité des formes d'onde. La phrase est
«Mais Natacha ne gagna pas» [mεnαtα∫αnəgαNαpα] (voix
de G.B.)
réalité du signal, qui change continuellement avec la parole du locuteur.
Pour résoudre ces deux problèmes en même temps, l’idée est de
prélever des segments du signal sonore à intervalles réguliers et d’en
faire l’analyse comme si chacun de ces segments se répétait à l’infini de
manière à constituer un phénomène périodique, dont la période est égale
à la durée du segment. On peut alors bénéficier de l’intérêt primordial de
l’analyse de Fourier qui est de séparer l’amplitude des composantes
harmoniques de leur phase pour obtenir ce qui peut apparaître comme un
invariant caractéristique du son, alors que la phase n’est pas utilisée sauf
pour différencier les deux canaux d’un son stéréophonique.
Le principe de l’analyse harmonique est basé sur le calcul de la
corrélation existant entre le signal analysé et deux fonctions sinusoïdales
décalées entre elles de 90 degrés (π/2), c’est-à-dire une corrélation avec
un sinus et un cosinus. Le module (la racine
carrée de la somme des
carrés) des deux résultats donnera la réponse attendue, indépendamment
de la phase qui s’obtient par l’arc du rapport des deux composantes.
Mathématiquement, les deux composantes A et B de la décomposition du
signal prélevé d’une durée T s’obtiennent par les équations
3. Instantanés sonores
Figure 4.6
. – Prélèvement temporel d'un son pur par une fenêtre
rectangulaire
Que se passe-t-il lorsque l’on effectue un prélèvement temporel à
l’intérieur du son pur? À moins d’avoir beaucoup de chance, c’est-à-dire
de connaître à l’avance la période du son pur analysé, la durée du
prélèvement ne lui correspondra pas et on aura transformé par
prélèvement et reproduction du segment à l’infini un autre son, plus du
tout décrit par une sinusoïde, mais plutôt par une sinusoïde tronquée au
début et à la fin (Figure 4.6).
L’analyse de Fourier de ce nouveau signal ainsi fabriqué donnera
quantité de composantes harmoniques parasites étrangères à la fréquence
du son pur de départ. Ce n’est que lorsque la durée de la fenêtre
temporelle correspondra à la durée d’une période du son pur que le
spectre de Fourier ne présentera qu’une seule composante.
Alors, comment faire? L’exemple du prélèvement par une fenêtre
rectangulaire illustre bien le problème : on comprend intuitivement que
ce sont les limites de la fenêtre qui provoquent ces perturbations non
désirées dans le spectre en introduisant des artefacts dans le son analysé.
Pourquoi alors ne pas les rendre moins importantes, c’est-à-dire en
réduire l’amplitude de manière à ce que les débuts et fins de signal
prélevé comptent moins dans
le calcul du spectre de Fourier, car ayant
moins d’amplitude? L’« adoucissement » des extrémités de la fenêtre est
un art en soi, et a fait l’objet de bien des études mathématiques. En fait,
on peut montrer que l’effet de la fenêtre temporelle peut s’estimer en en
calculant tout simplement la transformée de Fourier.
5. Fenêtres célèbres
6. Filtres
Figure 4.9
. – Réponse en fréquence de différents types de filtres,
Butterworth (2e ordre), Bessel et Chebychev (à – 3 dB)
Chapitre 5
1. La méthode de Prony-LPC
Figure 5.1
. – Modèle sous-jacent à l'analyse LPC
Il s’agit donc d’un modèle, c’est-à-dire d’une construction
mathématique simulant plus ou moins bien la réalité du mécanisme
phonatoire. En particulier, les cycles asymétriques laryngés sont
remplacés par un train d’impulsions qui produit également un grand
nombre d’harmoniques, mais d’amplitude constante et non comme dans
la réalité décroissant de 6 db à 12 dB par octave. D’autre part, la source
bruit de friction est positionnée au même endroit que la source
d’impulsion dans le modèle, ce qui ne correspond jamais à la réalité, sauf
pour la consonne laryngale [h]. Ainsi, pour les fricatives du français, la
position de la source dans le conduit vocal pour les consonnes [f], [s] et
[ʃ] se situe respectivement aux lèvres, aux alvéoles des dents de la
mâchoire supérieure et au sommet du palais dur.
L’intérêt d’un tel modèle réside essentiellement dans le fait qu’il est
possible d’obtenir directement les fréquences de résonances du filtre à
partir de ses caractéristiques, et donc d’estimer les formants sans devoir
faire une interprétation pas toujours évidente d’un spectre ou d’un
spectrogramme. Cela tient à ce que l’on force dans cette méthode les
données – c’est-à-dire les fenêtres extraites du signal – à correspondre au
modèle source-filtre. Les formants obtenus seront en réalité ceux du filtre
et l’adéquation avec ceux du conduit vocal ayant produit le signal analysé
n’est pas garantie.
2. Zéros et pôles
Toute une classe de filtres électriques est définie par une équation
mathématique appelée «fonction de transfert » qui rend compte de la
réponse du filtre à une excitation (une entrée donnée). Ces fonctions de
transfert peuvent souvent s’exprimer sous forme de fraction, dont le
numérateur et le dénominateur sont des fonctions polynomiales de la
fréquence (une fonction polynomiale d’une variable est une somme de
termes de type coefficient multiplié par une puissance de la variable). Il
est donc possible de calculer à partir d’une fonction de transfert la
réponse en fréquence et en phase du filtre. Les fonctions polynomiales du
numérateur et du dénominateur ont des valeurs de fréquence particulières
qui les annulent, rendant la fonction de transfert nulle pour le numérateur
et infinie pour le dénominateur (à moins que la même fréquence rende
simultanément nuls numérateur et dénominateur). Lorsqu’une fréquence
annule le numérateur, on parle de zéro de la fonction de transfert, et
lorsqu’elle annule le dénominateur, on parle de pôle.
La courbe de
réponse en amplitude caractérisant le filtre présente donc des valeurs
nulles pour des zéros de la fonction de transfert, et des valeurs infinies
pour des pôles.
L’intérêt des fonctions de transfert pour l’analyse de la parole vient du
rapprochement qu’il est possible de faire entre le mécanisme de
génération des sons de la parole (en particulier la génération de voyelles)
et le modèle source-filtre : les cycles laryngés successifs sont représentés
par un train d’impulsions (une séquence d’impulsions de période égale à
la période laryngée), et le bruit de friction des fricatives par un bruit
blanc (un bruit blanc comprend toutes les fréquences d’égale intensité
dans le spectre).
Le modèle source-filtre est donc une approximation de la réalité dans
la mesure où l’excitation glottale n’est pas un train d’impulsion et où la
source des sons fricatifs n’est pas positionnée au même lieu du conduit
vocal. Néanmoins, on peut par exemple tenir compte du spectre de la
source de vibration laryngée caractérisée par une chute de 6 dB à 12 dB
en intégrant le filtre très simple et à un seul pôle qui le modélise dans le
filtre représentant l’ensemble du conduit vocal. Pour le reste, les pôles
représentent les formants, qui sont effectivement des valeurs de la
fréquence laryngée qui correspondent à un renforcement des amplitudes
des harmoniques de la fréquence laryngée.
Le principe de l’analyse de Prony, donc du calcul des coefficients de
prédiction linéaire, est de déterminer les coefficients d’un filtre
modélisant les caractéristiques du conduit vocal (en y intégrant les
caractéristiques de la source). Comme la formulation mathématique du
problème implique la stationnarité, il faudra, comme dans l’analyse
harmonique de Fourier, prélever dans le signal des fenêtres d’une durée
minimale suffisante pour pouvoir résoudre le système d’équation, et
d’une durée maximale acceptable quant à la stationnarité du conduit
vocal. La durée minimale est fonction du nombre d’échantillons du signal
nécessaire, donc aussi de la fréquence d’échantillonnage.
On pose alors l’équation suivante : ,
qui signifie tout simplement que la valeur du signal à l’instant n (il s’agit
de valeurs échantillonnées et indicées 0, 1, …, n) résulte de la somme des
produits des valeurs du signal aux instants n – 1, n
– 2, …, n – p. On peut
montrer (mais pas ici… !) en calculant la transformée en z (équivalente à
la transformée de Laplace pour les systèmes discrets, c’est-à-dire aux
valeurs échantillonnées) que cette équation décrit un filtre de type
autorégressif (avec un numérateur égal à 1), qui pour nous devrait
correspondre à un modèle du conduit vocal valable pour une petite
section du signal, donc pendant la durée de la fenêtre temporelle utilisée.
La description mathématique de ce filtre sera obtenue lorsque nous
saurons quelles sont les valeurs des m coefficients. La fonction de
transfert du modèle tout pôle correspondant est .
Figure 5.2
. – Comparaison de spectres de Prony d'ordre 12 avec une
fenêtre de 2 ms, 16 ms et 46 ms
Différents procédés existent pour résoudre ce système d’équations,
connus entre autres sous les noms «méthode de corrélation », «méthode
de covariance» et «méthode de Burg ». Cette dernière méthode est
aujourd’hui la plus utilisée car elle garantit des résultats stables avec un
temps de calcul raisonnable.
Spectrogrammes
1. Lecture de spectrogrammes
[efafanəvizaZamεləbarakyda]
Silences
Figure 6.3
. – Repérage des silences [efafanəvizaZamεləbarakyda]
Fricatives
Figure 6.4
. – Repérage des fricatives non voisées
[efafanəvizaZamεləbarakyda]
Figure 6.5
– Repérage des fricatives voisées
[efafanəViZaZamεləbarakyda]
Occlusives
Figure 6.6
.– Repérage des occlusives non voisées
[efafanəviza3amεləbarakyda]
Figure 6.7
. – Repérage des occlusives voisées
[efafanəvizaʒamεləbarakyda]
Voyelles
Nasales
Les consonnes nasales sont souvent les plus difficiles à identifier. Elles
présentent en général une amplitude plus faible que les voyelles
adjacentes, qui se traduit par des formants de moindre
intensité.
Heureusement, on peut souvent les repérer par défaut en ayant
préalablement identifié les voyelles adjacentes. Il en va de même pour les
liquides [l] et les variantes de [r], [R] (qui se reconnaissent aussi aux
battements visibles à bande large avec un niveau suffisant de zoom
temporel).
Figure 6.9
. – Repérage des consonnes nasales
[efafanəvizaʒamεləbarakyda]
Le R
Figure 6.11
. – Voyelle [α] : Spectre de Fourier bande large, bande
étroite et spectre de Prony
On conçoit que l’analyse de Fourier demande d’une part une
estimation visuelle pas toujours évidente des sommets du spectre, et
d’autre part introduise une erreur (au moins par inspection visuelle) égale
à la moitié de l’écart entre deux harmoniques proches du sommet. Il est
cependant possible de réduire cette erreur par interpolation parabolique
par exemple. Lorsque le spectre de Fourier est à bande étroite de manière
à mieux distinguer les harmoniques, au prix, rappelons-le, d’une faible
résolution temporelle, donc de l’obtention d’une moyenne relevant de
toute la durée de la fenêtre temporelle nécessaire à l’analyse, l’estimation
visuelle n’est pas nécessairement plus facile. Du reste, la mise au point
d’algorithmes implémentés sur ordinateur pour automatiser cette mesure
se révèle très difficile et les réalisations existantes sont peu
convaincantes.
Un cas extrême de la mesure de formant est celui posé par le
«problème de la cantatrice». Imaginons qu’une soprano doive chanter
dans sa partition la voyelle [ə], dont les formants sont respectivement F1
500 Hz, F2 1 500 Hz, F3 2 500 Hz, F4 3 500 Hz, etc. Dès que la
fréquence laryngée de la chanteuse dépassera la fréquence du premier
formant, pour atteindre par exemple 800 Hz, ce premier formant ne
pourra plus être réalisé puisque aucun harmonique ne correspondra à 500
Hz, fréquence du premier formant de la voyelle à réaliser. Cela illustre
bien la séparation qu’il y a lieu de faire entre source laryngée,
responsable de la fréquence des harmoniques, et configuration du conduit
vocal, responsable de la fréquence des formants (en réalité une
interaction entre les deux processus existe, mais on peut la négliger en
première approximation).
L’analyse de Prony semble bien plus satisfaisante pour mesurer les
formants en ce qu’elle présente des pics correspondant aux formants
faciles à identifier visuellement et par algorithme. Les Figures 6.12 et
6.13 illustrent l’effet de l’ordre du filtre sur le spectre résultant. Les
Tables 6.2et 6.3 donnent les fréquences de formants correspondant aux
pics de chaque spectre.
Figure 6.12
. – Spectre de Prony d'ordre 12, 10 et 8
Table 6.2
. – Valeurs des pics du spectre
Figure 6.13
. – Spectre de Prony d'ordre 6, 4 et 2
Table 6.3
. – Valeurs des pics du spectre
Figure 6.14
. – Spectre de Prony d'ordre 100 montrant des pics
correspondant aux harmoniques du signal
En résumé, dans l’hypothèse d’un signal (relativement) stationnaire, le
nombre de formants étant égal au nombre de coefficients/2, on adopte la
règle heuristique : Nbre coeff = 2 + (Fréquence d’échantionnage/1 000).
Il faut noter de plus que la position des formants dépend de la méthode
de résolution (autocorrélation, covariance, Burg…), et bien sûr que la
méthode n’est pas valable pour les occlusives ou les nasales (à moins de
recourir au modèle ARMA dont la résolution n’est en général pas
disponible sur les logiciels d’analyse phonétique).
Pour terminer ce chapitre, la Figure 6.15montre une comparaison de
spectrogrammes de Fourier (à bande moyenne) et de Prony qui permet
d’apprécier les avantages et les désavantages des deux méthodes pour la
mesure des formants.
Figure 6.15
. – Comparaison des spectrogrammes de Fourier et de
Prony
La fréquence fondamentale
Figure 7.1
. – Motifs caractéristiques répétés de vibration laryngée
En examinant la Figure 7.1plus en détail (il s’agit d’une voyelle [a], et
l’échelle horizontale est graduée en secondes), on remarque 16
répétitions d’un motif allant de 1,403 à 1,510 seconde. On en déduit que
la durée moyenne d’un cycle de vibration est d’environ (1,510 –
1,403)/16 = 6,68 ms.
Dans une autre occurrence de la voyelle [a], prononcée par le même
locuteur dans la même phrase, on observe un motif comparable mais les
vibrations succédant à la vibration principale sont plus importantes dans
le premier exemple que dans le second, et surtout les crêtes présentent
plusieurs rebonds d’égale amplitude (Figure 7.2).
Figure 7.2
. – Motifs d'une autre occurrence de la voyelle [α]
Dans la voyelle [i] de la Figure 7.3on observe 16 répétitions d’un motif
d’oscillation d’environ (0,774 – 0,670)/16 = 6,50 de période moyenne.
Figure 7.3
. – Motifs d'une occurrence de la voyelle [i]
On sait que les motifs répétés à chaque période d’une part ne sont pas
exactement reproduits à l’identique, et d’autre part sont différents pour
les deux exemples de [a] et de [i]. On pourrait penser que la description
du motif pourrait suffire à caractériser ces deux voyelles. Or
(malheureusement) il n’en est rien! Si, comme on l’a vu dans le chapitre
consacré à l’analyse spectrale des voyelles, les composantes harmoniques
créées par les vibrations laryngiennes présentent des amplitudes
relativement grandes dans certaines gammes de fréquences (les
formants), zones résultant de la configuration articulatoire dont ces
voyelles, les phases relatives des différents harmoniques ne sont pas
nécessairement stables et peuvent non seulement varier de locuteur à
locuteur, mais aussi au cours de l’émission d’une même voyelle par un
seul locuteur.
Les sons de la parole dits «voisés» (voyelles, consonnes telles que [b],
[d], [g]) sont produits avec vibration des cordes vocales ou vibration
laryngienne. La fréquence laryngée, symbole F1, se mesure directement à
partir des propriétés physiologiques liées aux vibrations des cordes
vocales, comme par exemple les variations d’impédance électrique au
voisinage de la glotte. La mesure acoustique de la fréquence
fondamentale Fo du signal de parole est en réalité une estimation de la
fréquence laryngée. Fo est donc une estimation de F1 faite à partir du
signal acoustique.
La fréquence laryngienne peut être également estimée directement par
l’observation des données physiologiques liées à la vibration des cordes
vocales (laryngographe). Ces mesures physiologiques tendent à repérer
dans le temps les différentes phases du cycle de vibration glottique
(laryngoscopie, variation d’impédance électrique au niveau de la glotte,
etc.). Dans ce cas, si t1 et t2 désignent les débuts de deux cycles de
vibration consécutifs, la période laryngienne est égale à T1 = t2 – t1 et la
fréquence laryngienne est définie par (Figure 7.4) F1= 1/(t2 - t1) pour t1
< t ≤ t2.
La fréquence laryngienne peut varier considérablement au cours de la
phonation et peut s’étendre sur plusieurs octaves. Dans les cas extrêmes,
il est possible d’observer des transitions allant de 100 Hz à 300 Hz
(passage du mode de phonation normal au mode falsetto) pendant un
intervalle de deux ou trois cycles.
D’autre part, les cycles successifs présentent des variations de
plusieurs pour-cent autour d’une valeur moyenne, selon entre autres l’état
physiologique des muscles impliqués dans le mécanisme de vibration.
Même l’observation directe (par cinématographie rapide par exemple) ne
permet pas toujours le repérage précis des débuts de cycle (voix creaky,
soufflée, etc.). Il en résulte une erreur difficile à réduire.
La mesure de Fo peut se faire à partir du signal de parole dans le
domaine temporel, par exemple après filtrage du signal, ou dans le
domaine fréquentiel, à partir de la fréquence fondamentale (au sens de
Fourier) d’un son voisé. Les variations successives des valeurs de Fo au
cours du temps portées en graphique constituent la courbe mélodique
produite lors de la phonation.
On peut dire que la difficulté de la mesure de la fréquence
fondamentale provient en grande partie de ce qu’il n’y a pas de cycles de
vibration glottique à proprement parler, mais plutôt récurrence d’un
mouvement contrôlé par de nombreux paramètres (muscles adducteurs et
de tension contrôlant les cordes vocales, pression sous-glottique, etc.). Le
signal de parole à partir duquel s’effectue la mesure résulte de
l’interaction complexe de l’excitation glottique et des variations
temporelles de la forme du conduit vocal.
Les outils mathématiques habituellement utilisés en traitement de
signal et conçus pour l’étude de phénomènes périodiques se révéleront
souvent mal adaptés à ce genre d’analyse, pour lequel rien n’est vraiment
stationnaire. C’est pourquoi il existe littéralement des centaines de
procédés et d’algorithmes de mesure de la fréquence fondamentale (Hess,
1983), qui peuvent se classer en méthodes temporelles et méthodes
fréquentielles. La difficulté de la mesure tient à plusieurs raisons :
- la composante fondamentale est parfois absente dans le signal,
soit parce qu’elle a été filtrée (cas des liaisons téléphoniques
analogiques), soit du fait de la nature de certaines voyelles (cas
du [u] par exemple) ;
- la présence de bruits divers dans le signal (est considéré comme
bruit tout ce qui ne résulte pas de la production du signal de
parole) rend difficile l’identification des composantes
harmoniques pertinentes pour le calcul de Fo, et en particulier
celle de la première composante censée correspondre à la
fondamentale ;
- le codage et la compression du signal selon divers procédés tels
que MP3, WMA, OGG, etc. introduit en général après
décompression des perturbations dans les valeurs fréquentielles
des différents harmoniques, ce qui peut perturber la mesure de
Fo qui est faite à partir de ces informations.
4. Méthodes temporelles
Figure 7.5
. – Forme d'onde (courbe oscillographique) d'une voyelle
[α]
Si visuellement cette tâche semble pouvoir aisément être menée à bien,
c’est loin d’être le cas pour un processus électronique ou algorithmique.
La difficulté consiste à repérer les «bons» pics, ce qui visuellement se fait
en réalité par une identification des motifs répétés qui constituent un
cycle laryngien. Le cas de la Figure 7.6montre une autre difficulté liée
aux changements de phase de certains harmoniques de cycle en cycle : le
«bon» pic semble alors se déplacer d’un motif à l’autre.
Figure 7.6
. – Courbe oscillographique d'une voyelle [i]
Lors des débuts de l’analyse acoustique de la parole, on ne disposait
pas de spectrographes (l’analyse harmonique de Fourier était exécutée à
la main…), et le calcul (approché) de la fréquence laryngée se faisait à
partir des tracés de vibration laryngée obtenus grâce au kymographe.
Après avoir identifié visuellement la répétition des motifs
caractéristiques de chaque cycle, on pouvait soit faire une mesure directe
de la période en mesurant la distance entre deux instants apparemment
semblables de la vibration (haut de la Figure 7.7), soit mesurer la durée
prise par un certain nombre de périodes (10 par exemple). Cette dernière
méthode a l’avantage de diviser l’erreur de mesure (inévitable et due à
l’épaisseur du tracé, à la faible longueur de l’intervalle graphique entre
autres) par le nombre de motifs considérés.
Figure 7.7
. – Mesures manuelles de la fréquence laryngée
Devant les configurations difficiles de la mesure aux motifs changeant
de cycle à cycle, on aimerait se rapprocher du cas idéal de la sinusoïde,
par exemple en utilisant un filtre passe-bas tel qu’il ne laisse passer à la
sortie qu’une seule composante harmonique, de manière à ce que le
signal de sortie ne présente qu’un seul pic ou que deux passages par zéro
par période laryngée de l’entrée.
Deux nouveaux problèmes apparaissent alors. D’une part, il faudra
ajuster la fréquence de coupure du filtre passe-bas pour que la condition
soit toujours remplie quelle que soit la fréquence fondamentale du signal.
Or c’est en général une donnée inconnue puisque la fondamentale est
précisément ce que l’on cherche à mesurer. Il faudra manuellement ou
automatiquement ajuster le filtre ou commuter un banc de filtres passe-
bas de manière à remplir la condition de mesure (une sinusoïde à la
sortie, ou au moins seulement deux passages par zéro du signal de sortie
par période laryngée). Cette technique a longtemps été utilisée par des
analyseurs de mélodie commerciaux.
D’autre part, la mesure du signal de sortie est lui-même sujet à erreur.
Si la mesure des périodes se fait par détection des sommets successifs,
l’erreur peut être due à la présence d’harmoniques non filtrés dans le
signal de sortie et au déphasage ainsi produit dans les sommets
successifs. S’il se fait par détection de passages par zéro du signal de
sortie, la présence inévitable de bruit impose
une valeur pratique non
nulle de cette valeur «zéro», et donc un déphasage dû cette fois à des
changements d’amplitude du signal de sortie (Figure 7.8). Pour
minimiser ce type d’erreur, des techniques de compensation par détection
des passages par «zéro» positif et négatif ont été réalisées (Pitch
Computer de Frøkjaer-Jensen, 1975).
Figure 7.8
. – Effet de variations d'amplitude sur la mesure de
périodes par passage par zéro biaisé
Aujourd’hui, les méthodes temporelles sont peu utilisées, sauf si elles
sont pilotées par une méthode fréquentielle plus robuste qui encadre les
valeurs de période possibles. On peut alors conjuguer les avantages des
méthodes fréquentielles et temporelles en réalisant des mesures période
par période, nécessaires pour la mesure du jitter et du shimmer par
exemple.
Un dispositif simple appartenant à la catégorie des méthodes
temporelles consiste à recouvrer la fréquence fondamentale par un filtre
passe-bas, de fréquence de coupure ajustable manuellement ou
automatiquement selon les variations de la fondamentale. Le filtre est
suivi d’un fréquencemètre opérant (par exemple) à partir des passages
par zéro du signal filtré.
Les caractéristiques du filtre sont choisies de manière à éliminer les
composantes harmoniques indésirables afin que le nombre de passages
par zéro du signal filtré corresponde à celui de la source.
On peut montrer (McKinney, 1965) que cette condition est satisfaite si
la somme des amplitudes des différents harmoniques supérieurs à un
multipliés par leur rang harmonique est inférieure à l’amplitude de la
fondamentale.
Un filtre passe-bas de fréquence de coupure fixe convient donc pour
des sons de parole dont le modèle de production prévoit une amplitude
suffisante de la fondamentale, l’absence d’occlusives, etc. Des voyelles
telles que [u] (comme dans « mou »), qui souvent présentent une
amplitude de la fondamentale de 10 dB à 12 dB inférieure à celle du
deuxième harmonique, ne pourront être traitées correctement avec ce
système et il faudra prévoir une atténuation du filtre plus forte, entraînant
une réduction de la bande de fréquence d’analyse utile du filtre (Boë et
Rakotofiringa, 1971).
D’autre part,le filtrage provoque inévitablement des déphasages des
harmoniques en sortie, ce qui peut provoquer des erreurs dans la
sélection automatique de filtres configurés dans un banc de filtres. Il est
toutefois possible de compenser ces déphasages par l’emploi de lignes à
retard par exemple (Léon et Martin, 1970).
La mesure de Fo par autocorrélation d’une fenêtre temporelle (de 10
ms à 50 ms de durée) est une méthode qui peut être aujourd’hui
implémentée en temps réel et donne des résultats satisfaisants lorsque le
signal ne varie pas trop d’une période à l’autre (quasi-périodicité). Le
maximum de la fonction d’autocorrélation est obtenu en principe lorsque
le décalage entre le signal original et le signal décalé est égal à une
période fondamentale.
Malheureusement, pour des signaux où le deuxième harmonique est
renforcé par le premier formant, le maximum de la fonction
d’autocorrélation correspond au deuxième harmonique donnant une
mesure erronée de Fo (frequency doubling).
La formule mathématique de l’autocorrélation est ,
Figure 7.9
. – Principe du calcul de Fo par autocorrélation
C’est donc la durée de la fenêtre temporelle qui constitue le paramètre
du calcul de Fo (en fait To, la période fondamentale) par autocorrélation.
Cette durée doit être supérieure à la période fondamentale cherchée.
Un prétraitement non linéaire plus ou moins heuristique, comme
l’écrêtage du signal (peak clipping), la rétention du «centre» du signal
après écrêtage (center clipping), l’élévation au carré ou au cube, le
simple ou double redressement améliore parfois la situation en renforçant
l’amplitude de la fondamentale avant le calcul de l’autocorrélation, ou
même la mesure des passages par zéro. La Figure 7.10 en donne deux
exemples.
Figure 7.10
. – Prétraitement non linéaire du signal center clipping et
peak clipping (écrêtage)
La méthode temporelle AMDF (pour l’anglais «Average Magnitude
Difference Function») était naguère fort répandue. Il s’agit cette fois de
trouver le minimum d’une fonction
qui établit pour quel décalage τ la somme des différences absolues prises
terme à terme des échantillons de deux fenêtres de durée T donne la
meilleure correspondance (la correspondance parfaite donne une valeur
de l’AMDF nulle).
5. Méthodes fréquentielles
Figure 7.11
. – Mesure de Fo à partir d'un spectrogramme à bande
étroite. Pour réduire l'erreur, on mesure la fréquence du 10e
harmonique que l'on divise ensuite par 10
On pourrait penser que la méthode la plus simple consiste à retenir le
premier harmonique du spectre comme fréquence fondamentale. Hélas,
la présence de bruits de diverse nature et surtout l’absence possible de ce
premier harmonique dans le spectre rendent cette méthode peu fiable. Le
signal délivré par les téléphones (analogiques et numériques) est
dépourvu la plupart de temps de composantes inférieures à 300 Hz (la
bande passante d’un signal téléphonique analogique est de 300 Hz à 3
400 Hz par design). Toutefois, la méthode par repérage visuel de la
fondamentale à partir d’un spectrogramme à bande étroite a longtemps
été utilisée. Pour réduire l’erreur sur la valeur de Fo, difficile à estimer vu
l’épaisseur des courbes représentant les harmoniques, on mesurait la
fréquence du dixième harmonique qui, divisée ensuite par 10, permet de
réduire d’autant l’erreur sur la valeur de la fréquence (Figure 7.11).
Si seules les fréquences harmoniques du segment de parole sont
disponibles dans un spectre, à l’exclusion d’autres composantes de bruit,
la fréquence fondamentale est obtenue par l’évaluation du plus grand
commun diviseur des maxima du spectre d’amplitude. Cela implique en
pratique que ces maxima peuvent être identifiés de manière fiable, même
en présence de bruit, et qu’une structure harmonique existe effectivement
dans le spectre. Un spectre ne présentant qu’une seule composante
harmonique, même correspondant à la fondamentale, ne pourra donc pas
convenir.
Un procédé ancien, devenu classique, de ce type d’analyse, est le
cepstre qui procède par l’analyse harmonique du spectre du signal (plus
exactement du logarithme du spectre du signal). On reconnaît ainsi la
périodicité dans le spectre censée correspondre à la fréquence
fondamentale recherchée.
L’importance du maximum du cepstre constitue une indication du
degré d’harmonicité des composantes du spectre du signal, donc aussi
une indication du degré de voisement. Une voyelle présentera une
structure harmonique bien définie par rapport aux composantes de bruit,
et un maximum de cepstre important. Au contraire, une consonne sourde,
donc dépourvue de voisement et dépourvue de pics harmoniques
régulièrement espacés sur l’échelle des fréquences, donnera un cepstre
correspondant au bruit sans pic remarquable.
Diverses méthodes ont été proposées pour évaluer la périodicité des
harmoniques d’un spectre voisé, sans passer par le double calcul d’une
transformée de Fourier nécessaire pour le cepstre.
Ainsi, l’intercorrélation avec une fonction spectrale de type peigne
dont les dents sont d’amplitude décroissante et l’espacement entre les
pics variable, donne de bons résultats (Martin, 1982). Un maximum de
cette fonction d’intercorrélation est obtenu lorsque l’espacement entre les
dents du peigne correspond à un maximum d’harmoniques du spectre
analysé. Une extension de cette méthode, opérant sur l’ensemble des
harmoniques du segment voisé avant le calcul proprement dit de la
fondamentale de manière à utiliser l’ensemble des informations
spectrales du segment voisé (et non plus d’un seul prélèvement temporel)
a été proposée par Martin (2000).
La présence d’une structure harmonique et la valeur de l’intervalle
harmonique correspondant à la fréquence fondamentale sont détectées
lorsque l’intercorrélation atteint un certain seuil dont la valeur peut
également être utilisée comme critère de voisement.
D’une manière générale, les méthodes spectrales supposent moins de
contraintes pour le modèle source-filtre sous-jacent et sont donc plus
résistantes au bruit (au sens défini plus haut) que l’analyse temporelle.
Il reste que l’analyse par une méthode spectrale implique un fenêtrage
du signal qui entraîne une résolution fréquentielle appropriée. Pour des
basses valeurs de Fo, par exemple 70 Hz, il faut une résolution
fréquentielle de l’ordre de 30 Hz, ce qui entraîne une durée de
prélèvement temporel d’environ 40 ms. La valeur calculée de Fo étant
relative à l’entièreté de cette fenêtre, les variations fines ou rapides de Fo
ne pourront pas être mesurées correctement. Une durée d’analyse de 32
ms par exemple donnera une seule mesure de Fo, alors qu’à 300 Hz plus
de 9 valeurs d’estimation de fréquence laryngée pourraient
théoriquement être obtenues. Il faut donc à chaque fois utiliser une durée
de fenêtre temporelle appropriée aux valeurs de Fo attendues mais cela
n’est pas toujours possible en cas de variation de registre rapide.
Les méthodes spectrales, plus résistantes au bruit, conviennent pour
l’étude des macrovariations de Fo (évolution de la courbe mélodique au
regard de la structure syntaxique par exemple). Les dispositifs opérant
dans le domaine temporel sont en revanche souhaitables pour l’étude de
la micromélodie (variations cycle à cycle en physiologie de la
phonation).
Malgré leur complexité et l’ingéniosité des algorithmes, tous les
dispositifs élaborés à ce jour présentent des défaillances dans des
conditions spécifiques. Ces conditions peuvent être déterminées
dans une
certaine mesure à l’avance par le biais du modèle implicite dans le
principe d’analyse. Les erreurs se répartissent en deux groupes :
a les erreurs dites «grossières» pour lesquelles la valeur obtenue
s’écarte considérablement (de plus de 50 % par exemple) de la
fondamentale « théorique ». C’est le cas des erreurs
d’identification d’harmonique, où l’analyseur propose une valeur
correspondant au deuxième ou au troisième harmonique, et des
«ratés» (le terme anglais est «misses») dus à une baisse
temporaire de l’amplitude de la fondamentale filtrée (cas du
domaine temporel) ;
b les erreurs dites « fines », pour lesquelles la différence de Fo
mesurée par rapport à la fréquence laryngée mesurée cycle à
cycle n’atteint que quelques pour-cent. Les erreurs fines sont
principalement dues à l’interaction des composantes de bruit
lorsque l’amplitude de la fondamentale est faible.
En pratique, malgré l’apparition de processus de plus en plus élaborés,
la détection fiable de la fréquence fondamentale requiert un signal de
parole de bonne qualité (réponse en fréquence de l’enregistrement et
absence de bruit) et, le plus souvent, la présence effective de la
composante fondamentale dans le signal. En pratique, il est prudent de
toujours afficher un spectrogramme à bande étroite permettant de vérifier
visuellement la pertinence de l’affichage de la courbe de Fo, et de
corriger les paramètres d’analyse si nécessaire.
6. Lissage
Figure 7.13
. – Affichage simultané de la courbe mélodique et d'un
spectrogramme à bande étroite, permettant par inspection
visuelle de repérer les erreurs de mesure éventuelles de Fo
modifications des paramètres d’analyse, voire des changements de
méthode permettent alors de corriger des erreurs qui seraient
difficilement détectables sans cet affichage d’informations spectrales
complémentaires.
8. Mesure de l'intensité
9. Morphing prosodique
Modification de l’intensité
Ralentissement-accélération
Figure 7.15
. – Modification de la fréquence fondamentale de la
parole par décomposition-recomposition Psola
Modification de Fo
Figure 7.16
. – Analyse de Fourier directe et inverse du vocodeur de
phase
Le vocodeur de phase procède par analyse de Fourier en un certain
nombre de composantes sinusoïdales harmoniques dont le nombre est
égal à la moitié du nombre d’échantillons de chaque fenêtre temporelle.
Ces composantes sont ensuite traitées une à une, soit pour en modifier
l’amplitude, soit pour en étendre la
validité temporelle de manière à
modifier la durée. La transformée inverse du spectre modifié reconstitue
le segment du signal prélevé, et il suffit ensuite d’additionner les
segments successifs pour reconstituer le signal modifié. Le vocodeur de
phase, grâce à la décomposition en sinusoïdes de fréquence inverse à la
durée de la fenêtre temporelle utilisée dans les calculs, permet donc de
sculpter le spectre entre les étapes d’analyse et de recomposition additive
des segments.
Le problème lié à ces opérations réside dans les modifications de phase
introduites par l’allongement (obtenu par recopie de segments) ou le
raccourcissement (obtenu par suppression de segments) des durées du
signal (ce qu’évite la méthode Psola). Si l’on veut par exemple
augmenter le débit de parole, on supprime un certain nombre de
segments prélevés, mais lors de l’addition des segments survivants leurs
différentes composantes harmoniques ne seront plus en phase et
produiront de l’écho par leur addition. Il en va de même lors de la
répétition de segments dans la reconstitution du signal pour en allonger la
durée. Il faut donc corriger la phase de chaque composante de chaque
segment pour réaliser une reconstruction du signal correcte et dépourvue
d’écho, d’où le nom «vocodeur de phase» du processus (le terme
«vocodeur» vient de l’anglais «Voice Coding», utilisé dans la recherche
sur la compression du signal téléphonique).
La Figure 7.17( page ci-contre) montre un spectre original dont on
modifie d’abord Fo, puis les amplitudes des harmoniques avant
reconstruction par transformée de Fourier inverse.
En doublage cinéma, un procédé beaucoup plus simple est utilisé pour
ajuster les durées des tours de paroles doublés sur les durées de la version
originale. Lors de la reproduction du son numérisé, la fréquence
d’échantillonnage est simplement accélérée ou ralentie. Le son résultant
est acceptable pour des modifications très limitées de l’ordre de 5 %. Au-
delà, on obtient des distorsions analogues à celles d’un disque vinyle
tournant trop vite ou trop lentement.
Figure 7.17
. – Modification de Fo et du spectre par vocodeur de
phase
Chapitre 8
Modèles articulatoires
1. Premiers modèles
Figure 8.1
. Résonateurs de Helmholtz
Figure 8.2
. Analyseur spectral manométrique de Koening
Fant (1960), il aura fallu de longues années pour que cette idée
disparaisse (Martin, 2007), au profit d’une conception plus exacte
montrant que les fréquences des formants, donc des résonances,
résultaient non pas chacune d’une cavité spécifique du conduit vocal
définie par chaque articulation de voyelle, mais plutôt de leur interaction.
Les modèles articulatoires s’efforcent de simuler mathématiquement
les conditions de résonance à partir d’une représentation simplifiée du
conduit vocal. Les approximations nécessaires sont guidées par les outils
mathématiques disponibles, qui ne sont utilisables que pour des volumes
cylindriques ou à section rectangulaires rectilignes. Ainsi, les sections de
forme très variables du conduit vocal (Figure 8.3, sections de 1 à 10),
obtenues par moulage, par scanner ou par résonance magnétique
nucléaire sur des locuteurs réels seront approchées par des sections
circulaires.
Figure 8.3
. – Sections du conduit vocal obtenues par moulage
De même la forme semi-circulaire du conduit vocal devra être
représentée par des cylindres rectilignes d’aire variable de section à
section. Le modèle le plus simple n’a qu’un seul cylindre (un seul tube)
et ne convient qu’à la voyelle centrale [ə]. Les modèles à deux tubes
permettent malgré leur simplicité relative de rendre compte de la
répartition formantique des voyelles orales. Les voyelles nasales
nécessitent un tube supplémentaire tenant compte de la cavité nasale. Le
modèle à n tubes (avec n = 12, par exemple) constitue la généralisation
de cette technique, qui a été décisive
pour la compréhension des
répartitions de formants des voyelles et consonnes nasales. Elle a aussi
permis de comprendre pourquoi les sons de la parole prononcés par de
jeunes enfants, ayant un conduit vocal de plus petite dimension,
présentent des timbres similaires à ceux prononcés par des adultes.
2. Modèle à un tube
La forme du conduit vocal correspondant à l’articulation de la voyelle
[ə] est celle qui se rapproche le plus d’un tube sans perte acoustique à
section constante (en réalité le conduit vocal est évidemment de forme
courbée, et sa section n’est pas vraiment cylindrique).
Figure 8.4
. – Coupe montrant la configuration articulatoire pour la
voyelle [ə]
Figure 8.5
. – Modèle à un tube pour la voyelle [ə]
La fonction de transfert de ce tube, rendant compte de la transmission
des harmoniques produites par la source (le piston situé à l’extrémité du
tube) est donnée par T(f)= 1/cos (2πfl/c), avec f = fréquence, l = longueur
du tube et c = vitesse du son dans l’air (chaud). On a donc une résonance
pour toutes les valeurs de la fréquence f qui rend la valeur du cosinus
nulle, c’est-à-dire lorsque 2πfl/c2πfl/c = (2n - 1)π/2 avec n = 0,1, 2, ..., n,
donc pour f = (2n + 1) c/4l.
En adoptant les valeurs de c = 350 m/s (vitesse du son dans l’air à 35
degrés), et l = 0,175 m comme longueur d’un conduit vocal masculin
moyen, on trouve donc une série de valeurs de résonance, donc de
formants : 500 Hz, 1 500 Hz, 2 500 Hz, 3 500 Hz, etc. Il n’y a donc pas
un seul formant pour ce modèle à un tube correspondant à l’articulation
du schwa, mais une infinité. Il s’agit bien sûr d’une approximation
puisque l’on a négligé les pertes acoustiques et l’amortissement dus à la
viscosité des parois du conduit vocal, à la forme et à la section non
cylindrique du conduit, etc. De plus, la source n’étant pas impulsionnelle
mais glottique avec une décroissance des amplitudes d’harmoniques de
l’ordre de 6 dB à 12 dB par octave, l’amplitude et donc l’intensité des
harmoniques décroît rapidement et n’est plus observable en pratique au-
dessus d’une atténuation de 60 dB à 80 dB.
La Figure 8.6montre la réponse en fréquence du modèle à un tube. Les
formants théoriques correspondent de manière satisfaisante à ceux
observés sur un spectre harmonique de Fourier ou sur un spectre de
Prony. On peut noter que ce modèle produit une infinité de formants, qui
sont dans la réalité limités par la décroissance de leurs amplitudes due
aux caractéristiques de la
source glottale. Il n’y a donc pas une seule
fréquence de résonance pour une cavité, comme on l’a cru (et écrit)
longtemps dans les ouvrages de phonétique, et cette fréquence ne dépend
pas de l’aire du conduit vocal pour la voyelle [ə].
Figure 8.6
. – Réponse en fréquence pour un modèle à 1 tube de 17,5
cm de longueur, spectrogramme, spectre de Fourier et de
Prony pour une voyelle [ə]
3. Modèle à deux tubes
Figure 8.8
. – Résolution graphique du modèle à 2 tubes donnant les
fréquences de formant
Les points d’intersection correspondent aux valeurs de formants F1 =
789 HZ F2 = 1276 HZ, F3 = 2809 HZ, F4 = 3387 HZ, F5 = 4800 HZ,
valeurs qui se comparent favorablement aux observations expérimentales
de la Figure 8.10.
Figure 8.9
. – Réponse en fréquence pour un modèle à 2 tubes,
spectrogramme, spectre de Fourier et de Prony pour une
voyelle [α]
On voit clairement que les fréquences des formants ne dépendent pas
de chacune des cavités antérieure et postérieure considérées isolément,
comme on l’a longtemps écrit dans les ouvrages de phonétique, où l’on
expliquait que la fréquence du premier formant était liée au volume de la
cavité antérieure, et celle du second format au volume de la cavité
postérieure. Que se passe-t-il en réalité lorsque l’on modifie le volume
des cavités antérieure et postérieure ? La Figure 8.10montre que des
variations des aires (donc des volumes) des cavités ne modifient pas
considérablement les points d’intersection des fonctions tangente et
cotangente, correspondant aux fréquences des formants.
Figure 8.10
. – Variations des aires des cavités antérieures (de 5 à 7
cm2) et postérieures (de 0,5 à 3 cm2) montrant la relative
stabilité des fréquences de formants
De même, les variations du lieu d’articulation décrites dans le modèle
par le rapport entre les longueurs des cavités la et lp entraîne peu de
changements de fréquence de formants, comme le montre la Figure 8.11.
Figure 8.11
. – Variations du rapport des longueurs des cavités
antérieures (de 10 à 8 cm) et postérieures (de 7 à 9 cm)
montrant la relative stabilité des fréquences de formants
Figure 8.12
. – Modèles à 2 tubes pour différentes voyelles orales et
formants correspondants
4. Modèle à trois tubes
ce qui permet de constater que le premier zéro à 1 346 Hz est placé entre
deux pôles très proches en fréquence, 1 150 Hz et 1 350 Hz. Observés sur
un spectrogramme, les deuxième et troisième formants apparaîtront
confondus du fait de la résolution fréquentielle insuffisante de l’analyse
harmonique de Fourier, et l’antiformant ne pourra pas être détecté. Cela
rend compte des mesures anciennes des formants des voyelles nasales
avec un deuxième formant plus large que le deuxième formant des
voyelles orales correspondantes.
Figure 8.14
. – Résolution graphique du modèle à 3 tubes de la
consonne nasale [m]
Figure 8.15
. – Spectrogramme et spectres de Fourier et de Prony voyelle
nasale [α] à gauche, voyelle orale [ã] à droite
Figure 8.16
. – Résolution graphique du modèle à 3 tubes de la voyelle
nasale [ã]
Les formants sont F1 = 350 Hz, F2 = 1 000 Hz, F3 = 1 250 Hz, F4 = 2
150 Hz, F1 = 3 000 Hz.
Les antiformants sont A1 = 1 100 Hz, A2 = 3 300 Hz, A3 = 5 500 Hz
Le premier antiformant apparaît donc entre le deuxième et le troisième
formant, donnant l’impression d’un deuxième formant plus large que
pour la voyelle orale correspondante.
Figure 8.17
. – Répartition des formants et antiformants pour la
voyelle nasale [α]
5. Modèle à n tubes
Pratiques d’analyse
1. Enregistrement
Figure 9.1
. – Exemple de niveau d'enregistrement trop faible : les
harmoniques de la voix enregistrée sont à peine visibles
Figure 9.2
. – Exemple de niveau d'enregistrement trop fort : on
observe sur le spectrogramme à bande étroite la saturation
des harmoniques qui ne peuvent plus être visuellement
différenciés à certains endroits
Figure 9.3
. – Présence d'harmoniques de bruit à fréquence
constante superposés aux harmoniques de la voix
enregistrée
L’effet du codage type MP3 sur le spectrogramme est montré dans
l’exemple de la Figure 9.4. L’intensité et la largeur de bande des
harmoniques paraissent instables au cours du temps. Ce type de codage
est donc à déconseiller pour l’analyse spectrographique.
Figure 9.4
. – Effet du codage-décodage MP3 sur la représentation
des harmoniques en bande étroite
2. Fréquence fondamentale
Figure 9.7
. – Courbe de fréquence fondamentale erronée obtenue
par une fenêtre temporelle trop courte et une résolution
fréquentielle insuffisante
La Figure 9.8montre qu’une durée de fenêtre de 23 ms, correspondant
à une résolution fréquentielle de 43 Hz, convient parfaitement pour la
mesure de la fréquence fondamentale du même exemple (Figure 9.10).
Figure 9.8
. – Courbe de fréquence fondamentale erronée obtenue
par une fenêtre temporelle adéquate et une résolution
fréquentielle suffisante
3. Spectrogrammes
Les spectres à bande large sont utilisés pour mieux repérer les
formants en rendant la séparation visuelle des harmoniques impossible.
Le réglage de la résolution fréquentielle nécessaire dépend donc de la
fréquence fondamentale, qui correspond à la différence de fréquence
entre deux harmoniques consécutifs. Il en résulte qu’un réglage à bande
large approprié pour une voix masculine ne conviendra pas
nécessairement à la représentation des formants d’une voix féminine,
pour laquelle il faudra réduire encore la durée de la fenêtre temporelle et
par conséquent la résolution fréquentielle (Figure 9.9).
Figure 9.9
. – Spectrogramme à même largeur de bande pour une
voix masculine et féminine
Le spectrogramme à bande large présente une bonne résolution
temporelle, qui permet d’observer avec un niveau de zoom adéquat le
spectre des instants d’impulsion laryngienne (Figure 9.10).
Figure 9.10
. – Visualisation des instants d'impulsion laryngienne sur
un spectrogramme à large bande
La résolution fréquentielle et la résolution temporelle sont liées par la
relation d’incertitude de l’analyse spectrale : l’augmentation de la durée
de la fenêtre de prélèvement temporel s’accompagne nécessairement de
la résolution fréquentielle. La Figure 9.11 montre à gauche un exemple
de réglage de spectrogramme à bande large, avec une très bonne
résolution temporelle, alors qu’à droite la résolution fréquentielle est très
bonne au prix d’une mauvaise résolution temporelle (flou des
harmoniques dans l’axe temporel).
Figure 9.11
. - Spectrogrammes illustrant la relation d'incertitude
entre la fréquence et le temps À gauche, spectrogramme à
très bonne résolution temporelle, et mauvaise résolution
fréquentielle (bande très large); à droite, très bonne
résolution fréquentielle au prix d'une mauvaise résolution
temporelle
L’effet des diverses fenêtres de prélèvement est illustré Figures 9.12,
9.13 et 9.14 pour des spectrogrammes à bande étroite (46 ms de durée de
fenêtre). La fenêtre rectangulaire (Figure 9.12) utilise un maximum
d’information dans le signal, produisant des pics harmoniques les plus
étroits mais provoquant également des traces latérales indésirables.
Figure 9.12
. – Spectrogramme à bande étroite utilisant une fenêtre
rectangulaire de prélèvement temporel
Ces traces latérales disparaissent en utilisant une fenêtre de Hanning
ou de Harris, cette dernière présentant des harmoniques un peu plus
satisfaisants visuellement.
Figure 9.13
. – Spectrogramme à bande étroite utilisant une fenêtre de
prélèvement temporel de Hann(ing)
Figure 9.14
. – Spectrogramme à bande étroite utilisant une fenêtre de
prélèvement temporel de Harris
4. Méthode de Prony
1. Fonctions trigonométriques
sin (α)
La valeur du sinus part de zéro avec l’angle α égal à zéro. Elle atteint 1
lorsque α vaut 90 degrés (c’est-à-dire π/2), puis à nouveau zéro pour α =
180 degrés (π), – 1 pour α = 270 degrés (3π/2), et finalement zéro après
un tour complet, c’est-à-dire lorsque α = 360 degrés (2π). Ensuite le cycle
recommence.
cos (α)
La valeur du cosinus part de 1 avec l’angle α égal à zéro. Elle atteint 0
lorsque α vaut 90 degrés (c’est-à-dire π/2), puis – 1 pour α = 180 degrés
(π), 0 pour α = 270 degrés (3π/2), et finalement à nouveau 1 après un tour
complet, c’est-à-dire lorsque α = 360 degrés (2π).
2. Symboles phonétiques
Bibliographie
BOË L. J. et RAKOTOFIRINGA H., 1971, «Exigences, réalisation et
limite d’un appareillage destiné à l’étude de l’intensité et de la hauteur
d’un signal acoustique », Revue d’Acoustique, n° 4, p. 104-113.
BOË L. J., 2000, «Forensic Voice Identification in France», Speech
Communication, n° 31 (2-3), p. 205-224.
CALLIOPE, 1989, La Parole et son traitement automatique, Paris,
Masson.
CARRÉ R., 2004, « From an Acoustic Tube to Speech Production »,
Speech Communication, n° 42 (2), p. 227-240.
CHIBA T. et KAJIYAMA M., 1942, The Vowel. Its Nature and
Structure, Tokyo-Kaiseikan.
COOKE M. P. et LEE T. W., 2006, «Speech Separation Challenge»,
http:// www.dcs.shef.ac.uk/~martin/SpeechSeparationChallenge.htm.
COOLEY J. W. et TUKEY O. W., 1965, «An Algorithm for the
Machine Calculation of Complex Fourier Series», Mathematical
Computing, n° 19, p. 297-301.
DUTOIT T., 2000, « Introduction au traitement automatique de la
parole », Notes de cours, Faculté polytechnique de Mons.
FANT G., 1960, Acoustic Theory of Speech Production, La Haye,
Mouton.
FLANAGAN J. L., 1965, Speech Analysis : Synthesis and Perception,
Heidelberg, Springer.
FLANAGAN J. L. et GOLDEN R. M., 1965, «Phase Vocoder », Bell
System Technical Journal, vol. 45, p. 1493-1509.
FLETCHER H. et MUNSON W. A., 1933, Loudness, Its Definition,
Measurement and Calculation, Journal of the Acoustical Society of
America, n° 5, octobre, p. 82-108.
FOURIER Jean-Baptiste Joseph, 1822, Théorie analytique de la
chaleur, Paris, Firmin-Didot.
HAAS H., 1949, «Über den Einfluss eines Einfachechos auf die
Hörsamkeit von Sprache», thèse de doctorat, Université de Gottingen.
Traduit sous le titre «The Influence of a Single Echo on the Audibility of
Speech », Audio Engineering Society, vol. 20, mars 1972, p. 145-159.
HENRICH N., 2001, Étude de la source glottique en voix parlée et
chantée : modélisation et estimation, mesures acoustiques et
électroglottographiques, perception, thèse de doctorat, Université Paris -
VI.
HENRICH N., D’ALESSANDRO C., CASTELLENGO M. et
DOVAL B., 2005, « Glottal Open Quotient in Singing : Measurements
and Correlation with Laryngeal Mechanisms, Vocal Intensity, and
Fundamental Frequency », Journal of the Acoustical Society of America,
n° 117 (3), p. 1417-1430.
HESS W., 1983, Pitch Determination of Speech Signals, New York,
Springer-Verlag.
HOLLIEN H., MICHEL J. et DOHERTY E. T., 1973, «A Method for
Analyzing Vocal Jitter in Sustained Phonation », Journal of Phonetics, 1,
p. 85-91.
LÉON P. R. et MARTIN PH., 1970, Prolégomènes à l’étude des
structures intonatives, Montréal, Didier.
MAEDA S., 1979, «Un modèle articulatoire de la langue avec des
composantes linéaires », Actes des 10e Journées d’études sur la parole,
Grenoble, mai 1979, p. 152-162.
MARTIN PH., 1982, « Comparison of Pitch Detection by Cepstrum
and Spectral Comb Analysis », Proceedings of the 1982 IEEE
International Conference on Acoustics, Speech, and Signal Processing, p.
180-183.
–, 2000, « Peigne et brosse pour Fo : mesure de la fréquence
fondamentale par alignement de spectres séquentiels», Actes des 23e
Journées d’études sur la parole, Aussois, France, juin 2000, p. 245-248.
–, 2007, «Les formants vocaliques et le barrissement de l’éléphant»,
Histoire des théories linguistiques, n° X, p. 9-27.
MCKINNEY Norris P., 1965, Laryngeal Frequency Analysis for
Linguistic Research, Ann Arbor, University of Michigan Communication
Sciences Laboratory, Vii.
MOULINES E., CHARPENTIER F. et HAMON C. 1989, « A
Diphone Synthesis System Based on Time-Domain Prosodic
Modifications of Speech», Proceedings of the 1989 IEEE International
Conference on Acoustics, Speech, and Signal Processing, p. 238-241.
PAAVO A., 1992, « Glottal Wave Analysis with Pitch Synchronous
Iterative Adaptive Inverse Filtering », Speech Communication, vol. 11, n°
2-3, p. 109-118.
PRONY, Baron Gaspard Riche DE, 1795, « Essai expérimental et
analytique : sur les lois de la dilatabilité de fluides élastiques et sur celles
de la force expansive de la vapeur de l’alkool, à différentes températures
», Journal de l’École polytechnique, vol. 1, cahier 22, p. 24-76.
ROBINSON D. W. et DADSON R. S., 1956, «Plots of Equal
Loudness as a Function of Frequency », British Journal of Applied
Physics, (7), 166.
STANLEY S. Stevens, 1957, «On the Psychophysical Law»,
Psychological Review, 64 (3), p. 153-181.
STURMEL N., D’ALESSANDRO Ch., DOVAL B., 2007, «A
Comparative Evaluation of the Zeros of z Transform Representation for
Voice Source Estimation », Proceedings Interspeech, p. 558-561
SUNDBERG J., 1977, «The Acoustics of the Singing Voice»,
Scientific American, n° 236, 3.
TESTON B., 2006, «À la poursuite du signal de parole », Actes des 26e
Journées d’études sur la parole, Aussois, France, juin 2006, p. 7-10.