La Phonétique 2020

Jacqueline Vaissière
LA PHONÉTIQUE
Quatrième édition mise à jour
10e mille
À lire également en
Que sais-je ?
COLLECTION FONDÉE PAR PAUL ANGOULVENT
Guy Cornut, La Voix, no 627.

Claude Hagège, La Structure des langues, no 2006.
Laurent Danon-Boileau, Les Troubles du langage et de la communication
chez l’enfant, no 2158.
Michèle Kail, L’Acquisition du langage, no 3939.
Michèle Kail, L’Acquisition de plusieurs langues, no 4005.
Un grand merci à Takeki Kamiyama, Yuji Kawaguchi,

Shunsuke Nakata, Alexis Michaud, Christian Da Lage,
Mario Rossi, Shinji Maeda, Jacques Durand, Pierre Hallé,
Sophie Moirand, Martine Toda, Florentina Fredet, Jean-
Léo Léonard pour leur relecture attentive.
ISBN 978-2-7154-0495-3
ISSN 0768-0066
Dépôt légal – 1re édition : 2006
4 édition mise à jour : 2020, novembre
e
© Presses Universitaires de France / Humensis, 2020

170 bis, boulevard du Montparnasse, 75014 Paris
Avant-propos
La phonétique a pour objet l’étude scientifique des sons

de la parole. Elle traite de tous les phénomènes sonores
liés à l’expression du langage humain. Le début de la
phonétique articulatoire et de l’orthoépie remonterait à
la description du sanskrit par Panini au VIe siècle avant
notre ère.
Le XIXe marque les commencements de la phonétique
historique, avec la mise au jour des correspondances phoné-
tiques qui témoignent de l’apparentement entre langues :
la parenté entre les langues d’Océanie, et entre les langues
de la vaste famille indo-européenne, a ainsi pu être recon-
nue. La comparaison entre langues apparentées débouche
sur une reconstruction d’états de langue anciens, qui se
précise au fur et à mesure de l’enrichissement de la docu-
mentation linguistique disponible, dans un dialogue avec
les données historiques et paléologiques.
À la fin du XIXe siècle, Pierre-Jean Rousselot, à Paris,
a essayé d’expliquer par des expériences en laboratoire les
mécanismes des changements phonétiques, fondant ainsi
la phonétique expérimentale. Celle-ci a connu un essor
considérable au cours de la seconde moitié du XXe siècle,
devenant une science multidisciplinaire et fortement ins-
trumentalisée.
Le premier Congrès des sciences phonétiques a eu lieu
en 1932, à Amsterdam. Ce congrès continue de réunir
périodiquement linguistes (phonéticiens, phonologues, dia-
lectologues), psycholinguistes et psychologues expérimen-
taux, ingénieurs spécialistes de la communication parlée et
du traitement automatique de la parole, médecins ORL
3
Tableau 1. – L’alphabet phonétique international
et phoniatres, thérapeutes de la voix et orthophonistes,
spécialistes de l’acquisition de la langue maternelle et de
l’apprentissage d’une langue seconde, enseignants de chant
et de diction.
La collaboration entre disciplines est à l’origine d’avan-
cées majeures en phonétique. Les sciences phonétiques
concernent désormais tous les scientifiques, phonéticiens
ou non, dont le domaine d’intérêt est la communication
parlée, sa nature et son fonctionnement.
Ce livre se veut à la fois une introduction à la diversité
des sciences phonétiques et une synthèse des résultats des
recherches de ces dernières décennies. Entre autres limi-
tations dues au format, la phonétique historique n’est pas
présentée en détail ; l’accent est mis sur le renouvellement
des problématiques de recherche qui a accompagné le
développement de nouvelles technologies : outils infor-
matiques et nouvelles techniques exploratoires.
Au lecteur non averti, nous conseillons de commencer
par les chapitres IV et V.
Introduction
La phonétique est l’étude de la substance et de la forme

sonore. Cette caractérisation volontairement large sera
précisée au fur et à mesure de l’exposé, distinguant cette
discipline de disciplines voisines.
La faculté d’acquérir une langue est le propre de
l’homme. Les animaux, même les plus primitifs, possèdent
des systèmes d’indices olfactifs, visuels ou sonores qui
permettent l’échange d’informations avec leurs congénères
pour la survie de l’espèce. L’inventaire de ces indices est
limité et il ne s’agit pas à proprement parler de langage :
Émile Benveniste oppose communication animale et langage
humain. L’être humain possède une faculté qui lui permet
de construire des énoncés en nombre illimité, à l’inverse
des animaux, dont les échanges seraient limités.
La faculté d’acquérir une langue s’exprime sous la forme
d’une pluralité extraordinaire de langues parlées (de 3 000
à 6 500 environ, selon les critères utilisés pour les dénombrer).
Si le langage parlé en est le principal actualisateur, la faculté
de langage peut aussi tirer parti d’autres éléments, produits
par les mêmes organes que la parole (soupirs, rires, toux et,
aux marges du langage, les onomatopées) ou par le reste du
corps : gestes et mimiques faciales composent un système
posturo-mimo-gestuel. Les enfants sourds développent souvent
spontanément entre eux une communication à l’aide de
signes. L’homme est essentiellement un être communiquant.
Le système vocal est porteur d’une grande variété d’in-
formations non présentes dans le langage écrit. Selon la
façon dont il prononce un message verbal, le locuteur com-
munique des informations de divers ordres, d’une façon
7
qui n’est qu’en partie sous son contrôle. Il extériorise sen-
timents, émotions ou attitudes ; il appelle telle ou telle
réaction chez son interlocuteur ; il révèle son identité sociale,
régionale et culturelle. La phonostylistique (Ivan Fónagy,
Pierre Léon) traite de ces dimensions, présentes dans tout
acte de communication et particulièrement saillantes dans
l’usage esthétique de la voix (chant, poésie, arts de la scène).
Le langage peut être décrit dans les termes d’une double
articulation (André Martinet). Chaque message est
composé d’une succession de sons élémentaires qui cor-
respondent à une suite de signes. Chaque signe (typique-
ment : un mot) possède deux faces, un signifiant (une
image sonore) et un signifié (un sens). La correspondance
entre le signifié et le signifiant est arbitraire et conven-
tionnelle : arbitraire car la notion d’arbre est désignée par
une image sonore différente selon les langues, arbre [aʁbʁ]
en français, tree [tɹiː] en anglais ; conventionnelle, car la
langue est « un produit social de la faculté du langage et
un ensemble de conventions nécessaires, adoptées par le
corps social pour permettre l’exercice de cette faculté chez
les individus » (Ferdinand de Saussure). Chaque signifiant
est lui-même constitué d’une suite de sons élémentaires
sans signification, les phonèmes. Les combinaisons des
trois phonèmes /p/, /t/ et /a/ forment au moins cinq uni-
tés significatives en français (pas, ta, patte, tape, apte, /pa/,
/ta/, /pat/, /tap/, /apt/). À la même suite de deux phonèmes
/sɑ/̃ correspondent plusieurs mots (sang, sans, sent, cent,
s’en). Les langues distinguent des dizaines de milliers de
mots composés à partir d’une moyenne de 30 phonèmes.
Le phonème est la plus petite unité fonctionnelle d’un
système phonologique. La fonction des phonèmes dans
une langue est d’établir des oppositions entre les mots de
son lexique. « Si deux sons apparaissent exactement dans
la même position phonique et ne peuvent se substituer
l’un à l’autre sans modifier la signification des mots, ou
8
sans que le mot devienne méconnaissable, alors les deux
sons sont des réalisations de deux phonèmes » (Nikolaj
Sergeyevich Troubetzkoy). En français, /l/ et /ʁ/ sont deux
phonèmes distincts, car la substitution de /ʁ/ à /l/ conduit
à deux mots différents, tels que père et pelle (/pɛʁ/, /pɛl/)
et rang et lent (/ʁɑ/̃ , /lɑ/̃ ). En revanche, le r uvulaire pari-
sien, prononcé [ʁ] et le r apical roulé [r] (le [r] dit bour-
guignon) sont deux variantes régionales d’un seul et même
phonème /ʁ/. Deux mots qui ne se distinguent que par
un phonème constituent une paire minimale : lent et rang
(/lɑ/̃ , /ʁɑ/̃ ) forment une paire minimale qui établit le carac-
tère phonémique de /l/ et /ʁ/ en français.
Les phonèmes sont essentiellement les voyelles et les
consonnes (et les semi-consonnes et semi-voyelles). Le
nombre et l’identité des phonèmes dépendent de la langue.
La majorité des langues ont de 25 à 30 phonèmes. Aux
deux extrêmes, le pirahã (langue d’Amazonie) possède
seulement 10 phonèmes, et le !Xũ (en Afrique du Sud)
plus de 100, le français de 27 à 33 selon les régions et
les générations. Le nombre de consonnes en français ne
varie pas d’une variété régionale à l’autre, il est de
16 consonnes : /p t k b d g f s ʃ v z ʒ m n l ʁ/ (voir la
liste des phonèmes du français sur le tableau 2).
Le nombre de voyelles, en revanche, est variable. Les
Français les plus âgés, par exemple, au nord de la Loire,
possèdent deux phonèmes de type /a/, /a/ antérieur et
/ɑ/ postérieur, distinction qui ne se maintient plus que
pour un petit nombre de mots : ils prononcent différem-
ment patte /pat/ et pâte /pɑt/, Anne /an/ et âne /ɑn/. Le
français méridional et celui de Belgique francophone dis-
tinguent entre brun /bʁœ/̃ et brin /bʁɛ/̃ , distinction per-
due en français parisien. Les mots Baule /bol/ et bol /bɔl/,
fée /fe/ et fait /fɛ/ sont homophones en Normandie. En
Belgique, et en Lorraine du Sud (Nancy, Saint-Dié),
l’opposition de longueur permet encore de distinguer entre
9
Tableau 2. – Les phonèmes du français
Les consonnes
Les consonnes du français
/pɑ/̃ pan /bɑ/̃ banc /fɑ/̃ faon /vɑ/̃ vent

/tɑ/̃ temps /dɑ/̃ dent /sɑ/̃ sang /zɑ/̃ zan
/kɑ/̃ camp /ɡɑ/̃ gant /ʃɑ/̃ chant /ʒɑ/̃ gens

/mɑ/̃ ment /lɑ/̃ lent
/nɑ/̃ nan /ʁɑ/̃ rang
Les voyelles
Syllabes fermées
/pil/ pile /pyl/ pull /pul/ poule

/ʒøn/ jeûne /pol/ pôle
/pɛl/ pelle /ʒœn/ jeune /pɔl/ Paul
/pat/ patte /pɑt/ pâte
/pɑt/
̃ pente /pɔt/
̃ ponte
/dɛd/
̃ dinde
Syllabes ouvertes
/li/ lit /ly/ lu /lu/ loup

/le/ les /lø/ leu /lo/ l’eau
/lɛ/ laid /bʁœbi/ brebis
/la/ la (/lə/) (le)
/pɑ/̃ paon /pɔ̃/ pond
/bʁɛ/̃ brin /bʁœ/̃ brun
Les semi-voyelles ou semi-consonnes
/fij/ fille /lɥi/ lui

/jɔt/ yacht /lwi/ Louis
10
mots [mɔ] et maux [moː] (opposition doublée d’une légère
différence de timbre, comme il est courant pour les oppo-
sitions de longueur vocalique), mais l’évolution vers un
son [o] unique en finale de mot se fait rapidement. Les
présentateurs dans les médias étant tenus à une pronon-
ciation de « type neutre », correspondant à la norme, on
observe une tendance à l’uniformisation.
Les réalisations d’un phonème varient énormément :
– premièrement, les variations sont dues à des caracté-
ristiques anatomiques individuelles et permettent de carac-
tériser le locuteur en fournissant des indications sur son
âge (un adulte / un enfant), son sexe (masculin / féminin),
son état physiologique (voix enrouée, voix de fumeur) et
émotionnel (voix joyeuse, triste) ;
– deuxièmement, le contexte phonétique qui entoure le
phonème influence les gestes de la langue et des lèvres, du
voile du palais et des plis vocaux par lesquels il est réalisé.
Comparez les positions de vos lèvres durant la réalisation
de la première consonne dans les mots toute et tête ; elles
sont plus arrondies durant la production des consonnes /t/
dans toute que dans tête, anticipant le mouvement d’ar-
rondissement des lèvres requis pour la voyelle /u/; le bruit
de l’explosion au moment de la séparation de la langue et
des dents (c’est-à-dire au moment du relâchement) est en
conséquence plus grave. Prononcez toute et route ; la langue
durant la réalisation du phonème /u/ est plus antérieure
pour le /u/ de toute /tut/ que pour le /u/ de roure /ʁuʁ/
(Ruhr) ; le son [u] dans toute se rapproche de celui de la
voyelle u /y/, alors que le son [u] dans roure se rapproche
de celui de /o/. L’influence d’un phonème peut s’exercer à
l’intérieur du mot entier, à partir, par exemple, de la syllabe
accentuée ; ainsi, un locuteur aura tendance à prononcer
[fonoloʒi] et [fɔnɔlɔg], phonologie et phonologue.
– troisièmement, plus on parle vite ou de façon relâchée,
plus la différence articulatoire entre voyelles et consonnes
11
en séquence s’amoindrit et la coarticulation entre les sons
successifs en séquence augmente. Notons que certains locu-
teurs peuvent néanmoins parler très vite et de façon non
relâchée. En parole relâchée, les voyelles qui se prononcent
avec un conduit vocal très ouvert (voyelles dites « ouvertes »)
comme la voyelle a /a/ ont tendance à se fermer, les voyelles
fermées (comme les voyelles i /i/, u /y/ et ou /u/) à s’ouvrir,
et les voyelles extrêmes /a/, /i/ et /u/ sont évitées (oui [wi]
> ouais > [wɛ] et [ɥɛ]) ; les consonnes occlusives (le conduit
vocal est obstrué, comme pour la réalisation des consonnes
/p, t, k, b, d, g/) ne sont plus réalisées avec une occlusion
complète. Certains phonèmes vont jusqu’à disparaître : je
ne sais pas > je n’sais pas > j’sais pas > chaipas> ch’pas ; main-
tenant > maint’nant > maind’nant > main-nant > mai-nant ;
ces phénomènes de réduction ne sont pas particuliers au
français, comme le montrent les travaux de Klaus Kohler sur
l’allemand, par exemple. Les mots fréquents sont souvent
prononcés de façon plus rapide et plus relâchée que les
mots rares, et c’est par eux que commencent les change-
ments phonétiques, qui s’étendent ensuite aux mots moins
fréquents (selon le principe de diffusion lexicale) ;
– quatrièmement, le geste articulatoire dépend de
la position de la syllabe dans le mot, du phonème dans la
syllabe et du mot dans l’énoncé. S’il est dans une position
forte dans le mot, le phonème pourra être « dominant » :
mieux articulé, plus long, plus intense, il imposera cer-
taines de ses caractéristiques aux phonèmes environnants.
Dans le cas contraire, il est « dominé », sous l’influence
des phonèmes qui l’entourent, parfois au point de dispa-
raître. La première consonne du mot et, le cas échéant,
la syllabe accentuée du mot connaissent en général une
réalisation forte, c’est-à-dire plus prototypique. En anglais,
les occlusives /p/, /t/ et /k/ sont aspirées en position initiale
de mots (pin [pʰɪn] et ˈcontract [ˈkʰɒntrækt] et conˈtract
[kʰənˈtrækt]) et lorsqu’elles sont situées avant la voyelle
12
accentuée du mot, mais pas dans les autres positions (le
symbole « ˈ » indique la position de la syllabe accentuée).
Les consonnes en position initiale de syllabe sont mieux
prononcées et mieux perçues que les consonnes situées en
coda. Les débuts d’énoncé sont en général mieux articulés
que les syllabes en fin d’énoncé. La partie de l’énoncé située
après un focus est souvent prononcée avec un effort réduit ;
– cinquièmement, un même locuteur adapte sa façon de
parler à la situation de communication, en termes de registre
(du plus soutenu au plus relâché), de style, d’attitude exprimée
(la moue, l’ironie), faisant feu de tout bois : la nasalisation
véhicule une note de respect dans certaines langues et de
dégoût dans d’autres. Les variantes peuvent aussi être d’ordre
sociolinguistique ou socioculturel : la postériorisation et
l’allongement de la voyelle /a/ en [ɑ:] dans un mot comme
mariage signale aussitôt une appartenance sociale (l’accent
dit de Marie-Chantal du XVIe arrondissement parisien ; voir
les travaux de Philippe Boula de Mareüil) ; l’intensité de
sa voix varie aussi selon la distance avec son interlocuteur.
– sixièmement, les phonèmes et leurs oppositions sont
réalisés de façon différente d’une région à l’autre : l’accent
« chantant » méridional est facilement reconnaissable ; des
différences plus subtiles permettent de distinguer entre l’ac-
cent de Lyon et celui de Grenoble ; l’opposition entre
deux phonèmes peut disparaître totalement ou en partie.
– enfin, des variations volontaires dans la manière
d’articuler apportent des nuances de sens au message
(Ivan Fónagy) : la façon dont est prononcée une phrase,
avec douceur, gentillesse, froideur ou mépris, joue un rôle
important dans les contacts entre humains. Ce rôle peut
même devenir primordial, car ces variantes peuvent conduire
à un changement radical du sens global du message : une
hyperarticulation de la consonne /s/, avec allongement et
augmentation de l’effort articulatoire, dans l’énoncé elle est
sympa ! signifie que la personne est tout sauf sympathique.
13
Le petit d’homme est prédisposé à parler. Le fœtus s’im-
prègne très tôt des sonorités verbales et du rythme de la
langue maternelle, qu’il perçoit à travers le liquide amnio-
tique. Le bébé de quelques jours réagit aux oppositions
phonémiques de presque toutes les langues du monde et
pas seulement à celles de sa langue maternelle, mais il dis-
tingue déjà la langue de sa mère des autres langues. Alors
que les locuteurs anglais adultes ne font pas la différence
entre les occlusives dentales (la pointe ou la lame de la
langue fait contact avec les dents) et rétroflexes (la pointe
de la langue est dirigée vers le haut et l’arrière de la bouche),
ou entre les voisées aspirées et non aspirées de l’hindi
(contrastes absents en anglais), les bébés, futurs anglophones
ou non, perçoivent bien la différence entre ces différents
sons peu après leur naissance. Après les gazouillis des pre-
miers mois, vers 6 mois, le bébé imite déjà les sons et l’in-
tonation de son entourage (le manque d’un tel don
d’imitation serait à l’origine de l’incapacité des singes à
apprendre à parler). Des expériences récentes avec des tech-
niques de potentiels évoqués montrent que le cerveau de
l’enfant, même endormi, vers huit mois, réagit différemment
aux contrastes de sons selon qu’ils sont utilisés ou non dans
sa langue maternelle (contrastes phonémiques). Le cerveau
du bébé francophone réagit à la différence entre les sons
correspondant aux deux phonèmes /i/ et /y/ (riz et rue), et
le cerveau du bébé anglophone ne le fait pas (l’anglais n’uti-
lise pas le trait d’arrondissement de façon distinctive). Très
vite, le bébé est capable de stocker des formes acoustiques
auxquelles il est fréquemment exposé, bien avant de les
comprendre. Très tôt, le bébé a une préférence pour les
suites de phonèmes couramment attestées dans sa langue
maternelle. Vers 8 ou 10 mois, l’enfant devient progressi-
vement insensible aux contrastes entre sons non pertinents
dans la langue parlée dans son entourage, retenant unique-
ment ceux que lui propose la langue maternelle. Les bébés
14
chinois de quelques jours n’ont aucun mal à distinguer entre
[do] et [to], [ga] et [ka], alors que les Chinois adultes qui
apprennent le français ont toutes les peines du monde à
entendre la différence entre gâteau et cadeau, car ils ont
appris à ne pas faire la différence au cours de l’acquisition du
chinois (langue qui n’utilise pas le trait de voisement de
façon distinctive). De même, les bébés japonais perdent
progressivement entre 8 mois et 1 an leur sensibilité à la
différence entre /l/ et /r/ et les Japonais adultes ont un
certain mal à entendre une différence entre lit et riz, même
après de longues années d’exposition au français ! L’expérience
linguistique influence profondément la perception des sons
(filtrage attentionnel selon Janet Werker, réorganisation
psychoacoustique autour de prototypes spécifiques de la langue
selon Patricia Kuhl). L’apprentissage d’une langue seconde
(à l’adolescence ou à l’âge adulte) demande un effort soutenu
pour faire abstraction du système de sa langue maternelle
et apprendre un nouveau système phonémique : celui de la
langue étrangère que l’on souhaite apprendre. L’aspirant
phonéticien devra lui aussi subir un long apprentissage pour
être capable de distinguer tous les types de sons employés
de façon contrastive dans les langues du monde et notés
dans l’API (l’alphabet phonétique international), tenu à
jour par l’Association phonétique internationale (voir
tableau 1). Malgré ses efforts, la façon de transcrire une
nouvelle langue restera influencée par sa langue maternelle.
L’inventaire des oppositions possibles dans les langues du
monde n’est pas achevé, même si la découverte de nouveaux
types de phonèmes devient de plus en plus rare.
Les résultats récents de la recherche neurologique
semblent étayer la théorie innéiste de la faculté de langage,
longuement défendue par Noam Chomsky au siècle der-
nier : le bébé humain naîtrait avec la capacité d’acquérir
un langage à double articulation, capacité dont seraient
privés les animaux. Le langage est le propre de l’homme.
15
Un conduit vocal humain peut produire une infinité de
sons, comme en témoignent les prouesses des stars de la
Human Beatbox, dont l’appareil phonatoire arrive à imi-
ter à s’y méprendre les sons produits par les instruments
de musique. Il existe cependant un très grand nombre de
ressemblances phonétiques entre les sons choisis par les
langues du monde entier. Ces similitudes sont dues à la
pression des mêmes contraintes dites phonétiques (ou
substantielles), imposées par les lois générales de l’acous-
tique et de l’aérodynamique, par les caractéristiques des
systèmes de production et de perception, et par les struc-
tures cérébrales communes à tous les hommes, qui
engendrent les mêmes capacités cognitives (comme les
mémoires à court terme et à long terme et les facultés
d’apprentissage et de généralisation). Inspirés par les per-
formances de discrimination des sons par les nouveau-nés,
des chercheurs ont avancé l’idée selon laquelle l’être humain
serait muni d’un nombre limité de détecteurs de propriétés
ou de traits (une douzaine), précâblés pour la parole humaine
(Ken Stevens) et qui servent à opposer les phonèmes.
La transmission d’informations par l’intermédiaire d’un
signal acoustique présente de grands avantages sur les autres
media. La parole permet aux interlocuteurs d’être relativement
éloignés. Elle demeure utilisable dans un milieu bruyant.
Son usage libère la vue et les mains, qui peuvent alors assu-
rer d’autres tâches. C’est également un mode de communi-
cation rapide : un locuteur pressé peut produire plus de
30 phonèmes à la seconde, soit plus de 200 mots en moyenne
à la minute ; son auditeur peut saisir son message en temps
réel. Si des séquences de sons de nature non linguistique
étaient présentées à la même cadence, l’auditeur ne percevrait
que du bruit. Comme nous le verrons par la suite, les sons
de parole ne sont pas traités de la même façon que les bruits
de la nature par les mécanismes de perception.
CHAPITRE PREMIER
Phonétique et phonologie
Phonétique et phonologie (appelée aussi phonétique

fonctionnelle) sont deux branches de la linguistique qui
ont pour objet l’étude de la face sonore du langage. Le
partage des tâches entre phonétique et phonologie évolue,
par vagues successives, depuis plus d’un siècle. Au début
du siècle dernier, Ferdinand de Saussure (1906-1911)
caractérisait la langue comme un système dont les éléments
se définissent grâce aux rapports qu’ils entretiennent entre
eux et insistait sur l’indépendance entre l’étude du système
linguistique abstrait (la langue ou forme, le système) et
sa réalisation concrète phonétique (la parole ou substance).
Après lui, les représentants du Cercle linguistique de
Prague (dont Roman Jakobson et Nikolaj Sergeyevich
Troubetzkoy) conseillaient de séparer clairement l’étude
des sons, objet de la phonétique, de l’étude du système,
objet de la phonologie. Troubetzkoy définissait la phoné-
tique comme « la science de la face matérielle des sons
du langage humain ». La phonologie devait s’intéresser
aux seules oppositions phonémiques, au seul système d’op-
positions que connaît une langue. Cette séparation nette
entre phonétique et phonologie a eu un retentissement
favorable à leur développement séparé. La phonétique a
profité de cette coupure pour se rapprocher des sciences
de l’ingénieur et des sciences de la vie. Parallèlement,
l’attention concentrée sur l’analyse des systèmes linguis-
tiques a permis à la phonologie de réaliser d’incontestables
progrès. Certains des travaux les plus marquants sont
17
néanmoins le fruit de la collaboration entre linguistes et
ingénieurs. L’ouvrage Preliminaries to Speech Analysis
(1951), cosigné par Roman Jakobson (un grand linguiste
russe) et Gunnar Fant (un spécialiste des télécommuni-
cations suédois), marque un tournant dans l’histoire des
rapports entre phonologie et phonétique : les traits dis-
tinctifs, notion formelle relevant de l’analyse phonolo-
gique, sont décrits comme fondés sur leurs propriétés
acoustico-perceptives, donc sur la substance (il est à noter
que chez Troubetzkoy également, les traits distinctifs
étaient fondés sur la substance, puisqu’ils étaient décrits
en termes articulatoires). La notion de contraintes pho-
nétiques a ensuite été appliquée à la description des règles
phonologiques et de la coarticulation ; l’idée de l’arbitraire
de la relation entre la nature physique des sons et les
systèmes phonologiques est définitivement abandonnée :
la forme et la substance se conditionnent mutuellement.
Ce nouveau rapprochement entre phonétique et phono-
logie est un facteur de progrès.
Certaines régularités ressortent dans les inventaires de
phonèmes des langues : la fréquence du choix de /i/, /a/,
/u/ dans les systèmes à trois voyelles, de /i/, /e/, /a/, /o/,
/u/ dans les systèmes à cinq voyelles (les plus nombreux,
22 % des langues de la base de UPSID 1). Il est à noter
que le timbre exact de ces phonèmes fréquents peut dif-
férer d’une langue à l’autre.
Phonétique et phonologie partagent le souci de la défi-
nition de l’ensemble des traits constitutifs des phonèmes.
Le choix des phonèmes dans les inventaires des langues
est-il arbitraire ? Comment expliquer les tendances géné-
rales ? Certains choix déterminent-ils d’autres choix ?
1. L’UCLA Phonological Segment Inventory Database de l’université

de Californie recense plus de 920 sons de parole différents, plus de
650 consonnes et plus de 260 voyelles dans 451 langues.
18
Pourquoi et comment les inventaires des phonèmes
évoluent-ils au cours du temps ? Phonéticiens et phono-
logues se sont intéressés au premier chef aux contraintes,
au sens large, qui président au choix des systèmes d’op-
position de sons dans les langues du monde et à leur
évolution au cours du temps à l’intérieur d’une même
langue. Jakobson propose une liste fermée d’une douzaine
de traits distinctifs « universels » constitutifs des phonèmes
(comme vocalique/non vocalique, consonantique/non conso-
nantique, compact/diffus, tendu/lâche, etc.) Chaque langue
choisirait entre ces traits préexistants pour réaliser
les oppositions entre les mots. Jakobson privilégie les
contraintes basées sur la substance : les oppositions entre
phonèmes dans une langue, pour Jakobson, sont basées
sur leurs corrélats acoustiques et leur facilité de perception
par l’auditeur. Pour Jakobson, les contraintes de produc-
tion (articulatoires) restent au second plan. Dans leur
recherche d’explications formelles des alternances obser-
vées (par exemple l’alternance entre [œ] et [ø] dans les
mots peur [pœr] et peureux [pørø], beurre [bœr] et beurré
[børe]), Noam Chomsky et Morris Halle 1, à l’inverse de
Jakobson, placent à l’arrière-plan la définition substantielle
des traits (ceux-ci sont alors définis par Noam Chomsky
et Morris Halle de façon essentiellement articulatoire sans
détailler leur rapport avec leur implémentation phoné-
tique), et ces deux auteurs mettent en avant leur définition
formelle, optique que prolongent encore certaines
recherches actuelles en phonologie. Parmi les contraintes
basées sur la substance (dites contraintes phonétiques),
les contraintes anatomiques sont abordées : la pointe de
la langue permet une articulation d’une plus grande pré-
cision que la racine de la langue ; les consonnes sélection-
nées par les systèmes sont en effet essentiellement réalisées
1. Noam Chomsky et Morris Halle, The Sound Pattern of English, 1968.
19
avec une constriction dans la partie antérieure du conduit
vocal, et la pointe de la langue, très mobile, est particu-
lièrement mise à contribution pour la production des
consonnes ; plus de 99 % des langues possèdent /t/ ; en
revanche, la racine de la langue entre en jeu dans un
nombre réduit d’oppositions. Dans les années 1970, le
débat sur les contraintes phonétiques a été fortement
ramené sur les plans perceptif et acoustique (et non plus
articulatoire). Deux idées majeures ont été avancées. Pre-
mièrement, certains phonèmes (comme /i/, /a/ et /u/)
seraient choisis en fonction de la stabilité de leurs pro-
priétés acoustiques : produire le timbre de ces trois voyelles
ne réclame pas une extrême précision articulatoire, ce qui
ne serait pas économique, et ces trois phonèmes seraient
préférés à cause de leurs propriétés intrinsèques (cf. la
théorie quantique de Ken Stevens qui sera vue par la suite).
Deuxièmement, le système phonologique tout entier des
voyelles ou des consonnes aurait une influence sur le choix
individuel des voyelles et des consonnes, surtout quand
leur nombre dans la langue est élevé : les sons distinctifs
tendraient à se positionner dans l’espace acoustique de
façon à maximiser leur contraste perceptif (la théorie de
la dispersion adaptative de Bjorn Lindblom) : les phonèmes
ne seraient pas choisis seulement en fonction de leurs
propriétés intrinsèques, mais aussi en fonction de leur
capacité à se distinguer perceptivement des phonèmes
proches. Ces deux théories sont combinées dans celle de la
dispersion/focalisation, émise par le GIPSA-Lab de
Grenoble : le système phonologique d’une langue est le
résultat d’une pondération particulière à cette langue entre
la dispersion des phonèmes dans l’espace acoustico-
perceptif (dispersion) et la stabilité acoustico-articulatoire
de chaque phonème (focalisation). Troisièmement, cer-
taines combinaisons de traits sont évitées dans les langues
car difficiles à réaliser par le locuteur (comme arrondir
20
des voyelles très ouvertes : il y a peu d’oppositions phono-
logiques entre voyelles ouvertes arrondies et étirées) ou
conduisant à des confusions chez l’auditeur (les consonnes
nasales sourdes sont souvent perçues comme des fricatives
sourdes : il y a peu d’oppositions phonologiques entre
consonnes nasales sourdes et sonores).
L’étude des contraintes phonétiques sur l’inventaire des
systèmes et sur les changements phonétiques est une des
traditions de la phonétique (Pierre-Jean Rousselot,
Ken Stevens, Bjorn Lindblom, John Ohala). À chaque
observation, le phonéticien s’efforce de proposer une expli-
cation, la plus plausible possible. Ces contraintes qui
s’exercent sur un inventaire de phonèmes peuvent aller
dans le sens d’une sélection dans la suite des phonèmes :
les séquences de sons ou les combinaisons de traits dif-
ficiles à réaliser tendent à être mal réalisées, à disparaître
ou à être remplacées par d’autres. Par exemple, certaines
séquences de sons sont plus faciles à prononcer que
d’autres et ces modifications peuvent aboutir à des modi-
fications du système (les syllabes composées de phonèmes
soit tous antérieurs, comme /ti/, soit tous postérieurs,
comme /ʁu/, sont plus faciles à prononcer que /tu/, /ʁi/,
qui combinent phonèmes antérieurs et postérieurs). Que
l’on songe à la difficulté des anglophones à distinguer
entre « Les Russes sont rousses » et « les rousses sont
russes » ! Dans certaines langues, ces contraintes ont été
phonologisées au cours du temps et certaines séquences
de phonèmes dans un mot sont interdites (harmonie voca-
lique). La perception joue également un grand rôle. Les
fricatives peu audibles comme le th anglais [θ] ou les
fricatives bilabiales se maintiennent rarement : l’oreille
humaine ne peut pas bien les percevoir, surtout dans les
conditions acoustiques non idéales qui sont celles de la
communication courante qui se fait souvent dans le bruit.
Le nombre de voyelles nasales est toujours égal ou
21
inférieur au nombre de voyelles orales dans une langue :
les corrélats acoustiques de la nasalité rendent plus diffi-
cile la distinction entre les différents timbres vocaliques
des voyelles nasalisées entre elles, diminuant le nombre
de contrastes oral/nasal faciles à distinguer. Des contraintes
visuelles apportent des éléments d’explication à certains
faits observés. Les premières consonnes acquises par les
bébés sont des labiales (/p, b, m/ suivies de /n, t, k, ɡ/),
mais pas chez les bébés aveugles, preuve de l’importance
de la vision de la face du locuteur (le bébé voyant fixe
souvent les lèvres de sa mère quand elle s’adresse à lui).
Les bébés voyants apprennent très vite à distinguer entre
/m/ et /n/, alors que l’opposition est difficile à acquérir
par les bébés aveugles. La parole en milieu bruité est
mieux reconnue si l’auditeur voit le visage du locuteur,
autre preuve de l’importance des indices visuels.
Les explications phonétiques doivent être considérées
comme des hypothèses : les tendances observées n’ont pas
force de loi. Certaines langues présentent des oppositions
phonémiques subtiles à percevoir, par exemple l’opposition
entre occlusives dentales et alvéolaires. Les différents clics
du zoulou (dentaux, alvéolaires ou latéraux) sont très dif-
ficiles à distinguer par une oreille non exercée. Mais les
auditeurs des langues qui opposent occlusives dentales et
alvéolaires ou les natifs du zoulou n’ont aucun mal à per-
cevoir et à produire les oppositions contenues dans leurs
inventaires respectifs, et ce, dès leur plus jeune âge. Les
caractéristiques phonétiques des sons ne sont pas les seuls
facteurs qui président à leur sélection et ne permettent
pas de tout expliquer. Les contraintes phonologiques (cogni-
tives), comme la facilité d’apprentissage et de mémorisa-
tion, jouent également un grand rôle : elles favorisent une
diminution du nombre de traits distinctifs dans une langue
et leur organisation en un système économique, symétrique,
avec une utilisation maximale des traits phonologiques
22
choisis 1 par la langue pour réaliser une opposition sonore
entre les mots. En français, la corrélation de voisement
(oppositions entre consonnes voisées et non voisées) per-
met d’opposer les séries symétriques /p/, /t/, /k/, et /b/,
/d/, /g/, mais les consonnes /p/ et /g/ ont tendance à
manquer dans un grand nombre de langues, créant des
séries asymétriques. /p/ est absent en arabe, et /g/ en
néerlandais. La prise en compte simultanée des pressions
phonétiques et des facteurs cognitifs a permis de grandes
avancées dans la compréhension de la typologie des sys-
tèmes vocaliques et consonantiques (voir les travaux de
Patricia Beddor, John Ohala, Bjorn Lindblom et du
GIPSA-Lab de Grenoble). Rappelons aussi l’influence
de facteurs externes : le contact de langues et l’imitation
à l’intérieur d’une langue d’une variété considérée comme
plus prestigieuse peuvent aussi être sources de changement
(cf. les travaux du sociolinguiste William Labov).
Exemples d’explications d’asymétries des systèmes
phonologiques ? Les systèmes phonologiques sont le fruit
d’un compromis entre la tendance cognitive en faveur de
l’utilisation d’un nombre minimal de traits (d’où une
symétrie des systèmes) et celle des contraintes articulatoires
et acoustico-perceptives qui ont tendance à éliminer les
combinaisons de traits difficiles à actualiser ou à distinguer
(résultant en une asymétrie). Prononcez un [i] étiré et
arrondissez ensuite vos lèvres et projetez les vers l’avant.
Cela se fait sans difficulté et vous entendrez [y] (corres-
pondant au graphème u en français et ü en allemand).
Remarquez maintenant la difficulté que vous auriez à faire
le même geste d’arrondissement des lèvres avec la voyelle
ouverte /a/ ! Le jeu des lèvres (étiré/arrondi) est articula-
toirement favorisé quand la mandibule est en position
haute, et donc pour les voyelles fermées (/i, y, u/).
1. André Martinet, Économie des changements phonétiques, 1955.
23
En conséquence de cette difficulté articulatoire, les langues
connaissent peu d’oppositions entre voyelles ouvertes
arrondies et non arrondies. De même, les propriétés réso-
nancielles du conduit vocal font que les conséquences
acoustiques d’un changement de configuration des lèvres
sont plus grandes dans le cas des voyelles antérieures de
type /i/ (/i, e/). De fait, le contraste /i – y/ est le plus
attesté des contrastes de labialité. Un second exemple
concerne les consonnes. Parmi les constrictives (occlusives
et fricatives), les voisées (telles que /b, d, g/) sont moins
fréquentes que les non-voisées (/p, t, k/) pour des raisons
aérodynamiques : le voisement est défavorisé lorsque la
pression intraorale est élevée ; or, celle-ci s’élève en cas
de fermeture (pour les constrictives) ou de rétrécissement
(pour les fricatives) du conduit vocal. Le voisement est
particulièrement défavorisé dans le cas d’une constriction
postérieure, où la cavité située en arrière du rétrécissement
est difficilement extensible : comme noté auparavant,
/g/ est plus rare dans les langues que /b/ et /d/ (mais il
peut être maintenu pour des raisons phonologiques, de
symétrie du système consonantique, une série /p, t, k/
s’opposant à la série /b, d, g/).
Aujourd’hui, phonétique expérimentale et phonologie
de laboratoire sont proches. Les modèles théoriques éla-
borés par les phonéticiens pour expliquer les inventaires
des systèmes, modèles qui se fondent sur la substance,
sont au moins aussi puissants que les modèles plus abstraits
offerts par certaines branches de la phonologie. Le rap-
prochement entre phonéticiens et phonologues s’est
concrétisé depuis plusieurs années par l’organisation régu-
lière de rencontres internationales intitulées « Laboratory
Phonology ». Certaines différences subsistent néanmoins
entre les approches phonétiques et phonologiques. Le
phonologue est généralement guidé par une approche théo-
rique et déductive qui détermine les questions qu’il
24
souhaite soumettre à vérification expérimentale. Le phoné-
ticien est plus directement dépendant de l’expérimenta-
tion : ayant d’emblée à l’esprit l’exigence de tester ses
hypothèses par des expériences reproductibles, il a ten-
dance à réduire fortement le champ de ses recherches ;
en outre, son attention se porte sur le détail des données
qu’il recueille, qui ne renseigne pas directement sur les
catégories linguistiques, mais peut contribuer à la
compréhension des nombreuses forces qui s’exercent à
tout instant sur le système linguistique. Une tendance
centrifuge pousse, en outre, le phonéticien à rechercher
des explications possibles dans la phylogenèse, l’onto-
genèse, la sociologie et l’ethnologie, la psychologie et les
neurosciences, alors que la phonologie se veut plus proche
des sciences cognitives.
Il est donc plus que jamais nécessaire que les phoné-
ticiens, les phonologues et les neurologues se comprennent
mutuellement, ce qui constitue un défi permanent.
CHAPITRE II
Les branches de la phonétique
La phonétique articulatoire et l’orthoépie (étude de la

prononciation correcte des mots) figurent parmi les branches
les plus anciennes de la linguistique. Le grammairien
hindou Panini avait déjà offert, au VIe siècle de notre ère,
une description détaillée de l’articulation des sons du
sanskrit, dans le but de fixer la prononciation correcte des
textes religieux. L’élargissement du champ de question-
nement de la phonétique, au-delà de ses aspects articu-
latoires et orthoépiques, fut lié en grande partie à
l’émergence de nouvelles techniques d’exploration : le
spectrographe, dans les années 1940, pour les aspects
acoustiques ; le Pattern Playback pour les aspects percep-
tifs, également dans les années 1940 ; ou très récemment
les techniques de l’imagerie médicale pour les aspects
neurologiques. En retour, l’application des savoirs phoné-
tiques dans le domaine des technologies vocales (synthèse,
reconnaissance de la parole et identification du locuteur),
dans le domaine de l’enseignement des langues et plus
nouvellement dans le domaine clinique, a également
enrichi les problématiques de recherche en phonétique.
Enfin, un facteur considérable d’élargissement récent tient
à la volonté des sciences du langage d’aborder désormais
les phénomènes linguistiques dans l’intégralité de leur
champ cognitif et d’élargir l’étude de la langue à celle des
usages et du comportement des usagers.
Trois types d’approches phonétiques peuvent être dis-
tingués : taxinomique, expérimentale et appliquée, si l’on
26
exclut d’emblée la phonologie, qui traite de l’architecture
des représentations linguistiques sous-jacentes à la forme
sonore du langage, et la phonétique historique (cette dis-
cipline, brièvement évoquée en introduction, étudie l’évo-
lution et la classification des langues, et reconstruit, par
la comparaison des parlers attestés, les états passés des
langues). Jusqu’au XIXe siècle, la phonétique articulatoire
était d’essence descriptive et taxinomique. Elle consistait à
décrire, à représenter et à classer les faits observés, sans
rechercher d’explications. La phonétique expérimentale est
née au milieu du XIXe siècle, de la rencontre entre les
aspirations de la linguistique historique à élucider le pour-
quoi des changements de sons, d’une part, et des sciences
naturelles, comme la médecine, la physique, la botanique,
l’anthropologie et l’acoustique, d’autre part : la description
des faits observables (dans l’étude de la langue, comme
dans d’autres domaines de la science) ne constitue qu’une
première étape, en deçà du stade explicatif. L’abbé Rous-
selot, fondateur de la phonétique expérimentale à la fin
du XIXe siècle, a essayé de reproduire en laboratoire le
mécanisme des changements phonétiques. La phonétique
expérimentale aspire à expliquer sur la base d’expériences
scientifiques reproductibles faites à l’aide d’instruments
plus ou moins sophistiqués, ou de statistiques sur de
grandes bases de données, toutes les manifestations sonores
observées. Enfin, l’aspect appliqué de la phonétique est
omniprésent et il est revendiqué par la plupart des pho-
néticiens : établissement de normes de prononciation des
textes sacrés dès l’Antiquité, aide à l’apprentissage d’une
langue seconde (l’Association phonétique internationale
était à son origine, à la fin du XIXe siècle, une association
d’enseignants de langues), contribution aux enquêtes juri-
diques qui nécessitent l’identification d’une voix enregis-
trée, technologies vocales comme la synthèse automatique
des textes lus et la reconnaissance automatique de la parole,
27
et aides aux handicapés, et plus récemment applications
diverses dans le domaine clinique.
Branche des sciences du langage, la phonétique se situe
au carrefour des sciences de l’homme, des sciences de la
vie et des sciences physiques. Les connaissances phoné-
tiques sont des éléments indispensables à l’audiologie, à
la psychologie expérimentale, aux technologies vocales et
au traitement du signal de parole. Si le nombre de phoné-
ticiens professionnels n’est pas en augmentation, les dis-
ciplines qui traitent des questions traditionnelles de la
phonétique connaissent une expansion vigoureuse.
On distingue couramment plusieurs branches de la
phonétique :
– la phonétique générale, comme la linguistique, recherche
des tendances universelles dans les langues, en particulier
sur des bases typologiques et par la comparaison des don-
nées disponibles sur l’acquisition de la langue maternelle
dans différents groupes et elle tend à les expliquer ;
– la phonétique articulatoire et physiologique, proche de
l’anatomie et de la physiologie, étudie la production de la
parole et les organes de la phonation et de l’articulation
(voir le chap. IV) ;
– la phonétique perceptive (auditive), proche de la
physiologie, de la psycholinguistique, de la psychologie
et de la psychoacoustique, s’intéresse à la réception des
sons de parole par l’appareil auditif et leur identification.
La phonétique a largement contribué à l’établissement des
mesures audiométriques (voir le chap. VIII) ;
– la phonétique acoustique, proche de la physique et de
l’aérodynamique, étudie les propriétés acoustiques des sons
(voir le chap. V).
Les études prosodiques se sont fortement développées
dans la seconde partie du siècle dernier, sous la pres-
sion des besoins de la synthèse de la parole et de
28
l’élargissement du champ de la linguistique. Elles occupent
actuellement le devant de la scène dans les congrès inter-
nationaux de phonétique. Le champ des études proso-
diques est très vaste : de la phonosyntaxe, qui étudie les
liens entre la prosodie et la syntaxe, à la phonostylistique,
qui étudie les valeurs expressives de la langue exprimées
par la manière de dire ou de prononcer les sons de parole,
la voix du poète, celle de l’acteur ou du politicien, en
passant par l’étude de la fonction identificatrice (aspects
caractérisant le locuteur, tels que son origine sociale, son
âge, sa personnalité), par la fonction expressive (expres-
sion des attitudes personnelles et interpersonnelles) ou
encore appellative (procédés qui servent à susciter certains
sentiments chez l’auditeur, comme la compassion) et par
l’analyse du discours et des marqueurs discursifs.
– La psychophonétique s’intéresse, entre autres, aux sen-
sations évoquées par les sons et la suite des sons. /i/ évo-
querait la couleur jaune et /r/ serait perçu comme plus
bagarreur et masculin que /l/ par des auditeurs de diverses
langues 1 (voir le chap. IX).
– La phonétique orthophonique (rééducative) et didactique
étudie les moyens de corriger les défauts de prononcia-
tion chez l’enfant (15 à 20 % des enfants français en bas
âge fréquentent le cabinet d’un orthophoniste) et chez
l’apprenant d’une langue étrangère ou chez le patient ayant
subi une opération chirurgicale dans la sphère ORL. Une
formation plus poussée aux nouveaux outils de la phoné-
tique, offerte aux orthophonistes, aux futurs professeurs
de langues et aux médecins ORL, permettrait d’améliorer
grandement certaines pratiques de rééducation et d’ap-
prentissage, et aurait à n’en pas douter des retombées
pour la recherche fondamentale.
1. Ivan Fónagy, La Vive Voix, 1983.
29
– La phonétique développementale, proche de la psycho-
linguistique, s’intéresse aux réactions du fœtus à divers
stimuli sonores, aux processus d’acquisition (perception
et production) des caractéristiques segmentales et pro-
sodiques de la langue maternelle par le bébé puis par
l’enfant et enfin chez l’adulte, monolingue ou bilingue.
– Les technologies vocales recouvrent essentiellement les
domaines de la synthèse automatique des textes écrits, de la
reconnaissance automatique de la parole (la dictée vocale),
du dialogue parlé homme-machine et de l’identification
du locuteur ou de la langue par un ordinateur. Les pre-
mières équipes d’ingénieurs qui se sont consacrées à ces
tâches comprenaient des spécialistes de la communication
parlée et des phonéticiens ; les modèles statistiques ont
ensuite pris le pas sur les méthodes analytiques dans le
domaine de la reconnaissance automatique de la parole,
et la synthèse par concaténation a détrôné la synthèse à
formants qui nécessitait un grand savoir-faire phonétique.
Mais la synthèse par concaténation rencontrant certaines
limites quant au caractère naturel du résultat obtenu, et
les méthodes statistiques en reconnaissance de la parole
ayant sans doute atteint leurs limites, les spécialistes sont
de nouveau en quête de connaissances fondamentales qui
puissent être intégrées aux outils logiciels par le biais de
méthodes statistiques ; cependant, peu de chercheurs pos-
sèdent la triple compétence nécessaire (en traitement du
signal, en statistiques, et en phonétique) pour innover ;
une réorganisation de l’enseignement de la connaissance
phonétique au sein de diverses disciplines universitaires
semble nécessaire pour créer un terrain favorable à de
nouvelles découvertes.
– La neurophonétique se situe au carrefour des sciences
cognitives, de la neurologie et de la linguistique. Les tech-
niques d’imagerie médicale et les potentiels évoqués per-
mettent désormais de comparer les niveaux d’activation
30
dans les différentes zones cérébrales durant la perception
de la parole et de compléter ainsi les données fournies
par l’étude des dysfonctionnements langagiers chez les
cérébrolésés dans la lignée des travaux du neurologue
Paul Broca, au milieu du XIXe siècle, sur les cadavres.
Les données médicales révèlent de grandes différences
entre les individus et une grande faculté d’adaptation des
cellules nerveuses cérébrales, qui s’organisent au cours de
l’acquisition de la langue maternelle ou se réorganisent en
cas de lésion cérébrale. Il paraît cependant établi que la
compréhension littérale d’un énoncé active plus fortement
l’hémisphère gauche, tandis que l’interprétation de la pro-
sodie émotionnelle serait plutôt traitée dans l’hémisphère
droit (de même que la musique). La neurophonétique est
une discipline nouvelle en pleine expansion.
– La phonétique clinique se situe au carrefour de la lin-
guistique et de la médecine. Elle privilégie l’utilisation des
méthodes éprouvées de la phonétique expérimentale pour
l’investigation de la production et de la perception de la
parole en pathologie. L’étude des cas pathologiques de
la parole a été une source traditionnelle de connaissances
phonétiques. Les récents progrès de la médecine dans le
traitement des cancers ORL permettent dans certains cas
de prendre en compte, au-delà de leur survie, la qualité
de vie des patients opérés et les médecins interrogent
les phonéticiens au sujet de l’impact de certains gestes
chirurgicaux impliquant des organes de la parole, sur la
qualité de la voix et la parole. De même, les avancées en
matière d’implants cochléaires ont affiné la probléma-
tique sur le codage des sons au niveau du nerf auditif et
leur apprentissage. La collaboration entre phonéticiens et
cliniciens est également indispensable à la mise en place
d’un grand nombre d’expériences qui se réalisent avec du
matériel médical spécialisé, à la réalisation de banques
de données de mesures physiologiques qui permettent
31
de fixer les frontières entre normal et pathologique, et à
l’évaluation des progrès réalisés dans le cadre d’une réédu-
cation orthophonique ou d’une chirurgie réparatrice. Les
échanges entre cliniciens et phonéticiens ont toujours été
très fructueux, basés sur le partage des problématiques,
des bases de données, des méthodes et des instrumenta-
tions. Les progrès immenses et récents dans le domaine
de l’imagerie médicale (visualisation tridimensionnelle des
organes de la parole en mouvement, mesures des champs
magnétiques induits par l’activité des neurones du cerveau,
etc.) ont permis d’élargir le champ de questionnement de
la phonétique et sont à la base de nouvelles collaborations
fructueuses avec les radiologues et les neurologues.
– La phonétique statistique ou computationnelle est en
pleine expansion. Les statistiques, qui tiennent désor-
mais une place de choix dans de nombreuses techno-
logies vocales, en viennent à être intégrées dans les
théories linguistiques comme les théories probabilistes.
Le rendement fonctionnel (statistique) des oppositions
phonémiques et des processus morpho-phonologiques a
une importance désormais reconnue dans l’évolution des
langues : les oppositions peu rentables (c’est-à-dire qui
opposent un nombre très limité de mots dans une langue,
comme l’opposition entre /a/ et /ɑ/ en français, « patte »
et « pâte ») tendant à disparaître. Il est désormais possible
d’effectuer des comptages de divers types sur d’immenses
bases de données au sein d’une langue, ou dans différentes
langues à des fins de comparaison. La puissance toujours
croissante des ordinateurs, jointe aux progrès dans les
techniques de stockage, permet d’accumuler d’énormes
corpus de parole, lue et spontanée. Et c’est par l’utilisation
de méthodes statistiques éprouvées qu’on peut extraire de
ces immenses bases des connaissances qui viennent ren-
forcer ou remettre en cause certaines conclusions avancées
dans des publications antérieures. Des bases de données,
32
en partie étiquetées, sont désormais disponibles pour les
grandes langues (en pratique les langues nationales) et
sont diffusées par LDC (Language Data Consortium) aux
États-Unis et par ELRA (European Language Resource
Association) en Europe. D’énormes corpus sur les erreurs
des apprenants sont disponibles.
La documentation des langues rares et menacées béné-
ficie également des nouvelles technologies : le site Archi-
vage du LACITO (Langues et civilisations à tradition
orale) met librement à disposition des enregistrements de
langues peu connues, transcrits sur le terrain avec l’aide
des locuteurs, et enrichis d’une annotation détaillée, afin
que ces documents soient accessibles à la communauté
scientifique par le biais d’Internet. Dans le cas des nom-
breuses langues menacées de disparition dans les pro-
chaines décennies, les données audio recueillies par les
linguistes représentent en outre, un patrimoine linguistique
et culturel, dont les techniques numériques permettent
d’assurer une conservation théoriquement infinie. Il reste
beaucoup à faire : l’état actuel de la documentation en
phonétique est en deçà des possibilités techniques. Les
évolutions futures permettront sans doute aux chercheurs
(débutants ou confirmés) d’avoir accès aux données ori-
ginales complètes sur lesquelles reposent les conclusions
des publications, et ainsi de porter un regard plus informé
sur les théories et les modèles linguistiques qui leur sont
proposés sur la base de données sur des langues dont ils
ne sont pas familiers. Faute d’accès aux données originales,
il y a risque d’incompréhension entre chercheurs quant
aux conclusions proposées. Ferdinand de Saussure ensei-
gnait que le linguiste doit connaître le plus grand nombre
de langues possible ; du fait de la spécialisation croissante
de chacun, seule une minorité des chercheurs concernés
par la phonétique possède une familiarité de première
33
main avec un grand nombre de langues ; la qualité et
l’abondance des ressources partagées sont donc cruciales
pour que les recherches aient une ouverture suffisante sur
la variété des langues, et s’inscrivent dans une logique
cumulative.
Dans le cas du français, un projet international en cours,
« la phonologie du français contemporain : usages, varié-
tés et structures », vise à mettre à la disposition de tous
les chercheurs une banque de données transcrite d’échan-
tillons de français parlé.
CHAPITRE III
Les outils de la phonétique
Les méthodes d’enquête et d’analyse sont essentielle-

ment les mêmes pour toutes les langues, qu’il s’agisse de
langues jusque-là non décrites ou d’une variété (régionale,
sociolinguistique…) d’une langue dont d’autres variétés
sont abondamment décrites 1. De longs mois sont parfois
nécessaires pour établir le système phonologique d’une
langue non étudiée jusque-là et les inventaires de phonèmes
peuvent changer d’une variété de langue à l’autre. Par
exemple, le nombre de voyelles n’est pas le même au nord
et au sud de la France ou chez des locuteurs jeunes et
âgés (a/ɑ et ɛ/̃ œ̃ peuvent être ou non confondus). L’éta-
blissement du système de contrastes entre phonèmes, tons
ou qualité de voix utilisés par la langue pour distinguer
entre les mots est toujours la première étape nécessaire
de l’étude approfondie d’une langue.
L’alphabet phonétique international (API), imaginé par
Otto Jespersen en 1886, fut conçu comme un système de
notation à la fin du XIXe siècle par un groupe d’enseignants
pour répondre à un besoin de transcription phonétique
dans le cadre de l’apprentissage des langues. Il est pério-
diquement révisé (dernière version : 2018). L’API est un
instrument qui demeure perfectible, mais présente l’avan-
tage décisif de pouvoir être utilisé dans la description du
système phonologique de toutes les langues, ce qui facilite
l’accès aux études consacrées aux langues les plus variées.
1. André Martinet, La Description phonologique, 1956.
35
Les deux principes de base de l’utilisation de l’API en
tant que système de transcription phonologique sont les
suivants :
a) un son distinctif (un phonème) dans une langue
est représenté par un seul symbole entre deux barres, / /.
Le « r bourguignon » (la pointe de la langue vibre contre
les alvéoles dentaires), la réalisation pharyngale du /ʁ/
dans le français parisien (dans rare), vélaire (rourou), ou
plus palatale (riri), accompagnée (ara) ou non de vibra-
tions des plis vocaux (tra), avec et sans bruit de friction,
correspondent à plusieurs sons (timbres) plus ou moins
différents sur le plan phonétique mais ils sont transcrits
phonologiquement par un seul et même phonème /ʁ/
en français car la substitution d’un son à l’autre n’est pas
distinctive (elle ne peut servir à distinguer entre deux
mots français). [p] et [pʰ] sont deux allophones du même
phonème /p/ en anglais, mais représentent deux phonèmes
en hindi, /p/ et /pʰ/ ;
b) un même symbole doit représenter, dans les diverses
langues où il est utilisé, des sons de timbre proche. Ce
principe n’est pas toujours appliqué avec rigueur, le souci
de simplicité typographique conduisant à des compro-
mis : les mêmes symboles /a/, /e/, /i/, /o/ et /u/ sont
abondamment utilisés pour décrire les voyelles dans les
langues à cinq voyelles, bien que les timbres puissent dif-
férer grandement d’une langue à l’autre. Certaines des-
criptions phonologiques pour une même langue à cinq
voyelles hésitent entre /o/ et /ɔ/, /e/ et /ɛ/ et le choix du
symbole est en partie arbitraire.
L’API est non seulement utile pour décrire les inven-
taires phonologiques des langues, mais aussi pour trans-
crire phonétiquement les sons. Les symboles sont alors
représentés entre crochets : [ ]. Soixante-seize signes
diacritiques (point, accent, symbole quelconque) servent
36
à noter des variations subtiles dans la réalisation des
phonèmes. Par exemple, le diacritique ʷ dans [tʷ] indique
une réalisation arrondie de /t/, et le diacritique + dans [u̟]
note l’antériorisation de /u/ (comme dans toute). D’autres
conventions de transcription complètent l’API pour
l’annotation d’événements prosodiques (tons, allonge-
ments, qualité de la phonation, etc.).
L’oreille reste l’instrument principal du phonéticien,
elle est le juge ultime. Une seule analyse acoustique des
faits segmentaux ou prosodiques, aussi fine et étendue
soit-elle, ne permet pas de tirer des conclusions définitives
sur le rôle de ces faits dans la communication verbale.
Des expériences de perception avec des auditeurs natifs
de la langue sont toujours nécessaires ; les variations obser-
vées au plan acoustique, même si elles sont régulières,
peuvent ne pas être perceptibles ou perçues. Si elles ne
sont pas perçues, elles peuvent jouer cependant un rôle
dans la vitesse d’identification des phonèmes (accélération
des temps de réaction). Si elles sont perçues, elles peuvent
avoir un sens pour les natifs de la langue (par exemple
l’emploi d’une variante plus palatalisée d’un son peut ajou-
ter une note de gentillesse ou de tendresse à ce qui a été
prononcé). Les techniques modernes permettent de réa-
liser des expériences de perception extrêmement élaborées,
avec des mesures des temps de réaction ou des mesures
des champs magnétiques induits par l’activité des neurones
du cerveau, chez l’adulte, l’apprenant ou le bébé endormi.
Une transcription phonétique fine à partir de la seule
écoute est souvent difficile à réaliser, même pour une
oreille très exercée. L’écoute des segments isolés et la
représentation spectrographique sont devenues indispen-
sables pour une transcription phonétique fine et une étude
quantifiée des différentes réalisations de chaque phonème.
Par exemple, l’arrondissement des lèvres durant la réali-
sation de la consonne /s/ dans le mot structure par rapport
37
à celle du mot stricture peut échapper à l’oreille la plus
exercée mais elle ressort nettement d’une écoute séparée
du bruit de friction de l’une et l’autre consonne /s/, écoute
« analytique » que permettent les logiciels d’analyse du
signal acoustique, désormais disponibles gratuitement sur
Internet. La labialisation du /s/ de structure se traduit par
un abaissement notable des fréquences de résonance durant
la fricative par rapport au /s/ de stricture, facilement repé-
rable sur un spectrogramme.
Une véritable transcription phonétique fine devrait
mettre en lumière le système des indices acoustiques per-
mettant d’opposer les phonèmes de la langue, être apte
à noter la différence acoustique avec les phonèmes des
autres langues et noter les nuances acoustiques qui véhi-
culent des informations pour les natifs de la langue. La
synthèse à formants (comme le système de Dennis Klatt),
dans laquelle l’ordinateur reproduit la parole à partir des
fréquences de formants indiquées par l’expérimentateur
(voir chap. V), démontre que la prise en compte du troi-
sième formant est nécessaire pour les langues qui
connaissent des contrastes entre voyelles antérieures
arrondies et non arrondies (comme le français, le suédois
et l’allemand). Les voyelles françaises /i/ et /y/ peuvent
partager des valeurs de F1 et F2, et être distinguées uni-
quement par la fréquence de F3. De même, les timbres
créés par synthèse articulatoire (comme celle de
Shinji Maeda), reposant soit sur des indications données
à un ordinateur sur la position des organes de la parole,
soit sur un schéma simplifié du conduit vocal, montrent
l’importance du jeu de compensation entre les lèvres et
la langue, et entre la langue et la mâchoire. Un même
timbre peut être créé par différentes configurations du
conduit vocal. La nécessité de noter les corrélats des
oppositions sur le plan acoustique et l’existence de phéno-
mènes de compensation entre les organes de la parole
38
suggèrent de suppléer l’API par un nouveau type de
transcription phonétique fondée uniformément sur les
propriétés acoustiques pertinentes du signal 1, alors que
les traits phonologiques classiques reposent à la fois et
de façon ambiguë sur des propriétés acoustiques
(ex. strident), articulatoires (labial, dorsal…) ou les deux
à la fois (voisé, sonnant, aspiré…). Les corrélats acous-
tiques des nuances de sens peuvent être, par exemple,
calculés sur la base des différences entre les valeurs des
paramètres segmentaux et prosodiques observées et celles
qui sont attendues pour une réalisation neutre de l’énoncé.
L’étude de la face parlée d’une langue ne peut se faire
que sur la base d’une connaissance de cette langue dans
ses diverses dimensions : phonétique, phonologique,
morphologique et syntaxique. Une analyse adéquate des
systèmes phonémiques, vocalique et consonantique, d’une
langue peut être certes réalisée à partir du lexique par
un enquêteur dont ce n’est pas la langue maternelle. Il
a à sa disposition un ensemble de méthodes bien établies
par la phonologie. Il est, en revanche, téméraire de se
lancer dans la description du système prosodique d’une
langue non maternelle : un détail acoustique peut être
porteur d’une information pour les locuteurs natifs de la
langue et échapper à la vigilance du chercheur non-natif ;
il est nécessaire de replacer la portée de tout fait prosodique
observé au sein du paradigme de l’ensemble de tous les
procédés offerts par la langue (morphologiques, syn-
taxiques, etc.). En français, par exemple, une intonation
montante sur la dernière syllabe d’une phrase interrogative
où elle n’est pas indispensable lorsque l’interrogation est
déjà marquée par un autre moyen (du type « Est-ce que
tu viens ? » ou « Viens-tu ? ») ajoute une note de politesse
ou de gentillesse.
1. Système en cours de développement par Jacqueline Vaissière.
39
40 Frq (Hz)
20 F1 402
0 F2 1455
- 20 F3 2352
F4 3621
- 40
0 1 2 3 4 5 F5 4210
1
Frq (Hz)
40
F1 402
20
F2 1424
0
F3 2290
- 20 F4 3683
- 40 F5 3869
0 1 2 3 4 5
Fig. 1. – Le jeu des lèvres permet de compenser

dans une grande mesure la position de la langue.
Une voyelle palatale arrondie (haut) est acoustiquement
très proche d’une voyelle plus postérieure non arrondie (bas),
qui, si elle est arrondie, aboutit au son /u/ français
(modèle articulatoire) : les fréquences
des formants sont similaires.
Les prises de données diverses sont désormais grande-

ment facilitées. La parole est un phénomène complexe
et il est nécessaire d’appréhender chaque phénomène sous
plusieurs angles. Les expériences en laboratoire per-
mettent de recueillir plusieurs types de données, acous-
tiques, articulatoires, visuelles et physiologiques, et
d’utiliser des instrumentations sophistiquées non inva-
sives, dans des conditions bien contrôlées qui facilitent
l’interprétation des phénomènes (en renseignant direc-
tement sur la configuration des articulateurs, par
exemple) ; des études sur le terrain permettent de recueil-
lir des données de première main de parole spontanée
de langues peu accessibles dans des conditions naturelles,
40
et de plus en plus d’instrumentations de laboratoire sont
transportables sur le terrain. Les performances des appa-
reils d’enregistrement (enregistreurs audio, caméras
vidéos, électro-glottographes, palatographes, échographes,
encéphalographes, capteurs aérodynamiques de débit et
de pression) ne cessent de s’améliorer et leur miniaturi-
sation rend possible leur utilisation hors les murs du labo-
ratoire (ce qui ne dispense pas bien sûr l’enquêteur d’une
formation à la prise de données). Les laboratoires de
phonétique disposent souvent de programmes de saisie
des déplacements de marqueurs placés sur le visage du
locuteur ou sur des articulateurs et d’autres méthodes non
invasives (ultrasons, etc.) d’une grande précision. Certaines
données concernant la production ne peuvent être prises
qu’en milieu hospitalier car elles nécessitent un matériel
lourd utilisé généralement par les cliniciens : les mesures
électromyographiques (pour étudier l’activité électrique des
nerfs et des muscles liés à la production de la parole), les
prises de données cinéradiographiques ou films des organes
de la parole à l’aide d’un fibroscope inséré à l’intérieur du
conduit vocal, l’imagerie par résonance magnétique (IRM),
la transillumination du larynx, l’imagerie cérébrale fonction-
nelle, l’électroencéphalographie (EEG) et la magnétoencépha-
lographie (MEG) sont de plus en plus utilisées pour des
études phonétiques dans le cadre de collaborations étroites
entre spécialistes de différents domaines. L’ensemble des
données, prises sur le terrain, dans un laboratoire de
phonétique, ou dans un milieu hospitalier permet des
avancées rapides dans la connaissance du (dys)fonction-
nement de la face parlée d’une langue.
Quel que soit le type de données, il est rare que l’on
puisse désormais prendre des données, les stocker et les
traiter sans avoir recours à l’outil informatique. La col-
lection de bases de données informatisées et les statistiques
sont devenues des outils essentiels pour la recherche
41
phonétique. Enfin, signalons qu’Internet permet à tous
les chercheurs de se tenir informés au jour le jour, tant
en matière de bases de données que de publications, et sur-
tout d’écouter les sons correspondant aux livres et articles
publiés, et mis à disposition par les chercheurs du monde
entier : ils peuvent alors refaire une étude acoustique et
perceptive de ces sons sur leur propre ordinateur.
Deux remarques importantes pour conclure ce chapitre.
Il convient toujours de relativiser la portée des résultats
expérimentaux obtenus. Le type de corpus étudié (récits,
descriptions d’images, dialogues spontanés ; mots isolés,
textes lus), le choix des locuteurs, les conditions d’enregis-
trement (niveau sonore, contexte, consignes fournies aux
locuteurs) ont des conséquences sur les résultats obtenus ;
la plus grande prudence (souvent non observée) est de mise
avant toute généralisation.
Les outils ne cessent d’évoluer. Les anciens outils mis
à la disposition des recherches en phonétique expérimen-
tale progressent et de nouveaux outils voient le jour. On
pourra citer, par exemple, l’EPGG (électrophotoglotto-
graphie externe) 1 qui permet d’estimer l’ouverture de la
glotte de façon non invasive.
1. Inventeurs : Kiyoshi Honda et Shinji Maeda, à Paris, en 2009.

CHAPITRE IV
Les organes de la parole
L’étude du comportement des organes de la parole est

le domaine de la phonétique articulatoire. Il s’agit de la
branche la plus ancienne de la phonétique. Dès la fin du
XIXe siècle, l’introspection sur l’articulation a été complé-
tée par la palatographie statique 1 (dès 1850).
Les études sur les phénomènes dynamiques et la coar-
ticulation entre les phonèmes n’ont véritablement débuté
qu’au XXe siècle par la mise à disposition d’un certain
nombre d’inventions : radiographie (1895), électro-
myographie (1929), spectrographie (1941), cinéradiographie
(1954), palatographie dynamique (1960), mesures aéro-
dynamiques, X-ray Microbeam System (créé dans les
années 1970, par Osamu Fujimura), articulatographe
électromagnétique. Plus nouvellement, les caméras ultra-
rapides disposées à l’intérieur du conduit vocal avec l’aide
d’un fibroscope et l’imagerie par résonance magnétique
(IRM) en trois dimensions apportent de précieux ren-
seignements sur la position et l’activité des articulateurs.
Enfin, la synthèse articulatoire permet à elle seule de faire
le lien entre l’articulation, l’acoustique et la perception,
et la modélisation est devenue la principale source
de progrès dans le domaine de la phonétique articula-
toire.
1. Voir les anciens travaux de l’abbé Rousselot et ceux de Marguerite

Durand.
43
Coupe sagittale de la face et du cou, comportant les principaux
organes qui participent à la production de la parole.
Planche de Testut (1889 : Traité d’anatomie humaine)
utilisée par l’abbé Rousselot dans son livre
Principes de phonétique expérimentale (1897-1908)
A. Fosse nasale droite. – B. Cavité buccale ; B’. Vestibule ;
B’’. Région sublinguale. – C. Pharynx nasal ; C’. Pharynx buccal.
– D. Œsophage. – E. Larynx. – F. Trachée-artère.
1. Narine droite. – 2. Cornet supérieur. – 3. Cornet moyen. – 4. Cornet inférieur.
– 5, 5’. Muqueuse des fosses nasales. – 6. Cartilage latéral du nez. – 7. Cartilage de l’aile
du nez. – 8. Amygdale pharyngienne. – 9. Orifice pharyngien de la trompe d’Eustache.
– 10. Fossette de Rosenmüller. – 11. Voile du palais et luette. – 12. Muqueuse
linguale ; 12’. Eoramen cæcum. – 13. Septum lingual. – 14. Muscle génioglosse.
– 15. Muscle géniohyoïdien. – 16. Muscle mylohyoïdien. – 17. Épiglotte.
– 18. Cartilage tyroïde. – 19, 19’. Cartilage cricoïde. – 20. Ventricule du larynx.
– 21. Premier cerceau de la trachée.
L’homme produit de la parole avec des organes dont
la fonction principale n’est pas linguistique. Pour produire
des sons, l’homme utilise les poumons, le larynx, la langue,
les lèvres et le voile du palais ; la fonction première des
poumons est respiratoire (l’oxygénation du corps), celle
du larynx est la protection des voies respiratoires, chez
l’homme comme chez l’animal ; la fonction principale
de la langue est de participer à la mastication et à la
déglutition. Le singe possède une morphologie compa-
rable à celle de l’homme, mais il ne « parle » pas. Phylo-
génétiquement, l’émergence de la faculté créative de
langage chez l’homme est sans doute liée à l’accroissement
de ses capacités cognitives et des aires cérébrales de Broca
et de Wernicke, et non au développement de son tractus
vocal, même si la position verticale basse du larynx chez
l’homme adulte facilite grandement la mobilité de la
langue (chez le bébé et chez divers mammifères, un larynx
élevé permet de respirer et de boire simultanément, mais
limite la mobilité de la langue). La principale différence
entre le singe et l’homme est le degré plus élevé de
développement du cortex chez ce dernier. Il s’est révélé
impossible d’enseigner la parole à un singe. Certains
chimpanzés (avec lesquels nous partageons 99 % de nos
gènes !) arrivent à maîtriser le sens de quelque 150 mots,
mais ils ne combinent pas spontanément ces mots pour
former de nouvelles phrases.
L’acte d’énonciation peut se décomposer en plusieurs
phases (boucle phonatoire) : une phase psychique, celle
de l’intention de parler ; une phase linguistique avec la
sélection, dans le lexique, des mots qui correspondent
au message à transmettre, l’arrangement de ces mots
selon les règles de syntaxe de la langue, et le choix d’une
prosodie appropriée à l’intention globale du message ;
une phase physiologique avec l’activation des muscles des
poumons, du larynx, de la langue, des lèvres et du voile
45
du palais, qui se traduit par la production de la parole ;
et une phase acoustique. L’onde (acoustique) sonore pro-
duite par le locuteur fait alors vibrer le tympan de l’audi-
teur, et le décodage du message a lieu, avec une phase
physiologique (au niveau de l’oreille et du nerf auditif),
puis linguistique et enfin psychique, avec l’interprétation
du message. Un seul chaînon manquant et la commu-
nication est entravée.
Fig. 2. – Représentation schématique des organes

dits « de la parole »
La production de la parole implique trois processus

principaux : la respiration, la phonation et l’articulation
(voir figure 2). Les organes dits « de la parole » sont géné-
ralement classés en trois types en fonction de leur rôle
dans la génération de la parole : (I) au niveau sub-glottique,
les muscles respiratoires qui créent le flux d’air égressif
nécessaire à la phonation et à la création des bruits égres-
sifs (fricatives, occlusives) ; (II) au niveau glottique, les
organes phonatoires qui créent le bourdonnement laryngal
et (III) au niveau supraglottique, les organes articulatoires
qui filtrent ce bourdonnement (le signal de source) et
créent les différents sons successifs (voir figure 6 p. 59).
46
La composante subglottique (les poumons, les bronches,
la trachée et les organes respiratoires) joue le rôle d’une
soufflerie. Durant la respiration normale, l’inspiration et
l’expiration sont de durée proche (respectivement, 40 et
60 %). Lorsqu’il a l’intention de parler, le locuteur ins-
pire un volume d’air plus important et en un temps plus
court que pour une respiration normale. L’expiration,
pendant laquelle il émet des sons, sera souvent dix fois
plus longue que l’inspiration. Le mouvement de la cage
thoracique et du diaphragme comprime l’air des poumons
comme le piston d’une pompe à vélo, créant ainsi une
surpression sous-glottique nécessaire à l’expiration d’un
courant d’air à travers les plis vocaux. Les forces mus-
culaires actives (de la cage thoracique, du diaphragme
et de l’abdomen), jointes à des forces élastiques passives
(la propriété élastique des tissus), tendent à maintenir
une surpression sous-glottique relativement constante,
entre 6 et 10 cm H2O (qui décroît parfois légèrement
au cours de l’émission de la parole et peut aussi croître).
Le débit d’air moyen durant la parole est peu élevé :
de 100 à 300 ml d’air par seconde. Les sons les plus
économiques en termes de consommation d’air totale
sont les occlusives voisées (50 ml) et les voyelles, puis
les fricatives voisées (75 ml). Les occlusives sourdes
consomment 80 ml et les fricatives sourdes 100 ml
(Robert Lass).
La deuxième étape est la phonation. – La phonation
transforme le courant d’air qui sort des poumons en un
bourdonnement, indépendant du futur timbre. L’air expiré
des poumons passe à travers la trachée. La figure 3 repré-
sente le larynx, qui forme l’extrémité supérieure de la
trachée, et présente différentes configurations de la glotte
(commentées plus bas).
47
En haut : la partie supérieure de la trachée, le larynx,
Fig. 3. –
les plis vocaux, la glotte et les aryténoïdes.
En bas : a) respiration, b) inspiration profonde, c) phonation
et d) chuchotement (d’après Farnsworth, 1940,
en haut et Pernkopf, 1952, en bas)
Le larynx est saillant chez les hommes adultes (la

« pomme d’Adam »). Dans le larynx se trouvent les plis
vocaux (improprement appelés des « cordes vocales »,
expression qui ne doit plus être utilisée car elle provient
48
d’une analogie, fausse, avec les instruments de musique),
deux muscles vibratiles recouverts d’une membrane
muqueuse, qui s’insèrent entre le cartilage thyroïde, qui les
protège, et deux cartilages mobiles (les aryténoïdes), qui
permettent de modifier leur longueur et leur écartement.
L’espace entre les deux plis vocaux s’appelle la glotte. Si les
plis vocaux sont écartés (la glotte est alors ouverte), le flux
d’air continu passe librement (comme durant la production
des sons sourds [p, t, k, f, s, ʃ]) ; si les plis vocaux sont
fortement resserrés, l’air est bloqué (production d’une occlu-
sive glottale) ; si les plis vocaux sont mollement accolés
(comme c’est le cas pour la plupart des sons de la parole
qui sont des sons voisés), le flux d’air les met en vibration,
vibration qui découpe le flux d’air en un train de bouffées
d’air qui crée un bourdonnement, sensiblement le même
pour tous les sons voisés. Les plis vocaux jouent dans ce
dernier cas le rôle d’un oscillateur. Phylogénétiquement,
(I) les plis vocaux assurent une fonction de sphincter qui
protège les voies respiratoires de la descente des aliments
dans les poumons et permet aussi une pressurisation des
poumons dans le cas d’un effort et (II) le degré d’ouverture
de la glotte contribue à réguler la respiration. Les plis
vocaux sont longs de 3 mm chez le nouveau-né, de 10 mm
à la puberté, et augmentent de 5-10 mm chez l’homme
adulte et de 3-5 mm chez la femme.
La plupart des sons du langage sont donc voisés, pro-
duits avec la participation des plis vocaux qui vibrent.
Posez la paume de votre main sur votre gorge et pronon-
cez [a], [z] et [s]. Sentez les vibrations pour les deux
premiers sons et notez l’absence de vibrations pour le
dernier, qui est un son non voisé. Si vous répétez ce test
pour tous les phonèmes du français, vous vous apercevrez
que la majorité des phonèmes est accompagnée de vibra-
tions, sauf les occlusives [p, t, k] et les fricatives [f, s, ʃ],
qui sont des sons non voisés. La pression sous-glottique
49
est d’environ 8-10 cm H2O pendant la parole, plus élevée
que la pression au-dessus des plis vocaux (pression intra-
orale) : l’air s’échappe des poumons à cause de la différence
entre la pression sous-glottique et la pression intraorale.
Pour entrer en vibration, les plis vocaux s’accolent par un
pivotement des cartilages aryténoïdes. Il suffit d’une pres-
sion transglottique de 3 à 5 cm d’eau pour les mettre en
vibration, et une pression de 1 à 2 cm d’eau pour les y
maintenir. L’occlusion complète pour les occlusives /b, d,
g/ ou le resserrement au niveau du conduit vocal pour /v,
z, ʒ/, ou encore la réalisation des voyelles très fermées /i,
y, u/ augmente la pression intraorale, diminuant ainsi la
pression transglottique, et en conséquence entrave la vibra-
tion des plis vocaux ou retarde leur mise en vibration,
d’où la tendance naturelle au dévoisement des voyelles
fermées – obligatoire en japonais lorsque la voyelle est
encadrée par deux consonnes sourdes. Ce phénomène
contribue à l’affrication des occlusives dentales qui les
précèdent en français canadien : ta pt site voit sure (mais
pas dans le cas de [u]).
Fig. 4. – Un cycle de vibration des plis vocaux

(d’après Hirano, 1981)
Au départ du cycle, les plis vocaux se resserrent mol-

lement, empêchant l’air de s’échapper (1). Sous la poussée
du flux d’air, la pression sous la glotte fermée augmente,
les plis vocaux sont portés vers le haut, leur aire de contact
50
diminue, ils finissent par s’écarter et l’air s’échappe (2).
L’échappée de l’air crée une zone de dépression entre les
deux plis vocaux et leur myoélasticité les rapproche par
le bas (3-6). Ils se referment alors brusquement (6),
comme une porte qui claque à cause d’un courant d’air ;
le passage de l’air est bloqué, la pression sous les plis
vocaux augmente de nouveau (6-10) et finit par les sépa-
rer, de sorte que le cycle recommence. Le caractère abrupt
de la fermeture est garant d’une voix efficace et du ren-
forcement de l’amplitude des harmoniques dans les
moyennes et hautes fréquences. Cette qualité détermine
la qualité de la phonation.
La fréquence moyenne de vibration des plis vocaux
dépend de l’individu, en particulier de la masse de ses plis
vocaux, liée à l’âge et au sexe. Plus les plis vocaux sont
massifs, plus le rythme de leurs vibrations est lent. Ils
vibrent en moyenne 120 fois par seconde chez l’homme
adulte, 240 fois chez la femme, 350 fois chez l’enfant,
400 fois ou plus chez le nouveau-né. La fréquence
moyenne de vibration des plis vocaux chez un individu
se modifie au cours de la vie. Avec l’âge, la voix de la
femme devient plus grave et celle de l’homme plus aiguë.
Un locuteur peut augmenter (et diminuer) volontaire-
ment la fréquence de vibration des plis vocaux durant la
production des voyelles et des sonantes, dans une certaine
limite. Dans la parole courante, l’effort pour modifier le
rythme de vibration des plis vocaux se situe essentiellement
au niveau du larynx : le rythme de vibration est essentiel-
lement contrôlé par la raideur des plis vocaux (plus les plis
vocaux sont raides et plus la fréquence des vibrations
augmente). On augmente la raideur des plis vocaux en
les allongeant, par un mouvement des aryténoïdes. Il existe
un second procédé pour augmenter le rythme de vibra-
tion : une augmentation de l’effort articulatoire (par une
plus forte compression des poumons), utilisée dans
51
la réalisation des accents d’insistance, de la voix criée, et
dans certaines pathologies. L’élévation de la pression sous-
glottique qui en résulte augmente l’amplitude des mou-
vements des plis vocaux, donc l’intensité physique des
sons et également la fréquence de vibration des plis vocaux.
Lors d’un coup de glotte, les plis vocaux sont raccour-
cis et fortement resserrés ; durant la phonation, les plis
vocaux sont mollement resserrés et ils vibrent ; pour la
réalisation des sons sourds, ils sont modérément écartés
et ils sont fortement écartés pour celles des sons aspirés,
du moins en général.
La figure 5 illustre le schéma simplifié de la glotte, le
débit d’air volumique et la forme du spectre du bourdon-
nement résultant.
Débit volumique
modal breathy creaky
temps
- 12dB/octave Plus forte Plus faible
dB
Fréquence (échelle logarithmique)
Fig. 5. –Voix modale, breathy et creaky

(adapté d’une figure de Ken Stevens) : plis vocaux (haut),
débit d’air (milieu) et pente spectrale de la source (bas)
Il existe plusieurs qualités de phonation. Durant la

phonation modale, le temps d’ouverture est plus lent que
celui de la fermeture. La pente spectrale (voir chap. V)
est de moins 12 dB par octave à la source. En revanche,
52
dans la voix soufflée (breathy), la fermeture de la glotte
est souvent incomplète, et moins rapide qu’en voix modale,
de sorte que le mouvement des plis vocaux est plus symé-
trique ; la conséquence acoustique est que la pente spec-
trale est plus forte, c’est-à-dire que les harmoniques
supérieurs sont de moindre amplitude. La voix soufflée
est modérément intelligible. Dans le cas de la voix craquée
(creaky), les aryténoïdes sont resserrés, et les plis vocaux
ne peuvent vibrer que sur une partie de leur longueur.
Les moyennes et hautes fréquences sont renforcées ; la
fermeture glottique est particulièrement efficace et la voix
craquée est généralement bien timbrée. Dans les langues
du monde, il y a deux types d’utilisation des différents
états de la glotte. Les différents états peuvent être utilisés
pour réaliser des oppositions phonologiques entre
les voyelles (modale, breathy ou creaky, et les tons) et les
consonnes (sourde, sonore, aspirée, breathy) ou pour mar-
quer des attitudes, par exemple (rôle phonétique). Dans
les langues à registre de qualité de voix, telles que le môn
(famille môn-khmère), deux mots peuvent s’opposer par
le mode de vibration des plis vocaux, la séquence des
phonèmes étant au demeurant la même : voix modale
(normale, non marquée) dans un registre, soufflée (breathy)
dans l’autre. En français, les différentes qualités de voix
n’ont pas de rôle distinctif, phonologique. La voix volon-
tairement breathy d’une femme peut évoquer la séduction
ou l’intimité (comme chez la chanteuse Jane Birkin). Une
voix creaky peut évoquer la colère.
La troisième étape est l’articulation qui transforme la
voix en parole. Le bourdonnement créé par les vibrations
des plis vocaux est filtré dans les cavités supraglottiques,
qui jouent le rôle de cavités de résonance (ou résonateurs).
Ce sont essentiellement les cavités pharyngo-laryngienne,
buccale et nasale. Les qualités résonancielles de ces cavités
53
sont modifiables par l’intervention de la mandibule, de la
langue, des lèvres et du voile du palais, ainsi que par
l’avancement ou la rétraction de la zone pharyngienne
(plus ou moins utilisée selon les langues) et la hauteur du
larynx. Ceux des harmoniques du bourdonnement qui
sont en accord avec des résonances naturelles des résona-
teurs (ou pôles dans la fonction de transfert, qui définit
la relation entre la sortie et l’entrée du conduit vocal) se
trouvent amplifiés (formants) et les autres amortis (voir
le chap. IV).
La parole correspond à un mouvement alternatif
d’abaissement et d’élévation de la mandibule et de la langue
(Ferdinand de Saussure), se produisant toutes les 120 ms
en moyenne. Le mouvement d’abaissement est essentiel-
lement lié à la réalisation d’une voyelle, celui d’élévation
à celle d’une consonne. Le degré de constriction permet
de distinguer, du plus fort au plus faible : les consonnes
occlusives, les fricatives, les semi-consonnes, les voyelles
fermées, semi-fermées, semi-ouvertes et ouvertes. L’am-
plitude du mouvement de chaque oscillation de la mâchoire
est également contrôlée par la prosodie. Un abaissement
plus grand de la mandibule permet une plus grande pré-
cision des mouvements de la langue, d’une part, et une
augmentation de la fréquence du premier formant, donc
de l’intensité physique, d’autre part : une mâchoire
surabaissée accompagne souvent la réalisation des voyelles
accentuées, même des voyelles fermées comme /i/.
CHAPITRE V
Le signal de parole
et la phonétique acoustique
La phonétique acoustique étudie les propriétés phy-

siques du signal transmis de la bouche du locuteur au
tympan de l’auditeur. Nous exposerons ici quelques
connaissances sur l’onde sonore en général, puis sur le
signal de parole, qui a la particularité d’être produit par
un conduit vocal humain, contrairement aux « bruits » de
la nature.
Le physicien et physiologiste Hermann von Helmholtz
(1867) a établi les bases scientifiques de l’analyse du
signal et de sa perception. À la fin du XIXe siècle, la
transformée de Joseph Fourier, fonction mathématique
découverte par le baron du même nom, permet de
décomposer toute onde, aussi complexe soit-elle, en une
suite d’ondes élémentaires sinusoïdales différant par leurs
fréquences, amplitudes et phases. L’invention du télé-
phone (1876), du microphone (1878), du magnétophone
(1948), du spectrographe (1941), puis dans les
années 1960, le développement des technologies vocales
(synthèse à formants en 1960, reconnaissance de la parole
dès 1952 et traitement du signal sur ordinateur) ont
marqué l’entrée en force de la dimension acoustique dans
les études phonétiques, et la description des phénomènes
de coarticulation entre les phonèmes en séquence.
En 1952, un article de Peterson et Barney sur les voyelles
de l’anglais illustre de façon magistrale la relation entre
55
le timbre perçu des voyelles et la valeur de leurs trois
premiers formants, ainsi que la variabilité acoustique
des productions vocales des hommes, femmes et enfants.
À la même époque apparaissent les Preliminaries sur les
corrélats acoustiques des traits distinctifs, dont l’inven-
taire, très réduit, permettrait de caractériser toutes les
différences distinctives utilisées par les langues du
monde. En 1960, le livre Acoustic Theory of Speech Pro-
duction du Suédois Gunnar Fant, dans la lignée de tra-
vaux des Japonais Chiba et Kajiyama (1941), explique
de façon très détaillée les rapports entre la forme d’un
tractus vocal (les données proviennent de radiographies)
et les propriétés résonancielles de ce même conduit vocal.
C’est à Ishizaka et Flanagan (1972) que l’on doit le
premier modèle des plis vocaux. Dès les années 1970,
les travaux de Ken Stevens, au MIT, ont alimenté la
controverse sur l’existence d’une invariance acoustique
absolue dans la réalisation des traits (théorie de l’inva-
riance) au-delà de la grande variabilité observée dans la
réalisation des phonèmes. D’après ce modèle, un
phonème serait d’autant plus courant (dans les langues
du monde) que ses propriétés acoustico-articulatoires
seraient plus stables.
Les ondes sonores sont des propagations de changements
de pression, produits par les vibrations de particules du
milieu ambiant : l’air atmosphérique pour les humains,
l’eau pour les poissons. Quand les particules d’air sont au
repos, elles se meuvent rapidement dans toutes les direc-
tions et sont équidistantes. Un choc les met en mouve-
ment, créant des alternances de zones de raréfaction de
l’air et de surpression locales. La propagation des chan-
gements de pression est rapide, environ 340 m/sec pour
une température de 20o C. Les variations de pression sont
transformées en vibrations mécaniques au niveau du tym-
pan (voir chap. VIII).
56
Les propriétés acoustiques des sons incluent :
– leur durée (liée à la rapidité des articulateurs et à la
longueur perçue) ;
– leur fréquence du fondamental (liée au nombre de
vibrations des plis vocaux par seconde et à la hauteur
perçue), notée F0 et la forme du signal de source (liée au
mode de vibration et à la qualité perçue de la voix) ;
– leur intensité physique, qui dépend essentiellement
de l’amplitude acoustique globale et de la réparti-
tion relative de l’énergie dans les basses, moyennes
et hautes fréquences (balance spectrale), liée à l’im-
pression d’intensité sonore ;
– leur composition spectrale, en relation avec la réparti-
tion de l’énergie dans l’échelle des fréquences (for-
mants pour les voyelles et la distribution de l’énergie
dans l’échelle pour les bruits), liée à la perception du
timbre (voir chap. VIII) ;
– leur aspect stationnaire ou dynamique (diphtongues,
transitions…).
Les sons de parole ont la particularité d’être le produit
d’un filtrage par un conduit vocal humain et d’être inter-
prétés comme tels par les auditeurs. La figure 6 illustre la
théorie source-filtre. Tous les sons voisés ont pour origine
le bourdonnement glottal, produit par les vibrations des
plis vocaux. Le bourdonnement (signal de source) est com-
posé d’une fréquence du fondamental (qui correspond à la
fréquence de vibrations des plis vocaux) et d’harmoniques
qui sont des multiples entiers du fondamental. Par exemple,
si les plis vocaux vibrent à un rythme de 120 fois à la
seconde (valeur moyenne pour un homme adulte), le signal
de source sera composé des fréquences harmoniques sui-
vantes : 120 Hz, 240 Hz, 360 Hz, 480 Hz, 600 Hz,
720 Hz, 840 Hz, etc. Ce bourdonnement excite le conduit
vocal (1 sur la figure 6) qui a un volume clos, comme celui
57
d’une bouteille. Or, tout volume clos possède des résonances
naturelles (représentées par sa fonction de transfert), et le
volume clos correspond au conduit vocal est modifiable
par les mouvements des organes articulatoires. Il y a envi-
ron quatre résonances naturelles en dessous de 4 000 Hz
(4 500 Hz chez la femme, dont le conduit vocal est plus
court, essentiellement du fait que son larynx est plus élevé
que celui d’un homme). Un conduit vocal en position
neutre, sans constriction, comme pour la voyelle neutre
(/œ/), peut être modélisé par un tube uniforme fermé à
une extrémité (la glotte) et ouvert à l’autre (les lèvres). Si
ce tube a une longueur de 17,5 cm (ce qui correspond à
celle d’un conduit vocal masculin), les résonances naturelles
sont de 500 Hz, 1 500 Hz, 2 500 Hz et 3 500 Hz. Lors
du filtrage, les zones d’harmoniques du bourdonnement
correspondant aux résonances naturelles du conduit vocal
sont accentuées et les autres sont atténuées (2). Une zone
d’harmoniques renforcée, où l’énergie se concentre, s’appelle
un formant. On se réfère aux formants en les numérotant
en commençant par celui qui a la fréquence la plus basse :
F1, F2, F3, etc. Les fréquences des formants renseignent
donc indirectement l’auditeur sur la forme des cavités qui
les ont créées. Le signal résultant (4) est donc le produit
du signal de source et de la fonction de transfert. La pente
spectrale qui est environ de -12 dB à la source (pour une
phonation modale, le type de phonation par défaut) est
relevée de 6 dB par le phénomène dit de radiation aux
lèvres (3). Elle est plus raide dans le cas d’une voix soufflée
et plus douce dans le cas d’une voix craquée. Il y a aussi
d’autres types possibles de sources, non voisées (non pério-
diques), situées au niveau de la glotte (bruit glottique) ou
dans les cavités supraglottiques : bruit d’explosion supra-
glottique au relâchement des consonnes occlusives, bruit
supra-glottique de friction (fricatives et occlusives), bruit
glottique d’aspiration (occlusives aspirées), qui seront filtrés
58
de la même façon que le signal de source glottique dans
les cavités qu’ils traverseront, la cavité en avant de la
constriction pour les occlusives et les fricatives, et l’ensemble
du conduit vocal pour l’aspiration.
dB
+ 6 dB/octave
Hz
2) Fonction de transfert 3) Effet de la radiation
dB
- 12 dB/octave
Hz
1) Spectre de la source 4) Spectre résultant
Fig. 6. – Théorie source-filtre
Les fréquences des formants dépendent, entre autres,

de la longueur des cavités. Quand on remplit une bouteille
d’eau, le bruit produit par le giclement de l’eau devient
plus aigu à mesure que la bouteille se remplit : plus l’es-
pace occupé par l’air est petit et plus ses résonances natu-
relles sont élevées. Un bruit très aigu nous informe qu’il
est temps de fermer le robinet ! Un conduit vocal deux
fois plus court (comme chez l’enfant par rapport à
l’homme adulte) a des résonances naturelles deux fois
plus élevées. Le bourdonnement périodique créé par les
vibrations des plis vocaux est la source principale pour la
production de la parole (source de voisement). Il se crée
également une source de bruit continu au niveau d’un
fort rétrécissement le long du conduit vocal, comme dans
59
le cas des consonnes fricatives ; plus la cavité en avant
de la constriction est courte (c’est-à-dire plus le lieu de
constriction est antérieur), et plus le bruit des fricatives
sera de haute fréquence (les résonances excitées sont
essentiellement celles de la cavité située en avant de la
constriction) : le bruit est plus aigu pour /s/ que pour /ʃ/ ;
pour ce dernier son, la protrusion des lèvres et le recul
de la langue permettent d’agrandir la cavité antérieure et
d’abaisser ainsi la hauteur du bruit.
Les possibilités de modifications de la forme du conduit
vocal et donc des résonances sont limitées par des
contraintes anatomiques. La résonance la plus basse, F1,
peut varier, pour un locuteur masculin, entre 150 Hz (en
cas de fermeture totale du conduit vocal pour les occlu-
sives), 300 Hz (voyelle fermée, /i/, /y/, /u/) et 800 Hz
(voyelle la plus ouverte, /a/) ; F2 entre 750 (/u/) et
2 500 Hz (/i/), et F3 entre 1 500 (/ɚ/) et 3 400 Hz (/i/).
Tous les formants sont modifiés par la forme générale du
conduit vocal, mais certains formants sont plus sensibles
que d’autres aux mouvements de certains articulateurs.
F1 augmente rapidement lorsque la mandibule et/ou la
langue s’abaissent. F2 est sensible à la position de la langue
sur l’axe antérieur-postérieur, et tout autant à la configu-
ration des lèvres lorsque la langue est massée vers l’arrière.
F3 est particulièrement sensible à la longueur de la cavité
antérieure lorsque la langue est massée vers l’avant. F4 est
plus difficilement manipulable.
Trois principes acoustiques exercent une action déter-
minante sur les caractéristiques spectrales.
Premièrement, la fréquence de chaque formant ne peut
être contrôlée de façon strictement indépendante : toutes
choses égales par ailleurs, une diminution de la fréquence
de F1 entraîne une diminution de la fréquence de F2
pour les voyelles postérieures ; un rapprochement de F3
et F4 (par exemple dans le /i/ français), qui permet de
60
créer une forte énergie (proéminence spectrale)
vers 3 000-3 200 Hz, n’est possible que si F1 est très bas.
Deuxièmement, l’intensité physique est due essentielle-
ment à la contribution de la fréquence de F1 : toutes
choses égales par ailleurs, /a/ sera la plus intense des
voyelles car elle a le F1 le plus élevé, et les voyelles /i/
et /u/ dont le F1 est très bas, sont des voyelles peu intenses
et elles sont plus sujettes à se transformer ou à disparaître
(comme en témoignent les changements de sons) : le a
final du latin s’est transformé en e muet en français (bonna
> bonne) et les autres voyelles en finale de mot ont com-
plètement disparu (bonus > bonu > bon).
Troisièmement, la prégnance perceptive des formants peut
être modifiée : lorsque deux résonances (deux formants)
se rapprochent (ce qui est possible dans le cas d’une très
forte constriction ou lorsque les cavités antérieures et
postérieures ont un diamètre très différent), leur ampli-
tude se renforce mutuellement, et avec elle leur prégnance
auditive. Le /i/ canonique français est caractérisé par un
renforcement mutuel de l’amplitude des formants F3 et
F4 vers 3 000-3 200 Hz, et le /y/ français par un renfor-
cement mutuel de l’amplitude des formants F2 et F3
vers 1 900-2 000 Hz. Les voyelles qui ont deux formants
proches et donc renforcés sont des voyelles focales. Inver-
sement, le branchement d’une cavité latérale (par exemple
lors d’une nasalisation) permet d’introduire des anti-
résonances (et des résonances supplémentaires) et donc
de réduire l’amplitude de certains formants ou de les déca-
ler : l’ensemble des articulateurs, phonatoires et articula-
toires, est mis à contribution pour augmenter le contraste
acoustique entre certains phonèmes dans une langue. La
réalisation phonétique du système d’opposition entre
phonèmes dans une langue est souvent plus simple à décrire
sur le plan phonétique, en termes de différences acous-
tiques que sur le plan articulatoire, en termes de différences
61
fréquence
fondamentale
intensité
(enveloppe
du signal)
Spectro-
gramme
Signal
acoustique
Fig. 7. –
Courbe de fréquence fondamentale, enveloppe d’intensité,
spectrogramme, transcription phonologique et signal du début de phrase
« Voici une poignée de noix et de noisettes… »
dans la configuration des articulateurs, plus difficilement
quantifiables. Par exemple, une élévation du larynx a pour
résultat une diminution de longueur de la cavité posté-
rieure, et donc une élévation de la fréquence des réso-
nances mi-onde dues à la cavité postérieure (comme F2
pour le /i/ français).
Les représentations articulatoires traditionnelles qui ne
prennent en compte que la langue et les lèvres, ou les
représentations acoustiques des voyelles par les triangles
vocaliques prenant en compte seulement les deux premiers
formants, par exemple, ne sont pas suffisants, tant pour
la recherche fondamentale que pour ses applications.
Un spectrogramme est une représentation visuelle à
trois dimensions des sons ; il permet d’étudier l’essentiel
des propriétés acoustiques des sons. La figure 7 illustre
le spectrogramme correspondant à la portion de phrase
« voici une poignée de noix et de noisettes… » prononcée
par un locuteur masculin. L’axe horizontal représente l’axe
des temps (chaque repère représente 100 ms) et l’axe ver-
tical celui des fréquences, ici de 0 à 7 000 Hz. Le degré
de noirceur du tracé traduit la répartition de l’énergie
dans l’échelle des fréquences, en rapport avec l’intensité
des composantes spectrales et donc des formants (et des
bruits). Il est important de noter qu’un phonème est une
notion abstraite qui n’a pas à proprement parler de durée
physique : par exemple, la réalisation du trait d’arrondis-
sement correspondant à la voyelle française /y/ débute dès
la première consonne /s/ dans le mot structure (à la dif-
férence de stricture), comme noté précédemment. Un
spectrogramme en bande large (comme les figures 7 et 8)
permet de visualiser les formants ; un spectrogramme en
bande étroite (45 Hz) permet de visualiser la série d’har-
moniques. La figure 8 illustre une représentation spectro-
graphique de quelques consonnes françaises (français
standard, locuteur masculin).
63
Fig. 8. – Spectrogrammes de 12 consonnes du français
placées entre voyelles [œ]
L’analyse d’un spectrogramme de parole permet de

repérer plusieurs types de sons. Nous invitons le lecteur
à vérifier sur les spectrogrammes les observations acous-
tiques décrites ci-dessous.
– Les sons voisés (sonores) sont caractérisés, entre
autres, par la présence d’une barre de voisement dans
les très basses fréquences visible sur le spectrogramme
et par une détection automatique de fréquence fonda-
mentale par le détecteur de F0 (en haut, sur la figure 7,
p. 62). Les obstruantes sourdes /p/ /t/ /k/ /f/ /s/ /ʃ/
se distinguent ainsi des sonores /b/ /d/ /g/ /v/ /z/ /ʒ/ ;
64
l’absence partielle ou totale d’une barre de voisement sur
le spectrogramme permet de repérer les sons contextuel-
lement dévoisés, comme /b/ dans robe sale, perçu comme
rop’sal ou comme /g/ dans bague perdue, perçu comme
bac perdu. Les petites vallées sur la courbe de F0 durant
la prononciation des occlusives et des fricatives sonores
correspondent à une diminution incontrôlée et passagère
du rythme de vibration des plis vocaux, due à l’augmen-
tation de la pression buccale (elle-même occasionnée
par la constriction supraglottique) et à une réduction
résultante de la pression transglottale (micromélodie).
– Les voyelles sont repérables par la présence de for-
mants dans les basses et moyennes fréquences, et par un
sommet local d’énergie sur le signal (ainsi qu’un maximum
local de la fréquence du premier formant) : la voyelle cor-
respond à une ouverture du conduit vocal relativement aux
consonnes environnantes, et la fréquence de F1 (et donc
son énergie) augmente et atteint une valeur maximum
locale sur l’axe de temps durant la voyelle. Les voyelles
possèdent une barre de voisement, sauf bien sûr en cas
de dévoisement contextuel (comme parfois observé en
français lors de la réalisation du mot schisme).
– Les occlusives /p/, /t/, /k/ ; /b/, /d/, /g/ sont repérables
par l’absence d’énergie dans les moyennes et hautes fréquences
durant leur tenue, et par une barre d’explosion à leur relâ-
chement, suivi généralement d’un court bruit de friction.
– Les fricatives (/f/, /s/, /ʃ/ ; /v/, /z/ et /ʒ/) sont carac-
térisées par la présence d’un long bruit de friction continu,
pendant leur tenue, créé au niveau de la constriction
supraglottique et filtré dans la cavité située en avant de
la constriction, et l’absence de bruit d’explosion à leur
relâchement. Comme le montrent les spectrogrammes, le
bruit de /s/ est intrinsèquement plus intense que le bruit
de /z/, les vibrations des plis vocaux se faisant au détriment
de l’intensité physique du bruit de friction supraglottique.
65
– Les sonantes sont caractérisées par la présence de
formants (comme pour les voyelles), mais elles sont de
plus faible amplitude que les voyelles.
On peut mesurer sur un spectrogramme la durée entre
des événements correspondant à la réalisation des
phonèmes. Les modifications de la forme du conduit vocal
sont progressives, mais le spectrogramme laisse apparaître
des discontinuités acoustiques. Ces ruptures sont créées
soit (I) par l’arrêt brusque de l’excitation de certaines réso-
nances : la réalisation d’une occlusion ou d’un fort rétré-
cissement en un point du conduit vocal fait que les
résonances dues à la cavité en arrière de la constriction
ne sont soudainement plus excitées, soit (II) par la créa-
tion soudaine d’antirésonances – essentiellement par la mise
en dérivation d’une cavité supplémentaire, par exemple
latérale, trachéale ou nasale, soit (III) par l’interruption
des vibrations des plis vocaux, ou soit (IV) par l’apparition
soudaine d’une source de bruit supraglottique due à un fort
rétrécissement. En revanche, la continuité non perturbée
du F-pattern (expression de Gunnar Fant) rend la seg-
mentation difficile dans le cas de voyelles en hiatus (non
séparées par une consonne) ou de suites de sons acousti-
quement proches (tels que /ti/ – mélange entre le bruit
de friction du /t/ et le dévoisement au début du /i/ –, /
ru/ – mouvement limité de la langue – ou /nil/ – palata-
lisation des deux consonnes encadrant le /i/ – en français).
Une suite comme [nwa] (voir figure 7) est difficilement
segmentable.
Les transitions de formants au début de la voyelle ren-
seignent sur le lieu d’articulation de la consonne qui pré-
cède et sur la forme et la position de la langue durant sa
réalisation. Les labiales et les labiodentales non palatali-
sées sont caractérisées par des résonances basses, infé-
rieures à celles de la voyelle suivante, et les transitions de
66
la consonne à la voyelle sont en conséquence montantes.
Les dentales et alvéolaires non vélarisées sont caractérisées
par un F2 autour de 1 600-1 800 Hz (le lieu de constric-
tion est relativement fixe). Les transitions de F2 de la
consonne à la voyelle sont en conséquence descendantes
si le F2 de la voyelle est inférieur à 1 600-1 800 Hz ; dans
le cas contraire, elles sont montantes. Le lieu d’articulation
de la consonne vélaire /k/ varie en fonction de la voyelle :
elle est réalisée phonétiquement comme vélaire dans /ku/,
palatovélaire dans /ka/ et palatale dans /ki/. Nous verrons
dans le chapitre VIII sur la perception que les modifications
du lieu d’articulation de la vélaire en fonction de la voyelle
qui suit sont sans doute en grande partie dues à des
contraintes perceptives (et non exclusivement articula-
toires) : il faut que la hauteur du bruit au moment du
relâchement soit dans une relation précise avec le F2’ (voir
la page 85) de la voyelle suivante pour que /k/ ou /g/
soit perçu : il faut donc ajuster la longueur de la cavité
en avant de la constriction durant la consonne vélaire
selon la voyelle pour percevoir un /k/.
Le lieu de constriction de la consonne ne détermine
pas à lui seul les valeurs des formants au début de la
voyelle qui suit : la forme de la langue joue un rôle pri-
mordial. Si la consonne est palatalisée (la langue se masse
vers l’avant, comme pour la voyelle /i/), le F2 de la
consonne est à environ 2 000 Hz (F2 est invisible durant
la réalisation de la plupart des consonnes, mais calculable
à partir de la fonction d’aire), quel que soit son lieu d’ar-
ticulation de la consonne palatalisée (labial, alvéolaire ou
vélaire) ou son mode (occlusif ou fricatif). La différence
entre les lieux d’articulation de toutes les consonnes pala-
talisées ne peut s’exprimer acoustiquement qu’au niveau
du bruit du relâchement pour les occlusives ou de la hau-
teur du bruit pour les fricatives, car les transitions vers la
voyelle sont quasi identiques et démarrent à 2 000 Hz et
67
les transitions sont inefficaces comme indices pour dis-
tinguer les différents lieux d’articulation.
Une formation approfondie en phonétique acoustique
peut désormais être acquise sans connaissances physiques
préalables. Un ordinateur, transportable dans une salle de
cours ou sur le terrain, et l’accès facile à des programmes
d’analyse (comme Praat) et de synthèse (comme le pro-
gramme de synthèse à formants de Dennis Klatt, ou la
synthèse articulatoire de Shinji Maeda), téléchargeables
gratuitement sur Internet, facilitent une formation appro-
fondie à la phonétique acoustique et la bonne compré-
hension des rapports entre propriétés articulatoires,
acoustiques et perceptives du signal.
CHAPITRE VI
Les voyelles
Le nombre de voyelles dans les langues varie d’une à plus

d’une vingtaine. La plupart des langues ont de cinq à
sept voyelles. Le français a un nombre de voyelles différent
selon la région considérée. Plus de 99 % des langues ont
au moins deux voyelles ; l’inventaire le plus fréquent dans
les langues du monde est de cinq voyelles (22 % des langues
de la base de données UPSID) ; 80 % des langues ont
de trois à dix voyelles. Les voyelles les plus fréquentes sont,
dans l’ordre : /a/, /i/, /u/, /e/, /o/. Les langues tendent à
exploiter seulement les deux dimensions que sont l’aperture
(ouverture) (F1) du conduit vocal et le degré d’antériorité/
postériorité (F2) de la langue pour les huit premières voyelles,
et à utiliser un trait secondaire (tel que la labialité, la nasa-
lité ou la longueur) dans les inventaires plus étendus 1.
Les voyelles ont une double nature : articulatoire et
acoustique.
Du point de vue articulatoire (figure 9), la langue est
l’organe principal de l’articulation des voyelles. Elle est
massée vers l’avant de la cavité buccale pour les voyelles
antérieures (/i/ /e/ /ɛ/ et /a/) et vers l’arrière pour les
postérieures (dites aussi vélaires : /u/ /o/ /ɔ/ /ɑ/). La dis-
tance entre la surface de la langue et le palais s’agrandit
dans le passage de /i/ à /a/ antérieur, et la constriction se
déplace de la région vélaire vers la zone pharyngale du
passage de /u/ à /ɑ/ postérieur en passant par /o/ et /ɔ/.
1. Voir les travaux du GIPSA-Lab, à Grenoble.
69
ie u
!a c i
a
u
Position articulatoire de la langue
Fig. 9. –
pour les voyelles françaises (inspirée des figures de Straka)
et le trapèze vocalique correspondant
Fig. 10. – Spectrogrammes de voyelles typiques en français

(extrait d’un livre de Jean-Sylvain Lienard)
Du point de vue acoustique (figure 10), les lèvres jouent

un rôle important car leur configuration modifie la lon-
gueur et donc les résonances de la cavité antérieure. Par
exemple, les voyelles /i/ et /y/ sont distinguées acousti-
quement par la valeur élevée (pour /i/) ou basse (pour
/y/) de F3, dû principalement au geste d’étirement (pour
/i/) et de protrusion (pour /y/) des lèvres. Les voyelles
acoustico-perceptivement claires ou aigües (F2 est élevé et
l’énergie est massée dans les hautes fréquences – à gauche
sur la figure 10) sont caractérisées par une grande distance
entre les deux premiers formants, F1 et F2. Les voyelles
acoustico-perceptivement sombres ou graves (au centre)
sont caractérisées par un regroupement des deux premiers
formants en dessous de 1 000 Hz (pour un locuteur
70
masculin) et un faible poids perceptif des formants supé-
rieurs. Les voyelles acoustico-perceptivement centrales
(l’énergie se répartit uniformément ; à droite) sont carac-
térisées par un second formant situé vers 1 500 Hz. Les
voyelles articulatoirement antérieures non arrondies /i/,
/e/ ou /ɛ/ sont acoustico-perceptivement aigües. Les
voyelles articulatoirement antérieures arrondies /œ/ et /ø/
sont toutes acoustico-perceptivement centrales et perçues
comme telles. Les voyelles représentées à la figure 10 sont
dites hyperarticulées, réalisées avec soin. Dans la parole
continue, les voyelles postérieures sont sujettes à l’anté-
riorisation car elles sont souvent encadrées de consonnes
prononcées vers l’avant de la cavité buccale ; si elles sont
brèves, elles sont acoustiquement centralisées ou plus for-
tement assimilées aux consonnes environnantes, selon leur
position prosodique (voir le chap. IX).
La figure 11 représente six formes du conduit vocal
(synthèse articulatoire) permettant d’obtenir les timbres
caractéristiques de six voyelles du français (les lèvres étant
à gauche).
Il existe de grandes possibilités de compensation entre
les articulateurs, souvent méconnues. La mandibule
accompagne généralement (mais pas nécessairement) les
mouvements de la langue. Le fumeur de pipe compense
l’immobilité de la mandibule par des mouvements plus
amples de la langue. Dans les langues où la labialité ne
joue pas de rôle distinctif pour les voyelles (comme l’anglais),
les voyelles antérieures ne sont en général pas arrondies (ce
qui diminue la longueur de la cavité antérieure, donc aug-
mente la fréquence du second et/ou du troisième formant),
tandis que les voyelles postérieures le sont dans plus de
neuf langues sur dix (l’arrondissement diminue la fréquence
du second formant par l’allongement de la cavité anté-
rieure) : le jeu des lèvres permet d’augmenter le contraste
perceptif entre les deux groupes. Le degré et la position de
71
Fig. 11. –Modélisation de six voyelles
par synthèse articulatoire
la constriction, l’abaissement de la mandibule et la confi-

guration des lèvres permettent un ensemble de gestes
compensatoires et certains locuteurs (peut-être aussi cer-
tains dialectes ou patois, voire certaines langues) font
relativement plus ample usage d’une articulation, par
exemple de la mandibule ou des lèvres que de la langue
(ce qui rejoint la notion d’« habitudes articulatoires » chère
aux phonéticiens du début du siècle dernier). Les gestes
compensatoires renforcent l’idée de la primauté du but
acoustique sur l’articulation pour l’identification des
phonèmes par l’auditeur.
Le trapèze ou triangle vocalique articulatoire est la
figure géométrique obtenue en reliant par un trait les
points les plus extrêmes de la langue pour chaque voyelle :
apparaît alors le fameux trapèze (pour les langues qui
possèdent deux /a/, un [ɑ] postérieur et un [a] antérieur)
ou un triangle (pour celles qui ne possèdent qu’une seule
72
voyelle très ouverte de timbre [a]). Acoustiquement, il
serait plus juste de déformer le trapèze en prenant comme
repère le point de constriction maximale plutôt que le
point le plus élevé de la langue (notion cependant difficile
à appliquer pour les voyelles antérieures ouvertes). L’élé-
gante correspondance entre la représentation des voyelles
par leurs deux premiers formants (triangle vocalique acous-
tique) et le triangle vocalique articulatoire est cependant
trompeuse : elle néglige l’effet décisif des lèvres, et des
formants supérieurs à F2, sur le timbre des voyelles anté-
rieures.
Le troisième formant (F3) joue un rôle important en
français. Le jeu des lèvres est suffisant pour abaisser le F3
de /i/ de 3 000 à 2 000 Hz (et former ainsi un /y/). En
français, le /i/ (regroupement de F3 et F4) et le /y/ (regrou-
pement de F2 et F3) sont deux voyelles focales, qui pos-
sèdent donc une définition acoustique précise ; il est facile
pour un Français de juger si un /i/ ou un /y/ prononcé
par un étranger sonne bien français ou non. Il existe
d’autres types de /i/ et /y/, et les stratégies articulatoires
pour opposer perceptivement les deux éléments de cette
paire varient entre les langues : l’opposition /i/-/y/ en
allemand ne correspond pas à la même réalité articulatoire
et acoustique qu’en français.
Les voyelles d’aperture moyenne ont une cible acous-
tique moins précise : le timbre peut évoluer entre /e/ et /ɛ/,
/o/ et /ɔ/, /ø/ et /œ/, et l’opposition est souvent neutra-
lisée.
Au-delà de huit à dix voyelles, les langues utilisent trois
dimensions acoustiques, au moins, en plus de F1 et F2 :
F0 (tons), F3, la présence d’antiformants, la durée, la qua-
lité de voix peuvent avoir un rôle distinctif. Le français
(comme l’allemand) possède une opposition entre voyelles
étirées et arrondies : le jeu des lèvres permet de distinguer
en français entre pie et pu, fée et feu, air et heure et
73
l’arrondissement provoque un abaissement de la fréquence
des formants. L’abaissement du voile du palais permet de
créer un sous-système de voyelles nasales (trois en français
contemporain, celles des mots pan, pain, pont). L’aplatis-
sement de l’énergie dans la zone du premier formant
devient dès lors le corrélat acoustique distinctif principal
de la nasalité. Un cinquième des langues environ oppose
voyelles orales et nasales, d’une part, voyelles longues et
voyelles brèves, d’autre part. Le chinois mandarin de Pékin,
l’anglais américain et d’autres langues (dont le naxi, langue
rare parlée en Chine) présentent des voyelles rhotiques ;
par exemple la voyelle du mot bird (/ǝ˞/ en anglais amé-
ricain), dont la caractéristique définitoire est une triple
constriction, à la fois au niveau des lèvres et des cavités
antérieure et postérieure du conduit vocal, qui permet de
produire une voyelle focale centrale dont le F3 est très bas
(bien au-dessous de 2 000 Hz), proche de F2.
Les variations de longueur, de fréquence fondamentale,
de qualité de voix (voix breathy ou creaky, par exemple),
si elles sont utilisées par une langue au plan lexical, pour-
ront l’être moins largement sur le plan prosodique (voir
chap. IX). Ce qu’une langue n’utilise pas pour opposer
entre ses voyelles (ou ses consonnes) reste disponible
comme moyen pour marquer des nuances de sens, par
exemple (voir le chap. IX, p. 96).
CHAPITRE VII
Les consonnes
1) Labiale ; 2) dentale ; 3) alvéolaire ; palatale :

4) prépalatale, 5) médiopalatale et 6) postpalatale ;
vélaire : 7) prévélaire et 8) vélaire ; 9) uvulaire ;
10) pharyngale ; 11) laryngale ; 12) glottale.
a) Labiale ; coronale : b) apicale et c) laminale ;
d) dorsale ; e) radicale ; f) épiglottale.
Fig. 12. – Dénomination du lieu de l’articulation
des consonnes
Les langues ont une moyenne de 22 consonnes (moyenne

qui ne doit pas faire oublier une très grande variété). Les
20 consonnes les plus courantes sont, dans le désordre,
les 6 occlusives /p b t d k g/ et la glottale /ʔ/, les 4 frica-
tives /f s ʃ h/, les 3 nasales /m n ɲ/, les 3 approximantes
/l j w/, les 2 affriquées /ts tʃ/ et la vibrante apicale /r/.
75
Les approximantes sont des continues sans friction. La
langue Xóõ a 122 consonants avec des contrastes de qua-
lité de voix (dont 5 clics) ; le rotokas, seulement 6.
Les quatre critères principaux de classification des
consonnes sont le mode de voisement (voisé/non voisé/
aspiré), le degré de constriction (occlusif, fricatif, affriqué,
approximant), le lieu d’articulation et la nasalité. Diffé-
rentes qualités de voix (breathy, laryngalisé) peuvent aussi
entrer en jeu (Xóõ).
La figure 12 illustre la désignation des lieux d’articulation
des consonnes, de la glotte (glottales) aux lèvres (labiales).
Les organes mobiles, comme l’apex de la langue ou les lèvres,
s’accolent sur les parties fixes du conduit vocal (le palais dur
pour les palatales, le palais mou pour les vélaires). Apico-
dentale signifie que l’apex de la langue se dirige vers les dents,
et lamino-alvéolaire que la fermeture ou le rétrécissement se
fait entre les bords de la lame de la langue et les alvéoles.
Les occlusives orales (/p, t, k, b, d, ɡ/) impliquent une
fermeture complète du conduit buccal.
Fig. 13. – Quelques exemples d’occlusives orales
Les fricatives (/f, s, ʃ, v, z, ʒ/) sont produites par un

très fort rétrécissement dans une zone plus ou moins
étroite du conduit vocal, qui devient le lieu de création
d’un bruit supraglottique, filtré principalement par la cavité
située en avant de la constriction. Plus la cavité en avant
de la constriction est courte, et plus ses résonances sont
76
élevées. Les bruits de friction correspondant à /s/ et /z/
sont respectivement plus aigus que ceux qui correspondent
à /ʃ/ et /ʒ/, car l’avancement de la langue et l’étirement
des lèvres raccourcissent la cavité antérieure, alors que le
recul de la langue et l’arrondissement des lèvres la ral-
longent dans le cas du /ʃ/ et /ʒ/.
Les nasales (m, n, ɲ), sont produites de la même façon
que les occlusives sonores qui leur correspondent, mais le
passage pharyngo-nasal est ouvert, la cavité nasale entre
en résonance et ainsi, participe au filtrage de la source
voisée. Elles sont caractérisées par la présence de formants
et d’anti-formants.
Fig. 14. – Consonnes nasales
Pour la production des latérales, comme /l/, la langue

réalise une constriction centrale en se rapprochant de la
voûte palatale, mais la lame de la langue est abaissée et
l’air passe par les deux côtés, créant deux cavités latérales
(d’où la présence d’antiformants).
La forme de la langue peut varier pour un lieu d’arti-
culation semblable. /t/ est plutôt apico-alvéolaire en
anglais (forme concave de la langue) et lamino-dentale
en français (forme convexe), et il existe des lamino-
alvéolaires et apico-dentales.
Tous les sons n’ont pas pour origine le flux d’air sortant
des poumons. Il est possible de créer un flux d’air sans
participation des poumons : les implosives (le flux d’air
77
implosif est dû à l’abaissement du larynx), les éjectives (le
flux d’air égressif est dû à une élévation du larynx) et les
clics, où l’air est emprisonné entre deux constrictions dans
le conduit buccal 1. Dans les langues où ils n’ont pas de
statut phonémique, ces sons sont employés à des fins
expressives (ainsi du clic dental en français, pour exprimer
l’agacement).
Fig. 15. – Réalisation de /t/ en anglais (à gauche)

et en français (à droite)
1. Voir Ladefoged et Maddieson, The Sounds of the World’s Languages, 1996.

CHAPITRE VIII
Quelques aspects
de la perception de la parole
Après les découvertes de la psychoacoustique sur la

perception des sons purs (dits « purs » car composés
d’une seule fréquence, F0) à partir des années 1920 et
celles sur la physiologie du système auditif dès les
années 1950, l’invention de la synthèse à formants à
l’aide du Pattern Playback, aux laboratoires Haskins, à
la fin de la Seconde Guerre mondiale (1945), a marqué
le véritable début des études scientifiques sur la percep-
tion de la parole. Le Pattern Playback est un appareil
électronique permettant de convertir en sons des repré-
sentations spectrographiques (formants) peintes à la
main sur un support transparent. Il est à l’origine des
grandes découvertes sur la non-unicité des indices acous-
tiques relatifs au lieu d’articulation de la même consonne
suivie de différentes voyelles. Différents indices sont
liés à l’identification du lieu d’articulation des occlusives
(les caractéristiques spectrales du bruit au relâchement
et les transitions des formants varient en fonction de la
voyelle qui suit l’occlusive), et ne sont donc pas inva-
riants. Différents indices sont liés à l’identification du
trait de voisement (les différentes langues utilisent prio-
ritairement différents indices pour distinguer entre
occlusives sourdes et sonores, la présence de voisement
pour les voisées en français, l’aspiration des sourdes en
anglais) ; les différents indices entretiennent des relations
79
de compensation ; les expériences avec le Pattern Play-
back ont permis de découvrir le phénomène de percep-
tion catégorielle (que l’on a cru un temps spécifique à
la parole humaine) et ont donné lieu à la formulation
de l’hypothèse de la théorie motrice (Alvin Liberman) :
l’auditeur identifie le lieu d’articulation de la consonne
en « percevant » le geste à partir du signal acoustique
(la théorie motrice sera revue plus loin). Après les argu-
ments avancés par les partisans et les détracteurs de la
théorie motrice, une longue quête s’en est suivie pour
expliquer comment un auditeur peut créer un seul et
unique percept (un phonème) à partir des indices mul-
tiples et variables contenus dans le signal de parole. Il
n’existe pas encore à ce jour de théorie unanimement
acceptée pour expliquer l’invariance du percept face à
la variabilité du signal acoustique correspondant à la
réalisation d’un seul et même phonème, et la théorie
motrice a toujours ses partisans. Dès le milieu des
années 1990, la réflexion sur la façon dont a lieu la
compréhension des énoncés en contexte et sur la contri-
bution de la connaissance de la situation a quelque peu
détourné l’attention des chercheurs de l’identification
des sons individuels et des aspects purement psycho-
physiques (perception de tous les sons, qu’ils corres-
pondent à de la parole produite par un être humain ou
à des bruits de la nature) de la catégorisation phoné-
mique vers la compréhension des énoncés.
L’auditeur cherche en effet avant tout à interpréter un
message, plutôt qu’à décoder une suite de phonèmes. Pour
comprendre un énoncé, il lui est seulement nécessaire
d’identifier l’essentiel des mots qui le composent. Com-
ment segmente-t-il et identifie-t-il les mots successifs
dans la parole spontanée, dans le flux continu de parole
et le foisonnement des indices de tous ordres (et parfois
en présence de bruit) ? Comment le mot est-il stocké
80
dans le lexique mental et quelle est la stratégie d’accès de
ce lexique ? Chaque mot est-il représenté dans le cerveau
comme un ensemble ordonné de phonèmes, de traits dis-
tinctifs, comme un ou plusieurs prototypes abstraits, ou
encore comme une collection de traces épisodiques détail-
lées (c’est-à-dire d’exemplaires multiples accumulés dans
notre mémoire à long terme, rendant compte de l’ensemble
de nos expériences) ? Quelle est la part, dans la compré-
hension instantanée d’un message oral, des informations
acoustiques apportées par le signal lui-même ou le visage
du locuteur (informations inductives : bottom-up), et la
part du contexte d’énonciation (informations déductives :
top-down) ?
Malgré les efforts déployés, notre compréhension des
phénomènes liés à la perception de la parole et à la
compréhension du message est encore bien en deçà des
connaissances acquises sur la production. Plusieurs stra-
tégies de compréhension pourraient coexister, et l’une
d’entre elles pourrait dominer, selon les circonstances (par
exemple dans un milieu très bruyant). L’expérimentation
contrôlée sur la parole véritablement spontanée est diffi-
cile, car le jugement en différé de l’auditeur est influencé
par un grand nombre de paramètres, tels que la motiva-
tion du sujet, la familiarité croissante avec la tâche deman-
dée (d’où des réponses à un même stimulus changeant au
fil des tests), avec la voix du locuteur ou avec le sujet
traité ; la qualité sonore des messages et les attentes sur
leur contenu ont également une influence difficile à esti-
mer sur la compréhension des messages de tous les jours.
Les expériences mettent en lumière les facultés des audi-
teurs à utiliser telle ou telle stratégie, tel ou tel indice lors
de tâches particulières, mais elles ne renseignent que très
partiellement sur la stratégie réellement utilisée par les
auditeurs au quotidien.
81
Schéma de l’oreille (en haut) ;
Fig. 16. –
le champ de l’audition (en bas)
Si tous les sons de la parole et bruits de la nature

empruntent les mêmes voies auditives pour arriver au
cerveau de l’auditeur, les tests psychoacoustiques montrent
82
que les sons de la parole ne sont pas perçus exactement
de la même manière que les bruits de la nature. Tout son
arrive dans les aires auditives du cortex sous forme d’im-
pulsions nerveuses et il est difficile d’estimer à quel niveau
se fait très exactement la séparation entre les traitements
des sons humains et des bruits de la nature.
Les vibrations mécaniques de particules d’air qui
constituent l’onde sonore sont captées au niveau du pavil-
lon de l’oreille et transférées le long du conduit externe
auditif vers la membrane élastique du tympan qu’elles
font vibrer. Le conduit auditif amplifie au passage les
fréquences voisines de 3 500 Hz. Les vibrations sont alors
transmises à l’oreille moyenne où une chaîne de trois
osselets, le marteau, l’enclume et l’étrier, amplifie leur
force par un jeu de leviers et fait vibrer la membrane
basilaire. Elles sont ensuite converties en impulsions
nerveuses électrochimiques par les quelque 25 000 cel-
lules ciliées réparties au niveau de la cochlée de l’oreille
interne. Chaque cellule ciliée « vibre » à une certaine
zone de fréquences, qui dépend de sa position sur la
cochlée. Ces impulsions atteignent le cerveau par l’inter-
médiaire du nerf auditif. La zone d’audibilité d’un indi-
vidu se situe entre le seuil d’audibilité et le seuil de
douleur. Les sons doivent avoir une fréquence supérieure
à 16 Hz et inférieure à 16 000-20 000 Hz (10 000 Hz
chez certains sujets âgés) et avoir une intensité suffisante
(qui dépend de la fréquence) pour être perçus par une
oreille humaine. Cette zone de perceptibilité des sons
par l’être humain comprend la zone de fréquences pro-
duites par les plis vocaux (à partir de 75 Hz) et les sons
les plus aigus produits par un conduit vocal humain (/s/).
Les sons produits par certains animaux (comme les ultra-
sons) et qui leur servent à communiquer avec leurs congé-
nères ne sont pas tous audibles par l’oreille humaine. La
sensibilité de l’oreille varie en fonction de l’intensité de
83
chaque fréquence. Le maximum de sensibilité de l’oreille
humaine est atteint pour des fréquences comprises
entre 2 000 et 5 000 Hz.
L’oreille effectue donc une sorte d’analyse fréquentielle
du signal, à la manière d’un spectrogramme, mais l’ana-
lyse n’est pas linéaire : les basses fréquences sont analy-
sées avec plus de finesse que les hautes fréquences ;
inversement, la résolution temporelle est meilleure pour
les hautes fréquences. Par ailleurs, il se produit des
phénomènes de masquage, fréquentiel et temporel : à
un instant donné, certaines composantes fréquentielles
en masquent d’autres. En général, les basses fréquences
tendent à masquer les hautes fréquences. Mais les hautes
fréquences peuvent masquer la perception des basses
fréquences, comme le groupement (F3-F4) vers 3 000 Hz
masque la perception du F2 de la voyelle /i/ (masquage
fréquentiel) ; ou encore un son de faible intensité peut
être masqué par un son plus fort qui le précède ou le
suit (masquage temporel). Par exemple, la consonne
nasale en coda doit être d’une durée suffisante pour ne
pas être masquée perceptivement par la voyelle précé-
dente. Les expériences de psychoacoustique montrent
donc très nettement qu’on ne perçoit pas les sons de
parole comme les autres sons ou bruits de la nature : par
exemple, l’intensité subjective des sons de parole est jugée
par l’auditeur en relation avec l’effort vocal estimé. La
voyelle /a/ a une intensité acoustique intrinsèque beau-
coup plus élevée que celle de la voyelle /i/, mais la voyelle
/a/ sera perçue comme ayant une intensité égale à celle
de la voyelle /i/ si l’auditeur juge que le locuteur a fait
le même effort articulatoire pour prononcer les deux
voyelles. En revanche, l’intensité des bruits de la nature
tend à être estimée par l’auditeur en fonction de leur
intensité acoustique réelle.
84
I. – Sur l’identification des voyelles
Comme noté précédemment, les fréquences des deux

premiers formants ne sont pas suffisantes pour rendre
compte du timbre de toutes les voyelles, en particulier
les voyelles antérieures, les voyelles nasales et les voyelles
avec des contrastes de qualité de voix : les formants
supérieurs et l’amplitude relative des formants peuvent
jouer un rôle dominant. Comme nous l’avons déjà noté,
la synthèse utilisant les deux premiers formants (ou même
un seul) est suffisante pour rendre avec exactitude le
timbre des voyelles sombres, labio-postérieures (comme
la réalisation du /u/ cardinal), où F1 et F2 sont rappro-
chées et de forte amplitude car proches : quand deux
formants sont proches, l’amplitude de chacun se trouve
amplifiée, l’oreille intègre les deux formants et ne perçoit
qu’un seul pic. Mais les formants supérieurs à F2
influencent la perception des voyelles claires, car ils sont
de plus forte amplitude que les formants supérieurs des
voyelles sombres. Si on présente à des auditeurs une
voyelle de type /i/ synthétisée avec les quatre premiers
formants respectivement à 255, 2 065, 2 960, 3 400 Hz,
si on fixe la valeur de F1 à 255 Hz et si on leur demande
d’ajuster la valeur d’un unique formant afin d’obtenir un
timbre qui soit le plus proche possible de la voyelle syn-
thétique avec quatre formants, les auditeurs ajustent cette
valeur à 3 210 Hz environ, c’est-à-dire à une valeur située
entre F3 et F4. Ce formant résultant (dit « effectif ») est
appelé F deux prime ou F2’. Une représentation F1/F2’
est meilleure qu’une représentation F1/F2 ou F1/(F2-F1) ;
le timbre recréé pour les voyelles antérieures à l’aide
de F1 et F2’, quoique proche des voyelles originales, n’est
néanmoins pas exactement le même que celui qui est
créé par l’ensemble des formants.
85
Les voyelles focales sont caractérisées par une très
forte concentration d’énergie dans une zone réduite de
fréquences, créée par la proximité entre deux formants.
Une bonne réalisation de la voyelle /u/ française doit
être de type focal F1-F2 ; c’est la voyelle la plus sombre
que puisse produire un conduit vocal humain (les deux
résonances principales sont situées en dessous
de 1 000 Hz). Le /ɑ/ postérieur est également de type
focal F1-F2, comme /u/, mais avec des valeurs élevées
(vers 1 000 Hz). Le /i/ français, de type F3-F4 (parfois
F4-F5), est la voyelle la plus claire (F2’) vers 3 000-3 200 Hz)
que puisse produire un conduit vocal humain (ceci a été
confirmé par des expériences de synthèse articulatoire).
Le regroupement des formants est à l’origine d’une aug-
mentation de leur amplitude mutuelle, due aux lois de
l’acoustique, et cette augmentation crée une saillance
perceptive de la zone fréquentielle correspondant aux
formants regroupés. L’ensemble du conduit vocal se
déforme pour obtenir le but acoustique recherché et des
compensations sont possibles, comme nous l’avons déjà
mentionné, entre les articulateurs. Ces compensations
indiquent la primauté d’une cible perceptive plutôt qu’ar-
ticulatoire pour les sons. Nous parlons pour être enten-
dus (Roman Jakobson).
Les confusions perceptives entre voyelles se font en
général en fonction de leur ressemblance acoustique ; il
s’agit essentiellement d’une estimation erronée de l’aper-
ture (F1) : les paires /u-o/ /o-ɔ/ /ɔ-̃ ɑ/̃ /e-ɛ/ /ø-œ/ (et /a-ɛ)̃
sont sujettes à confusion. Le contexte consonantique peut
provoquer une antériorisation ou une postériorisation
articulatoire des voyelles, laquelle peut chez l’auditeur être
cause de confusion perceptive sur l’axe antéropostérieur :
prononce-t-on reblochon ou roblochon ? La plupart des
Français l’ignorent. L’influence du contexte phonétique
sur l’articulation des voyelles et des consonnes est à
86
l’origine de nombreux changements phonétiques, qui
éloignent peu à peu la prononciation de l’orthographe,
même si celle-ci, lors de son élaboration, reflétait partiel-
lement le système phonémique. Le mot français fait /fɛ/
était anciennement prononcé [fait].
II. – Sur l’identification des consonnes
Le poids des indices utilisés par l’oreille pour identifier

un phonème tient compte de la cible attendue pour ce
phonème et du contexte dans lequel il se trouve. Lors
d’expériences d’identification du lieu d’articulation des
consonnes occlusives (/p/, /t/ ou /k/) dans des stimuli syn-
thétiques, les chercheurs du laboratoire américain Haskins
ont montré qu’une bouffée de bruit à la même hauteur
(représentant le bruit de relâchement généralement
observé) pouvait évoquer l’impression perceptive de
consonnes différentes, selon la voyelle qui suivait. Lorsque
le bruit a une fréquence élevée, [t] est uniformément
perçu, quelle que soit la voyelle suivante. S’il est de basse
fréquence, [p] est unanimement perçu (invariance abso-
lue). La perception de [k] dépend dans la plupart des cas
de la position de ce bruit par rapport au F de la voyelle
suivante : si le bruit se situe au niveau du F2 de la voyelle
pour les voyelles à F2 bas, ou à une fréquence entre F2
et F3 pour les voyelles acoustiquement moyennes (F2 vers
1 500 Hz), ou à une fréquence nettement supérieure pour
les voyelles à F2 élevé, c’est [k] qui est perçu. L’identifi-
cation de /k/ est donc contextuelle et requiert une relation
spéciale (invariance relative) entre la hauteur du bruit au
relâchement de la consonne et celle du second formant
(ou mieux du F’2, voir plus haut) de la voyelle qui suit.
Cela explique l’ajustement articulatoire observé dans les
langues où /k/ est vélaire lorsqu’il est suivi d’une voyelle
87
labiopostérieure et palatal dans le cas d’une voyelle anté-
rieure : cet ajustement de l’articulation correspond à une
nécessité perceptive. Dans beaucoup d’autres cas, l’ajus-
tement de l’articulation d’un phonème en fonction de
son entourage phonétique (coarticulation) correspond à
un besoin de simplification articulatoire.
Les chercheurs de Haskins ont également montré, sur
de la parole synthétique avec deux formants seulement, que
des variations dans la transition du second formant suffi-
saient pour distinguer en synthèse entre [p], [t] et [k], sans
qu’il soit nécessaire de reproduire un bruit correspondant
au bruit de relâchement. Mais dans la parole naturelle, le
bruit du relâchement et les transitions sont nécessairement
co-présents, le poids perceptif respectif du bruit et des
transitions dépend de la nature intrinsèque des consonnes
et de la voyelle qui suit. Par exemple, les transitions du
second formant sont inopérantes pour la distinction entre /
ti/ et /ki/, et seule compte la répartition spectrale du bruit
du relâchement dans les hautes fréquences, plus compacte
dans le cas de /k/ que dans le cas de /t/, alors qu’elles sont
suffisantes pour distinguer entre /pa/, /ta/ et /ka/. De façon
générale, la hauteur du bruit, son intensité et sa compacité
ainsi que les transitions de formants concourent à divers
degrés à l’identification du lieu d’articulation ; certaines
combinaisons sont plus difficiles à identifier que d’autres.
/ti/ et /ki/ sont plus difficiles à distinguer que /pa/ et /ka/,
par les enfants, par les malentendants, par les personnes
âgées (presbyacousie) et au téléphone.
Une telle variabilité des indices s’observe également
pour les fricatives. La hauteur du bruit toujours de forte
intensité, caractéristique des consonnes [s] (au-dessus
de 4 000 Hz ou > F4) et [ʃ] (entre 2 000 et 4 000 Hz),
est suffisante pour leur identification 1 et les transitions
1. Katherine Harris, sur les indices des fricatives, 1958.
88
vers la voyelle suivante jouent un rôle mineur. Mais si
le bruit est faible, comme c’est le cas pour les fricatives
bilabiales ou labiodentales (donc non sibilantes), seules
les transitions permettent leur différenciation. Les langues
préfèrent les fricatives à forte intensité dans leur inven-
taire.
Un indice dynamique, tel que la rapidité des transitions,
est essentiel pour la distinction entre [b] et [w] : les tran-
sitions sont quasi identiques mais plus lentes dans le cas
du [w]. [w, j, l, r] sont reconnues grâce à leurs formants
propres et aux transitions imposées aux voyelles. La pré-
sence de traces de nasalisation au relâchement et au début
de la voyelle suivante est l’un des indices pour distinguer
entre [b] et [m], [d] et [n] (Ken Stevens). La distinc-
tion entre [m] et [n] est assurée essentiellement par les
transitions du second formant.
Le poids des indices peut varier selon les langues. Le
principal indice du trait de voisement est le temps de délai
d’établissement du voisement, ou VOT (voice onset time),
dont l’interprétation varie selon les langues. Un même
son sera perçu comme [b] par les auditeurs anglophones
si les vibrations des plis vocaux commencent très rapide-
ment après le relâchement (moins de 30 ms), et comme
[p] si le délai est supérieur à 40 ms. Pour un auditeur
français, le son est perçu comme [b] si les vibrations com-
mencent avant le relâchement : un /b/ anglais peut donc
être perçu comme [p] par un Français.
Consonnes et voyelles présentent des affinités acous-
tiques si elles partagent un lieu de constriction similaire
dans le conduit vocal (les différences sont dues à différents
degrés d’ouverture). Les timbres des approximantes [w,
j, ɥ] sont perceptivement proches des voyelles [u, i, y].
Le timbre de [ʁ] est proche de celui de la voyelle posté-
rieure [ɑ] (1 000 Hz) et celui de [ɬ] sombre (comme dans
le mot anglais « film ») est proche de ceux des voyelles
89
postérieures [u] ou [o]. Cette proximité perceptive entre
le [l] sombre et [u] est à l’origine de sa transformation
en [u] en coda de syllabe dans le passage du latin au
français : soldus > soldu > sold > soud > sou [su]. Lorsque
le /i/ français (F’2 supérieur à 3 000 Hz) se dévoise (du
fait d’une trop grande fermeture du conduit vocal), il
donne naissance à un son identifié ressemblant au son [ç]
allemand (cf. la prononciation [ɥiç] notée uiche de oui en
français relâché). Les traits phonologiques traditionnels ne
sont pas aptes à rendre compte de la continuité acoustique
entre voyelles et consonnes.
III. – Quelques modèles et théories
Il existe plusieurs théories sur l’identification phoné-

mique. La perception catégorielle a occupé jusqu’à nos jours
une place importante dans la réflexion, car on l’a long-
temps considérée comme spécifique de la perception de
la parole par des humains. Une perception catégorielle
implique que l’identification précède la discrimination,
c’est-à-dire le jugement comparatif des timbres. On sait
maintenant que nous pouvons percevoir des bruits et des
couleurs de façon catégorielle, et que les animaux peuvent
également pratiquer une perception catégorielle.
La théorie motrice 1 avance que, pour identifier un son,
l’auditeur interprète ce qu’il perçoit en termes de gestes
articulatoires. La perception catégorielle du lieu d’articu-
lation des consonnes a été interprétée comme favorable
à la théorie motrice. La réalisation des consonnes /p/, /t/
et /k/ évoque des gestes bien différenciés : ceux des lèvres
pour [p], de la pointe ou des bords de la lame de la langue
pour [t], et du corps de la langue pour [k]. Quand il
1. Liberman et alii, sur la perception du code de la parole, 1967.
90
identifie le lieu d’articulation de ces consonnes, le locuteur
« voit le geste » : il se référerait à la façon dont il aurait
lui-même produit ces sons, de sorte qu’il existerait des
frontières perceptives nettes, fondées sur des critères arti-
culatoires précis. Les lieux d’articulation des consonnes
étant discontinus, leur perception l’est aussi. En revanche,
pour les voyelles, la langue peut adopter une infinité de
positions, et leur perception ne serait pas vraiment caté-
gorielle pour cette raison. Néanmoins, les nouveau-nés
perçoivent certains contrastes de consonnes de façon caté-
gorielle, alors qu’ils n’ont jamais prononcé ces sons, ce
qui jette un doute sur la part que tient la référence à la
production – à moins d’imaginer que la correspondance
ne soit inscrite dans leurs gènes !
D’autres théories ne font pas référence à la façon dont
sont articulés les sons, mais à leurs propriétés acoustiques
intrinsèques. Nous avons également évoqué la théorie de
l’invariance au chapitre V : on peut imaginer que les
phonèmes soient reconnus à partir de certaines proprié-
tés acoustiques invariantes, sans référence à l’articulation.
Certains sons, tels ceux de la voyelle /i/, des consonnes /s/
et /ʃ/, ont des réalisations acoustiques intrinsèques rela-
tivement invariantes, d’autres moins : la hauteur du bruit
du relâchement des vélaires, bruit plus compact que celui
des labiales et des dentales, est interprétée en fonction
de la hauteur du second formant de la voyelle (ou mieux
en fonction du second formant effectif F2’). Un entraî-
nement à la lecture de spectrogrammes permet de déco-
der sans difficultés majeures des échantillons de parole
articulés avec soin, tant en français que dans d’autres
langues, qu’ils correspondent à des mots ayant un sens
ou non, ce qui va dans le sens d’une certaine invariance
acoustique, tout au moins d’une invariance relative.
Le degré de variabilité acoustique des sons de la
parole paraît avoir été quelque peu surestimé, surtout par
91
les psycholinguistes, et moins par les phonéticiens expé-
rimentaux. Il est admis actuellement qu’il existe des dif-
férences de qualité entre des sons pourtant identifiés sans
hésitation comme un seul et même phonème ; certains
sons sont de bons représentants de la catégorie dans une
langue donnée, d’autres moins. L’auditeur est capable de
juger si un stimulus est un exemplaire plus ou moins
éloigné de ce qu’il considère comme le prototype idéal
pour telle ou telle voyelle. L’augmentation du temps de
réaction mis par l’auditeur pour repérer un phonème
donné dans de la parole continue indique en général que
le stimulus à identifier n’est pas prototypique, même s’il
est correctement repéré. Pour cette raison, les nouveaux
modèles de perception de la parole s’orientent vers un
cadre exemplariste et probabiliste.
Dans les situations de communication, chaque phonème
de chaque mot n’est pas nécessairement identifié avant
de comprendre le message global. La perception et la
compréhension de la parole continue font intervenir des
mécanismes centraux : mots et énoncés entiers sont recon-
nus par une interaction entre des indices acoustiques
décodés à partir du signal, d’une part, et le lexique men-
tal et des connaissances syntaxiques, sémantiques, contex-
tuelles, d’autre part. Le locuteur parle avant tout pour
être compris (Roman Jakobson) et adapte sa façon de
parler au contexte : il se permettra une certaine paresse
articulatoire et omettra même certains phonèmes s’il est
convaincu d’être néanmoins compris par son interlocuteur.
Il prononcera [ʃpa] au lieu de [ʒənələsɛpa], je ne sais pas.
Au contraire, il fera un effort articulatoire particulièrement
soutenu s’il s’adresse à un enfant, à un malentendant ou
à un étranger. Certains locuteurs parlent constamment
de façon relâchée, laissant à leurs auditeurs l’effort de faire
sens de ce qu’ils disent en s’aidant du contexte. D’autres,
comme les enseignants ou les professionnels de la parole,
92
ont tendance à hyperarticuler, créant ainsi de meilleurs
exemplaires de chaque phonème. De plus, le matériau
sonore qui précède le son à reconnaître influence le juge-
ment de l’auditeur. Le signal acoustique correspondant à
une même syllabe peut être perçu différemment selon que
la phrase porteuse est produite par un homme ou par une
femme : s’il s’agit d’une voix d’homme, l’auditeur s’attend
à des fréquences relativement basses, et il aura tendance
à surestimer les valeurs formantiques : il adapte ses attentes
aux caractéristiques fréquentielles de la voix perçue
(Broadband et Ladefoged). Cette adaptation peut se faire
très rapidement et un auditeur peut « s’adapter » également
très vite aux défauts récurrents de prononciation de son
interlocuteur.
La perception de la parole n’a pas encore livré tous ses
secrets. L’auditeur peut percevoir des sons (ou des silences)
qui, en fait, ne sont pas présents dans le signal. Dans la
parole continue, l’auditeur peut percevoir une pause entre
deux mots en l’absence de tout silence : une montée de la
fréquence fondamentale ou un allongement de la rime
peuvent, en français, donner l’illusion de la présence d’une
pause 1. Il existe aussi des phénomènes de restauration pho-
némique 2 : qu’un son soit remplacé par un bruit dans une
phrase, si l’énoncé fait sens, l’auditeur le comprend sans
effort, mais il éprouve, en revanche, une difficulté s’il lui est
demandé de prendre conscience de l’absence d’un des sons :
il entend la suite attendue de tous les sons même s’ils ne
sont pas présents dans la chaîne parlée. Certains modèles
récents (épisodiques ou à exemplaires) font l’hypothèse que
l’image acoustique de chaque mot entendu par l’auditeur
est stockée telle quelle dans son lexique mental, la mémoire
étant pratiquement illimitée ; cette conception revient à
1. Serge Karcevski, « Sur la phonologie de la phrase », 1931.

2. Paul Warren, sur les restaurations phonémiques, 1970.
93
placer à l’arrière-plan les notions abstraites de traits et de
phonèmes sur lesquelles s’est construite la phonologie.
Deux remarques enfin :
– certains aspects de la perception, que l’on a crus
un temps spécifiques de la perception humaine, comme
la perception catégorielle, se sont révélés être dus à des
propriétés générales du système auditif des primates. Il
semblerait cependant que la constitution de prototypes de
sons soit le propre de l’homme : l’exposition intensive d’un
singe à des sons de la langue ne semble pas conduire à
une réorganisation psychoacoustique autour de prototypes de
phonèmes particuliers à la langue, comme c’est le cas chez
le bébé humain. Des recherches récentes sur des animaux,
grâce aux techniques d’imagerie cérébrale, montrent que
ceux-ci réagissent différemment aux sons produits par
leurs congénères et par d’autres espèces, ce qui suggère
l’existence de mécanismes biologiquement spécialisés pour
traiter les sons produits par la même espèce. Les animaux
seraient donc dépourvus des mécanismes nécessaires pour
traiter la parole humaine, mais ils possèdent des détec-
teurs adaptés à la survie de leur espèce. Ces mécanismes
pourraient se situer à un niveau relativement périphérique
dans la chaîne de l’audition ;
– il existe une forme de corrélation dans le temps
(simple coïncidence ?) entre les progrès des performances
des outils informatiques et les modèles successifs déve-
loppés par les phonéticiens-phonologues et des psycho-
linguistes : la théorie des traits binaires (influencée par
la théorie de l’information de Shannon), bien adaptée un
temps au traitement séquentiel des informations par les
ordinateurs de l’époque (milieu du XXe siècle), ont laissé
la place à des modèles de traitement parallèle précisé-
ment à l’époque où l’ordinateur fut capable de réaliser un
tel traitement. Les modèles à exemplaires, actuellement
94
très en vogue, reposent sur l’idée que le cerveau possède
un stock très étendu d’occurrences entendues ; mode de
fonctionnement qui évoque celui de la programmation
orientée objet et les capacités mémorielles des ordinateurs
actuels. Ce parallélisme entre les progrès technologiques
dans le domaine informatique et la succession des théories
sur la perception de parole est pour le moins surprenant,
voire inquiétant.
CHAPITRE IX
Prosodie
Traditionnellement, le mot « prosodie » désignait

l’étude de la quantité des voyelles et de l’accent dans la
versification. Le mot désigne désormais tous les aspects
de la parole non liés à l’identification des segments, en
particulier les faits d’accentuation lexicale, d’intonation,
et de rythme. Dès les années 1930, les linguistes du Cercle
linguistique de Prague (Vilém Mathesius, Serge Karcevski)
avaient mis en lumière un découpage perceptible du flux
de parole régi par des facteurs pragmatiques (non syn-
taxiques), comme la division de la phrase en thème (élé-
ment nouveau) et rhème (élément déjà connu, opposition
dont les premières formulations remontent à l’Antiquité).
Les professeurs de plusieurs langues (français, anglais,
espagnol) ont caractérisé différents degrés de frontières
entre les mots à l’intérieur de la phrase, un schéma mon-
tant de continuation s’opposant à une chute finale en fin
de phrase, et la prédominance acoustique et perceptive
de l’accent lexical en anglais mais du groupe de sens en
français (Maurice Grammont, Hélène-Nathalie Couste-
noble et Lilias Eveline Armstrong, au début du XXe siècle,
et Pierre Delattre au milieu du XXe siècle). Dès les
années 1960 ont commencé des études instrumentalisées
qui ont permis d’étudier le lien entre les impressions per-
ceptives et les mesures acoustiques.
La grammaire générative et les besoins émergents de
la synthèse de la parole dans les années 1970 ont focalisé
l’attention sur les rapports entre les phénomènes
96
d’accentuation en anglais (notions de phrasal stress, com-
pound stress et sentence stress), sur les divers degrés de
frontières en français, d’une part, et sur la structure syn-
taxique de phrases normalisées, telles qu’on les trouve à
l’écrit, d’autre part, dans les deux langues. Les travaux sur
l’écrit oralisé dans diverses langues européennes ont mis
en lumière l’existence de marques acoustiques d’une struc-
turation prosodique en constituants semblables (mais non
équivalents) aux constituants classiques de la grammaire,
tels que le paragraphe et l’énoncé prosodiques, le groupe
intonatif (ou groupe majeur), le syntagme phonologique
(groupe mineur, groupe accentuel ou groupe de sens), le
mot prosodique, le pied, la syllabe et la rime. Dès les
années 1970, une équipe de chercheurs d’IBM-France a
montré qu’il était possible de créer, pour les besoins de
la synthèse, une prosodie acceptable à partir de la seule
structure syntaxique (Jacqueline Vaissière), dans les phrases
isolées, en français. Parallèlement, Ivan Fónagy poursui-
vait ses études sur l’expression des attitudes et des émo-
tions par la prosodie, en dehors de toute considération
pragmatique et syntaxique : les liens entre prosodie et
syntaxe, mis en lumière par les recherches sur la synthèse
des textes, ne sont qu’un aspect de la prosodie, qui rem-
plit au demeurant de multiples fonctions.
Les progrès des technologies vocales et les nouvelles
orientations de la linguistique ont attiré l’attention des
chercheurs vers les facteurs prosodiques dans la parole
spontanée, dans des situations réelles, telles que les dia-
logues, où les liens entre syntaxe et prosodie sont moins
évidents, et où d’autres fonctions de la prosodie peuvent
dominer. Le nombre d’études en rapport avec la prosodie
a alors littéralement explosé : prosodie et discours, prosodie
et personnalité du locuteur, expression des attitudes et
des émotions, et différences dialectales et interculturelles.
La synthèse simultanée de la voix et de la gestuelle faciale
97
(les fameuses « têtes parlantes ») est également un domaine
de recherche très actif : les mouvements des sourcils
accompagnent l’expression de l’étonnement et de la sur-
prise. Les études prosodiques ont occupé le devant de la
scène ; un congrès international bisannuel, Speech Pro-
sody, est spécifiquement consacré à ces thèmes. Les nou-
velles instrumentations permettant de visualiser l’ensemble
du conduit vocal en mouvement, plis vocaux compris, des
programmes informatiques complexes (tels que des trans-
positions prosodiques d’une langue à l’autre) et les progrès
de l’imagerie cérébrale permettent désormais des études
poussées sur les rapports entre la production conjointe
des segments et des indices prosodiques, leur perception
et les structures cérébrales impliquées dans les processus
prosodiques.
La prosodie est une notion difficile à définir. Du point
de vue acoustique, elle correspond aux pauses, aux varia-
tions de la fréquence fondamentale (Fo), de la qualité
de voix (variations dans le mode de vibration des plis
vocaux), aux variations contrôlées de la durée et de l’in-
tensité physique des sons, ainsi qu’aux variations de
timbre (lorsque celles-ci ne sont pas directement expli-
cables par les caractéristiques des phonèmes en séquence
de l’énoncé). Les modifications de ces paramètres
impliquent souvent la participation de l’ensemble des
organes dits « de la parole », aux niveaux glottique, sous-
glottique et supraglottique. Une diminution du débit de
parole, une modification du mode de vibrations des plis
vocaux, une augmentation de l’intensité du geste d’ex-
pulsion de l’air des poumons, de la vitesse, de la force
et de la précision des gestes de la langue et des lèvres
peuvent être porteurs d’information sur l’implication du
locuteur par rapport à ce qu’il dit. En fonction de la
déviation de ces paramètres par rapport aux valeurs atten-
dues pour le même énoncé qui aurait été prononcé de
98
façon neutre, le « ton » de la voix sera perçu comme
triste et mélancolique, ou encore joyeux et enjoué. D’un
autre point de vue, la prosodie peut être définie par ses
fonctions : fonction lexicale, démarcative, pragmatique,
comportementale, émotionnelle, identificatrice, stylis-
tique ; du point de vue linguistique, la prosodie est sou-
vent décrite comme la somme des phénomènes
d’accentuation lexicale et d’intonation, ainsi que des
facteurs de performance, dont le rythme. Toutes ces
définitions sont acceptables, mais il faut veiller à ne pas
mélanger les différents points de vue dans une descrip-
tion des faits prosodiques.
L’accentuation lexicale est une notion abstraite. Elle
est une caractéristique intrinsèque des mots et des mor-
phèmes, stockée dans le lexique mental :
– dans une langue à tons lexicaux (dites encore à
tonèmes pour faire ressortir le parallélisme de ceux-ci
avec les phonèmes), deux syllabes composées des mêmes
phonèmes auront deux sens différents, selon le ton du
mot. En chinois mandarin – exemple classique de langue
à tons – la syllabe ma peut avoir cinq sens différents,
en fonction du ton employé (ton plat haut, ton mon-
tant, ton descendant-montant, ton descendant, ou aucun
ton). Chacun de ces tons se réalise essentiellement par
un contour (ton montant) ou une hauteur caractéristique
de F0 (ton plat). Dans certaines langues, les tons com-
prennent également une spécification de qualité de voix
(par exemple une constriction glottale finale) ; et dans les
langues où ils sont définis uniquement par leur mélodie,
ils n’en possèdent pas moins, au plan phonétique, cer-
tains traits secondaires de durée, de qualité de voix et de
modifications (non catégorielles) des segments : timbre
des voyelles, articulation des consonnes. Une majorité des
langues du monde possède des tons. En français, langue
99
qui n’a ni tons ni accent lexical, les fluctuations de F0
sont essentiellement ancrées sur les frontières (de mot,
de syntagme et d’énoncé) ;
– dans une langue à accent lexical (aussi appelé impro-
prement accent libre), dont l’anglais, l’allemand, l’italien
ou le russe, deux mots qui comportent la même suite
de phonèmes peuvent se distinguer par la position de
la syllabe qui porte l’accent lexical primaire : ainsi, en
russe, мука (torture) s’oppose à [мукà] (farine). Les
corrélats phonétiques de l’accent lexical sont divers ; ils
incluent, dans des proportions variées selon les langues,
la durée, l’intensité, la fréquence du fondamental, une
réduction de timbre des voyelles non accentuées, et des
contraintes sur la distribution des phonèmes avant et/
ou après la syllabe accentuée. Dans les langues à accent
lexical (stress language), la syllabe accentuée ne reçoit
pas un contour de F0 déterminé par le lexique, comme
dans les langues à tons : le détail de son contour de F0
est modelé par des phénomènes de nature intonative
(nous inspirant des idées de Mario Rossi, nous dirons
que la syllabe accentuée est un site privilégié d’ancrage
des morphèmes intonatifs) ;
– en japonais et en suédois, langues dites à accent mélo-
dique (pitch accent en anglais), une des syllabes (ou une
more en japonais) du mot est marquée, et le contour de
F0 s’ancre sur cette syllabe, ce qui détermine le contour
de F0 de cette syllabe et des syllabes qui l’entourent dans
le mot ; la durée et l’intensité ne sont pas profondément
modifiées par la position de la syllabe marquée. L’unité
accentuable est la more en japonais, la syllabe en suédois,
et dans ces deux langues, l’unité accentuelle est le mot.
À l’accentuation lexicale s’ajoute une accentuation gram-
maticale (accent non libre, d’origine morphologique ou
accent démarcatif, non stocké dans le lexique mental)
100
(Paul Garde, Larry Hyman). Dans des langues, certains
morphèmes ont une aptitude à déplacer la position de
l’accent lexical : en italien, le suffixe – in- attire l’accent
(con’tino : le petit conte) tandis que le morphème – ic- le
repousse (‘civico : civique). En tchèque et en finnois, l’ac-
cent est démarcatif, et il est toujours situé sur la première
syllabe des mots ; en polonais, l’accent est également
démarcatif et il est presque toujours sur l’avant-dernière
syllabe. L’accentuation (entendue dans une acception large
qui couvre l’une et l’autre de ces deux dimensions, lexicale
et grammaticale) crée une structure de dépendance entre
les syllabes du mot et les phonèmes à l’intérieur de chaque
syllabe. La syllabe la plus dominante au sein d’une unité
sémantique tend à imposer certains de ses traits aux syl-
labes environnantes.
Par exemple, en français, où la position de l’accent n’est
pas distinctive, la syllabe finale du mot est en position
dominante (sans pour autant être toujours perçue comme
proéminente dans le mot). Certains de ses traits tendent
à se propager sur l’ensemble du mot, comme la nasalité
(maman /mamɑ/̃ prononcé [mɑm ̃ ɑ]̃ ), ou l’aperture (aimer
/ɛme/ prononcé [eme]) ; phonologue /fonolog/ prononcé
[fɔnɔlɔg] versus phonologie prononcé [fonoloʒi] ; ou encore,
chez les enfants, surtout prononcé sourtout, petit prononcé
pitit.
Dans certaines langues (hongrois, turc), cette tendance
à la propagation d’un trait d’une syllabe au mot entier a
été phonologisée (c’est-à-dire ici rendue obligatoire) sous
la forme, par exemple, d’une harmonie vocalique : toutes
les voyelles d’un mot doivent partager un même trait
d’antériorité ou de postériorité, d’arrondissement ou d’éti-
rement. Cette structure de dominance est primordiale
pour expliquer les phénomènes décrits par la phonétique
historique, qui constituent la plus grande base de données
existante sur les rapports entre accentuation et articulation
101
des phonèmes : dans le passage du latin au français, seules
les syllabes accentuées (en général la pénultième en latin
classique) et la première syllabe ont résisté à l’usure dans
les mots les plus courants : MUSculum > moule, CLAri-
tatem > clarté.
La structure accentuelle des mots détermine les rapports
de dépendance entre les phonèmes constitutifs de la syllabe,
rapports qui varient selon les langues. Les liens au sein de
la rime sont plus étroits en anglais (par exemple entre /ɪ/
et /t/ dans sit) qu’en français, où la consonne de fin de
mot tend à se détacher de la rime syllabique auquel elle
appartient et à s’associer à la première voyelle du mot sui-
vant : madame est… [ma-da-me-], plutôt que [ma-
dam-e-]… Les anglophones, au contraire, marquent une
différence nette entre la prononciation de an aim [ən-eim]
et a name [ə-neim].
L’intonation, comme l’accentuation lexicale et gram-
maticale, est une catégorie abstraite, bien qu’elle soit
souvent (et abusivement) identifiée aux paramètres par
lesquels elle s’actualise, en particulier, la fréquence fon-
damentale. Elle désigne à la fois un système linguistique
discret de structuration de l’énoncé (fonction démarcative,
déterminée à la fois par la syntaxe et la pragmatique) et
un système d’expression de nuances de sens, d’attitudes
et d’émotions (fonctions comportementales et émotives).
Différentes situations révèlent les manifestations com-
plexes de l’intonation. La lecture de phrases isolées, voire
ambiguës met en lumière sa fonction démarcative, liée à
la syntaxe : la frontière majeure tend à se placer entre
le sujet et le verbe, L’écolier / part à l’école (la barre oblique
indique ici la position d’une frontière). L’analyse des
réponses à des questions de type Où part l’écolier ? révèle
comment le découpage pragmatique peut modifier pro-
fondément la démarcation d’origine syntaxique, car, en
fin de compte, la pragmatique domine dans l’énoncé
102
puisqu’elle est de nature sémantique : l’écolier part/à l’école.
La lecture des textes fait découvrir l’existence d’une struc-
ture au-dessus du niveau de la phrase : les informations
nouvelles par rapport à ce qui a été énoncé auparavant
sont mises en valeur par des procédés prosodiques. Un
jeu de question-réponse permet d’étudier les procédés
de focalisation : les éléments qui apportent une réponse
à la question sont focalisés (mis en valeur). L’étude d’une
conversation illustrera la fonction discursive de la prosodie
dans son sens le plus large : la prosodie aide à distinguer
les informations déjà partagées entre le locuteur et l’au-
diteur des informations nouvelles, et donne des indices
sur les informations pouvant être éventuellement remises
en cause par l’interlocuteur ; elle aide à gérer les tours de
parole, et elle indique qu’une assertion est définitive ou
attend une confirmation de la part de l’interlocuteur :
un « non » peut être un refus catégorique ou suggérer
que le refus peut être renégocié. Un « non » peut même
parfois signifier un « oui ». Les voix de théâtre mettent
en lumière la fonction identificatrice de la prosodie : les
acteurs changent leur façon de parler en fonction des
personnages qu’ils incarnent. Sa fonction esthétique est
manifeste dans l’expression poétique. Les fonctions de
la prosodie sont quasi infinies, et l’une des difficultés
essentielles de l’étude de la prosodie dans la parole spon-
tanée est l’imbrication de plusieurs fonctions qui se réa-
lisent par des modifications des mêmes paramètres
prosodiques.
Toutes les langues connues, quel que soit leur type
d’accentuation lexicale, utilisent des procédés intonatifs.
Les langues à tons, où la fréquence fondamentale est
contrainte par le phénomène lexical des tons, peuvent
utiliser la durée et l’intensité sonore des syllabes, ainsi
qu’un changement ou une expansion du registre de F0 à
des fins intonatives. La présence de tons lexicaux par
103
elle-même n’est donc pas exclusive de phénomènes into-
natifs, et on ne peut opposer « langues à tons » et « langues
à intonation », comme cela est parfois fait. Néanmoins,
dans des langues à tons comme le chinois ou le vietnamien,
l’expression des modalités et des attitudes se fait au moyen
de particules de discours, autant que par la prosodie : telle
particule marque l’interrogation, telle autre l’évidence,
l’intonation de l’énoncé apportant des nuances complé-
mentaires.
Il existe des ressemblances dans les contours de F0
observés dans un certain nombre de langues.
Fo a le
iti
in
tée Platea
u
on De
sc
M e nt
e fin
Ligne de base al
e
Allongement prépausal
temps
Un groupe de souffle
Contour typique de F0 à l’échelle de l’énoncé,

Fig. 17. –
dans diverses langues (d’après Jacqueline Vaissière, 1983)
Les tendances communes sont les suivantes : (I) les

valeurs de F0 évoluent entre deux lignes, la ligne de base
et le plateau, qui délimitent la plage habituelle du locu-
teur ; (II) la F0 et l’intensité sonore, ainsi que l’ampleur
des gestes articulatoires, tendent à décliner régulièrement
au cours du temps ; (III) le maximum de F0 et d’intensité
tend à se situer dans les trois premières syllabes de
l’énoncé, et les toutes premières syllabes de l’énoncé
tendent à avoir une F0 de plus en plus élevée et une
intensité de plus en plus forte, qu’elles correspondent à
104
des mots lexicaux ou grammaticaux ; le minimum d’in-
tensité se situe en fin de groupe de souffle ; (IV) il existe
une tendance à alterner régulièrement dans le temps les
montées (ou sauts) et les descentes de F0 : une paire
montée-descente tend à délimiter une unité de sens au
sens large, du moins dans les langues non tonales ; (V) il
existe une tendance à allonger la dernière syllabe de
l’énoncé et le premier phonème du début de la phrase 1,
et cette tendance se retrouve à des niveaux inférieurs de
constituants prosodiques, comme le syntagme ou le mot
prosodiques. La forme globale de F0 et d’intensité res-
semble au contour des cris de bébés, de même qu’aux
productions de certains singes et elle semble déterminée
physiologiquement. Ces tendances communes semblent
avoir été utilisées pour caractériser les énoncés assertifs
dans les langues du monde.
Les langues retiennent telle ou telle portion privilégiée
de cette forme prototypique pour marquer l’accentuation
lexicale et/ou des morphèmes intonatifs : en français, c’est
la partie montante,qui correspond au morphème conti-
nuatif qui se réalise en fin de groupe de sens, en anglais
c’est la partie descendante, qui correspond à la syllabe
accentuée, en japonais, c’est l’abaissement de F0 entre deux
mores qui devient systématique dans la réalisation de l’ac-
cent mélodique du mot, tandis qu’en danois, c’est le creux
de F0 suivi d’une montée pour la réalisation de la syllabe
accentuée.
Les caractéristiques physiologiques du groupe de souffle
(portion de parole entre deux pauses respiratoires) semblent
avoir motivé un certain nombre d’associations mentales.
Une Fo élevée ou montante et une intensité forte ou
croissante évoquent la notion de début : début de discours,
1. Jacqueline Vaissière, sur les traits prosodiques universaux, de 1983

à 2020.
105
de paragraphe, d’énoncé. Une F0 basse ou descendante,
une intensité faible et un ralentissement marquent la fin
de la prise de parole, d’un paragraphe, d’une phrase. Un
rehaussement de la ligne de base ou l’arrêt de la déclinai-
son en cours d’énoncé sans pause respiratoire simule la
reprise de souffle et elle est une marque de frontière. Une
augmentation de la plage de variation de F0 signale l’im-
portance de ce qui est dit. Des observations sur des langues
variées tendent à confirmer ces réflexions générales, tout
en montrant, dans le détail, une grande variété des réali-
sations. Ainsi, en français, la fin de phrase s’accompagne
fréquemment d’un prolongement fricatif du dernier son
(oui [wiç]) ; la voix peut au contraire passer en mode vibra-
toire craqué (irrégulier) en anglais : ces deux phénomènes
peuvent s’interpréter comme des avatars de l’abaissement
final d’intensité.
Un grand nombre de similitudes entre langues appa-
raît dans l’utilisation des paramètres prosodiques, mais
il existe des exceptions notables 1. Les procédés émotion-
nels sont fortement motivés par la physiologie et diffèrent
peu entre les langues, tout au moins en ce qui concerne
l’expression des émotions primaires (joie, colère). Le
marquage des attitudes est moins directement motivé et
le code parfois subtil de l’expression des attitudes doit
être acquis par les apprenants d’une langue seconde. L’ex-
pression des attitudes semble néanmoins faire souvent
appel aux mêmes indices dans un grand nombre de lan-
gues : une élévation de la plage de variation de F0 pour
l’ensemble de l’énoncé marque une forte implication du
locuteur ; une variation particulière de la fréquence du
fondamental sur une seule voyelle (glissando) peut être
porteuse d’un contenu affectif. L’augmentation de
l’intensité, de la plage de F0, et de l’amplitude des
1. Voir les travaux d’Annie Rialland sur les langues africaines.
106
mouvements des articulateurs (plus grande fermeture pour
les consonnes et plus grande ouverture pour les voyelles)
simule un plus grand effort respiratoire, phonatoire et
articulatoire (ce que Carlos Gussenhoven résume par
l’expression de code de l’effort) et cette augmentation est
donc interprétée par l’auditeur comme signe d’une plus
grande implication du locuteur : le locuteur fait plus
d’efforts articulatoires sur les parties du discours qu’il
juge plus importantes.
Beaucoup de langues se rejoignent dans l’utilisation
des procédés marquant l’interrogation (Fo plus haut et/
ou plus montant) et certains types de focalisation (le focus
étant caractérisé, de façon à la fois assez consensuelle et
assez vague, comme ce sur quoi porte l’interrogation dans
une question, et ce sur quoi porte l’assertion dans une affir-
mation) (Fo, durée, intensité plus élevées). La figure 18
illustre des contours souvent attestés dans les phrases
déclaratives et interrogatives. Soulignons, en outre, que
la phrase est un tout, où tout est lié : dans une phrase
assertive française, l’avant-dernier mot est montant et le
dernier descendant). Un mot peut devenir perceptive-
ment proéminent par ses propriétés acoustiques intrin-
sèques (procédé positif d’accentuation) ou par la
désaccentuation des mots qui le suivent (procédé néga-
tif d’accentuation).
Dans l’énoncé déclaratif, le contour de F0 s’aplatit
après la réalisation du mot focalisé et reste dans le registre
bas. Des modifications temporelles (allongement des
syllabes lexicalement accentuées, allongement de la der-
nière syllabe des mots) peuvent prendre le relais de F0
pour structurer le reste de l’énoncé (dans la partie à plage
de variation de F0 réduite), mais de telles stratégies d’em-
ploi de la longueur ne sont pas systématiquement obser-
vées. Le registre de F0 est éventuellement plus élevé dans
le cas des interrogatives que dans le cas des déclaratives ;
107
on observe la suppression ou la diminution de la ligne
de déclinaison dans les interrogatives (Nina Thorsen
pour le danois), une montée de F0 sur la syllabe finale
ou sur la dernière syllabe accentuée.
Énonciative avec focus
Interrogative avec focus
Fig. 18. –Contours typiques de F0

dans des phrases déclaratives et interrogatives,
avec focalisation sur le premier (trait plein),
le deuxième (pointillé) ou le dernier mot (trait étiré)
La similitude de procédés entre les langues apparaît

aussi dans la division de la phrase en groupes intonatifs.
La figure 19 présente deux exemples typiques en français
et en anglais (deux langues dont les caractéristiques seg-
mentales et prosodiques sont pourtant quasi opposées).
Chaque groupe intonatif comprend ici deux syntagmes
prosodiques divisés en deux mots prosodiques. Le mor-
phème intonème de continuation est réalisé par un contour
montant de F0 sur la dernière syllabe, qui est allongée
dans les deux langues, et par un allongement de l’inter-
valle avec le groupe suivant. La montée de continuation
sur la dernière syllabe est nettement plus marquée (et
quasi obligatoire) en français (voir la flèche sur la
108
figure 19), alors qu’en anglais elle est réduite et faculta-
tive (Pierre Delattre). Les mouvements de F0 sont essen-
tiellement ancrés sur les syllabes lexicalement accentuées
en anglais (et secondairement sur la syllabe finale des
mots pour la montée de continuation) et sur le début
du mot et sa syllabe finale en français. La syllabe accen-
tuée du premier mot composant le syntagme en anglais
dans une phrase déclarative neutre est accompagnée d’une
montée ou d’une valeur haute de F0, la syllabe accentuée
du dernier mot par une descente ou une valeur haute
suivie d’une chute. Dans l’exemple français illustré ici,
la division du syntagme en mots prosodiques n’est pas
assurée par un mouvement de F0, mais par un allonge-
ment de la dernière syllabe des mots lexicaux. Dans ces
deux langues, un rehaussement de la ligne de base du
contour de F0 apparaît généralement entre deux consti-
tuants de niveau supérieur dans la phrase (par exemple,
entre deux propositions). En japonais, c’est le rehausse-
ment de la ligne de base entre deux syntagmes qui a été
phonologisé ; les autres procédés (comme l’allongement
final) apparaissent néanmoins en japonais dans certains
styles de parole (mais la montée de continuation n’est
pas attestée en japonais).
Contour typique de F0 représentant la division

Fig. 19. –
d’un groupe de souffle en deux groupes intonatifs, en anglais,
à gauche, et en français, à droite. Les ronds pleins
correspondent à des voyelles lexicalement accentuées
en anglais et à la dernière voyelle des mots en français.
La flèche indique la montée de continuation
109
Le rythme d’une langue, autre composante prosodique,
est une notion très difficile à définir. Ce qu’une oreille
française semble essentiellement retenir de la mélodie
d’un énoncé, c’est la répétition dans le temps de la mon-
tée de continuation en fin de syntagme prosodique, réa-
lisée par une montée mélodique accompagnée d’un
allongement de la rime finale. Le français est souvent
décrit comme une langue « montante », en référence aux
réalisations des continuations montantes majeures et
mineures en fin de nombreux mots situées en fin de
groupes de sens (Pierre Delattre). Les voyelles en posi-
tion finale des groupes de sens dominent perceptivement
en français. C’est le retour des syllabes allongées avec
des intonations montantes qui définissent essentiellement
le rythme en français, avec comme unité le groupe de
sens. En anglais, ce qui frappe un Français, c’est la
récurrence énergique et quasi régulière de syllabes for-
tement accentuées, avec une forte attaque consonantique,
qui alternent avec des syllabes réduites. Ce type d’ac-
centuation évoque pour l’oreille française l’accent d’in-
sistance français, d’où l’impression d’une insistance sur
chaque mot en anglais. L’unité principale de rythme en
anglais est le « stress group ». À l’inverse, le rythme
japonais peut paraître quelque peu monotone, du fait
des séquences alternées de séries de syllabes hautes et
de syllabes basses, sans syllabes dominantes, et aussi
quelque peu chaotique, parce que la durée des voyelles
dépend prioritairement de leur durée phonologique, non
des phénomènes de frontières, et n’est donc pas corré-
lée avec les mouvements mélodiques – à la différence
du français – ou à la réalisation d’un accent lexical – à
la différence de l’anglais.
Le code fréquentiel explique certaines tendances pro-
sodiques communes aux langues les plus diverses. Il existe
une association biologique entre une F0 grave et un larynx
110
volumineux (la F0 grave évoque des plis vocaux massifs),
et, inversement, entre une F0 aiguë et un petit larynx
(Eugene Morton, John Ohala). Le singe mâle dominant
émet des sons plus graves que le singe qui signale sa
soumission par des sons plus aigus, et la femelle émet
des sons plus aigus quand elle s’adresse à son nouveau-né
qu’à ses enfants plus âgés. Une F0 basse évoque la matu-
rité, la dominance, l’agressivité. Dans les langues, une F0
basse est une composante des intonèmes utilisés pour
marquer les ordres et les affirmations catégoriques (qui
évoquent un sentiment de dominance). Une F0 élevée,
au contraire, est un marqueur acoustique de l’incertitude,
du questionnement, du caractère non terminé des énon-
cés, du doute, de la politesse et du désir de plaire, et
d’une certaine forme de féminité. Ainsi, un comportement
bien attesté chez les singes se retrouve comme l’un des
ingrédients du jeu complexe qui constitue l’intonation.
Les progrès dans le domaine des études intonatives
passent sans doute par la multiplication des aperçus de
cet ordre, partant de la conviction qu’il n’y a aucun mys-
tère en la matière, tout en reconnaissant la complexité
de l’écheveau que l’intonologue se donne pour tâche de
démêler.
Voici quelques exemples de l’utilisation de la prosodie
en français. La figure 22 en fin de chapitre résume
les tendances françaises générales. La figure 20 illustre
les différences en termes de F0 et durée entre trois phrases
quasi homophones en ce qui concerne les phonèmes :
l’interprétation de la suite de phonèmes [sɛtɔmɛtenɔʁ-
memɑ̃bɛt] est guidée par les paramètres de durée et de
fréquence fondamentale. Cet exemple hautement cari-
catural a pour avantage de permettre une comparai-
son directe des observations ; il ressort clairement que
la syllabe la plus montante de l’énoncé correspond à la
frontière majeure, réalisée sur la dernière rime du mot
111
(une syllabe peut se diviser en attaque et rime), montée
doublée d’un allongement.
Le principe démarcatif de base en français est simple :
à l’intérieur de l’énoncé, plus la dernière syllabe d’un
mot est longue, plus elle est montante et plus la fron-
tière est perçue comme forte, et la présence d’une pause
renforce cette perception. Un contour descendant en
fin de mot indique au contraire une dépendance de ce
mot avec le mot suivant (comme le contour descendant
d’un adjectif précédant le mot qu’il complète). Souli-
gnons que les frontières intonatives ne reflètent pas
mécaniquement la structure syntaxique. L’énonciateur
est libre de prononcer un même énoncé plutôt mot par
mot, ou syntagme par syntagme, ou par plus grandes
envolées lyriques. Il peut regrouper une suite de mots
en ne marquant aucune frontière par F0 à l’intérieur de
ce groupe, mais en le subdivisant néanmoins en mots
rythmiques par des allongements en fin de mot. Par
exemple, la durée relative de la première syllabe suffit
à distinguer entre bordures [bɔʁdy::ʁ] et bords durs
[bɔ:ʁdy::ʁ], Jean-Pierre et Jacques et Jean, Pierre et
Jacques, sans qu’il soit besoin de modifier F0 (note : les
deux points : indiquent le degré d’allongement ; la répé-
tition de ce même symbole (::) indique un degré élevé
d’allongement). De même, en anglais, la seule durée
relative de la seconde syllabe est suffisante pour distin-
guer entre coffee cake and honey (« du gâteau au café et
du miel ») et coffee, cake and honey (« du café, du gâteau
et du miel »). À l’inverse, l’énonciateur peut subdiviser
un même groupe rythmique (suite de syllabes se termi-
nant par un allongement) en y introduisant des frontières
intonatives. Dans la plupart des cas, les variations de
la F0 viennent renforcer le découpage marqué par les
contrastes de durée.
112
Fig. 20. –Contour original de F0 des phrases :
« Cet homme est énormément bête »,
« Cet homme est énorme et m’embête »
et « Cet homme et Ténor m’aiment en bête »,
complété d’une stylisation : * : mot grammatical ;
∆ : début de mot ; ○ : syllabe d’un mot lexical ;
● : syllabe finale d’un mot lexical
La figure 21 illustre la tendance la plus attestée du

contraste entre phrase interrogative et déclarative en
français, et phrase terminée et non terminée. La phrase
non terminée et la phrase interrogative s’opposent à la
déclarative par la présence d’un contour final montant
de F0 qui exprime leur caractère non fini. La différence
113
entre phrase interrogative et phrase non terminée se
reconnaît typiquement au fait que, dans l’énoncé inter-
rogatif, on observe une tendance à l’annulation de la
ligne de déclinaison et la présence de la ligne de déclinaison
dans la phrase non terminée. Les interrogatives sont
également prononcées de façon plus rapide que les décla-
ratives.
La prosodie semble être le premier langage de l’enfant.
Le nouveau-né est sensible au rythme de sa langue mater-
nelle. Le bébé (comme les animaux domestiques, du
reste) est très sensible aux indices émotionnels véhiculés
par les voix de son entourage, ainsi qu’à la prosodie de
sa langue maternelle : il imite très tôt la façon de parler
de son entourage ; le bébé français babille avec des mélo-
dies plus fréquemment montantes que le bébé japonais
et avec un allongement final plus net (Pierre Hallé).
L’intonation permet très tôt à l’enfant d’exprimer un
grand nombre de fonctions communicatives, bien avant
qu’il ne maîtrise la syntaxe. La façon dont un enfant
prononcera une séquence comme [patipapaoto] (parti
papa auto) indique s’il s’agit d’un constat joyeux ou déses-
péré, ou encore d’une question (au sujet de ce domaine,
celui de l’intonologie développementale, voir par exemple
Gabrielle Konopczynski).
L’action des facteurs de performance ainsi que la mul-
tiplicité des fonctions de l’intonation invitent à la plus
grande prudence dans l’élaboration d’une « grammaire de
la prosodie ». Il n’existe pas à l’heure actuelle de système
automatisé de reconnaissance de la structure prosodique,
des émotions ou des attitudes, comme il existe des
systèmes de reconnaissance de la parole ; cela tient au
fait que la prosodie d’un énoncé spontané est modelée
par un grand nombre de facteurs, en partie imprédictibles,
et les différents facteurs modifient les mêmes para-
mètres prosodiques, comme la F0, l’intensité et la durée.
114
Fig. 21. –Modalités : En haut, formes typiques
des phrases assertives ou déclaratives, continuatives
et interrogatives. Milieu et bas : exemples en français :
« Marie vient à Paris demain ? » et « Marie vient à Paris
demain et ton père s’en va. », « Marie vient à Paris demain »
L’accélération du débit de parole réduit d’autant la finesse

de la structure prosodique et le nombre marqué de
niveaux de constituants prosodiques ; la structuration
prosodique peut devenir méconnaissable. Par exemple, à
débit très rapide, la F0 s’aplatit et les phénomènes d’al-
longement diminuent en nombre : seule la décomposition
115
en énoncés peut être transparente, essentiellement grâce
aux pauses qui séparent les énoncés et les niveaux infé-
rieurs ne sont plus marqués. Autre tendance qui contri-
bue à dissocier la structure syntaxique ou pragmatique,
d’une part, et la structure prosodique, d’autre part : les
constituants prosodiques tendent à être de taille égale. Les
unités intonatives tendent à être rythmiquement équili-
brées. Par exemple, bien que le sujet de la phrase soit
porteur normalement de l’intonème de continuation
majeur, comme dans L’écolier/part à l’école, un Français
dira plus volontiers Jean part/à l’école, afin de rétablir
l’équilibre rythmique (Mario Rossi) entre les deux parties
de l’énoncé : la structuration prosodique résultante ne
reflète pas la structuration syntactico-pragmatique. L’es-
pace entre deux syllabes accentuées, mais aussi la longueur
des mots, tend à s’égaliser en anglais : les durées des
phonèmes se raccourcissent quand le nombre de syllabes
dans le mot augmente (Dennis Klatt pour l’anglais,
Sieb Nooteboom pour le néerlandais), comme en français.
Un allongement d’un mot lexical composé d’une seule
syllabe est parfois difficile à identifier comme un allon-
gement dû à la mise en valeur pragmatique du mot.
Des choix intonatifs de nature stylistique peuvent avoir
un contrecoup sur d’autres composantes de la prosodie :
ainsi, en français, les orateurs (présentateurs, hommes
politiques ou enseignants) emploient fréquemment une
accentuation initiale (la situation du président…), proli-
fération d’accents d’insistance qui vise à témoigner d’une
implication personnelle de l’orateur dans son discours. Si ces
marques de frontière initiale de mot aident l’auditeur à
découper le discours en mots (par le marquage de leur
début), l’intrusion de cette forte accentuation initiale
modifie considérablement le rythme « traditionnel » fran-
çais basé sur le retour de syllabes finales allongées et à F0
montant. Elle crée également des exceptions à certains
116
principes généraux bien établis, tels que la faiblesse pro-
sodique des mots grammaticaux (articles et auxiliaires, etc.) :
dans de très nombreuses langues, les mots grammaticaux
sont réalisés de façon affaiblie ; néanmoins, dans le style
d’énonciation qui vient d’être décrit, la syllabe en position
initiale d’énoncé reçoit fréquemment un accent d’insis-
tance, même s’il s’agit d’un mot grammatical (LA situa-
tion…). Autre difficulté : les accidents de parole perturbent
le rythme et rendent sa description difficile ; il s’agit aussi
bien de faux départs, d’hésitations silencieuses ou non (du
type Papa euh vient ou l’allongement de la dernière syllabe
du mot du type Papaaaaaaa vient) que de choix stylis-
tiques : pause d’insistance (pause devant le mot que l’on
veut mettre en valeur), pause entre énoncés. (Les hommes
politiques, une fois qu’ils ont été élus, pausent plus sou-
vent et plus longtemps que durant leur campagne élec-
torale, comme l’ont montré les études de Danielle Duez
sur le français.)
Division classique de la phrase française

Fig. 22. –
en deux groupes de souffle, chaque groupe de souffle
étant ici divisé en trois mots prosodiques
Conclusion
Ce livre a atteint son but s’il est parvenu à donner la

mesure des résultats obtenus par la phonétique et l’éten-
due des perspectives qu’elle ouvre. Ce qu’explore la pho-
nétique avec les méthodes de sciences dites dures, c’est
la réalité éminemment humaine de la vive voix, dans la
variété de ses manifestations. La part accordée à la pro-
sodie dans le présent ouvrage visait à mettre en avant
cette composante qui est le propre de la parole par rapport
au texte écrit. Les phénomènes de l’oral sont d’une grande
complexité, qu’ils soient envisagés d’un point de vue acous-
tique, physiologique, perceptif ou neurologique ; cela
impose au phonéticien professionnel une formation longue
et nécessairement parcellaire : l’interprétation des résultats
fournis par des méthodes expérimentales d’une complexité
croissante impose une spécialisation poussée. L’informa-
tique a néanmoins rendu cette formation beaucoup plus
aisée.
Les connaissances phonétiques sont à la portée de tous.
Les pédagogues, enseignants, ORL et orthophonistes, les
spécialistes des implants cochléaires, s’ils possédaient de
meilleures bases en phonétique que ne leur procure actuel-
lement l’enseignement officiel, pourraient souvent mieux
comprendre les difficultés rencontrées dans la pratique de
leur métier et imaginer alors des solutions mieux adaptées.
Par exemple, la connaissance de la fonction exacte de
chaque organe dans l’acte de parole permet aux méde-
cins ORL de bien expliquer aux malades les conséquences
de leurs actes chirurgicaux. En outre, les avancées en
acoustique perceptive ont des retombées directes dans
119
la mise au point des implants cochléaires, et l’étude de
l’apprentissage de la voix chez les implantés cochléaires
permet d’évaluer le rôle de la perception sur l’apprentissage
de la langue maternelle. Il reste à trouver une perspective
unifiée sur les faits prosodiques, et à élaborer des méthodes
d’apprentissage des aspects attitudinaux (ou comporte-
mentaux) et esthétiques pour les apprenants d’une langue
étrangère, etc.
Les futurs progrès viendront désormais de la confron-
tation entre les nouvelles données sur les mécanismes du
cerveau – issues de l’imagerie cérébrale, de la neuroétho-
logie, de l’ontogénie et de la phylogénétique –, les faits
établis sur le lien articulatoire-acoustique-perception, les
statistiques sur les systèmes phonologiques et les choix
prosodiques des différentes langues, sur les changements
de sons, sur les grandes bases de données. Ils permettront
enfin d’expliquer l’existence d’un nombre limité d’une
douzaine de traits distinctifs proposés par Roman Jakob-
son et de mieux percer le mystère de la vive voix, le propre
de l’homme.
Seule une équipe multidisciplinaire, et non plus un
individu, est à même d’apporter un progrès cumulatif aux
savoirs phonétiques. En recherche fondamentale en pho-
nétique, l’apport de chacun (phonologue, psychologue,
ingénieur, médecin, orthophoniste, enseignant des lan-
gues…) est irremplaçable et aide aux renouvellements des
problématiques. Les technologies nouvelles et leurs appli-
cations continueront à guider la réflexion du phonéticien.
C’est en tant que lieu de rencontre entre disciplines que
la phonétique conserve aujourd’hui son statut de science
pilote à l’intérieur du champ des sciences du langage.
BIBLIOGRAPHIE
RESSOURCES ÉLECTRONIQUES
Par l’intermédiaire d’une base de données bibliographique (telle
que le SUDOC) ou d’un simple moteur de recherche, il est pos-
sible d’obtenir sur Internet les bibliographies des auteurs cités dans
le corps du texte, qui ne sont donc pas reprises ci-dessous. Sont en
outre disponibles :
1/ l’alphabet phonétique international, accompagné d’illustrations
sonores : http://www.internationalphoneticalphabet.org ;
2/ des programmes d’analyse du signal audio, dont Praat, WinPitch,
Wavesurfer, WinSnorri ; et des programmes de synthèse (synthèse
à formants de Dennis Klatt, synthèse articulatoire de Shinji Maeda) ;
3/ des listes et groupes de discussion, en particulier The Linguist List,
The Speech Prosody Special Interest Group, des sociétés savantes comme
l’AFCP (Association francophone de la communication parlée) et
l’ISCA (International Speech Communication Association) ;
4/ des cours de phonétique (acoustique et autres) en ligne, dont cer-
tains en français ;
5/ et surtout des sites présentant équipes, chercheurs et projets en cours
dans le monde entier ; parmi les équipes françaises les plus actives
en sciences phonétiques, citons les équipes CNRS suivantes : le
Laboratoire langue et parole d’Aix (LPL), le GIPSA-Lab de Gre-
noble, le Laboratoire de phonétique et phonologie de l’université
Sorbonne Nouvelle (LPP), l’Institut de phonétique de Strasbourg,
liste bien sûr non exhaustive et qui ne comprend pas les groupes
de recherche en phonologie.
LIVRES ET ARTICLES HISTORIQUES

Les références présentées ici remontent plus avant dans le temps qu’il
n’est courant dans une aussi brève synthèse ; ce choix vise à rappeler
certaines contributions fondatrices qui conservent leur actualité.
Bolinger D., Intonation and its Uses, Palo Alto, Stanford UP, 1989
[intonation].
Chiba T. et Kajiyama M., The Vowel : Its Nature and Structure, Tokyo-
Kaiseikan, 1941 [acoustique des voyelles].
Fant G., Acoustic Theory of Speech Production, The Hague, Mouton, 1960
[le livre de référence sur l’acoustique des voyelles et des consonnes].
Jakobson R., Fant G. et Halle M., Preliminaries to Speech Analysis,
Cambridge, MA, The MIT Press, 1952 [livre qui a modifié les
rapports entre phonétique et phonologie].
121
Liberman A. M., Cooper F. S., Shankweiler D. P. et Studdert-
Kennedy M., « Perception of the Speech Code », Psychological Review,
74 (6), 1967, p. 431-461 [perception catégorielle et théorie motrice].
Martinet A., Économie des changements phonétiques. Traité de phono-
logie diachronique, Berne, A. Francke, 1955 [sur les changements
phonétiques].
Potter R., Kopp G. et Kopp H., The Visible Speech, New York, Dover
Publications, 1947 [spectrogrammes anglais].
Rousselot, l’abbé, Les Modifications phonétiques du langage étudiées dans le
patois d’une famille de Cellefrouin en Charente, thèse, 1892 [naissance
de la phonétique expérimentale].
Straka G., Album phonétique, Québec, Presses de l’Université de Laval,
1965 [profils sagittaux pour le français].
DICTIONNAIRE
Crystal D., A Dictionary of Linguistics and Phonetics, Oxford, Blackwell
Publishers, 2009, 6e éd.
OUVRAGES COLLECTIFS ET RECUEILS D’ARTICLES

L’Intonation, de l’acoustique à la sémantique, Klinscksieck, dirigé par
Rossi A. M. et alii, 1981.
Readings in Acoustic Phonetics, The MIT Press, dirigé par Lehiste I.,
1967.
Acoustic Phonetics. A Book of Basic Readings, Cambridge University Press,
dirigé par Fry D. B., 1976.
Handbook of the International Phonetic Association : a Guide to the Use
of the International Phonetic Alphabet, publié par l’Association pho-
nétique internationale.
L’imagerie médicale pour l’étude de la parole, Hermès/Lavoisier, dirigé
par Marchal A. et Cavé Ch., 2009 [sur les nouvelles techniques ;
leurs avantages et leurs limites].
Papers in Speech Communication, publiés par le Journal of the Acoustical
Society of America, 1991 [rassemble des articles essentiels dans les
domaines de la production, de la perception et du traitement du
signal].
Papers in Laboratory Phonology, sélection d’articles parmi ceux présentés
à la conférence bisannuelle du même nom ; le premier volume date
de 1990 [vise au rapprochement entre phonétique et phonologie,
forme et substance].
Phonologie et phonétique. Forme et substance, Hermès, dirigé par
Nguyen N., Wauquier-Gravelines S. et Durand J., 2005 [un bon
chapitre sur l’API].
122
Intonation Systems : a Survey of Twenty Languages, Cambridge Uni-
versity Press, dirigé par Hirst D. et Di Cristo A., 1998 [une bonne
introduction].
Intonation : Analysis, Modelling and Technology, Kluwer Academic Publi-
shers, dirigé par Botinis A., 2000.
Les séries des Blackwell Handbooks, The Handbook of Phonetic Sciences,
The Handbook of Speech Perception, The Handbook of Second Language
Acquisition, The Handbook of Phonological Theory.
AUTRES
Boltanski J.-E., La Linguistique diachronique, Paris, Puf, 1995 [phoné-
tique historique, niveau débutant].
–, Nouvelles directions en phonologie, Paris, Puf, 1999 [complète le « Que
sais-je ? » de Duchet sur la phonologie].
Boysson-Bardies B., Comment la parole vient aux enfants, Odile Jacob,
1996 [phonétique développementale, tout public].
Carton F., Introduction à la phonétique du français, Paris, Bordas, 1974,
2e éd. revue [un bon classique sur la phonétique du français, niveau
débutant].
Chomsky N. et Halle M., The Sound Pattern of English, Cambridge,
MA, The MIT Press, 1968 [un livre clef].
Delattre P., Comparing the Phonetic Features of English, French, German
and Spanish, Heidelberg, Groos, 1965 [Delattre fut un esprit très
inventif].
Duchet J.-L., La Phonologie, Paris, Puf, « Que sais-je ? », 2000 [une
introduction éclairée à la phonologie traditionnelle].
Fónagy I., La Vive Voix. Essais de psychoacoustique, Paris, Payot, 1983
[prosodie, tous niveaux].
Garde P., L’Accent, Paris, Puf, 1968 [accentuation lexicale].
Hyman L., Studies in Stress and Accent, SCOPIL 4, University of Sou-
thern California, 1977 [accentuation lexicale].
Johnson K., Acoustic and Auditory Phonetics, Oxford, Blackwell, 1997
[bases de la phonétique acoustique].
Kent R. D. et Read Ch., The Acoustic Analysis of Speech, London/
San Diego, Whurr Publishers/Singular Publishing, 1992 [niveau
intermédiaire].
Ladefoged P. et Maddieson I., The Sounds of the World’s Languages,
Cambridge, MA, Blackwell, 1996 [un grand classique].
Landercy A. et Renard R., Éléments de phonétique, Mons/Bruxelles,
Centre international de phonétique appliquée/Didier, 1977 [niveau
débutant et intermédiaire].
Léon Pierre R., Précis de phonostylistique. Parole et expressivité, Paris,
Nathan Université, 1993 [prosodie].
123
Liberman A., Speech : a Special Code, Cambridge, MA, The MIT Press,
1996 [niveau avancé].
Maddieson I., Patterns of Sounds, Cambridge University Press, 1984
[sur les sons des langues du monde].
Marchal A., Précis de physiologie de la parole, Marseille, Solal, « Voix,
parole, langage », 2001.
Pope M. K., From Latin to Modern French, Manchester, Manchester
University Press, 1952 [données de phonétique historique].
Rossi M., L’Intonation, le système du français : description et modélisation,
Paris, Ophrys, 1999 [intonation française ; niveau intermédiaire].
Segui J. et Ferrand L., Leçons de parole, Paris, Odile Jacob, 2000 [psycho-
linguistique].
Stevens K., Acoustic Phonetics, Cambridge, MA, The MIT Press, 1998
[phonétique acoustique, niveau avancé, très complet].
CONGRÈS
International Conference on Spoken Language Processing [tous les deux
ans, multidisciplinaire] et Interspeech [annuel].
International Congress of Phonetic Sciences [tous les quatre ans, le plus
important rassemblement de phonéticiens].
Journées de phonétique clinique (JPC) [tous les deux ans, depuis 2005].
Journées d’études sur la parole (JEP) [tous les deux ans, dans un pays
francophone, sur la communication parlée, depuis 1970].
Meetings of the Acoustical Society of America [tous les six mois, toutes
branches de l’acoustique].
Rencontres des jeunes chercheurs en parole (RJCP) [tous les deux ans un
pays francophone, depuis 1995].
Speech Prosody [tous les deux ans, depuis 2002].
REVUES
Journal of Phonetics, Phonetica, Journal of the Acoustical Society of Ame-
rica, Journal of the International Phonetic Association sont les quatre prin-
cipales revues. Les résumés des articles sont en accès libre sur Internet.
D’autres revues contiennent également certains articles d’un grand
intérêt sur des questions de phonétique : Speech Communication ; Com-
puter Speech and Language ; Cognition ; Journal of Memory and Language ;
Perception ; Clinical Linguistics and Phonetics ; Journal of Child Language ;
Developmental Science ; Infant Behavior and Development ; Brain ; Brain
and Language ; Nature ; Science ; Language and Speech ; Journal of Speech,
Language and Hearing Research ; Journal of Neurolinguistics ; Journal of
Cognitive Neurosciences ; Journal of Language and Communication Disor-
ders ; Trends in Cognitive Sciences. Dans le domaine francophone, on
124
citera la revue Parole. Diverses revues dont Faits de langues accordent
une place à la phonétique.
Et aussi sur le projet de constitution d’une base de données sur le
français :
Durand J., Laks B. et Lyche C., « Un corpus numérisé pour la phono-
logie du français », in G. Williams (éd.), La Linguistique de corpus,
Rennes, PUR, 2005, p. 205-217.
Parmi les bases de données en ligne, citons ELRA (European Lan-
guage Resources Association), le programme Archivage du LACITO
pour des enregistrements de langues rares glosés et traduits, et les
Centres de ressources numériques (infrastructure ADONIS) qui per-
mettent aux laboratoires et aux chercheurs indépendants de partager
librement leurs données orales.
TABLE DES MATIÈRES
Avant-propos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
CHAPITRE PREMIER
Phonétique et phonologie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
CHAPITRE II
Les branches de la phonétique . . . . . . . . . . . . . . . . . . . . . . . . . 26
CHAPITRE III
Les outils de la phonétique. . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
CHAPITRE IV
Les organes de la parole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
CHAPITRE V
Le signal de parole et la phonétique acoustique . . . . . . . . . . . 55
CHAPITRE VI
Les voyelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
CHAPITRE VII
Les consonnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
CHAPITRE VIII
Quelques aspects de la perception de la parole . . . . . . . . . . . . 79
I Sur l’identification des voyelles . . . . . . . . . . . . . . . . . . . . 85

II Sur l’identification des consonnes . . . . . . . . . . . . . . . . . . 87
III Quelques modèles et théories . . . . . . . . . . . . . . . . . . . . . 90
CHAPITRE IX
Prosodie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
Bibliographie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
Composition et mise en pages
Nord Compo à Villeneuve-d’Ascq

La Phonétique 2020

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

La Phonétique 2020

Transféré par

Droits d'auteur :

Formats disponibles

Jacqueline Vaissière

Guy Cornut, La Voix, no 627.

Un grand merci à Takeki Kamiyama, Yuji Kawaguchi,

© Presses Universitaires de France / Humensis, 2020

La phonétique a pour objet l’étude scientifique des sons

La phonétique est l’étude de la substance et de la forme

Les consonnes du français

/pɑ/̃ pan /bɑ/̃ banc /fɑ/̃ faon /vɑ/̃ vent

/kɑ/̃ camp /ɡɑ/̃ gant /ʃɑ/̃ chant /ʒɑ/̃ gens

/pil/ pile /pyl/ pull /pul/ poule

/li/ lit /ly/ lu /lu/ loup

/fij/ fille /lɥi/ lui

Phonétique et phonologie (appelée aussi phonétique

1. L’UCLA Phonological Segment Inventory Database de l’université

1. Noam Chomsky et Morris Halle, The Sound Pattern of English, 1968.

1. André Martinet, Économie des changements phonétiques, 1955.

Les branches de la phonétique

La phonétique articulatoire et l’orthoépie (étude de la

1. Ivan Fónagy, La Vive Voix, 1983.

Les outils de la phonétique

Les méthodes d’enquête et d’analyse sont essentielle-

1. André Martinet, La Description phonologique, 1956.

1. Système en cours de développement par Jacqueline Vaissière.

Fig. 1. – Le jeu des lèvres permet de compenser

Les prises de données diverses sont désormais grande-

1. Inventeurs : Kiyoshi Honda et Shinji Maeda, à Paris, en 2009.

Les organes de la parole

L’étude du comportement des organes de la parole est

1. Voir les anciens travaux de l’abbé Rousselot et ceux de Marguerite

Fig. 2. – Représentation schématique des organes

La production de la parole implique trois processus

Le larynx est saillant chez les hommes adultes (la

Fig. 4. – Un cycle de vibration des plis vocaux

Au départ du cycle, les plis vocaux se resserrent mol-

modal breathy creaky

Fréquence (échelle logarithmique)

Fig. 5. –Voix modale, breathy et creaky

Il existe plusieurs qualités de phonation. Durant la

La phonétique acoustique étudie les propriétés phy-

Fig. 6. – Théorie source-filtre

Les fréquences des formants dépendent, entre autres,

L’analyse d’un spectrogramme de parole permet de

Le nombre de voyelles dans les langues varie d’une à plus

1. Voir les travaux du GIPSA-Lab, à Grenoble.

Fig. 10. – Spectrogrammes de voyelles typiques en français

Du point de vue acoustique (figure 10), les lèvres jouent

la constriction, l’abaissement de la mandibule et la confi-

1) Labiale ; 2) dentale ; 3) alvéolaire ; palatale :

Les langues ont une moyenne de 22 consonnes (moyenne

Fig. 13. – Quelques exemples d’occlusives orales

Les fricatives (/f, s, ʃ, v, z, ʒ/) sont produites par un

Fig. 14. – Consonnes nasales

Pour la production des latérales, comme /l/, la langue

Fig. 15. – Réalisation de /t/ en anglais (à gauche)

1. Voir Ladefoged et Maddieson, The Sounds of the World’s Languages, 1996.

Après les découvertes de la psychoacoustique sur la

Si tous les sons de la parole et bruits de la nature

Comme noté précédemment, les fréquences des deux

II. – Sur l’identification des consonnes

Le poids des indices utilisés par l’oreille pour identifier

1. Katherine Harris, sur les indices des fricatives, 1958.

III. – Quelques modèles et théories

Il existe plusieurs théories sur l’identification phoné-

1. Liberman et alii, sur la perception du code de la parole, 1967.