Académique Documents
Professionnel Documents
Culture Documents
LA PHONÉTIQUE
Quatrième édition mise à jour
10e mille
À lire également en
Que sais-je ?
COLLECTION FONDÉE PAR PAUL ANGOULVENT
ISBN 978-2-7154-0495-3
ISSN 0768-0066
Dépôt légal – 1re édition : 2006
4 édition mise à jour : 2020, novembre
e
Les consonnes
Les voyelles
Syllabes fermées
10
mots [mɔ] et maux [moː] (opposition doublée d’une légère
différence de timbre, comme il est courant pour les oppo-
sitions de longueur vocalique), mais l’évolution vers un
son [o] unique en finale de mot se fait rapidement. Les
présentateurs dans les médias étant tenus à une pronon-
ciation de « type neutre », correspondant à la norme, on
observe une tendance à l’uniformisation.
Les réalisations d’un phonème varient énormément :
– premièrement, les variations sont dues à des caracté-
ristiques anatomiques individuelles et permettent de carac-
tériser le locuteur en fournissant des indications sur son
âge (un adulte / un enfant), son sexe (masculin / féminin),
son état physiologique (voix enrouée, voix de fumeur) et
émotionnel (voix joyeuse, triste) ;
– deuxièmement, le contexte phonétique qui entoure le
phonème influence les gestes de la langue et des lèvres, du
voile du palais et des plis vocaux par lesquels il est réalisé.
Comparez les positions de vos lèvres durant la réalisation
de la première consonne dans les mots toute et tête ; elles
sont plus arrondies durant la production des consonnes /t/
dans toute que dans tête, anticipant le mouvement d’ar-
rondissement des lèvres requis pour la voyelle /u/; le bruit
de l’explosion au moment de la séparation de la langue et
des dents (c’est-à-dire au moment du relâchement) est en
conséquence plus grave. Prononcez toute et route ; la langue
durant la réalisation du phonème /u/ est plus antérieure
pour le /u/ de toute /tut/ que pour le /u/ de roure /ʁuʁ/
(Ruhr) ; le son [u] dans toute se rapproche de celui de la
voyelle u /y/, alors que le son [u] dans roure se rapproche
de celui de /o/. L’influence d’un phonème peut s’exercer à
l’intérieur du mot entier, à partir, par exemple, de la syllabe
accentuée ; ainsi, un locuteur aura tendance à prononcer
[fonoloʒi] et [fɔnɔlɔg], phonologie et phonologue.
– troisièmement, plus on parle vite ou de façon relâchée,
plus la différence articulatoire entre voyelles et consonnes
11
en séquence s’amoindrit et la coarticulation entre les sons
successifs en séquence augmente. Notons que certains locu-
teurs peuvent néanmoins parler très vite et de façon non
relâchée. En parole relâchée, les voyelles qui se prononcent
avec un conduit vocal très ouvert (voyelles dites « ouvertes »)
comme la voyelle a /a/ ont tendance à se fermer, les voyelles
fermées (comme les voyelles i /i/, u /y/ et ou /u/) à s’ouvrir,
et les voyelles extrêmes /a/, /i/ et /u/ sont évitées (oui [wi]
> ouais > [wɛ] et [ɥɛ]) ; les consonnes occlusives (le conduit
vocal est obstrué, comme pour la réalisation des consonnes
/p, t, k, b, d, g/) ne sont plus réalisées avec une occlusion
complète. Certains phonèmes vont jusqu’à disparaître : je
ne sais pas > je n’sais pas > j’sais pas > chaipas> ch’pas ; main-
tenant > maint’nant > maind’nant > main-nant > mai-nant ;
ces phénomènes de réduction ne sont pas particuliers au
français, comme le montrent les travaux de Klaus Kohler sur
l’allemand, par exemple. Les mots fréquents sont souvent
prononcés de façon plus rapide et plus relâchée que les
mots rares, et c’est par eux que commencent les change-
ments phonétiques, qui s’étendent ensuite aux mots moins
fréquents (selon le principe de diffusion lexicale) ;
– quatrièmement, le geste articulatoire dépend de
la position de la syllabe dans le mot, du phonème dans la
syllabe et du mot dans l’énoncé. S’il est dans une position
forte dans le mot, le phonème pourra être « dominant » :
mieux articulé, plus long, plus intense, il imposera cer-
taines de ses caractéristiques aux phonèmes environnants.
Dans le cas contraire, il est « dominé », sous l’influence
des phonèmes qui l’entourent, parfois au point de dispa-
raître. La première consonne du mot et, le cas échéant,
la syllabe accentuée du mot connaissent en général une
réalisation forte, c’est-à-dire plus prototypique. En anglais,
les occlusives /p/, /t/ et /k/ sont aspirées en position initiale
de mots (pin [pʰɪn] et ˈcontract [ˈkʰɒntrækt] et conˈtract
[kʰənˈtrækt]) et lorsqu’elles sont situées avant la voyelle
12
accentuée du mot, mais pas dans les autres positions (le
symbole « ˈ » indique la position de la syllabe accentuée).
Les consonnes en position initiale de syllabe sont mieux
prononcées et mieux perçues que les consonnes situées en
coda. Les débuts d’énoncé sont en général mieux articulés
que les syllabes en fin d’énoncé. La partie de l’énoncé située
après un focus est souvent prononcée avec un effort réduit ;
– cinquièmement, un même locuteur adapte sa façon de
parler à la situation de communication, en termes de registre
(du plus soutenu au plus relâché), de style, d’attitude exprimée
(la moue, l’ironie), faisant feu de tout bois : la nasalisation
véhicule une note de respect dans certaines langues et de
dégoût dans d’autres. Les variantes peuvent aussi être d’ordre
sociolinguistique ou socioculturel : la postériorisation et
l’allongement de la voyelle /a/ en [ɑ:] dans un mot comme
mariage signale aussitôt une appartenance sociale (l’accent
dit de Marie-Chantal du XVIe arrondissement parisien ; voir
les travaux de Philippe Boula de Mareüil) ; l’intensité de
sa voix varie aussi selon la distance avec son interlocuteur.
– sixièmement, les phonèmes et leurs oppositions sont
réalisés de façon différente d’une région à l’autre : l’accent
« chantant » méridional est facilement reconnaissable ; des
différences plus subtiles permettent de distinguer entre l’ac-
cent de Lyon et celui de Grenoble ; l’opposition entre
deux phonèmes peut disparaître totalement ou en partie.
– enfin, des variations volontaires dans la manière
d’articuler apportent des nuances de sens au message
(Ivan Fónagy) : la façon dont est prononcée une phrase,
avec douceur, gentillesse, froideur ou mépris, joue un rôle
important dans les contacts entre humains. Ce rôle peut
même devenir primordial, car ces variantes peuvent conduire
à un changement radical du sens global du message : une
hyperarticulation de la consonne /s/, avec allongement et
augmentation de l’effort articulatoire, dans l’énoncé elle est
sympa ! signifie que la personne est tout sauf sympathique.
13
Le petit d’homme est prédisposé à parler. Le fœtus s’im-
prègne très tôt des sonorités verbales et du rythme de la
langue maternelle, qu’il perçoit à travers le liquide amnio-
tique. Le bébé de quelques jours réagit aux oppositions
phonémiques de presque toutes les langues du monde et
pas seulement à celles de sa langue maternelle, mais il dis-
tingue déjà la langue de sa mère des autres langues. Alors
que les locuteurs anglais adultes ne font pas la différence
entre les occlusives dentales (la pointe ou la lame de la
langue fait contact avec les dents) et rétroflexes (la pointe
de la langue est dirigée vers le haut et l’arrière de la bouche),
ou entre les voisées aspirées et non aspirées de l’hindi
(contrastes absents en anglais), les bébés, futurs anglophones
ou non, perçoivent bien la différence entre ces différents
sons peu après leur naissance. Après les gazouillis des pre-
miers mois, vers 6 mois, le bébé imite déjà les sons et l’in-
tonation de son entourage (le manque d’un tel don
d’imitation serait à l’origine de l’incapacité des singes à
apprendre à parler). Des expériences récentes avec des tech-
niques de potentiels évoqués montrent que le cerveau de
l’enfant, même endormi, vers huit mois, réagit différemment
aux contrastes de sons selon qu’ils sont utilisés ou non dans
sa langue maternelle (contrastes phonémiques). Le cerveau
du bébé francophone réagit à la différence entre les sons
correspondant aux deux phonèmes /i/ et /y/ (riz et rue), et
le cerveau du bébé anglophone ne le fait pas (l’anglais n’uti-
lise pas le trait d’arrondissement de façon distinctive). Très
vite, le bébé est capable de stocker des formes acoustiques
auxquelles il est fréquemment exposé, bien avant de les
comprendre. Très tôt, le bébé a une préférence pour les
suites de phonèmes couramment attestées dans sa langue
maternelle. Vers 8 ou 10 mois, l’enfant devient progressi-
vement insensible aux contrastes entre sons non pertinents
dans la langue parlée dans son entourage, retenant unique-
ment ceux que lui propose la langue maternelle. Les bébés
14
chinois de quelques jours n’ont aucun mal à distinguer entre
[do] et [to], [ga] et [ka], alors que les Chinois adultes qui
apprennent le français ont toutes les peines du monde à
entendre la différence entre gâteau et cadeau, car ils ont
appris à ne pas faire la différence au cours de l’acquisition du
chinois (langue qui n’utilise pas le trait de voisement de
façon distinctive). De même, les bébés japonais perdent
progressivement entre 8 mois et 1 an leur sensibilité à la
différence entre /l/ et /r/ et les Japonais adultes ont un
certain mal à entendre une différence entre lit et riz, même
après de longues années d’exposition au français ! L’expérience
linguistique influence profondément la perception des sons
(filtrage attentionnel selon Janet Werker, réorganisation
psychoacoustique autour de prototypes spécifiques de la langue
selon Patricia Kuhl). L’apprentissage d’une langue seconde
(à l’adolescence ou à l’âge adulte) demande un effort soutenu
pour faire abstraction du système de sa langue maternelle
et apprendre un nouveau système phonémique : celui de la
langue étrangère que l’on souhaite apprendre. L’aspirant
phonéticien devra lui aussi subir un long apprentissage pour
être capable de distinguer tous les types de sons employés
de façon contrastive dans les langues du monde et notés
dans l’API (l’alphabet phonétique international), tenu à
jour par l’Association phonétique internationale (voir
tableau 1). Malgré ses efforts, la façon de transcrire une
nouvelle langue restera influencée par sa langue maternelle.
L’inventaire des oppositions possibles dans les langues du
monde n’est pas achevé, même si la découverte de nouveaux
types de phonèmes devient de plus en plus rare.
Les résultats récents de la recherche neurologique
semblent étayer la théorie innéiste de la faculté de langage,
longuement défendue par Noam Chomsky au siècle der-
nier : le bébé humain naîtrait avec la capacité d’acquérir
un langage à double articulation, capacité dont seraient
privés les animaux. Le langage est le propre de l’homme.
15
Un conduit vocal humain peut produire une infinité de
sons, comme en témoignent les prouesses des stars de la
Human Beatbox, dont l’appareil phonatoire arrive à imi-
ter à s’y méprendre les sons produits par les instruments
de musique. Il existe cependant un très grand nombre de
ressemblances phonétiques entre les sons choisis par les
langues du monde entier. Ces similitudes sont dues à la
pression des mêmes contraintes dites phonétiques (ou
substantielles), imposées par les lois générales de l’acous-
tique et de l’aérodynamique, par les caractéristiques des
systèmes de production et de perception, et par les struc-
tures cérébrales communes à tous les hommes, qui
engendrent les mêmes capacités cognitives (comme les
mémoires à court terme et à long terme et les facultés
d’apprentissage et de généralisation). Inspirés par les per-
formances de discrimination des sons par les nouveau-nés,
des chercheurs ont avancé l’idée selon laquelle l’être humain
serait muni d’un nombre limité de détecteurs de propriétés
ou de traits (une douzaine), précâblés pour la parole humaine
(Ken Stevens) et qui servent à opposer les phonèmes.
La transmission d’informations par l’intermédiaire d’un
signal acoustique présente de grands avantages sur les autres
media. La parole permet aux interlocuteurs d’être relativement
éloignés. Elle demeure utilisable dans un milieu bruyant.
Son usage libère la vue et les mains, qui peuvent alors assu-
rer d’autres tâches. C’est également un mode de communi-
cation rapide : un locuteur pressé peut produire plus de
30 phonèmes à la seconde, soit plus de 200 mots en moyenne
à la minute ; son auditeur peut saisir son message en temps
réel. Si des séquences de sons de nature non linguistique
étaient présentées à la même cadence, l’auditeur ne percevrait
que du bruit. Comme nous le verrons par la suite, les sons
de parole ne sont pas traités de la même façon que les bruits
de la nature par les mécanismes de perception.
CHAPITRE PREMIER
Phonétique et phonologie
18
Pourquoi et comment les inventaires des phonèmes
évoluent-ils au cours du temps ? Phonéticiens et phono-
logues se sont intéressés au premier chef aux contraintes,
au sens large, qui président au choix des systèmes d’op-
position de sons dans les langues du monde et à leur
évolution au cours du temps à l’intérieur d’une même
langue. Jakobson propose une liste fermée d’une douzaine
de traits distinctifs « universels » constitutifs des phonèmes
(comme vocalique/non vocalique, consonantique/non conso-
nantique, compact/diffus, tendu/lâche, etc.) Chaque langue
choisirait entre ces traits préexistants pour réaliser
les oppositions entre les mots. Jakobson privilégie les
contraintes basées sur la substance : les oppositions entre
phonèmes dans une langue, pour Jakobson, sont basées
sur leurs corrélats acoustiques et leur facilité de perception
par l’auditeur. Pour Jakobson, les contraintes de produc-
tion (articulatoires) restent au second plan. Dans leur
recherche d’explications formelles des alternances obser-
vées (par exemple l’alternance entre [œ] et [ø] dans les
mots peur [pœr] et peureux [pørø], beurre [bœr] et beurré
[børe]), Noam Chomsky et Morris Halle 1, à l’inverse de
Jakobson, placent à l’arrière-plan la définition substantielle
des traits (ceux-ci sont alors définis par Noam Chomsky
et Morris Halle de façon essentiellement articulatoire sans
détailler leur rapport avec leur implémentation phoné-
tique), et ces deux auteurs mettent en avant leur définition
formelle, optique que prolongent encore certaines
recherches actuelles en phonologie. Parmi les contraintes
basées sur la substance (dites contraintes phonétiques),
les contraintes anatomiques sont abordées : la pointe de
la langue permet une articulation d’une plus grande pré-
cision que la racine de la langue ; les consonnes sélection-
nées par les systèmes sont en effet essentiellement réalisées
19
avec une constriction dans la partie antérieure du conduit
vocal, et la pointe de la langue, très mobile, est particu-
lièrement mise à contribution pour la production des
consonnes ; plus de 99 % des langues possèdent /t/ ; en
revanche, la racine de la langue entre en jeu dans un
nombre réduit d’oppositions. Dans les années 1970, le
débat sur les contraintes phonétiques a été fortement
ramené sur les plans perceptif et acoustique (et non plus
articulatoire). Deux idées majeures ont été avancées. Pre-
mièrement, certains phonèmes (comme /i/, /a/ et /u/)
seraient choisis en fonction de la stabilité de leurs pro-
priétés acoustiques : produire le timbre de ces trois voyelles
ne réclame pas une extrême précision articulatoire, ce qui
ne serait pas économique, et ces trois phonèmes seraient
préférés à cause de leurs propriétés intrinsèques (cf. la
théorie quantique de Ken Stevens qui sera vue par la suite).
Deuxièmement, le système phonologique tout entier des
voyelles ou des consonnes aurait une influence sur le choix
individuel des voyelles et des consonnes, surtout quand
leur nombre dans la langue est élevé : les sons distinctifs
tendraient à se positionner dans l’espace acoustique de
façon à maximiser leur contraste perceptif (la théorie de
la dispersion adaptative de Bjorn Lindblom) : les phonèmes
ne seraient pas choisis seulement en fonction de leurs
propriétés intrinsèques, mais aussi en fonction de leur
capacité à se distinguer perceptivement des phonèmes
proches. Ces deux théories sont combinées dans celle de la
dispersion/focalisation, émise par le GIPSA-Lab de
Grenoble : le système phonologique d’une langue est le
résultat d’une pondération particulière à cette langue entre
la dispersion des phonèmes dans l’espace acoustico-
perceptif (dispersion) et la stabilité acoustico-articulatoire
de chaque phonème (focalisation). Troisièmement, cer-
taines combinaisons de traits sont évitées dans les langues
car difficiles à réaliser par le locuteur (comme arrondir
20
des voyelles très ouvertes : il y a peu d’oppositions phono-
logiques entre voyelles ouvertes arrondies et étirées) ou
conduisant à des confusions chez l’auditeur (les consonnes
nasales sourdes sont souvent perçues comme des fricatives
sourdes : il y a peu d’oppositions phonologiques entre
consonnes nasales sourdes et sonores).
L’étude des contraintes phonétiques sur l’inventaire des
systèmes et sur les changements phonétiques est une des
traditions de la phonétique (Pierre-Jean Rousselot,
Ken Stevens, Bjorn Lindblom, John Ohala). À chaque
observation, le phonéticien s’efforce de proposer une expli-
cation, la plus plausible possible. Ces contraintes qui
s’exercent sur un inventaire de phonèmes peuvent aller
dans le sens d’une sélection dans la suite des phonèmes :
les séquences de sons ou les combinaisons de traits dif-
ficiles à réaliser tendent à être mal réalisées, à disparaître
ou à être remplacées par d’autres. Par exemple, certaines
séquences de sons sont plus faciles à prononcer que
d’autres et ces modifications peuvent aboutir à des modi-
fications du système (les syllabes composées de phonèmes
soit tous antérieurs, comme /ti/, soit tous postérieurs,
comme /ʁu/, sont plus faciles à prononcer que /tu/, /ʁi/,
qui combinent phonèmes antérieurs et postérieurs). Que
l’on songe à la difficulté des anglophones à distinguer
entre « Les Russes sont rousses » et « les rousses sont
russes » ! Dans certaines langues, ces contraintes ont été
phonologisées au cours du temps et certaines séquences
de phonèmes dans un mot sont interdites (harmonie voca-
lique). La perception joue également un grand rôle. Les
fricatives peu audibles comme le th anglais [θ] ou les
fricatives bilabiales se maintiennent rarement : l’oreille
humaine ne peut pas bien les percevoir, surtout dans les
conditions acoustiques non idéales qui sont celles de la
communication courante qui se fait souvent dans le bruit.
Le nombre de voyelles nasales est toujours égal ou
21
inférieur au nombre de voyelles orales dans une langue :
les corrélats acoustiques de la nasalité rendent plus diffi-
cile la distinction entre les différents timbres vocaliques
des voyelles nasalisées entre elles, diminuant le nombre
de contrastes oral/nasal faciles à distinguer. Des contraintes
visuelles apportent des éléments d’explication à certains
faits observés. Les premières consonnes acquises par les
bébés sont des labiales (/p, b, m/ suivies de /n, t, k, ɡ/),
mais pas chez les bébés aveugles, preuve de l’importance
de la vision de la face du locuteur (le bébé voyant fixe
souvent les lèvres de sa mère quand elle s’adresse à lui).
Les bébés voyants apprennent très vite à distinguer entre
/m/ et /n/, alors que l’opposition est difficile à acquérir
par les bébés aveugles. La parole en milieu bruité est
mieux reconnue si l’auditeur voit le visage du locuteur,
autre preuve de l’importance des indices visuels.
Les explications phonétiques doivent être considérées
comme des hypothèses : les tendances observées n’ont pas
force de loi. Certaines langues présentent des oppositions
phonémiques subtiles à percevoir, par exemple l’opposition
entre occlusives dentales et alvéolaires. Les différents clics
du zoulou (dentaux, alvéolaires ou latéraux) sont très dif-
ficiles à distinguer par une oreille non exercée. Mais les
auditeurs des langues qui opposent occlusives dentales et
alvéolaires ou les natifs du zoulou n’ont aucun mal à per-
cevoir et à produire les oppositions contenues dans leurs
inventaires respectifs, et ce, dès leur plus jeune âge. Les
caractéristiques phonétiques des sons ne sont pas les seuls
facteurs qui président à leur sélection et ne permettent
pas de tout expliquer. Les contraintes phonologiques (cogni-
tives), comme la facilité d’apprentissage et de mémorisa-
tion, jouent également un grand rôle : elles favorisent une
diminution du nombre de traits distinctifs dans une langue
et leur organisation en un système économique, symétrique,
avec une utilisation maximale des traits phonologiques
22
choisis 1 par la langue pour réaliser une opposition sonore
entre les mots. En français, la corrélation de voisement
(oppositions entre consonnes voisées et non voisées) per-
met d’opposer les séries symétriques /p/, /t/, /k/, et /b/,
/d/, /g/, mais les consonnes /p/ et /g/ ont tendance à
manquer dans un grand nombre de langues, créant des
séries asymétriques. /p/ est absent en arabe, et /g/ en
néerlandais. La prise en compte simultanée des pressions
phonétiques et des facteurs cognitifs a permis de grandes
avancées dans la compréhension de la typologie des sys-
tèmes vocaliques et consonantiques (voir les travaux de
Patricia Beddor, John Ohala, Bjorn Lindblom et du
GIPSA-Lab de Grenoble). Rappelons aussi l’influence
de facteurs externes : le contact de langues et l’imitation
à l’intérieur d’une langue d’une variété considérée comme
plus prestigieuse peuvent aussi être sources de changement
(cf. les travaux du sociolinguiste William Labov).
Exemples d’explications d’asymétries des systèmes
phonologiques ? Les systèmes phonologiques sont le fruit
d’un compromis entre la tendance cognitive en faveur de
l’utilisation d’un nombre minimal de traits (d’où une
symétrie des systèmes) et celle des contraintes articulatoires
et acoustico-perceptives qui ont tendance à éliminer les
combinaisons de traits difficiles à actualiser ou à distinguer
(résultant en une asymétrie). Prononcez un [i] étiré et
arrondissez ensuite vos lèvres et projetez les vers l’avant.
Cela se fait sans difficulté et vous entendrez [y] (corres-
pondant au graphème u en français et ü en allemand).
Remarquez maintenant la difficulté que vous auriez à faire
le même geste d’arrondissement des lèvres avec la voyelle
ouverte /a/ ! Le jeu des lèvres (étiré/arrondi) est articula-
toirement favorisé quand la mandibule est en position
haute, et donc pour les voyelles fermées (/i, y, u/).
23
En conséquence de cette difficulté articulatoire, les langues
connaissent peu d’oppositions entre voyelles ouvertes
arrondies et non arrondies. De même, les propriétés réso-
nancielles du conduit vocal font que les conséquences
acoustiques d’un changement de configuration des lèvres
sont plus grandes dans le cas des voyelles antérieures de
type /i/ (/i, e/). De fait, le contraste /i – y/ est le plus
attesté des contrastes de labialité. Un second exemple
concerne les consonnes. Parmi les constrictives (occlusives
et fricatives), les voisées (telles que /b, d, g/) sont moins
fréquentes que les non-voisées (/p, t, k/) pour des raisons
aérodynamiques : le voisement est défavorisé lorsque la
pression intraorale est élevée ; or, celle-ci s’élève en cas
de fermeture (pour les constrictives) ou de rétrécissement
(pour les fricatives) du conduit vocal. Le voisement est
particulièrement défavorisé dans le cas d’une constriction
postérieure, où la cavité située en arrière du rétrécissement
est difficilement extensible : comme noté auparavant,
/g/ est plus rare dans les langues que /b/ et /d/ (mais il
peut être maintenu pour des raisons phonologiques, de
symétrie du système consonantique, une série /p, t, k/
s’opposant à la série /b, d, g/).
Aujourd’hui, phonétique expérimentale et phonologie
de laboratoire sont proches. Les modèles théoriques éla-
borés par les phonéticiens pour expliquer les inventaires
des systèmes, modèles qui se fondent sur la substance,
sont au moins aussi puissants que les modèles plus abstraits
offerts par certaines branches de la phonologie. Le rap-
prochement entre phonéticiens et phonologues s’est
concrétisé depuis plusieurs années par l’organisation régu-
lière de rencontres internationales intitulées « Laboratory
Phonology ». Certaines différences subsistent néanmoins
entre les approches phonétiques et phonologiques. Le
phonologue est généralement guidé par une approche théo-
rique et déductive qui détermine les questions qu’il
24
souhaite soumettre à vérification expérimentale. Le phoné-
ticien est plus directement dépendant de l’expérimenta-
tion : ayant d’emblée à l’esprit l’exigence de tester ses
hypothèses par des expériences reproductibles, il a ten-
dance à réduire fortement le champ de ses recherches ;
en outre, son attention se porte sur le détail des données
qu’il recueille, qui ne renseigne pas directement sur les
catégories linguistiques, mais peut contribuer à la
compréhension des nombreuses forces qui s’exercent à
tout instant sur le système linguistique. Une tendance
centrifuge pousse, en outre, le phonéticien à rechercher
des explications possibles dans la phylogenèse, l’onto-
genèse, la sociologie et l’ethnologie, la psychologie et les
neurosciences, alors que la phonologie se veut plus proche
des sciences cognitives.
Il est donc plus que jamais nécessaire que les phoné-
ticiens, les phonologues et les neurologues se comprennent
mutuellement, ce qui constitue un défi permanent.
CHAPITRE II
29
– La phonétique développementale, proche de la psycho-
linguistique, s’intéresse aux réactions du fœtus à divers
stimuli sonores, aux processus d’acquisition (perception
et production) des caractéristiques segmentales et pro-
sodiques de la langue maternelle par le bébé puis par
l’enfant et enfin chez l’adulte, monolingue ou bilingue.
– Les technologies vocales recouvrent essentiellement les
domaines de la synthèse automatique des textes écrits, de la
reconnaissance automatique de la parole (la dictée vocale),
du dialogue parlé homme-machine et de l’identification
du locuteur ou de la langue par un ordinateur. Les pre-
mières équipes d’ingénieurs qui se sont consacrées à ces
tâches comprenaient des spécialistes de la communication
parlée et des phonéticiens ; les modèles statistiques ont
ensuite pris le pas sur les méthodes analytiques dans le
domaine de la reconnaissance automatique de la parole,
et la synthèse par concaténation a détrôné la synthèse à
formants qui nécessitait un grand savoir-faire phonétique.
Mais la synthèse par concaténation rencontrant certaines
limites quant au caractère naturel du résultat obtenu, et
les méthodes statistiques en reconnaissance de la parole
ayant sans doute atteint leurs limites, les spécialistes sont
de nouveau en quête de connaissances fondamentales qui
puissent être intégrées aux outils logiciels par le biais de
méthodes statistiques ; cependant, peu de chercheurs pos-
sèdent la triple compétence nécessaire (en traitement du
signal, en statistiques, et en phonétique) pour innover ;
une réorganisation de l’enseignement de la connaissance
phonétique au sein de diverses disciplines universitaires
semble nécessaire pour créer un terrain favorable à de
nouvelles découvertes.
– La neurophonétique se situe au carrefour des sciences
cognitives, de la neurologie et de la linguistique. Les tech-
niques d’imagerie médicale et les potentiels évoqués per-
mettent désormais de comparer les niveaux d’activation
30
dans les différentes zones cérébrales durant la perception
de la parole et de compléter ainsi les données fournies
par l’étude des dysfonctionnements langagiers chez les
cérébrolésés dans la lignée des travaux du neurologue
Paul Broca, au milieu du XIXe siècle, sur les cadavres.
Les données médicales révèlent de grandes différences
entre les individus et une grande faculté d’adaptation des
cellules nerveuses cérébrales, qui s’organisent au cours de
l’acquisition de la langue maternelle ou se réorganisent en
cas de lésion cérébrale. Il paraît cependant établi que la
compréhension littérale d’un énoncé active plus fortement
l’hémisphère gauche, tandis que l’interprétation de la pro-
sodie émotionnelle serait plutôt traitée dans l’hémisphère
droit (de même que la musique). La neurophonétique est
une discipline nouvelle en pleine expansion.
– La phonétique clinique se situe au carrefour de la lin-
guistique et de la médecine. Elle privilégie l’utilisation des
méthodes éprouvées de la phonétique expérimentale pour
l’investigation de la production et de la perception de la
parole en pathologie. L’étude des cas pathologiques de
la parole a été une source traditionnelle de connaissances
phonétiques. Les récents progrès de la médecine dans le
traitement des cancers ORL permettent dans certains cas
de prendre en compte, au-delà de leur survie, la qualité
de vie des patients opérés et les médecins interrogent
les phonéticiens au sujet de l’impact de certains gestes
chirurgicaux impliquant des organes de la parole, sur la
qualité de la voix et la parole. De même, les avancées en
matière d’implants cochléaires ont affiné la probléma-
tique sur le codage des sons au niveau du nerf auditif et
leur apprentissage. La collaboration entre phonéticiens et
cliniciens est également indispensable à la mise en place
d’un grand nombre d’expériences qui se réalisent avec du
matériel médical spécialisé, à la réalisation de banques
de données de mesures physiologiques qui permettent
31
de fixer les frontières entre normal et pathologique, et à
l’évaluation des progrès réalisés dans le cadre d’une réédu-
cation orthophonique ou d’une chirurgie réparatrice. Les
échanges entre cliniciens et phonéticiens ont toujours été
très fructueux, basés sur le partage des problématiques,
des bases de données, des méthodes et des instrumenta-
tions. Les progrès immenses et récents dans le domaine
de l’imagerie médicale (visualisation tridimensionnelle des
organes de la parole en mouvement, mesures des champs
magnétiques induits par l’activité des neurones du cerveau,
etc.) ont permis d’élargir le champ de questionnement de
la phonétique et sont à la base de nouvelles collaborations
fructueuses avec les radiologues et les neurologues.
– La phonétique statistique ou computationnelle est en
pleine expansion. Les statistiques, qui tiennent désor-
mais une place de choix dans de nombreuses techno-
logies vocales, en viennent à être intégrées dans les
théories linguistiques comme les théories probabilistes.
Le rendement fonctionnel (statistique) des oppositions
phonémiques et des processus morpho-phonologiques a
une importance désormais reconnue dans l’évolution des
langues : les oppositions peu rentables (c’est-à-dire qui
opposent un nombre très limité de mots dans une langue,
comme l’opposition entre /a/ et /ɑ/ en français, « patte »
et « pâte ») tendant à disparaître. Il est désormais possible
d’effectuer des comptages de divers types sur d’immenses
bases de données au sein d’une langue, ou dans différentes
langues à des fins de comparaison. La puissance toujours
croissante des ordinateurs, jointe aux progrès dans les
techniques de stockage, permet d’accumuler d’énormes
corpus de parole, lue et spontanée. Et c’est par l’utilisation
de méthodes statistiques éprouvées qu’on peut extraire de
ces immenses bases des connaissances qui viennent ren-
forcer ou remettre en cause certaines conclusions avancées
dans des publications antérieures. Des bases de données,
32
en partie étiquetées, sont désormais disponibles pour les
grandes langues (en pratique les langues nationales) et
sont diffusées par LDC (Language Data Consortium) aux
États-Unis et par ELRA (European Language Resource
Association) en Europe. D’énormes corpus sur les erreurs
des apprenants sont disponibles.
La documentation des langues rares et menacées béné-
ficie également des nouvelles technologies : le site Archi-
vage du LACITO (Langues et civilisations à tradition
orale) met librement à disposition des enregistrements de
langues peu connues, transcrits sur le terrain avec l’aide
des locuteurs, et enrichis d’une annotation détaillée, afin
que ces documents soient accessibles à la communauté
scientifique par le biais d’Internet. Dans le cas des nom-
breuses langues menacées de disparition dans les pro-
chaines décennies, les données audio recueillies par les
linguistes représentent en outre, un patrimoine linguistique
et culturel, dont les techniques numériques permettent
d’assurer une conservation théoriquement infinie. Il reste
beaucoup à faire : l’état actuel de la documentation en
phonétique est en deçà des possibilités techniques. Les
évolutions futures permettront sans doute aux chercheurs
(débutants ou confirmés) d’avoir accès aux données ori-
ginales complètes sur lesquelles reposent les conclusions
des publications, et ainsi de porter un regard plus informé
sur les théories et les modèles linguistiques qui leur sont
proposés sur la base de données sur des langues dont ils
ne sont pas familiers. Faute d’accès aux données originales,
il y a risque d’incompréhension entre chercheurs quant
aux conclusions proposées. Ferdinand de Saussure ensei-
gnait que le linguiste doit connaître le plus grand nombre
de langues possible ; du fait de la spécialisation croissante
de chacun, seule une minorité des chercheurs concernés
par la phonétique possède une familiarité de première
33
main avec un grand nombre de langues ; la qualité et
l’abondance des ressources partagées sont donc cruciales
pour que les recherches aient une ouverture suffisante sur
la variété des langues, et s’inscrivent dans une logique
cumulative.
Dans le cas du français, un projet international en cours,
« la phonologie du français contemporain : usages, varié-
tés et structures », vise à mettre à la disposition de tous
les chercheurs une banque de données transcrite d’échan-
tillons de français parlé.
CHAPITRE III
35
Les deux principes de base de l’utilisation de l’API en
tant que système de transcription phonologique sont les
suivants :
a) un son distinctif (un phonème) dans une langue
est représenté par un seul symbole entre deux barres, / /.
Le « r bourguignon » (la pointe de la langue vibre contre
les alvéoles dentaires), la réalisation pharyngale du /ʁ/
dans le français parisien (dans rare), vélaire (rourou), ou
plus palatale (riri), accompagnée (ara) ou non de vibra-
tions des plis vocaux (tra), avec et sans bruit de friction,
correspondent à plusieurs sons (timbres) plus ou moins
différents sur le plan phonétique mais ils sont transcrits
phonologiquement par un seul et même phonème /ʁ/
en français car la substitution d’un son à l’autre n’est pas
distinctive (elle ne peut servir à distinguer entre deux
mots français). [p] et [pʰ] sont deux allophones du même
phonème /p/ en anglais, mais représentent deux phonèmes
en hindi, /p/ et /pʰ/ ;
b) un même symbole doit représenter, dans les diverses
langues où il est utilisé, des sons de timbre proche. Ce
principe n’est pas toujours appliqué avec rigueur, le souci
de simplicité typographique conduisant à des compro-
mis : les mêmes symboles /a/, /e/, /i/, /o/ et /u/ sont
abondamment utilisés pour décrire les voyelles dans les
langues à cinq voyelles, bien que les timbres puissent dif-
férer grandement d’une langue à l’autre. Certaines des-
criptions phonologiques pour une même langue à cinq
voyelles hésitent entre /o/ et /ɔ/, /e/ et /ɛ/ et le choix du
symbole est en partie arbitraire.
L’API est non seulement utile pour décrire les inven-
taires phonologiques des langues, mais aussi pour trans-
crire phonétiquement les sons. Les symboles sont alors
représentés entre crochets : [ ]. Soixante-seize signes
diacritiques (point, accent, symbole quelconque) servent
36
à noter des variations subtiles dans la réalisation des
phonèmes. Par exemple, le diacritique ʷ dans [tʷ] indique
une réalisation arrondie de /t/, et le diacritique + dans [u̟]
note l’antériorisation de /u/ (comme dans toute). D’autres
conventions de transcription complètent l’API pour
l’annotation d’événements prosodiques (tons, allonge-
ments, qualité de la phonation, etc.).
L’oreille reste l’instrument principal du phonéticien,
elle est le juge ultime. Une seule analyse acoustique des
faits segmentaux ou prosodiques, aussi fine et étendue
soit-elle, ne permet pas de tirer des conclusions définitives
sur le rôle de ces faits dans la communication verbale.
Des expériences de perception avec des auditeurs natifs
de la langue sont toujours nécessaires ; les variations obser-
vées au plan acoustique, même si elles sont régulières,
peuvent ne pas être perceptibles ou perçues. Si elles ne
sont pas perçues, elles peuvent jouer cependant un rôle
dans la vitesse d’identification des phonèmes (accélération
des temps de réaction). Si elles sont perçues, elles peuvent
avoir un sens pour les natifs de la langue (par exemple
l’emploi d’une variante plus palatalisée d’un son peut ajou-
ter une note de gentillesse ou de tendresse à ce qui a été
prononcé). Les techniques modernes permettent de réa-
liser des expériences de perception extrêmement élaborées,
avec des mesures des temps de réaction ou des mesures
des champs magnétiques induits par l’activité des neurones
du cerveau, chez l’adulte, l’apprenant ou le bébé endormi.
Une transcription phonétique fine à partir de la seule
écoute est souvent difficile à réaliser, même pour une
oreille très exercée. L’écoute des segments isolés et la
représentation spectrographique sont devenues indispen-
sables pour une transcription phonétique fine et une étude
quantifiée des différentes réalisations de chaque phonème.
Par exemple, l’arrondissement des lèvres durant la réali-
sation de la consonne /s/ dans le mot structure par rapport
37
à celle du mot stricture peut échapper à l’oreille la plus
exercée mais elle ressort nettement d’une écoute séparée
du bruit de friction de l’une et l’autre consonne /s/, écoute
« analytique » que permettent les logiciels d’analyse du
signal acoustique, désormais disponibles gratuitement sur
Internet. La labialisation du /s/ de structure se traduit par
un abaissement notable des fréquences de résonance durant
la fricative par rapport au /s/ de stricture, facilement repé-
rable sur un spectrogramme.
Une véritable transcription phonétique fine devrait
mettre en lumière le système des indices acoustiques per-
mettant d’opposer les phonèmes de la langue, être apte
à noter la différence acoustique avec les phonèmes des
autres langues et noter les nuances acoustiques qui véhi-
culent des informations pour les natifs de la langue. La
synthèse à formants (comme le système de Dennis Klatt),
dans laquelle l’ordinateur reproduit la parole à partir des
fréquences de formants indiquées par l’expérimentateur
(voir chap. V), démontre que la prise en compte du troi-
sième formant est nécessaire pour les langues qui
connaissent des contrastes entre voyelles antérieures
arrondies et non arrondies (comme le français, le suédois
et l’allemand). Les voyelles françaises /i/ et /y/ peuvent
partager des valeurs de F1 et F2, et être distinguées uni-
quement par la fréquence de F3. De même, les timbres
créés par synthèse articulatoire (comme celle de
Shinji Maeda), reposant soit sur des indications données
à un ordinateur sur la position des organes de la parole,
soit sur un schéma simplifié du conduit vocal, montrent
l’importance du jeu de compensation entre les lèvres et
la langue, et entre la langue et la mâchoire. Un même
timbre peut être créé par différentes configurations du
conduit vocal. La nécessité de noter les corrélats des
oppositions sur le plan acoustique et l’existence de phéno-
mènes de compensation entre les organes de la parole
38
suggèrent de suppléer l’API par un nouveau type de
transcription phonétique fondée uniformément sur les
propriétés acoustiques pertinentes du signal 1, alors que
les traits phonologiques classiques reposent à la fois et
de façon ambiguë sur des propriétés acoustiques
(ex. strident), articulatoires (labial, dorsal…) ou les deux
à la fois (voisé, sonnant, aspiré…). Les corrélats acous-
tiques des nuances de sens peuvent être, par exemple,
calculés sur la base des différences entre les valeurs des
paramètres segmentaux et prosodiques observées et celles
qui sont attendues pour une réalisation neutre de l’énoncé.
L’étude de la face parlée d’une langue ne peut se faire
que sur la base d’une connaissance de cette langue dans
ses diverses dimensions : phonétique, phonologique,
morphologique et syntaxique. Une analyse adéquate des
systèmes phonémiques, vocalique et consonantique, d’une
langue peut être certes réalisée à partir du lexique par
un enquêteur dont ce n’est pas la langue maternelle. Il
a à sa disposition un ensemble de méthodes bien établies
par la phonologie. Il est, en revanche, téméraire de se
lancer dans la description du système prosodique d’une
langue non maternelle : un détail acoustique peut être
porteur d’une information pour les locuteurs natifs de la
langue et échapper à la vigilance du chercheur non-natif ;
il est nécessaire de replacer la portée de tout fait prosodique
observé au sein du paradigme de l’ensemble de tous les
procédés offerts par la langue (morphologiques, syn-
taxiques, etc.). En français, par exemple, une intonation
montante sur la dernière syllabe d’une phrase interrogative
où elle n’est pas indispensable lorsque l’interrogation est
déjà marquée par un autre moyen (du type « Est-ce que
tu viens ? » ou « Viens-tu ? ») ajoute une note de politesse
ou de gentillesse.
39
40 Frq (Hz)
20 F1 402
0 F2 1455
- 20 F3 2352
F4 3621
- 40
0 1 2 3 4 5 F5 4210
1
Frq (Hz)
40
F1 402
20
F2 1424
0
F3 2290
- 20 F4 3683
- 40 F5 3869
0 1 2 3 4 5
43
Coupe sagittale de la face et du cou, comportant les principaux
organes qui participent à la production de la parole.
Planche de Testut (1889 : Traité d’anatomie humaine)
utilisée par l’abbé Rousselot dans son livre
Principes de phonétique expérimentale (1897-1908)
A. Fosse nasale droite. – B. Cavité buccale ; B’. Vestibule ;
B’’. Région sublinguale. – C. Pharynx nasal ; C’. Pharynx buccal.
– D. Œsophage. – E. Larynx. – F. Trachée-artère.
1. Narine droite. – 2. Cornet supérieur. – 3. Cornet moyen. – 4. Cornet inférieur.
– 5, 5’. Muqueuse des fosses nasales. – 6. Cartilage latéral du nez. – 7. Cartilage de l’aile
du nez. – 8. Amygdale pharyngienne. – 9. Orifice pharyngien de la trompe d’Eustache.
– 10. Fossette de Rosenmüller. – 11. Voile du palais et luette. – 12. Muqueuse
linguale ; 12’. Eoramen cæcum. – 13. Septum lingual. – 14. Muscle génioglosse.
– 15. Muscle géniohyoïdien. – 16. Muscle mylohyoïdien. – 17. Épiglotte.
– 18. Cartilage tyroïde. – 19, 19’. Cartilage cricoïde. – 20. Ventricule du larynx.
– 21. Premier cerceau de la trachée.
L’homme produit de la parole avec des organes dont
la fonction principale n’est pas linguistique. Pour produire
des sons, l’homme utilise les poumons, le larynx, la langue,
les lèvres et le voile du palais ; la fonction première des
poumons est respiratoire (l’oxygénation du corps), celle
du larynx est la protection des voies respiratoires, chez
l’homme comme chez l’animal ; la fonction principale
de la langue est de participer à la mastication et à la
déglutition. Le singe possède une morphologie compa-
rable à celle de l’homme, mais il ne « parle » pas. Phylo-
génétiquement, l’émergence de la faculté créative de
langage chez l’homme est sans doute liée à l’accroissement
de ses capacités cognitives et des aires cérébrales de Broca
et de Wernicke, et non au développement de son tractus
vocal, même si la position verticale basse du larynx chez
l’homme adulte facilite grandement la mobilité de la
langue (chez le bébé et chez divers mammifères, un larynx
élevé permet de respirer et de boire simultanément, mais
limite la mobilité de la langue). La principale différence
entre le singe et l’homme est le degré plus élevé de
développement du cortex chez ce dernier. Il s’est révélé
impossible d’enseigner la parole à un singe. Certains
chimpanzés (avec lesquels nous partageons 99 % de nos
gènes !) arrivent à maîtriser le sens de quelque 150 mots,
mais ils ne combinent pas spontanément ces mots pour
former de nouvelles phrases.
L’acte d’énonciation peut se décomposer en plusieurs
phases (boucle phonatoire) : une phase psychique, celle
de l’intention de parler ; une phase linguistique avec la
sélection, dans le lexique, des mots qui correspondent
au message à transmettre, l’arrangement de ces mots
selon les règles de syntaxe de la langue, et le choix d’une
prosodie appropriée à l’intention globale du message ;
une phase physiologique avec l’activation des muscles des
poumons, du larynx, de la langue, des lèvres et du voile
45
du palais, qui se traduit par la production de la parole ;
et une phase acoustique. L’onde (acoustique) sonore pro-
duite par le locuteur fait alors vibrer le tympan de l’audi-
teur, et le décodage du message a lieu, avec une phase
physiologique (au niveau de l’oreille et du nerf auditif),
puis linguistique et enfin psychique, avec l’interprétation
du message. Un seul chaînon manquant et la commu-
nication est entravée.
47
En haut : la partie supérieure de la trachée, le larynx,
Fig. 3. –
les plis vocaux, la glotte et les aryténoïdes.
En bas : a) respiration, b) inspiration profonde, c) phonation
et d) chuchotement (d’après Farnsworth, 1940,
en haut et Pernkopf, 1952, en bas)
temps
- 12dB/octave Plus forte Plus faible
dB
Le signal de parole
et la phonétique acoustique
+ 6 dB/octave
Hz
2) Fonction de transfert 3) Effet de la radiation
dB
- 12 dB/octave
Hz
1) Spectre de la source 4) Spectre résultant
intensité
(enveloppe
du signal)
Spectro-
gramme
Signal
acoustique
Fig. 7. –
Courbe de fréquence fondamentale, enveloppe d’intensité,
spectrogramme, transcription phonologique et signal du début de phrase
« Voici une poignée de noix et de noisettes… »
dans la configuration des articulateurs, plus difficilement
quantifiables. Par exemple, une élévation du larynx a pour
résultat une diminution de longueur de la cavité posté-
rieure, et donc une élévation de la fréquence des réso-
nances mi-onde dues à la cavité postérieure (comme F2
pour le /i/ français).
Les représentations articulatoires traditionnelles qui ne
prennent en compte que la langue et les lèvres, ou les
représentations acoustiques des voyelles par les triangles
vocaliques prenant en compte seulement les deux premiers
formants, par exemple, ne sont pas suffisants, tant pour
la recherche fondamentale que pour ses applications.
Un spectrogramme est une représentation visuelle à
trois dimensions des sons ; il permet d’étudier l’essentiel
des propriétés acoustiques des sons. La figure 7 illustre
le spectrogramme correspondant à la portion de phrase
« voici une poignée de noix et de noisettes… » prononcée
par un locuteur masculin. L’axe horizontal représente l’axe
des temps (chaque repère représente 100 ms) et l’axe ver-
tical celui des fréquences, ici de 0 à 7 000 Hz. Le degré
de noirceur du tracé traduit la répartition de l’énergie
dans l’échelle des fréquences, en rapport avec l’intensité
des composantes spectrales et donc des formants (et des
bruits). Il est important de noter qu’un phonème est une
notion abstraite qui n’a pas à proprement parler de durée
physique : par exemple, la réalisation du trait d’arrondis-
sement correspondant à la voyelle française /y/ débute dès
la première consonne /s/ dans le mot structure (à la dif-
férence de stricture), comme noté précédemment. Un
spectrogramme en bande large (comme les figures 7 et 8)
permet de visualiser les formants ; un spectrogramme en
bande étroite (45 Hz) permet de visualiser la série d’har-
moniques. La figure 8 illustre une représentation spectro-
graphique de quelques consonnes françaises (français
standard, locuteur masculin).
63
Fig. 8. – Spectrogrammes de 12 consonnes du français
placées entre voyelles [œ]
Les voyelles
69
ie u
!a c i
a
u
Position articulatoire de la langue
Fig. 9. –
pour les voyelles françaises (inspirée des figures de Straka)
et le trapèze vocalique correspondant
Les consonnes
Quelques aspects
de la perception de la parole
88
vers la voyelle suivante jouent un rôle mineur. Mais si
le bruit est faible, comme c’est le cas pour les fricatives
bilabiales ou labiodentales (donc non sibilantes), seules
les transitions permettent leur différenciation. Les langues
préfèrent les fricatives à forte intensité dans leur inven-
taire.
Un indice dynamique, tel que la rapidité des transitions,
est essentiel pour la distinction entre [b] et [w] : les tran-
sitions sont quasi identiques mais plus lentes dans le cas
du [w]. [w, j, l, r] sont reconnues grâce à leurs formants
propres et aux transitions imposées aux voyelles. La pré-
sence de traces de nasalisation au relâchement et au début
de la voyelle suivante est l’un des indices pour distinguer
entre [b] et [m], [d] et [n] (Ken Stevens). La distinc-
tion entre [m] et [n] est assurée essentiellement par les
transitions du second formant.
Le poids des indices peut varier selon les langues. Le
principal indice du trait de voisement est le temps de délai
d’établissement du voisement, ou VOT (voice onset time),
dont l’interprétation varie selon les langues. Un même
son sera perçu comme [b] par les auditeurs anglophones
si les vibrations des plis vocaux commencent très rapide-
ment après le relâchement (moins de 30 ms), et comme
[p] si le délai est supérieur à 40 ms. Pour un auditeur
français, le son est perçu comme [b] si les vibrations com-
mencent avant le relâchement : un /b/ anglais peut donc
être perçu comme [p] par un Français.
Consonnes et voyelles présentent des affinités acous-
tiques si elles partagent un lieu de constriction similaire
dans le conduit vocal (les différences sont dues à différents
degrés d’ouverture). Les timbres des approximantes [w,
j, ɥ] sont perceptivement proches des voyelles [u, i, y].
Le timbre de [ʁ] est proche de celui de la voyelle posté-
rieure [ɑ] (1 000 Hz) et celui de [ɬ] sombre (comme dans
le mot anglais « film ») est proche de ceux des voyelles
89
postérieures [u] ou [o]. Cette proximité perceptive entre
le [l] sombre et [u] est à l’origine de sa transformation
en [u] en coda de syllabe dans le passage du latin au
français : soldus > soldu > sold > soud > sou [su]. Lorsque
le /i/ français (F’2 supérieur à 3 000 Hz) se dévoise (du
fait d’une trop grande fermeture du conduit vocal), il
donne naissance à un son identifié ressemblant au son [ç]
allemand (cf. la prononciation [ɥiç] notée uiche de oui en
français relâché). Les traits phonologiques traditionnels ne
sont pas aptes à rendre compte de la continuité acoustique
entre voyelles et consonnes.
90
identifie le lieu d’articulation de ces consonnes, le locuteur
« voit le geste » : il se référerait à la façon dont il aurait
lui-même produit ces sons, de sorte qu’il existerait des
frontières perceptives nettes, fondées sur des critères arti-
culatoires précis. Les lieux d’articulation des consonnes
étant discontinus, leur perception l’est aussi. En revanche,
pour les voyelles, la langue peut adopter une infinité de
positions, et leur perception ne serait pas vraiment caté-
gorielle pour cette raison. Néanmoins, les nouveau-nés
perçoivent certains contrastes de consonnes de façon caté-
gorielle, alors qu’ils n’ont jamais prononcé ces sons, ce
qui jette un doute sur la part que tient la référence à la
production – à moins d’imaginer que la correspondance
ne soit inscrite dans leurs gènes !
D’autres théories ne font pas référence à la façon dont
sont articulés les sons, mais à leurs propriétés acoustiques
intrinsèques. Nous avons également évoqué la théorie de
l’invariance au chapitre V : on peut imaginer que les
phonèmes soient reconnus à partir de certaines proprié-
tés acoustiques invariantes, sans référence à l’articulation.
Certains sons, tels ceux de la voyelle /i/, des consonnes /s/
et /ʃ/, ont des réalisations acoustiques intrinsèques rela-
tivement invariantes, d’autres moins : la hauteur du bruit
du relâchement des vélaires, bruit plus compact que celui
des labiales et des dentales, est interprétée en fonction
de la hauteur du second formant de la voyelle (ou mieux
en fonction du second formant effectif F2’). Un entraî-
nement à la lecture de spectrogrammes permet de déco-
der sans difficultés majeures des échantillons de parole
articulés avec soin, tant en français que dans d’autres
langues, qu’ils correspondent à des mots ayant un sens
ou non, ce qui va dans le sens d’une certaine invariance
acoustique, tout au moins d’une invariance relative.
Le degré de variabilité acoustique des sons de la
parole paraît avoir été quelque peu surestimé, surtout par
91
les psycholinguistes, et moins par les phonéticiens expé-
rimentaux. Il est admis actuellement qu’il existe des dif-
férences de qualité entre des sons pourtant identifiés sans
hésitation comme un seul et même phonème ; certains
sons sont de bons représentants de la catégorie dans une
langue donnée, d’autres moins. L’auditeur est capable de
juger si un stimulus est un exemplaire plus ou moins
éloigné de ce qu’il considère comme le prototype idéal
pour telle ou telle voyelle. L’augmentation du temps de
réaction mis par l’auditeur pour repérer un phonème
donné dans de la parole continue indique en général que
le stimulus à identifier n’est pas prototypique, même s’il
est correctement repéré. Pour cette raison, les nouveaux
modèles de perception de la parole s’orientent vers un
cadre exemplariste et probabiliste.
Dans les situations de communication, chaque phonème
de chaque mot n’est pas nécessairement identifié avant
de comprendre le message global. La perception et la
compréhension de la parole continue font intervenir des
mécanismes centraux : mots et énoncés entiers sont recon-
nus par une interaction entre des indices acoustiques
décodés à partir du signal, d’une part, et le lexique men-
tal et des connaissances syntaxiques, sémantiques, contex-
tuelles, d’autre part. Le locuteur parle avant tout pour
être compris (Roman Jakobson) et adapte sa façon de
parler au contexte : il se permettra une certaine paresse
articulatoire et omettra même certains phonèmes s’il est
convaincu d’être néanmoins compris par son interlocuteur.
Il prononcera [ʃpa] au lieu de [ʒənələsɛpa], je ne sais pas.
Au contraire, il fera un effort articulatoire particulièrement
soutenu s’il s’adresse à un enfant, à un malentendant ou
à un étranger. Certains locuteurs parlent constamment
de façon relâchée, laissant à leurs auditeurs l’effort de faire
sens de ce qu’ils disent en s’aidant du contexte. D’autres,
comme les enseignants ou les professionnels de la parole,
92
ont tendance à hyperarticuler, créant ainsi de meilleurs
exemplaires de chaque phonème. De plus, le matériau
sonore qui précède le son à reconnaître influence le juge-
ment de l’auditeur. Le signal acoustique correspondant à
une même syllabe peut être perçu différemment selon que
la phrase porteuse est produite par un homme ou par une
femme : s’il s’agit d’une voix d’homme, l’auditeur s’attend
à des fréquences relativement basses, et il aura tendance
à surestimer les valeurs formantiques : il adapte ses attentes
aux caractéristiques fréquentielles de la voix perçue
(Broadband et Ladefoged). Cette adaptation peut se faire
très rapidement et un auditeur peut « s’adapter » également
très vite aux défauts récurrents de prononciation de son
interlocuteur.
La perception de la parole n’a pas encore livré tous ses
secrets. L’auditeur peut percevoir des sons (ou des silences)
qui, en fait, ne sont pas présents dans le signal. Dans la
parole continue, l’auditeur peut percevoir une pause entre
deux mots en l’absence de tout silence : une montée de la
fréquence fondamentale ou un allongement de la rime
peuvent, en français, donner l’illusion de la présence d’une
pause 1. Il existe aussi des phénomènes de restauration pho-
némique 2 : qu’un son soit remplacé par un bruit dans une
phrase, si l’énoncé fait sens, l’auditeur le comprend sans
effort, mais il éprouve, en revanche, une difficulté s’il lui est
demandé de prendre conscience de l’absence d’un des sons :
il entend la suite attendue de tous les sons même s’ils ne
sont pas présents dans la chaîne parlée. Certains modèles
récents (épisodiques ou à exemplaires) font l’hypothèse que
l’image acoustique de chaque mot entendu par l’auditeur
est stockée telle quelle dans son lexique mental, la mémoire
étant pratiquement illimitée ; cette conception revient à
93
placer à l’arrière-plan les notions abstraites de traits et de
phonèmes sur lesquelles s’est construite la phonologie.
Deux remarques enfin :
– certains aspects de la perception, que l’on a crus
un temps spécifiques de la perception humaine, comme
la perception catégorielle, se sont révélés être dus à des
propriétés générales du système auditif des primates. Il
semblerait cependant que la constitution de prototypes de
sons soit le propre de l’homme : l’exposition intensive d’un
singe à des sons de la langue ne semble pas conduire à
une réorganisation psychoacoustique autour de prototypes de
phonèmes particuliers à la langue, comme c’est le cas chez
le bébé humain. Des recherches récentes sur des animaux,
grâce aux techniques d’imagerie cérébrale, montrent que
ceux-ci réagissent différemment aux sons produits par
leurs congénères et par d’autres espèces, ce qui suggère
l’existence de mécanismes biologiquement spécialisés pour
traiter les sons produits par la même espèce. Les animaux
seraient donc dépourvus des mécanismes nécessaires pour
traiter la parole humaine, mais ils possèdent des détec-
teurs adaptés à la survie de leur espèce. Ces mécanismes
pourraient se situer à un niveau relativement périphérique
dans la chaîne de l’audition ;
– il existe une forme de corrélation dans le temps
(simple coïncidence ?) entre les progrès des performances
des outils informatiques et les modèles successifs déve-
loppés par les phonéticiens-phonologues et des psycho-
linguistes : la théorie des traits binaires (influencée par
la théorie de l’information de Shannon), bien adaptée un
temps au traitement séquentiel des informations par les
ordinateurs de l’époque (milieu du XXe siècle), ont laissé
la place à des modèles de traitement parallèle précisé-
ment à l’époque où l’ordinateur fut capable de réaliser un
tel traitement. Les modèles à exemplaires, actuellement
94
très en vogue, reposent sur l’idée que le cerveau possède
un stock très étendu d’occurrences entendues ; mode de
fonctionnement qui évoque celui de la programmation
orientée objet et les capacités mémorielles des ordinateurs
actuels. Ce parallélisme entre les progrès technologiques
dans le domaine informatique et la succession des théories
sur la perception de parole est pour le moins surprenant,
voire inquiétant.
CHAPITRE IX
Prosodie
Fo a le
iti
in
tée Platea
u
on De
sc
M e nt
e fin
Ligne de base al
e
Allongement prépausal
temps
Un groupe de souffle
105
de paragraphe, d’énoncé. Une F0 basse ou descendante,
une intensité faible et un ralentissement marquent la fin
de la prise de parole, d’un paragraphe, d’une phrase. Un
rehaussement de la ligne de base ou l’arrêt de la déclinai-
son en cours d’énoncé sans pause respiratoire simule la
reprise de souffle et elle est une marque de frontière. Une
augmentation de la plage de variation de F0 signale l’im-
portance de ce qui est dit. Des observations sur des langues
variées tendent à confirmer ces réflexions générales, tout
en montrant, dans le détail, une grande variété des réali-
sations. Ainsi, en français, la fin de phrase s’accompagne
fréquemment d’un prolongement fricatif du dernier son
(oui [wiç]) ; la voix peut au contraire passer en mode vibra-
toire craqué (irrégulier) en anglais : ces deux phénomènes
peuvent s’interpréter comme des avatars de l’abaissement
final d’intensité.
Un grand nombre de similitudes entre langues appa-
raît dans l’utilisation des paramètres prosodiques, mais
il existe des exceptions notables 1. Les procédés émotion-
nels sont fortement motivés par la physiologie et diffèrent
peu entre les langues, tout au moins en ce qui concerne
l’expression des émotions primaires (joie, colère). Le
marquage des attitudes est moins directement motivé et
le code parfois subtil de l’expression des attitudes doit
être acquis par les apprenants d’une langue seconde. L’ex-
pression des attitudes semble néanmoins faire souvent
appel aux mêmes indices dans un grand nombre de lan-
gues : une élévation de la plage de variation de F0 pour
l’ensemble de l’énoncé marque une forte implication du
locuteur ; une variation particulière de la fréquence du
fondamental sur une seule voyelle (glissando) peut être
porteuse d’un contenu affectif. L’augmentation de
l’intensité, de la plage de F0, et de l’amplitude des
106
mouvements des articulateurs (plus grande fermeture pour
les consonnes et plus grande ouverture pour les voyelles)
simule un plus grand effort respiratoire, phonatoire et
articulatoire (ce que Carlos Gussenhoven résume par
l’expression de code de l’effort) et cette augmentation est
donc interprétée par l’auditeur comme signe d’une plus
grande implication du locuteur : le locuteur fait plus
d’efforts articulatoires sur les parties du discours qu’il
juge plus importantes.
Beaucoup de langues se rejoignent dans l’utilisation
des procédés marquant l’interrogation (Fo plus haut et/
ou plus montant) et certains types de focalisation (le focus
étant caractérisé, de façon à la fois assez consensuelle et
assez vague, comme ce sur quoi porte l’interrogation dans
une question, et ce sur quoi porte l’assertion dans une affir-
mation) (Fo, durée, intensité plus élevées). La figure 18
illustre des contours souvent attestés dans les phrases
déclaratives et interrogatives. Soulignons, en outre, que
la phrase est un tout, où tout est lié : dans une phrase
assertive française, l’avant-dernier mot est montant et le
dernier descendant). Un mot peut devenir perceptive-
ment proéminent par ses propriétés acoustiques intrin-
sèques (procédé positif d’accentuation) ou par la
désaccentuation des mots qui le suivent (procédé néga-
tif d’accentuation).
Dans l’énoncé déclaratif, le contour de F0 s’aplatit
après la réalisation du mot focalisé et reste dans le registre
bas. Des modifications temporelles (allongement des
syllabes lexicalement accentuées, allongement de la der-
nière syllabe des mots) peuvent prendre le relais de F0
pour structurer le reste de l’énoncé (dans la partie à plage
de variation de F0 réduite), mais de telles stratégies d’em-
ploi de la longueur ne sont pas systématiquement obser-
vées. Le registre de F0 est éventuellement plus élevé dans
le cas des interrogatives que dans le cas des déclaratives ;
107
on observe la suppression ou la diminution de la ligne
de déclinaison dans les interrogatives (Nina Thorsen
pour le danois), une montée de F0 sur la syllabe finale
ou sur la dernière syllabe accentuée.
109
Le rythme d’une langue, autre composante prosodique,
est une notion très difficile à définir. Ce qu’une oreille
française semble essentiellement retenir de la mélodie
d’un énoncé, c’est la répétition dans le temps de la mon-
tée de continuation en fin de syntagme prosodique, réa-
lisée par une montée mélodique accompagnée d’un
allongement de la rime finale. Le français est souvent
décrit comme une langue « montante », en référence aux
réalisations des continuations montantes majeures et
mineures en fin de nombreux mots situées en fin de
groupes de sens (Pierre Delattre). Les voyelles en posi-
tion finale des groupes de sens dominent perceptivement
en français. C’est le retour des syllabes allongées avec
des intonations montantes qui définissent essentiellement
le rythme en français, avec comme unité le groupe de
sens. En anglais, ce qui frappe un Français, c’est la
récurrence énergique et quasi régulière de syllabes for-
tement accentuées, avec une forte attaque consonantique,
qui alternent avec des syllabes réduites. Ce type d’ac-
centuation évoque pour l’oreille française l’accent d’in-
sistance français, d’où l’impression d’une insistance sur
chaque mot en anglais. L’unité principale de rythme en
anglais est le « stress group ». À l’inverse, le rythme
japonais peut paraître quelque peu monotone, du fait
des séquences alternées de séries de syllabes hautes et
de syllabes basses, sans syllabes dominantes, et aussi
quelque peu chaotique, parce que la durée des voyelles
dépend prioritairement de leur durée phonologique, non
des phénomènes de frontières, et n’est donc pas corré-
lée avec les mouvements mélodiques – à la différence
du français – ou à la réalisation d’un accent lexical – à
la différence de l’anglais.
Le code fréquentiel explique certaines tendances pro-
sodiques communes aux langues les plus diverses. Il existe
une association biologique entre une F0 grave et un larynx
110
volumineux (la F0 grave évoque des plis vocaux massifs),
et, inversement, entre une F0 aiguë et un petit larynx
(Eugene Morton, John Ohala). Le singe mâle dominant
émet des sons plus graves que le singe qui signale sa
soumission par des sons plus aigus, et la femelle émet
des sons plus aigus quand elle s’adresse à son nouveau-né
qu’à ses enfants plus âgés. Une F0 basse évoque la matu-
rité, la dominance, l’agressivité. Dans les langues, une F0
basse est une composante des intonèmes utilisés pour
marquer les ordres et les affirmations catégoriques (qui
évoquent un sentiment de dominance). Une F0 élevée,
au contraire, est un marqueur acoustique de l’incertitude,
du questionnement, du caractère non terminé des énon-
cés, du doute, de la politesse et du désir de plaire, et
d’une certaine forme de féminité. Ainsi, un comportement
bien attesté chez les singes se retrouve comme l’un des
ingrédients du jeu complexe qui constitue l’intonation.
Les progrès dans le domaine des études intonatives
passent sans doute par la multiplication des aperçus de
cet ordre, partant de la conviction qu’il n’y a aucun mys-
tère en la matière, tout en reconnaissant la complexité
de l’écheveau que l’intonologue se donne pour tâche de
démêler.
Voici quelques exemples de l’utilisation de la prosodie
en français. La figure 22 en fin de chapitre résume
les tendances françaises générales. La figure 20 illustre
les différences en termes de F0 et durée entre trois phrases
quasi homophones en ce qui concerne les phonèmes :
l’interprétation de la suite de phonèmes [sɛtɔmɛtenɔʁ-
memɑ̃bɛt] est guidée par les paramètres de durée et de
fréquence fondamentale. Cet exemple hautement cari-
catural a pour avantage de permettre une comparai-
son directe des observations ; il ressort clairement que
la syllabe la plus montante de l’énoncé correspond à la
frontière majeure, réalisée sur la dernière rime du mot
111
(une syllabe peut se diviser en attaque et rime), montée
doublée d’un allongement.
Le principe démarcatif de base en français est simple :
à l’intérieur de l’énoncé, plus la dernière syllabe d’un
mot est longue, plus elle est montante et plus la fron-
tière est perçue comme forte, et la présence d’une pause
renforce cette perception. Un contour descendant en
fin de mot indique au contraire une dépendance de ce
mot avec le mot suivant (comme le contour descendant
d’un adjectif précédant le mot qu’il complète). Souli-
gnons que les frontières intonatives ne reflètent pas
mécaniquement la structure syntaxique. L’énonciateur
est libre de prononcer un même énoncé plutôt mot par
mot, ou syntagme par syntagme, ou par plus grandes
envolées lyriques. Il peut regrouper une suite de mots
en ne marquant aucune frontière par F0 à l’intérieur de
ce groupe, mais en le subdivisant néanmoins en mots
rythmiques par des allongements en fin de mot. Par
exemple, la durée relative de la première syllabe suffit
à distinguer entre bordures [bɔʁdy::ʁ] et bords durs
[bɔ:ʁdy::ʁ], Jean-Pierre et Jacques et Jean, Pierre et
Jacques, sans qu’il soit besoin de modifier F0 (note : les
deux points : indiquent le degré d’allongement ; la répé-
tition de ce même symbole (::) indique un degré élevé
d’allongement). De même, en anglais, la seule durée
relative de la seconde syllabe est suffisante pour distin-
guer entre coffee cake and honey (« du gâteau au café et
du miel ») et coffee, cake and honey (« du café, du gâteau
et du miel »). À l’inverse, l’énonciateur peut subdiviser
un même groupe rythmique (suite de syllabes se termi-
nant par un allongement) en y introduisant des frontières
intonatives. Dans la plupart des cas, les variations de
la F0 viennent renforcer le découpage marqué par les
contrastes de durée.
112
Fig. 20. –Contour original de F0 des phrases :
« Cet homme est énormément bête »,
« Cet homme est énorme et m’embête »
et « Cet homme et Ténor m’aiment en bête »,
complété d’une stylisation : * : mot grammatical ;
∆ : début de mot ; ○ : syllabe d’un mot lexical ;
● : syllabe finale d’un mot lexical
RESSOURCES ÉLECTRONIQUES
Par l’intermédiaire d’une base de données bibliographique (telle
que le SUDOC) ou d’un simple moteur de recherche, il est pos-
sible d’obtenir sur Internet les bibliographies des auteurs cités dans
le corps du texte, qui ne sont donc pas reprises ci-dessous. Sont en
outre disponibles :
1/ l’alphabet phonétique international, accompagné d’illustrations
sonores : http://www.internationalphoneticalphabet.org ;
2/ des programmes d’analyse du signal audio, dont Praat, WinPitch,
Wavesurfer, WinSnorri ; et des programmes de synthèse (synthèse
à formants de Dennis Klatt, synthèse articulatoire de Shinji Maeda) ;
3/ des listes et groupes de discussion, en particulier The Linguist List,
The Speech Prosody Special Interest Group, des sociétés savantes comme
l’AFCP (Association francophone de la communication parlée) et
l’ISCA (International Speech Communication Association) ;
4/ des cours de phonétique (acoustique et autres) en ligne, dont cer-
tains en français ;
5/ et surtout des sites présentant équipes, chercheurs et projets en cours
dans le monde entier ; parmi les équipes françaises les plus actives
en sciences phonétiques, citons les équipes CNRS suivantes : le
Laboratoire langue et parole d’Aix (LPL), le GIPSA-Lab de Gre-
noble, le Laboratoire de phonétique et phonologie de l’université
Sorbonne Nouvelle (LPP), l’Institut de phonétique de Strasbourg,
liste bien sûr non exhaustive et qui ne comprend pas les groupes
de recherche en phonologie.
121
Liberman A. M., Cooper F. S., Shankweiler D. P. et Studdert-
Kennedy M., « Perception of the Speech Code », Psychological Review,
74 (6), 1967, p. 431-461 [perception catégorielle et théorie motrice].
Martinet A., Économie des changements phonétiques. Traité de phono-
logie diachronique, Berne, A. Francke, 1955 [sur les changements
phonétiques].
Potter R., Kopp G. et Kopp H., The Visible Speech, New York, Dover
Publications, 1947 [spectrogrammes anglais].
Rousselot, l’abbé, Les Modifications phonétiques du langage étudiées dans le
patois d’une famille de Cellefrouin en Charente, thèse, 1892 [naissance
de la phonétique expérimentale].
Straka G., Album phonétique, Québec, Presses de l’Université de Laval,
1965 [profils sagittaux pour le français].
DICTIONNAIRE
Crystal D., A Dictionary of Linguistics and Phonetics, Oxford, Blackwell
Publishers, 2009, 6e éd.
122
Intonation Systems : a Survey of Twenty Languages, Cambridge Uni-
versity Press, dirigé par Hirst D. et Di Cristo A., 1998 [une bonne
introduction].
Intonation : Analysis, Modelling and Technology, Kluwer Academic Publi-
shers, dirigé par Botinis A., 2000.
Les séries des Blackwell Handbooks, The Handbook of Phonetic Sciences,
The Handbook of Speech Perception, The Handbook of Second Language
Acquisition, The Handbook of Phonological Theory.
AUTRES
Boltanski J.-E., La Linguistique diachronique, Paris, Puf, 1995 [phoné-
tique historique, niveau débutant].
–, Nouvelles directions en phonologie, Paris, Puf, 1999 [complète le « Que
sais-je ? » de Duchet sur la phonologie].
Boysson-Bardies B., Comment la parole vient aux enfants, Odile Jacob,
1996 [phonétique développementale, tout public].
Carton F., Introduction à la phonétique du français, Paris, Bordas, 1974,
2e éd. revue [un bon classique sur la phonétique du français, niveau
débutant].
Chomsky N. et Halle M., The Sound Pattern of English, Cambridge,
MA, The MIT Press, 1968 [un livre clef].
Delattre P., Comparing the Phonetic Features of English, French, German
and Spanish, Heidelberg, Groos, 1965 [Delattre fut un esprit très
inventif].
Duchet J.-L., La Phonologie, Paris, Puf, « Que sais-je ? », 2000 [une
introduction éclairée à la phonologie traditionnelle].
Fónagy I., La Vive Voix. Essais de psychoacoustique, Paris, Payot, 1983
[prosodie, tous niveaux].
Garde P., L’Accent, Paris, Puf, 1968 [accentuation lexicale].
Hyman L., Studies in Stress and Accent, SCOPIL 4, University of Sou-
thern California, 1977 [accentuation lexicale].
Johnson K., Acoustic and Auditory Phonetics, Oxford, Blackwell, 1997
[bases de la phonétique acoustique].
Kent R. D. et Read Ch., The Acoustic Analysis of Speech, London/
San Diego, Whurr Publishers/Singular Publishing, 1992 [niveau
intermédiaire].
Ladefoged P. et Maddieson I., The Sounds of the World’s Languages,
Cambridge, MA, Blackwell, 1996 [un grand classique].
Landercy A. et Renard R., Éléments de phonétique, Mons/Bruxelles,
Centre international de phonétique appliquée/Didier, 1977 [niveau
débutant et intermédiaire].
Léon Pierre R., Précis de phonostylistique. Parole et expressivité, Paris,
Nathan Université, 1993 [prosodie].
123
Liberman A., Speech : a Special Code, Cambridge, MA, The MIT Press,
1996 [niveau avancé].
Maddieson I., Patterns of Sounds, Cambridge University Press, 1984
[sur les sons des langues du monde].
Marchal A., Précis de physiologie de la parole, Marseille, Solal, « Voix,
parole, langage », 2001.
Pope M. K., From Latin to Modern French, Manchester, Manchester
University Press, 1952 [données de phonétique historique].
Rossi M., L’Intonation, le système du français : description et modélisation,
Paris, Ophrys, 1999 [intonation française ; niveau intermédiaire].
Segui J. et Ferrand L., Leçons de parole, Paris, Odile Jacob, 2000 [psycho-
linguistique].
Stevens K., Acoustic Phonetics, Cambridge, MA, The MIT Press, 1998
[phonétique acoustique, niveau avancé, très complet].
CONGRÈS
International Conference on Spoken Language Processing [tous les deux
ans, multidisciplinaire] et Interspeech [annuel].
International Congress of Phonetic Sciences [tous les quatre ans, le plus
important rassemblement de phonéticiens].
Journées de phonétique clinique (JPC) [tous les deux ans, depuis 2005].
Journées d’études sur la parole (JEP) [tous les deux ans, dans un pays
francophone, sur la communication parlée, depuis 1970].
Meetings of the Acoustical Society of America [tous les six mois, toutes
branches de l’acoustique].
Rencontres des jeunes chercheurs en parole (RJCP) [tous les deux ans un
pays francophone, depuis 1995].
Speech Prosody [tous les deux ans, depuis 2002].
REVUES
Journal of Phonetics, Phonetica, Journal of the Acoustical Society of Ame-
rica, Journal of the International Phonetic Association sont les quatre prin-
cipales revues. Les résumés des articles sont en accès libre sur Internet.
D’autres revues contiennent également certains articles d’un grand
intérêt sur des questions de phonétique : Speech Communication ; Com-
puter Speech and Language ; Cognition ; Journal of Memory and Language ;
Perception ; Clinical Linguistics and Phonetics ; Journal of Child Language ;
Developmental Science ; Infant Behavior and Development ; Brain ; Brain
and Language ; Nature ; Science ; Language and Speech ; Journal of Speech,
Language and Hearing Research ; Journal of Neurolinguistics ; Journal of
Cognitive Neurosciences ; Journal of Language and Communication Disor-
ders ; Trends in Cognitive Sciences. Dans le domaine francophone, on
124
citera la revue Parole. Diverses revues dont Faits de langues accordent
une place à la phonétique.
Et aussi sur le projet de constitution d’une base de données sur le
français :
Durand J., Laks B. et Lyche C., « Un corpus numérisé pour la phono-
logie du français », in G. Williams (éd.), La Linguistique de corpus,
Rennes, PUR, 2005, p. 205-217.
Parmi les bases de données en ligne, citons ELRA (European Lan-
guage Resources Association), le programme Archivage du LACITO
pour des enregistrements de langues rares glosés et traduits, et les
Centres de ressources numériques (infrastructure ADONIS) qui per-
mettent aux laboratoires et aux chercheurs indépendants de partager
librement leurs données orales.
TABLE DES MATIÈRES
Avant-propos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
CHAPITRE PREMIER
Phonétique et phonologie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
CHAPITRE II
Les branches de la phonétique . . . . . . . . . . . . . . . . . . . . . . . . . 26
CHAPITRE III
Les outils de la phonétique. . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
CHAPITRE IV
Les organes de la parole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
CHAPITRE V
Le signal de parole et la phonétique acoustique . . . . . . . . . . . 55
CHAPITRE VI
Les voyelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
CHAPITRE VII
Les consonnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
CHAPITRE VIII
Quelques aspects de la perception de la parole . . . . . . . . . . . . 79
CHAPITRE IX
Prosodie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
Bibliographie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
Composition et mise en pages
Nord Compo à Villeneuve-d’Ascq